Набор данных (Dataset)

Что такое Набор данных (Dataset)?

Структурированная совокупность данных, используемая в машинном обучении и искусственном интеллекте для обучения, валидации или тестирования моделей.

В контексте ИИ и ML набор данных — это фундамент, на котором строится работа любой модели. Без качественного и репрезентативного набора данных невозможно обучить нейросеть эффективно решать поставленные задачи: будь то классификация изображений, анализ текста или прогнозирование временных рядов.
Представьте, что вы учите ребёнка различать фрукты. Для этого вы показываете ему множество яблок, апельсинов, бананов — каждый раз называя фрукт. Совокупность этих примеров (яблоки, апельсины, бананы с подписями) — это и есть «набор данных» для обучения ребёнка. Чем больше и разнообразнее примеры, тем лучше ребёнок научится распознавать фрукты в будущем.

Исторический контекст

Использование наборов данных в машинном обучении уходит корнями в 1950–1960‑е годы, когда появились первые алгоритмы распознавания образов и перцептроны. Ранние наборы данных были небольшими и часто создавались вручную для конкретных задач. С развитием интернета и цифровых технологий объёмы данных резко выросли. Знаковые наборы данных, такие как MNIST (для распознавания рукописных цифр, представлен в 1998 г.), ImageNet (для классификации изображений, запущен в 2009 г.), стали эталонами для тестирования и сравнения моделей. Сегодня крупные компании (Google, Microsoft, Amazon) и исследовательские организации регулярно публикуют открытые наборы данных для продвижения исследований в области ИИ.

Смежные понятия и различия

  • Датасет — синоним «набора данных», часто используется в разговорной речи и документации.
  • Выборки (обучающая, валидационная, тестовая) — части единого набора данных, выделяемые для разных этапов работы с моделью. Обучающая выборка используется для настройки параметров модели, валидационная — для подбора гиперпараметров и контроля переобучения, тестовая — для итоговой оценки качества модели.
  • Потоковые данные — данные, поступающие непрерывно в реальном времени. В отличие от статичного набора данных, они не хранятся целиком, а обрабатываются «на лету».

Примеры использования

  • MNIST — набор из 70 000 изображений рукописных цифр (28 × 28 пикселей), разделённых на 10 классов (цифры от 0 до 9). Широко используется для тестирования алгоритмов классификации.
  • ImageNet — крупномасштабный набор данных для классификации изображений, содержащий более 14 миллионов размеченных изображений, распределённых по 20 тысячам категорий.
  • COCO (Common Objects in Context) — набор данных для задач обнаружения объектов и сегментации, включающий изображения с аннотациями о положении и классах объектов.
  • IMDB Dataset — набор данных с отзывами о фильмах, размеченными как положительные или отрицательные, используется для задач анализа тональности текста.
  • В задачах NLP (обработки естественного языка) часто используют наборы данных вроде Wikipedia Corpus, BookCorpus, Common Crawl для предварительного обучения языковых моделей (например, BERT, GPT).

Авторизация