Тренировочная выборка (Training Dataset)
набор данных, используемый для обучения модели машинного обучения или нейронной сети, на основе которого алгоритм выявляет закономерности и настраивает свои параметры
Аналогия из бытового мира: представьте, что вы учите ребёнка различать фрукты. Вы показываете ему множество яблок, груш, апельсинов, называя каждый фрукт. Совокупность этих примеров — это и есть «тренировочная выборка» для ребёнка. На основе этих данных он формирует внутреннее представление о том, как выглядят разные фрукты, и потом может узнавать их в новых ситуациях.
Исторический контекст
Концепция использования обучающих данных восходит к самым ранним работам в области машинного обучения 1950–1960‑х годов. Например, перцептрон Фрэнка Розенблатта (1958) обучался на наборах данных, хотя тогда терминология была менее формализованной. С развитием методов машинного обучения и ростом объёмов данных понятие тренировочной выборки стало ключевым элементом процесса обучения моделей. Сегодня, в эпоху больших данных и глубокого обучения, размеры тренировочных выборок могут достигать миллионов и даже миллиардов примеров (например, датасеты ImageNet для компьютерного зрения или Common Crawl для обработки естественного языка).
Смежные понятия
- валидационная выборка — используется для периодической проверки качества модели в процессе обучения и настройки гиперпараметров, не участвуя напрямую в обучении;
- тестовая выборка — применяется после завершения обучения для окончательной оценки производительности модели; она полностью изолирована от процесса обучения и валидации.
Ключевое отличие тренировочной выборки от валидационной и тестовой в том, что именно на ней происходит непосредственное обновление параметров модели (весов нейронной сети) через алгоритмы оптимизации (например, градиентный спуск).
Примеры использования
- в задачах классификации изображений (например, распознавание рукописных цифр в датасете MNIST) тренировочная выборка состоит из тысяч изображений с метками классов;
- в обработке естественного языка (NLP) тренировочные выборки могут включать миллионы предложений с разметкой (например, датасет Wikipedia для обучения языковых моделей типа BERT или GPT);
- в задачах прогнозирования временных рядов тренировочная выборка содержит исторические данные (например, цены акций, погодные показатели), на основе которых модель учится предсказывать будущие значения.
Популярные датасеты для формирования тренировочных выборок
- MNIST (рукописные цифры);
- CIFAR‑10/CIFAR‑100 (изображения малых размеров);
- ImageNet (крупный датасет для задач компьютерного зрения);
- COCO (датасет для задач детекции и сегментации объектов);
- Wikipedia (для обучения языковых моделей).
