Обучающее множество (Training Set)
Набор данных, используемый в машинном обучении для настройки параметров модели, то есть для её обучения распознавать закономерности, выполнять классификацию, регрессию или иные задачи.
Представьте, что вы учите ребёнка различать фрукты: показываете ему яблоки, апельсины, бананы, называете их и объясняете отличительные черты. Со временем ребёнок учится самостоятельно определять, какой перед ним фрукт.
В машинном обучении роль «фруктов и их описаний» играет обучающее множество: это коллекция примеров (объектов), каждый из которых снабжён «подсказкой» — меткой (label) или целевым значением. На этих примерах модель «учится», выявляя зависимости между входными данными и выходными результатами.
Исторически использование размеченных данных для обучения алгоритмов восходит к ранним работам в области распознавания образов и статистического обучения 1950–1960‑х годов. Например, перцептрон Фрэнка Розенблатта (1957–1958) обучался на наборах векторов с известными классами.
С развитием методов машинного обучения и ростом объёмов данных понятие обучающего множества стало центральным: без качественного и репрезентативного набора данных даже самые сложные архитектуры нейросетей не смогут показать хорошие результаты.
Отличие обучающего множества от других типов данных в ML
Валидационное множество — используется для настройки гиперпараметров модели и контроля переобучения (перепроверки качества на данных, не участвовавших в непосредственном обучении).
Тестовая выборка — служит для окончательной оценки качества обученной модели; к ней обращаются только после завершения обучения и валидации.
Что может включать обучающее множество
- изображения с метками классов (для задач компьютерного зрения);
- тексты с разметкой тем или эмоций (для NLP);
- временные ряды с целевыми значениями (для прогнозирования);
- пары «вход‑выход» для обучения генеративных моделей и т. д.
Примеры использования
- в задаче классификации изображений (например, с использованием архитектуры CNN) обучающее множество — это тысячи или миллионы изображений, размеченных по классам (коты, собаки, автомобили и т. п.);
- при обучении языковой модели (как GPT или BERT) обучающее множество — огромные корпуса текстов с разметкой или без (в зависимости от задачи);
- в задачах регрессии (например, предсказание цены дома) обучающее множество содержит признаки объектов (площадь, количество комнат, район) и соответствующие им целевые значения (цена).
Популярные наборы данных для обучения
- ImageNet (для компьютерного зрения);
- MNIST (рукописные цифры);
- COCO (изображения с детальной разметкой);
- Wikipedia dumps (для языковых моделей);
- Kaggle-датасеты (разнообразные задачи и домены).
