Обучающее множество (Training Set)

Что такое Обучающее множество (Training Set)?

Набор данных, используемый в машинном обучении для настройки параметров модели, то есть для её обучения распознавать закономерности, выполнять классификацию, регрессию или иные задачи.

Представьте, что вы учите ребёнка различать фрукты: показываете ему яблоки, апельсины, бананы, называете их и объясняете отличительные черты. Со временем ребёнок учится самостоятельно определять, какой перед ним фрукт.

В машинном обучении роль «фруктов и их описаний» играет обучающее множество: это коллекция примеров (объектов), каждый из которых снабжён «подсказкой» — меткой (label) или целевым значением. На этих примерах модель «учится», выявляя зависимости между входными данными и выходными результатами.

Исторически использование размеченных данных для обучения алгоритмов восходит к ранним работам в области распознавания образов и статистического обучения 1950–1960‑х годов. Например, перцептрон Фрэнка Розенблатта (1957–1958) обучался на наборах векторов с известными классами.

С развитием методов машинного обучения и ростом объёмов данных понятие обучающего множества стало центральным: без качественного и репрезентативного набора данных даже самые сложные архитектуры нейросетей не смогут показать хорошие результаты.

Отличие обучающего множества от других типов данных в ML

Валидационное множество — используется для настройки гиперпараметров модели и контроля переобучения (перепроверки качества на данных, не участвовавших в непосредственном обучении).

Тестовая выборка — служит для окончательной оценки качества обученной модели; к ней обращаются только после завершения обучения и валидации.

Что может включать обучающее множество

  • изображения с метками классов (для задач компьютерного зрения);
  • тексты с разметкой тем или эмоций (для NLP);
  • временные ряды с целевыми значениями (для прогнозирования);
  • пары «вход‑выход» для обучения генеративных моделей и т. д.

Примеры использования

  • в задаче классификации изображений (например, с использованием архитектуры CNN) обучающее множество — это тысячи или миллионы изображений, размеченных по классам (коты, собаки, автомобили и т. п.);
  • при обучении языковой модели (как GPT или BERT) обучающее множество — огромные корпуса текстов с разметкой или без (в зависимости от задачи);
  • в задачах регрессии (например, предсказание цены дома) обучающее множество содержит признаки объектов (площадь, количество комнат, район) и соответствующие им целевые значения (цена).

Популярные наборы данных для обучения

  • ImageNet (для компьютерного зрения);
  • MNIST (рукописные цифры);
  • COCO (изображения с детальной разметкой);
  • Wikipedia dumps (для языковых моделей);
  • Kaggle-датасеты (разнообразные задачи и домены).

Авторизация