Обучение с частичным привлечением учителя (Semi-Supervised Learning)

Что такое Обучение с частичным привлечением учителя (Semi-Supervised Learning)?

Метод машинного обучения, в котором модель обучается на наборе данных, где лишь часть примеров имеет размеченные метки, а остальная часть представлена немаркированными данными.

Этот подход занимает промежуточную позицию между обучением с учителем (где все данные размечены) и обучением без учителя (где разметки нет вовсе). Его суть в том, чтобы извлечь максимум пользы из ограниченного объёма размеченных данных, дополняя их большим массивом немаркированной информации — такой подход особенно ценен, когда разметка данных трудоёмка или дорога.

Представьте, что вы учите ребёнка различать фрукты. В обучении с учителем вы бы показывали ему каждый фрукт и называли его: «Это яблоко», «Это банан». В обучении без учителя ребёнок сам бы пытался сгруппировать фрукты по цвету, форме и размеру, не зная их названий. А в обучении с частичным привлечением учителя вы назвали бы лишь несколько фруктов, а дальше ребёнок, опираясь на эти примеры, сам бы пытался определить, что есть что, сравнивая новые фрукты с уже известными.

Исторический контекст

Идея использования немаркированных данных для улучшения обучения моделей обсуждалась ещё в 1960–1970‑х годах, но активное развитие метода началось в 1990‑х — начале 2000‑х. Важную роль сыграли работы таких исследователей, как Том Митчелл (Tom Mitchell), а также развитие алгоритмов, способных эффективно комбинировать размеченные и неразмеченные данные. Рост популярности метода в XXI веке связан с увеличением объёмов неструктурированных данных (текст, изображения, аудио) и высокой стоимостью их ручной разметки.

Смежные понятия и отличия

  • Обучение с учителем требует полной разметки данных — модель учится напрямую сопоставлять входные данные с целевыми метками.
  • Обучение без учителя вовсе не использует метки — модель ищет скрытые структуры или группировки в данных.
  • Полусупервизируемое обучение (semi-supervised learning) — это и есть обучение с частичным привлечением учителя; термины часто используются как синонимы.
  • Активное обучение (active learning) близко по духу, но там модель сама «задаёт вопросы» — выбирает, какие именно данные ей нужно разметить, чтобы эффективнее обучаться.

Примеры использования

  • Классификация текстов. Модель обучается на небольшом наборе размеченных документов (например, новостных статей с метками «спорт», «политика», «экономика»), а затем использует большой массив немаркированных текстов для уточнения границ классов.
  • Распознавание изображений. В задачах компьютерного зрения (например, детектирование объектов на фото) размеченные данные могут быть дорогими (нужно вручную обвести каждый объект), поэтому модель дообучается на немаркированных изображениях, используя методы вроде псевдо‑маркировки (pseudo-labeling).
  • Обработка речи. В задачах распознавания речи или синтеза голоса размеченные аудиозаписи (с транскрипциями) могут быть ограничены, поэтому модели используют немаркированные аудио для улучшения акустических моделей.

Популярные алгоритмы и подходы

  • Self-training — модель сначала обучается на размеченных данных, затем сама маркирует немаркированные примеры с высокой уверенностью и добавляет их в обучающий набор.
  • Co-training — используются две разные модели, каждая из которых обучается на своём подмножестве признаков; они «обмениваются» псевдо‑метками для немаркированных данных.
  • Label propagation — метки «распространяются» от размеченных примеров к немаркированным через граф сходства данных.
  • Consistency regularization — модель штрафуется за разные предсказания на слегка искажённых версиях одного и того же немаркированного примера (подходы вроде Mean Teacher, FixMatch).

Авторизация