Самообучение (Self-training)

Что такое Самообучение (Self-training)?

Метод обучения моделей машинного обучения, при котором система самостоятельно извлекает закономерности из неразмеченных или частично размеченных данных, без явного указания правильных ответов (без учителя или с минимальным участием учителя).

В контексте ИИ и ML самообучение занимает промежуточное положение между обучением с учителем (supervised learning) и обучением без учителя (unsupervised learning). Его суть в том, чтобы использовать большой объём доступных, но неструктурированных данных, «подтягивая» модель к решению целевой задачи через внутренние механизмы самоорганизации и выявления скрытых паттернов.

Представьте, что ребёнок учится различать фрукты, не имея перед собой списка с названиями. Он смотрит на яблоки, апельсины, бананы, сравнивает их по цвету, форме, текстуре, постепенно выстраивая собственную систему категорий. Так и модель при самообучении «смотрит» на данные, ищет общие черты и различия, формируя внутреннее представление о структуре информации — без готовых «ответов» от взрослого (учителя).

Исторический контекст

Идея самообучения восходит к ранним исследованиям в области нейронных сетей и когнитивной науки 1980–1990‑х годов. Важную роль сыграли работы по автоэнкодерам (autoencoders) и ограничённым машинам Больцмана (Restricted Boltzmann Machines, RBM), которые демонстрировали способность извлекать признаки из данных без явной разметки. В 2010‑е годы интерес к самообучению резко вырос благодаря успехам в обработке естественного языка (NLP) и компьютерном зрении. Прорывными стали модели типа BERT (2018, Google) и GPT (с 2018, OpenAI), использующие самообучение на огромных корпусах текста.

Отличия от смежных понятий

Обучение с учителем (supervised learning) требует полностью размеченных данных (каждому примеру соответствует метка-ответ). Самообучение обходится без этого или использует разметку минимально.
Обучение без учителя (unsupervised learning) ищет структуры в данных (кластеры, снижение размерности), но не нацелено на конкретную задачу (классификация, генерация). Самообучение часто имеет целевую задачу, но решает её через предварительное «самостоятельное» изучение данных.
Полуобучение (semi-supervised learning) явно комбинирует размеченные и неразмеченные данные, тогда как самообучение делает акцент на автоматическом извлечении знаний из неразмеченных данных, иногда даже без начальной разметки.

Примеры использования

NLP: модели BERT, GPT, T5 используют самообучение на текстах (masked language modeling, предсказание следующего предложения), затем дообучаются на конкретных задачах (классификация, ответы на вопросы).
Компьютерное зрение: методы типа SimCLR, MoCo применяют самообучение для извлечения визуальных признаков из изображений без меток, затем используют их для классификации.
Генеративные модели: VAE (Variational Autoencoders) и GAN (Generative Adversarial Networks) частично используют принципы самообучения для моделирования распределения данных.
Речевое распознавание: модели типа Wav2Vec 2.0 самообучаются на аудиоданных, затем дообучаются на транскрипциях.

Самообучение (Self-training)

Исторический контекст

Отличия от смежных понятий

Примеры использования

Авторизация