Неконтролируемое обучение (Unsupervised Learning)

Что такое Неконтролируемое обучение (Unsupervised Learning)?

Метод машинного обучения, при котором модель анализирует неразмеченные данные без заранее заданных целевых значений (меток), самостоятельно выявляя в них скрытые структуры, закономерности или группы.

В отличие от контролируемого обучения, где алгоритм «учится» на примерах с известными ответами (как ученик, решающий задачи с готовыми решениями), при неконтролируемом обучении модель действует подобно исследователю, который впервые попал в незнакомый город и пытается самостоятельно разобраться в его устройстве: выделить районы, найти похожие здания, проследить маршруты. Нет «правильных ответов» — есть только сырые наблюдения, из которых нужно извлечь смысл. Исторически неконтролируемое обучение стало развиваться вслед за контролируемым, по мере того как объёмы неразмеченных данных (тексты, изображения, сигналы) росли быстрее, чем возможности их ручной разметки. Уже в 1960–1970‑х годах появились первые алгоритмы кластеризации (например, k-means), а в 1990‑х — методы снижения размерности вроде PCA (Principal Component Analysis). В 2000‑х и 2010‑х рост вычислительных мощностей и интерес к глубинному обучению дали новый импульс: появились автоэнкодеры, генеративные состязательные сети (GAN) и другие архитектуры, использующие неконтролируемые принципы.

Чем отличается от смежных понятий

  • Контролируемое обучение требует размеченных данных (пар «вход — целевой выход»). Модель учится предсказывать метку для нового объекта.
  • Полуконтролируемое обучение использует смесь размеченных и неразмеченных данных: небольшая размеченная выборка помогает направить обучение на большом объёме неразмеченных данных.
  • Обучение с подкреплением ориентировано на взаимодействие со средой и получение сигнала вознаграждения; здесь нет статичного набора данных, а есть последовательность действий и наград.

Примеры использования

  • Кластеризация: группировка клиентов по поведению (k-means, DBSCAN), выделение тем в коллекции документов (LDA).
  • Снижение размерности: сжатие признаков для ускорения обучения (PCA, t-SNE, UMAP), визуализация высокомерных данных.
  • Обнаружение аномалий: выявление необычных транзакций в банках или сбоев в оборудовании (автоэнкодеры, Isolation Forest).
  • Генеративные модели: создание новых изображений или текстов (VAE, GAN), предобучение представлений на неразмеченных данных (BERT, GPT — на этапе предобучения).
  • Ассоциативные правила: поиск частых сочетаний в корзинах покупок (алгоритм Apriori).

Популярные реализации и алгоритмы

  • k-means,
  • иерархическая кластеризация,
  • DBSCAN,
  • PCA,
  • t-SNE,
  • UMAP,
  • автоэнкодеры (Autoencoders),
  • вариационные автоэнкодеры (VAE),
  • генеративные состязательные сети (GAN),
  • LDA (Latent Dirichlet Allocation).

Авторизация