Неконтролируемое обучение (Unsupervised Learning)
Что такое Неконтролируемое обучение (Unsupervised Learning)?
Метод машинного обучения, при котором модель анализирует неразмеченные данные без заранее заданных целевых значений (меток), самостоятельно выявляя в них скрытые структуры, закономерности или группы.
Чем отличается от смежных понятий
- Контролируемое обучение требует размеченных данных (пар «вход — целевой выход»). Модель учится предсказывать метку для нового объекта.
- Полуконтролируемое обучение использует смесь размеченных и неразмеченных данных: небольшая размеченная выборка помогает направить обучение на большом объёме неразмеченных данных.
- Обучение с подкреплением ориентировано на взаимодействие со средой и получение сигнала вознаграждения; здесь нет статичного набора данных, а есть последовательность действий и наград.
Примеры использования
- Кластеризация: группировка клиентов по поведению (k-means, DBSCAN), выделение тем в коллекции документов (LDA).
- Снижение размерности: сжатие признаков для ускорения обучения (PCA, t-SNE, UMAP), визуализация высокомерных данных.
- Обнаружение аномалий: выявление необычных транзакций в банках или сбоев в оборудовании (автоэнкодеры, Isolation Forest).
- Генеративные модели: создание новых изображений или текстов (VAE, GAN), предобучение представлений на неразмеченных данных (BERT, GPT — на этапе предобучения).
- Ассоциативные правила: поиск частых сочетаний в корзинах покупок (алгоритм Apriori).
Популярные реализации и алгоритмы
- k-means,
- иерархическая кластеризация,
- DBSCAN,
- PCA,
- t-SNE,
- UMAP,
- автоэнкодеры (Autoencoders),
- вариационные автоэнкодеры (VAE),
- генеративные состязательные сети (GAN),
- LDA (Latent Dirichlet Allocation).
