Экстенсивное обучение (Extensive Learning)
Что такое Экстенсивное обучение (Extensive Learning)?
Подход в машинном обучении, при котором улучшение производительности модели достигается за счёт значительного увеличения объёма данных для обучения или масштабирования вычислительных ресурсов, а не за счёт радикальной оптимизации архитектуры модели или алгоритма обучения.
Представьте атлета, который вместо того, чтобы совершенствовать технику выполнения упражнения, просто многократно увеличивает количество тренировочных часов. В результате рост результатов происходит не за счёт «качества» тренировок, а за счёт их «количества». В контексте нейросетей это означает: вместо поиска принципиально новых архитектур или хитроумных методов оптимизации мы «просто» даём модели больше данных и/или больше вычислительных мощностей.
Исторический контекст
Исторически экстенсивный путь развития стал особенно заметен в эпоху глубокого обучения (с середины 2010‑х годов). Рост доступности больших данных (Big Data) и мощных GPU/TPU позволил исследователям и компаниям масштабировать обучение:- появление масштабных датасетов (ImageNet, Common Crawl, Wikipedia dumps и т. п.) дало возможность обучать модели на миллионах и миллиардах примеров;
- развитие облачных вычислений и специализированных ускорителей (например, TPU от Google) сделало возможным обучение всё более крупных моделей.
Отличие от интенсивного обучения
Ключевое отличие от интенсивного обучения состоит в фокусе:- Экстенсивное обучение делает ставку на «больше»: больше данных, больше параметров, больше вычислительных ресурсов. Цель — выжать максимум из существующей архитектуры за счёт масштаба.
- Интенсивное обучение ищет «лучше»: новые архитектуры (например, переход от RNN к Transformer), более эффективные алгоритмы оптимизации (Adam, Adagrad), методы регуляризации (Dropout, BatchNorm), техники трансферного обучения. Здесь рост качества достигается за счёт интеллектуальной переработки процесса, а не простого наращивания ресурсов.
Примеры использования
- обучение больших языковых моделей (LLM) типа GPT-3, GPT-4, PaLM, где ключевую роль играет объём текстового корпуса и количество параметров (десятки и сотни миллиардов);
- обучение крупномасштабных свёрточных сетей (CNN) для компьютерного зрения на датасетах типа JFT-300M;
- подходы типа «scaling laws» (законы масштабирования), исследованные, в частности, в работах OpenAI и Google: эмпирические закономерности, показывающие, как качество модели растёт с увеличением данных, параметров и вычислительных ресурсов.
Популярные реализации/модели, демонстрирующие экстенсивный подход
- GPT-3 (175 млрд параметров, обучение на терабайтах текста);
- Google PaLM (540 млрд параметров);
- Meta LLaMA (различные конфигурации до 65B параметров и более);
- модели компьютерного зрения, обученные на JFT-300M или аналогичных сверхбольших датасетах.
