Экстенсивное обучение (Extensive Learning)

Что такое Экстенсивное обучение (Extensive Learning)?

Подход в машинном обучении, при котором улучшение производительности модели достигается за счёт значительного увеличения объёма данных для обучения или масштабирования вычислительных ресурсов, а не за счёт радикальной оптимизации архитектуры модели или алгоритма обучения.

Суть экстенсивного обучения можно проиллюстрировать аналогией с подготовкой спортсмена к соревнованиям.
Представьте атлета, который вместо того, чтобы совершенствовать технику выполнения упражнения, просто многократно увеличивает количество тренировочных часов. В результате рост результатов происходит не за счёт «качества» тренировок, а за счёт их «количества». В контексте нейросетей это означает: вместо поиска принципиально новых архитектур или хитроумных методов оптимизации мы «просто» даём модели больше данных и/или больше вычислительных мощностей.

Исторический контекст

Исторически экстенсивный путь развития стал особенно заметен в эпоху глубокого обучения (с середины 2010‑х годов). Рост доступности больших данных (Big Data) и мощных GPU/TPU позволил исследователям и компаниям масштабировать обучение:
  • появление масштабных датасетов (ImageNet, Common Crawl, Wikipedia dumps и т. п.) дало возможность обучать модели на миллионах и миллиардах примеров;
  • развитие облачных вычислений и специализированных ускорителей (например, TPU от Google) сделало возможным обучение всё более крупных моделей.

Отличие от интенсивного обучения

Ключевое отличие от интенсивного обучения состоит в фокусе:
  • Экстенсивное обучение делает ставку на «больше»: больше данных, больше параметров, больше вычислительных ресурсов. Цель — выжать максимум из существующей архитектуры за счёт масштаба.
  • Интенсивное обучение ищет «лучше»: новые архитектуры (например, переход от RNN к Transformer), более эффективные алгоритмы оптимизации (Adam, Adagrad), методы регуляризации (Dropout, BatchNorm), техники трансферного обучения. Здесь рост качества достигается за счёт интеллектуальной переработки процесса, а не простого наращивания ресурсов.

Примеры использования

  • обучение больших языковых моделей (LLM) типа GPT-3, GPT-4, PaLM, где ключевую роль играет объём текстового корпуса и количество параметров (десятки и сотни миллиардов);
  • обучение крупномасштабных свёрточных сетей (CNN) для компьютерного зрения на датасетах типа JFT-300M;
  • подходы типа «scaling laws» (законы масштабирования), исследованные, в частности, в работах OpenAI и Google: эмпирические закономерности, показывающие, как качество модели растёт с увеличением данных, параметров и вычислительных ресурсов.

Популярные реализации/модели, демонстрирующие экстенсивный подход

  • GPT-3 (175 млрд параметров, обучение на терабайтах текста);
  • Google PaLM (540 млрд параметров);
  • Meta LLaMA (различные конфигурации до 65B параметров и более);
  • модели компьютерного зрения, обученные на JFT-300M или аналогичных сверхбольших датасетах.

Авторизация