Скорость обучения (Learning Rate)

Что такое Скорость обучения (Learning Rate)?

Гиперпараметр в алгоритмах обучения нейронных сетей, определяющий величину шага при обновлении весов модели в процессе градиентного спуска.

Представьте, что вы спускаетесь с горы в тумане и хотите добраться до самой низкой точки. Каждый ваш шаг — это корректировка параметров модели, а длина шага — это и есть скорость обучения. Если шаг слишком длинный, вы можете перепрыгнуть через низшую точку и даже начать подниматься вверх по склону. Если шаг слишком короткий, спуск займёт очень много времени. Так и в обучении нейросети: скорость обучения задаёт, насколько сильно будут меняться веса модели на каждой итерации, исходя из вычисленного градиента функции потерь. Исторически понятие скорости обучения стало ключевым с развитием методов оптимизации в машинном обучении в 1980–1990‑х годах, когда активно совершенствовались алгоритмы градиентного спуска для обучения многослойных перцептронов. Хотя базовые идеи восходят ещё к классическим методам оптимизации, их адаптация к сложным нелинейным моделям потребовала тщательной проработки этого гиперпараметра. Сегодня выбор скорости обучения остаётся одной из центральных задач при настройке практически любой нейронной сети — от простых полносвязных архитектур до глубоких свёрточных и трансформеров. Важно отличать скорость обучения от других гиперпараметров, влияющих на процесс оптимизации:

Момент (momentum)

Добавляет «инерцию» к обновлениям весов, учитывая предыдущие шаги. В отличие от скорости обучения, он не задаёт абсолютную величину шага, а сглаживает траекторию спуска.

Скорость затухания (learning rate decay)

Стратегия постепенного уменьшения скорости обучения по ходу тренировки. Сама скорость обучения — это начальное значение, которое затем может меняться.

Размер батча (batch size)

Влияет на стабильность и скорость сходимости, но не определяет величину шага напрямую.

Примеры использования

  • В оптимизаторе SGD (Stochastic Gradient Descent) скорость обучения — единственный ключевой гиперпараметр, напрямую задающий шаг обновления весов.
  • В Adam, RMSprop и других адаптивных оптимизаторах скорость обучения тоже задаётся изначально, но затем автоматически корректируется для каждого параметра на основе статистики градиентов.
  • При тонкой настройке (fine‑tuning) предварительно обученных моделей часто используют очень малые значения скорости обучения (например, 1e‑5), чтобы не «разрушить» уже выученные признаки.
  • Распространённые начальные значения скорости обучения: 0,001, 0,01, 0,1 — их подбор обычно проводят с помощью валидации на отложенной выборке или с использованием методов автоматического подбора гиперпараметров (hyperparameter tuning).

Авторизация