Скорость обучения (Learning Rate)

Что такое Скорость обучения (Learning Rate)?

Гиперпараметр в алгоритмах обучения нейронных сетей, определяющий величину шага при обновлении весов модели в процессе градиентного спуска.

Представьте, что вы спускаетесь с горы в тумане и хотите добраться до самой низкой точки. Каждый ваш шаг — это корректировка параметров модели, а длина шага — это и есть скорость обучения. Если шаг слишком длинный, вы можете перепрыгнуть через низшую точку и даже начать подниматься вверх по склону. Если шаг слишком короткий, спуск займёт очень много времени. Так и в обучении нейросети: скорость обучения задаёт, насколько сильно будут меняться веса модели на каждой итерации, исходя из вычисленного градиента функции потерь. Исторически понятие скорости обучения стало ключевым с развитием методов оптимизации в машинном обучении в 1980–1990‑х годах, когда активно совершенствовались алгоритмы градиентного спуска для обучения многослойных перцептронов. Хотя базовые идеи восходят ещё к классическим методам оптимизации, их адаптация к сложным нелинейным моделям потребовала тщательной проработки этого гиперпараметра. Сегодня выбор скорости обучения остаётся одной из центральных задач при настройке практически любой нейронной сети — от простых полносвязных архитектур до глубоких свёрточных и трансформеров. Важно отличать скорость обучения от других гиперпараметров, влияющих на процесс оптимизации:

Момент (momentum)

Добавляет «инерцию» к обновлениям весов, учитывая предыдущие шаги. В отличие от скорости обучения, он не задаёт абсолютную величину шага, а сглаживает траекторию спуска.

Скорость затухания (learning rate decay)

Стратегия постепенного уменьшения скорости обучения по ходу тренировки. Сама скорость обучения — это начальное значение, которое затем может меняться.

Размер батча (batch size)

Влияет на стабильность и скорость сходимости, но не определяет величину шага напрямую.

Примеры использования

В оптимизаторе SGD (Stochastic Gradient Descent) скорость обучения — единственный ключевой гиперпараметр, напрямую задающий шаг обновления весов.
В Adam, RMSprop и других адаптивных оптимизаторах скорость обучения тоже задаётся изначально, но затем автоматически корректируется для каждого параметра на основе статистики градиентов.
При тонкой настройке (fine‑tuning) предварительно обученных моделей часто используют очень малые значения скорости обучения (например, 1e‑5), чтобы не «разрушить» уже выученные признаки.
Распространённые начальные значения скорости обучения: 0,001, 0,01, 0,1 — их подбор обычно проводят с помощью валидации на отложенной выборке или с использованием методов автоматического подбора гиперпараметров (hyperparameter tuning).

Скорость обучения (Learning Rate)

Момент (momentum)

Скорость затухания (learning rate decay)

Размер батча (batch size)

Примеры использования

Авторизация