Скорость обучения (Learning Rate)
Что такое Скорость обучения (Learning Rate)?
Гиперпараметр в алгоритмах обучения нейронных сетей, определяющий величину шага при обновлении весов модели в процессе градиентного спуска.
Момент (momentum)
Добавляет «инерцию» к обновлениям весов, учитывая предыдущие шаги. В отличие от скорости обучения, он не задаёт абсолютную величину шага, а сглаживает траекторию спуска.
Скорость затухания (learning rate decay)
Стратегия постепенного уменьшения скорости обучения по ходу тренировки. Сама скорость обучения — это начальное значение, которое затем может меняться.
Размер батча (batch size)
Влияет на стабильность и скорость сходимости, но не определяет величину шага напрямую.
Примеры использования
- В оптимизаторе SGD (Stochastic Gradient Descent) скорость обучения — единственный ключевой гиперпараметр, напрямую задающий шаг обновления весов.
- В Adam, RMSprop и других адаптивных оптимизаторах скорость обучения тоже задаётся изначально, но затем автоматически корректируется для каждого параметра на основе статистики градиентов.
- При тонкой настройке (fine‑tuning) предварительно обученных моделей часто используют очень малые значения скорости обучения (например, 1e‑5), чтобы не «разрушить» уже выученные признаки.
- Распространённые начальные значения скорости обучения: 0,001, 0,01, 0,1 — их подбор обычно проводят с помощью валидации на отложенной выборке или с использованием методов автоматического подбора гиперпараметров (hyperparameter tuning).
