Коэффициент обучения (Learning Rate)

Что такое Коэффициент обучения (Learning Rate)?

Параметр в алгоритмах обучения нейронных сетей, определяющий величину шага при обновлении весов модели в процессе оптимизации.

Представьте, что вы учитесь кататься на велосипеде. Если вы будете делать слишком большие движения рулём, то рискуете потерять равновесие и упасть. Если же движения будут слишком мелкими, обучение затянется.

Коэффициент обучения в нейросетях играет похожую роль: он задаёт «размер шага» при корректировке параметров модели, чтобы эффективно приближаться к оптимальному решению, не «проскакивая» его и не тратя лишнее время.

История и значение коэффициента обучения

Исторически понятие коэффициента обучения (learning rate) стало активно использоваться с развитием методов градиентного спуска — ключевого алгоритма оптимизации в машинном обучении. Уже в ранних работах по обучению перцептронов (1950–1960‑е годы) исследователи сталкивались с необходимостью подбирать скорость обновления весов. Со временем стало понятно, что выбор этого параметра критически влияет на сходимость и качество обучения: слишком большой коэффициент может привести к расходимости процесса, а слишком маленький — к крайне медленной сходимости.

Отличие коэффициента обучения от других гиперпараметров

Важно отличать коэффициент обучения от других гиперпараметров, влияющих на процесс обучения:

  • от количества эпох (число полных проходов по обучающей выборке) — он задаёт не количество итераций, а «размер шага» на каждой итерации;
  • от размера батча (количество примеров, используемых для одного обновления весов) — он не определяет объём данных для шага, а лишь масштаб корректировки параметров;
  • от параметров регуляризации (например, коэффициента L1/L2‑регуляризации) — они влияют на «штраф» за большие веса, а не на скорость их обновления.

Примеры использования коэффициента обучения

  • в алгоритме стохастического градиентного спуска (SGD) коэффициент задаёт фиксированный шаг обновления весов;
  • в адаптивных оптимизаторах (Adam, RMSprop, Adagrad) коэффициент обучения может адаптироваться в процессе обучения, но его начальное значение всё равно задаётся пользователем;
  • при тонкой настройке (fine‑tuning) предварительно обученных моделей (например, BERT, ResNet) часто используют меньший коэффициент обучения, чтобы не «разрушить» уже выученные признаки.

Популярные значения коэффициента обучения

Популярные значения коэффициента обучения в практике: от $10^{-5}$ до $10^{-1}$, причём часто начинают с $0{,}01$ или $0{,}001$ и корректируют в зависимости от поведения функции потерь.

Авторизация