Локальный минимум (Local Minimum)

Что такое Локальный минимум (Local Minimum)?

Точка в пространстве параметров модели машинного обучения, в которой значение функции потерь минимально по сравнению с соседними точками, но не обязательно является наименьшим во всём пространстве параметров.

Представьте, что вы находитесь в гористой местности и хотите найти самое низкое место. Вы спускаетесь вниз, пока не оказываетесь в небольшой долине — вокруг вас везде выше, но это не значит, что вы в самой низкой точке всей горной системы. В контексте обучения нейронных сетей ситуация аналогична: алгоритм оптимизации «ищет» минимум функции потерь (своего рода «глубину»), и локальный минимум — это «долина», в которой алгоритм может «застрять», не достигнув глобального минимума (самой низкой точки).

Исторически проблема локальных минимумов стала очевидной с развитием методов градиентного спуска и других алгоритмов оптимизации в 1980–1990‑х годах, когда исследователи начали активно обучать многослойные нейронные сети. Долгое время считалось, что застревание в локальных минимумах — серьёзное препятствие для эффективного обучения. Однако более поздние исследования (в частности, работы 2010‑х годов) показали, что в высокоразмерных пространствах параметров, характерных для глубоких нейронных сетей, большинство локальных минимумов оказываются достаточно «хорошими» — их значение функции потерь близко к глобальному минимуму, а соответствующие модели демонстрируют приемлемую производительность.

Важно отличать локальный минимум от глобального минимума — точки, где функция потерь достигает наименьшего значения во всём пространстве параметров. Также стоит упомянуть седловые точки — точки, где градиент равен нулю, но которые не являются ни минимумами, ни максимумами; в высокоразмерных пространствах они зачастую представляют большую проблему для алгоритмов оптимизации, чем локальные минимумы.

Примеры использования термина:

  • при обучении глубокой свёрточной нейронной сети (например, ResNet) алгоритм оптимизации (SGD, Adam) может сойтись к локальному минимуму, что приведёт к неоптимальной точности модели на тестовой выборке;
  • в задачах обучения генеративно‑состязательных сетей (GAN) поиск глобального минимума осложнён из‑за сложной, не выпуклой природы функции потерь — алгоритмы часто застревают в локальных минимумах, что проявляется в нестабильности обучения или низком качестве генерируемых изображений;
  • при тонкой настройке (fine‑tuning) предобученных моделей (например, BERT в задачах NLP) выбор начальной точки в пространстве параметров и стратегии оптимизации (learning rate, momentum) может существенно влиять на то, попадёт ли алгоритм в «хороший» локальный минимум или в «плохой».

Авторизация