Локальный минимум (Local Minimum)
Что такое Локальный минимум (Local Minimum)?
Точка в пространстве параметров модели машинного обучения, в которой значение функции потерь минимально по сравнению с соседними точками, но не обязательно является наименьшим во всём пространстве параметров.
Исторически проблема локальных минимумов стала очевидной с развитием методов градиентного спуска и других алгоритмов оптимизации в 1980–1990‑х годах, когда исследователи начали активно обучать многослойные нейронные сети. Долгое время считалось, что застревание в локальных минимумах — серьёзное препятствие для эффективного обучения. Однако более поздние исследования (в частности, работы 2010‑х годов) показали, что в высокоразмерных пространствах параметров, характерных для глубоких нейронных сетей, большинство локальных минимумов оказываются достаточно «хорошими» — их значение функции потерь близко к глобальному минимуму, а соответствующие модели демонстрируют приемлемую производительность.
Важно отличать локальный минимум от глобального минимума — точки, где функция потерь достигает наименьшего значения во всём пространстве параметров. Также стоит упомянуть седловые точки — точки, где градиент равен нулю, но которые не являются ни минимумами, ни максимумами; в высокоразмерных пространствах они зачастую представляют большую проблему для алгоритмов оптимизации, чем локальные минимумы.
Примеры использования термина:
- при обучении глубокой свёрточной нейронной сети (например, ResNet) алгоритм оптимизации (SGD, Adam) может сойтись к локальному минимуму, что приведёт к неоптимальной точности модели на тестовой выборке;
- в задачах обучения генеративно‑состязательных сетей (GAN) поиск глобального минимума осложнён из‑за сложной, не выпуклой природы функции потерь — алгоритмы часто застревают в локальных минимумах, что проявляется в нестабильности обучения или низком качестве генерируемых изображений;
- при тонкой настройке (fine‑tuning) предобученных моделей (например, BERT в задачах NLP) выбор начальной точки в пространстве параметров и стратегии оптимизации (learning rate, momentum) может существенно влиять на то, попадёт ли алгоритм в «хороший» локальный минимум или в «плохой».
