Гиперпараметры модели (Hyperparameters)
Что такое Гиперпараметры модели (Hyperparameters)?
Гиперпараметры модели — это настройки алгоритма машинного обучения, которые задаются до начала обучения модели и не изменяются в процессе подгонки модели под данные.
Представьте, что вы печёте торт. Ингредиенты (мука, сахар, яйца) — это данные, а рецепт (температура духовки, время выпекания, пропорции ингредиентов) — гиперпараметры. Вы не можете «выпечь» правильный рецепт из ингредиентов — его нужно знать заранее. Но именно от рецепта зависит, получится ли торт вкусным.
Исторический контекст
Понятие гиперпараметров стало особенно актуальным с развитием сложных моделей машинного обучения — прежде всего, нейронных сетей. В 1980–1990‑е годы, когда начали активно развиваться многослойные перцептроны и алгоритмы обратного распространения ошибки, исследователи столкнулись с необходимостью тщательно подбирать настройки (например, скорость обучения, количество слоёв), чтобы модели обучались эффективно. С ростом сложности моделей (CNN, RNN, трансформеры) количество значимых гиперпараметров увеличилось, а их подбор превратился в отдельную инженерную задачу.
Смежные понятия и различия
- Параметры модели — значения, которые модель «учит» на данных (веса, смещения). Они изменяются в процессе обучения.
- Гиперпараметры — задаются до обучения, определяют, как модель будет учиться.
- Метапараметры — иногда используется как синоним гиперпараметров, но в некоторых контекстах означает более высокоуровневые настройки (например, выбор типа модели).
Примеры использования
- В нейронных сетях гиперпараметрами могут быть:
- количество слоёв и нейронов в каждом слое;
- функция активации (ReLU, sigmoid, tanh);
- скорость обучения (learning rate);
- размер батча (batch size);
- коэффициент регуляризации (L1/L2);
- количество эпох обучения.
- В алгоритмах градиентного бустинга (XGBoost, LightGBM) — глубина деревьев, скорость обучения, количество деревьев.
- В методах кластеризации (k‑means) — количество кластеров k.
Популярные методы подбора гиперпараметров
- Grid Search (полный перебор по сетке значений);
- Random Search (случайный поиск);
- Bayesian Optimization (байесовская оптимизация);
- Hyperopt, Optuna, Ray Tune — специализированные библиотеки для автоматизации подбора.
