Гиперпараметры модели (Hyperparameters)

Что такое Гиперпараметры модели (Hyperparameters)?

Гиперпараметры модели — это настройки алгоритма машинного обучения, которые задаются до начала обучения модели и не изменяются в процессе подгонки модели под данные.

В отличие от «обычных» параметров модели (например, весов в нейронной сети), которые алгоритм вычисляет в ходе обучения на основе данных, гиперпараметры определяют саму структуру и стратегию обучения. Их нельзя «выучить» из данных — они задаются исследователем или инженером вручную либо подбираются с помощью специальных процедур.
Представьте, что вы печёте торт. Ингредиенты (мука, сахар, яйца) — это данные, а рецепт (температура духовки, время выпекания, пропорции ингредиентов) — гиперпараметры. Вы не можете «выпечь» правильный рецепт из ингредиентов — его нужно знать заранее. Но именно от рецепта зависит, получится ли торт вкусным.

Исторический контекст

Понятие гиперпараметров стало особенно актуальным с развитием сложных моделей машинного обучения — прежде всего, нейронных сетей. В 1980–1990‑е годы, когда начали активно развиваться многослойные перцептроны и алгоритмы обратного распространения ошибки, исследователи столкнулись с необходимостью тщательно подбирать настройки (например, скорость обучения, количество слоёв), чтобы модели обучались эффективно. С ростом сложности моделей (CNN, RNN, трансформеры) количество значимых гиперпараметров увеличилось, а их подбор превратился в отдельную инженерную задачу.

Смежные понятия и различия

  • Параметры модели — значения, которые модель «учит» на данных (веса, смещения). Они изменяются в процессе обучения.
  • Гиперпараметры — задаются до обучения, определяют, как модель будет учиться.
  • Метапараметры — иногда используется как синоним гиперпараметров, но в некоторых контекстах означает более высокоуровневые настройки (например, выбор типа модели).

Примеры использования

  • В нейронных сетях гиперпараметрами могут быть:
    • количество слоёв и нейронов в каждом слое;
    • функция активации (ReLU, sigmoid, tanh);
    • скорость обучения (learning rate);
    • размер батча (batch size);
    • коэффициент регуляризации (L1/L2);
    • количество эпох обучения.
  • В алгоритмах градиентного бустинга (XGBoost, LightGBM) — глубина деревьев, скорость обучения, количество деревьев.
  • В методах кластеризации (k‑means) — количество кластеров k.

Популярные методы подбора гиперпараметров

  • Grid Search (полный перебор по сетке значений);
  • Random Search (случайный поиск);
  • Bayesian Optimization (байесовская оптимизация);
  • Hyperopt, Optuna, Ray Tune — специализированные библиотеки для автоматизации подбора.

Авторизация