Базовые метрики (Basic Metrics)
Базовые метрики — это количественные показатели, используемые в машинном обучении и искусственном интеллекте для оценки качества работы модели, её предсказаний и общей эффективности на обучающих и тестовых данных.
Представьте, что вы печёте торт по новому рецепту. Чтобы понять, получился ли он удачным, вы обращаете внимание на ряд признаков: вкус, текстуру, внешний вид. В мире нейросетей базовые метрики выполняют аналогичную функцию — они «дегустируют» модель, позволяя понять, насколько хорошо она справляется с поставленной задачей.
Исторически метрики развивались параллельно с самим машинным обучением. На заре ML (в 1950–1960‑е годы) оценка моделей была довольно примитивной — зачастую ограничивались простой проверкой доли верных ответов. По мере усложнения задач и роста разнообразия моделей (классификация, регрессия, кластеризация и др.) возникла потребность в более тонких и специализированных метриках. Сегодня набор базовых метрик — неотъемлемая часть любого ML‑проекта: от исследовательских экспериментов до промышленных решений.
Важно отличать базовые метрики от:
- гиперпараметров — это настройки модели, которые задаются до обучения (например, скорость обучения, число слоёв), а не показатели её качества после обучения;
- функций потерь (loss functions) — они используются в процессе обучения для оптимизации модели, тогда как метрики применяются после обучения для оценки результата.
Примеры использования и популярные метрики
В зависимости от типа задачи используют разные базовые метрики:
Классификация
(например, распознавание изображений, спам‑фильтрация):
- Accuracy (точность) — доля правильных ответов среди всех предсказаний. Просто, но может вводить в заблуждение при дисбалансе классов.
- Precision (точность, прецизионность) — доля истинно положительных ответов среди всех, предсказанных как положительные. Важна, когда цена ложного срабатывания высока (например, в медицинской диагностике).
- Recall (полнота) — доля истинно положительных ответов среди всех реальных положительных случаев. Критична, когда важно не пропустить ни одного положительного примера (например, обнаружение мошенничества).
- F1‑score — гармоническое среднее между Precision и Recall; полезен при дисбалансе классов.
- ROC‑AUC — площадь под ROC‑кривой; показывает, насколько хорошо модель ранжирует объекты по вероятности принадлежности к классу.
Регрессия
(например, прогнозирование цен, спроса):
- MSE (Mean Squared Error, среднеквадратичная ошибка) — среднее квадратов разностей между предсказанными и истинными значениями. Чувствительна к выбросам.
- RMSE (Root Mean Squared Error, корень из среднеквадратичной ошибки) — квадратный корень из MSE; интерпретируется в тех же единицах, что и целевая переменная.
- MAE (Mean Absolute Error, средняя абсолютная ошибка) — среднее абсолютных разностей между предсказанными и истинными значениями. Менее чувствительна к выбросам, чем MSE.
- R² (коэффициент детерминации) — показывает, какую долю дисперсии целевой переменной объясняет модель (от 0 до 1).
Кластеризация
(например, сегментация клиентов, анализ текстов):
- Silhouette Score (коэффициент силуэта) — мера того, насколько объекты похожи на свой кластер по сравнению с другими кластерами. Чем выше значение, тем лучше разделение.
- Inertia (инерция) — сумма квадратов расстояний от точек до центров их кластеров; минимизируется в алгоритме K‑means.
Эти метрики используются на всех этапах работы с моделями: при подборе гиперпараметров, сравнении разных архитектур, мониторинге качества в продакшене. Например, в задачах компьютерного зрения часто смотрят на Accuracy и ROC‑AUC, в рекомендательных системах — на Precision и Recall, а в прогнозировании временных рядов — на RMSE и MAE.
