Критерии оценки (Evaluation Criteria)

Что такое Критерии оценки (Evaluation Criteria)?

Это набор параметров и метрик, используемых в машинном обучении и искусственном интеллекте для измерения качества работы модели, её точности, эффективности и соответствия поставленным задачам.

В контексте ИИ и ML критерии оценки позволяют понять, насколько хорошо модель справляется с решением конкретной задачи — будь то классификация изображений, прогнозирование временных рядов или генерация текста. Без чётких критериев невозможно объективно сравнивать разные модели, отслеживать прогресс в ходе обучения или принимать решение о внедрении модели в продакшн.

Представьте, что вы выбираете новый смартфон. Вы оцениваете его по ряду критериев — размер экрана, ёмкость батареи, качество камеры, производительность процессора. Точно так же и в ML: мы «оцениваем» модель по набору метрик, чтобы понять, подходит ли она для решения нашей задачи.

Исторический контекст

Уже на ранних этапах развития машинного обучения (1950–1960‑е годы) исследователи искали способы количественно оценить качество моделей. Например, в перцептронах Розенблатта использовались простые метрики точности.
С развитием статистических методов и теории вероятностей в 1970–1980‑е годы появились более сложные критерии — например, ошибка классификации, чувствительность и специфичность.
В 1990‑е годы с ростом популярности методов классификации и регрессии стали широко применяться такие метрики, как ROC‑AUC, F1‑мера, среднеквадратичная ошибка (MSE).
В XXI веке с развитием глубокого обучения и сложных архитектур (CNN, RNN, трансформеры) критерии оценки стали ещё более разнообразными и специализированными — например, BLEU для оценки качества машинного перевода, SSIM для оценки сходства изображений.

Смежные и сходные понятия

Метрики — это конкретные числовые показатели, входящие в критерии оценки (например, точность, полнота, F1‑мера). Критерии оценки — более широкое понятие, включающее набор метрик, а также правила их интерпретации.
Функции потерь (loss functions) — используются в процессе обучения для оптимизации параметров модели, тогда как критерии оценки применяются после обучения для итоговой проверки качества.
Валидация — процесс проверки модели с использованием критериев оценки на валидационной выборке. Критерии оценки — инструмент этого процесса.

Примеры использования

В задачах классификации часто используют такие критерии, как:

точность (accuracy);
полнота (recall);
точность (precision);
F1‑мера (F1‑score);
ROC‑AUC (Area Under the ROC Curve).

В задачах регрессии применяют:

среднеквадратичную ошибку (MSE);
среднюю абсолютную ошибку (MAE);
коэффициент детерминации (R²).

В задачах обработки естественного языка (NLP) используют:

BLEU (Bilingual Evaluation Understudy) для оценки качества машинного перевода;
ROUGE (Recall‑Oriented Understudy for Gisting Evaluation) для оценки суммаризации текста;
METEOR (Metric for Evaluation of Translation with Explicit ORdering) для оценки перевода и генерации текста.

В задачах компьютерного зрения применяют:

IoU (Intersection over Union) для оценки качества сегментации изображений;
SSIM (Structural Similarity Index Measure) для оценки сходства изображений.