Бинарная кросс‑энтропия (Binary Cross-Entropy)
Бинарная кросс‑энтропия — это функция потерь в машинном обучении, применяемая для оценки качества модели при решении задач бинарной классификации, то есть когда необходимо отнести объект к одному из двух классов (например, «спам» или «не спам», «болен» или «здоров»).
Что это значит и как работает
Представьте, что вы играете в игру «Угадай, что в коробке». Вам дают подсказки, а вы должны решить, лежит ли там яблоко или апельсин. Каждый раз, когда вы ошибаетесь, вам начисляются штрафные очки. Бинарная кросс‑энтропия работает похожим образом: она «штрафует» модель машинного обучения за неправильные предсказания, причём чем увереннее модель ошибается, тем больше «штраф».
Математически бинарная кросс‑энтропия вычисляется по формуле:
$$ L = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \cdot \log(\hat{y}_i) + (1 - y_i) \cdot \log(1 - \hat{y}_i) \right], $$
где:
- $N$ — количество примеров в выборке;
- $y_i$ — истинная метка класса (0 или 1);
- $\hat{y}_i$ — предсказанная вероятность принадлежности к классу 1.
Чем ближе предсказанные вероятности к реальным меткам, тем меньше значение функции потерь.
Подробности и история
Идея использования кросс‑энтропии в машинном обучении восходит к теории информации, разработанной Клодом Шенноном в 1948 году. Шеннон ввёл понятие энтропии как меры неопределённости в данных. В контексте машинного обучения кросс‑энтропия стала популярной в 1990–2000‑х годах с развитием нейронных сетей и методов оптимизации.
Ключевые факты:
- Кросс‑энтропия широко применяется в задачах классификации благодаря своей эффективности и математической обоснованности.
- Она особенно полезна в случаях, когда классы несбалансированы (например, когда «спам» составляет лишь 5 % от всех писем).
- Бинарная кросс‑энтропия является частным случаем категориальной кросс‑энтропии, которая используется для задач с более чем двумя классами.
Отличия от похожих терминов
- Категориальная кросс‑энтропия используется для задач с несколькими классами (более двух). В отличие от бинарной, она учитывает вероятности принадлежности к каждому из классов.
- Среднеквадратичная ошибка (MSE) — другая популярная функция потерь, которая чаще применяется в задачах регрессии (предсказание непрерывных значений), а не классификации. MSE измеряет среднее квадратичное отклонение предсказаний от истинных значений, тогда как кросс‑энтропия фокусируется на вероятностях.
Примеры использования
- Фильтрация спама в электронной почте. Модель предсказывает вероятность того, что письмо является спамом. Бинарная кросс‑энтропия помогает оценить, насколько точно модель делает эти предсказания.
- Медицинская диагностика. Модель анализирует медицинские изображения (например, рентгеновские снимки) и предсказывает вероятность наличия заболевания. Функция потерь помогает оптимизировать модель для более точных диагнозов.
- Кредитный скоринг. Банки используют модели для предсказания вероятности дефолта заёмщика. Бинарная кросс‑энтропия позволяет оценить качество таких моделей.
- Анализ тональности текста. Модель определяет, является ли отзыв о продукте положительным или отрицательным. Функция потерь помогает улучшить точность классификации.
