Бинарная кросс‑энтропия (Binary Cross-Entropy)

Что такое Бинарная кросс‑энтропия (Binary Cross-Entropy)?

Бинарная кросс‑энтропия — это функция потерь в машинном обучении, применяемая для оценки качества модели при решении задач бинарной классификации, то есть когда необходимо отнести объект к одному из двух классов (например, «спам» или «не спам», «болен» или «здоров»).

Что это значит и как работает

Представьте, что вы играете в игру «Угадай, что в коробке». Вам дают подсказки, а вы должны решить, лежит ли там яблоко или апельсин. Каждый раз, когда вы ошибаетесь, вам начисляются штрафные очки. Бинарная кросс‑энтропия работает похожим образом: она «штрафует» модель машинного обучения за неправильные предсказания, причём чем увереннее модель ошибается, тем больше «штраф».

Математически бинарная кросс‑энтропия вычисляется по формуле:

$$ L = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \cdot \log(\hat{y}_i) + (1 - y_i) \cdot \log(1 - \hat{y}_i) \right], $$

где:

$N$ — количество примеров в выборке;
$y_i$ — истинная метка класса (0 или 1);
$\hat{y}_i$ — предсказанная вероятность принадлежности к классу 1.

Чем ближе предсказанные вероятности к реальным меткам, тем меньше значение функции потерь.

Подробности и история

Идея использования кросс‑энтропии в машинном обучении восходит к теории информации, разработанной Клодом Шенноном в 1948 году. Шеннон ввёл понятие энтропии как меры неопределённости в данных. В контексте машинного обучения кросс‑энтропия стала популярной в 1990–2000‑х годах с развитием нейронных сетей и методов оптимизации.

Ключевые факты:

Кросс‑энтропия широко применяется в задачах классификации благодаря своей эффективности и математической обоснованности.
Она особенно полезна в случаях, когда классы несбалансированы (например, когда «спам» составляет лишь 5 % от всех писем).
Бинарная кросс‑энтропия является частным случаем категориальной кросс‑энтропии, которая используется для задач с более чем двумя классами.

Отличия от похожих терминов

Категориальная кросс‑энтропия используется для задач с несколькими классами (более двух). В отличие от бинарной, она учитывает вероятности принадлежности к каждому из классов.
Среднеквадратичная ошибка (MSE) — другая популярная функция потерь, которая чаще применяется в задачах регрессии (предсказание непрерывных значений), а не классификации. MSE измеряет среднее квадратичное отклонение предсказаний от истинных значений, тогда как кросс‑энтропия фокусируется на вероятностях.

Примеры использования

Фильтрация спама в электронной почте. Модель предсказывает вероятность того, что письмо является спамом. Бинарная кросс‑энтропия помогает оценить, насколько точно модель делает эти предсказания.
Медицинская диагностика. Модель анализирует медицинские изображения (например, рентгеновские снимки) и предсказывает вероятность наличия заболевания. Функция потерь помогает оптимизировать модель для более точных диагнозов.
Кредитный скоринг. Банки используют модели для предсказания вероятности дефолта заёмщика. Бинарная кросс‑энтропия позволяет оценить качество таких моделей.
Анализ тональности текста. Модель определяет, является ли отзыв о продукте положительным или отрицательным. Функция потерь помогает улучшить точность классификации.