Логистическая регрессия (Logistic Regression)

Что такое Логистическая регрессия (Logistic Regression)?

Логистическая регрессия — это статистический метод в машинном обучении, используемый для решения задач бинарной (реже — многоклассовой) классификации, который оценивает вероятность принадлежности объекта к одному из классов на основе входных признаков.

В отличие от линейной регрессии, прогнозирующей непрерывные значения, логистическая регрессия «сжимает» линейную комбинацию признаков через логистическую (сигмоидальную) функцию, получая на выходе вероятность — число в диапазоне от 0 до 1. Если вероятность превышает заданный порог (обычно 0,5), объект относят к одному классу; если нет — к другому.

Аналогия из бытового мира

Представьте, что вы решаете, брать ли зонт, глядя на небо. Вы учитываете несколько признаков: плотность облаков, влажность, наличие ветра. Каждый признак имеет свой «вес» в вашем решении. Логистическая регрессия работает похоже: она «смотрит» на входные признаки, умножает их на обученные веса, суммирует и через сигмоиду переводит в вероятность дождя. Если вероятность выше порога — берёте зонт.

Исторический контекст

Логистическая функция (сигмоида) известна с XIX века и использовалась в биологии для моделирования роста популяций. В статистике и машинном обучении метод стал широко применяться в середине XX века. Важную роль в популяризации логистической регрессии в анализе данных сыграли работы статистиков 1950–1960‑х годов, заложившие основы обобщённых линейных моделей. Сегодня это один из базовых алгоритмов в учебниках по ML — простой, интерпретируемый и эффективный для линейных разделимых задач.

Смежные понятия и отличия

  • Линейная регрессия прогнозирует непрерывные значения (например, цену дома), а логистическая — вероятности классов.
  • Метод опорных векторов (SVM) тоже решает задачи классификации, но ищет оптимальную разделяющую гиперплоскость, а не моделирует вероятности.
  • Нейронные сети могут имитировать логистическую регрессию (один нейрон с сигмоидой), но способны учиться сложным нелинейным зависимостям.

Примеры использования

  • Бинарная классификация: спам/не спам в электронной почте, диагностика заболевания (есть/нет), одобрение кредита (да/нет).
  • Многоклассовая классификация (через схему «один против всех»): распознавание цифр, классификация текстов по темам.
  • В качестве базового классификатора в ансамблях или для интерпретации важности признаков.

Популярные реализации

  • В библиотеках Python: sklearn.linear_model.LogisticRegression (scikit-learn), LogisticRegression в Spark MLlib.
  • В R: функция glm() с семейством binomial.
  • В глубоких сетях: последний слой с сигмоидой (бинарная классификация) или софтмаксом (многоклассовая) фактически выполняет логистическую регрессию над выходными признаками.

Авторизация