Логистическая регрессия (Logistic Regression)
Логистическая регрессия — это статистический метод в машинном обучении, используемый для решения задач бинарной (реже — многоклассовой) классификации, который оценивает вероятность принадлежности объекта к одному из классов на основе входных признаков.
В отличие от линейной регрессии, прогнозирующей непрерывные значения, логистическая регрессия «сжимает» линейную комбинацию признаков через логистическую (сигмоидальную) функцию, получая на выходе вероятность — число в диапазоне от 0 до 1. Если вероятность превышает заданный порог (обычно 0,5), объект относят к одному классу; если нет — к другому.
Аналогия из бытового мира
Представьте, что вы решаете, брать ли зонт, глядя на небо. Вы учитываете несколько признаков: плотность облаков, влажность, наличие ветра. Каждый признак имеет свой «вес» в вашем решении. Логистическая регрессия работает похоже: она «смотрит» на входные признаки, умножает их на обученные веса, суммирует и через сигмоиду переводит в вероятность дождя. Если вероятность выше порога — берёте зонт.
Исторический контекст
Логистическая функция (сигмоида) известна с XIX века и использовалась в биологии для моделирования роста популяций. В статистике и машинном обучении метод стал широко применяться в середине XX века. Важную роль в популяризации логистической регрессии в анализе данных сыграли работы статистиков 1950–1960‑х годов, заложившие основы обобщённых линейных моделей. Сегодня это один из базовых алгоритмов в учебниках по ML — простой, интерпретируемый и эффективный для линейных разделимых задач.
Смежные понятия и отличия
- Линейная регрессия прогнозирует непрерывные значения (например, цену дома), а логистическая — вероятности классов.
- Метод опорных векторов (SVM) тоже решает задачи классификации, но ищет оптимальную разделяющую гиперплоскость, а не моделирует вероятности.
- Нейронные сети могут имитировать логистическую регрессию (один нейрон с сигмоидой), но способны учиться сложным нелинейным зависимостям.
Примеры использования
- Бинарная классификация: спам/не спам в электронной почте, диагностика заболевания (есть/нет), одобрение кредита (да/нет).
- Многоклассовая классификация (через схему «один против всех»): распознавание цифр, классификация текстов по темам.
- В качестве базового классификатора в ансамблях или для интерпретации важности признаков.
Популярные реализации
- В библиотеках Python:
sklearn.linear_model.LogisticRegression(scikit-learn),LogisticRegressionв Spark MLlib. - В R: функция
glm()с семействомbinomial. - В глубоких сетях: последний слой с сигмоидой (бинарная классификация) или софтмаксом (многоклассовая) фактически выполняет логистическую регрессию над выходными признаками.
