Корреляция признаков (Correlation of Features)
Статистическая мера, отражающая степень линейной зависимости между двумя признаками (переменными) в наборе данных, используемая в машинном обучении для анализа взаимосвязей между входными параметрами модели.
Основная часть
В контексте машинного обучения корреляция признаков помогает понять, насколько сильно изменения одного признака связаны с изменениями другого. Это важно при предварительной обработке данных, отборе признаков и интерпретации моделей. Коэффициент корреляции обычно принимает значения от −1 до +1:
- +1 означает идеальную положительную линейную зависимость (при росте одного признака растёт и другой);
- −1 — идеальную отрицательную линейную зависимость (при росте одного признака другой убывает);
- 0 — отсутствие линейной зависимости.
Аналогия из бытового мира
Представьте, что вы изучаете связь между количеством часов, проведённых за учёбой, и оценками на экзамене. Если обнаружится, что чем больше времени студент уделяет учёбе, тем выше его оценки, — это положительная корреляция. Если же, напротив, при увеличении времени учёбы оценки падают (например, из‑за усталости), — это отрицательная корреляция. Если никакой явной связи не прослеживается, корреляция близка к нулю.
Исторический контекст
Понятие корреляции восходит к работам XIX века, в частности к исследованиям Фрэнсиса Гальтона и Карла Пирсона. Пирсон разработал коэффициент корреляции, носящий его имя (коэффициент корреляции Пирсона), который до сих пор широко применяется в статистике и машинном обучении. В контексте ML анализ корреляции стал неотъемлемой частью разведочного анализа данных (EDA — Exploratory Data Analysis), получившего широкое распространение с развитием методов машинного обучения в 1990–2000‑х годах.
Смежные понятия
Важно отличать корреляцию от причинно‑следственной связи: высокая корреляция не означает, что один признак вызывает изменения другого. Также корреляция измеряет только линейные зависимости, тогда как методы вроде взаимной информации (mutual information) или ранговой корреляции (например, коэффициент Спирмена) могут выявлять нелинейные взаимосвязи.
Примеры использования
- Отбор признаков (feature selection). Если два признака сильно коррелируют (например, коэффициент > 0,8), один из них можно удалить, чтобы уменьшить размерность данных и избежать мультиколлинеарности, которая может ухудшить обучение модели.
- Интерпретация моделей. Анализ корреляции помогает понять, какие признаки наиболее связаны с целевой переменной, что полезно при объяснении работы модели (например, в задачах кредитного скоринга).
- Предобработка данных. В задачах кластеризации или визуализации (например, с помощью PCA — метода главных компонент) корреляция между признаками учитывается для преобразования пространства признаков.
Популярные реализации и инструменты
- библиотеки Python:
pandas(метод.corr()),seaborn(тепловые карты корреляции),scipy(коэффициент Спирмена); - визуализация: тепловые карты (heatmaps) для наглядного отображения матрицы корреляции между всеми парами признаков.
