Линейная регрессия (Linear Regression)
Линейная регрессия — это метод машинного обучения, предназначенный для моделирования линейной зависимости между одной или несколькими независимыми переменными (признаками) и непрерывной зависимой переменной (целевой величиной).
В основе линейной регрессии лежит поиск такой прямой (в случае одной независимой переменной) или гиперплоскости (при нескольких переменных), которая наилучшим образом описывает связь между входными данными и целевым значением. Алгоритм стремится минимизировать ошибку предсказания — обычно с помощью метода наименьших квадратов, который минимизирует сумму квадратов разностей между предсказанными и фактическими значениями.
Аналогия из бытового мира
Представьте, что вы хотите предсказать стоимость квартиры, опираясь только на её площадь. Вы собираете данные о проданных квартирах: площадь и цена. Линейная регрессия в этом случае — как проведение прямой линии на графике, где по оси X отложена площадь, а по оси Y — цена. Линия подбирается так, чтобы максимально точно отражать общую тенденцию: чем больше площадь, тем выше цена. Эта линия и будет вашей моделью — по ней вы сможете предсказывать цену новой квартиры, зная лишь её площадь.
Исторический контекст
Метод линейной регрессии имеет глубокие корни в статистике и математике. Его основы были заложены в начале XIX века: Карл Фридрих Гаусс и Адриен Мари Лежандр независимо разработали метод наименьших квадратов, который стал фундаментом для линейной регрессии. В контексте машинного обучения и ИИ линейная регрессия стала одной из первых и базовых моделей, используемых для задач прогнозирования. Она остаётся популярной благодаря простоте, интерпретируемости и эффективности в случаях, когда зависимость между переменными действительно близка к линейной.
Смежные понятия
Важно отличать линейную регрессию от:
- логистической регрессии — она используется для задач классификации (предсказание вероятности принадлежности к классу), а не для прогнозирования непрерывных значений;
- нелинейной регрессии — в ней зависимость между переменными моделируется с помощью нелинейных функций (полиномов высокой степени, экспонент и т. п.), что позволяет улавливать более сложные паттерны, но повышает риск переобучения.
Примеры использования
- прогнозирование цен на недвижимость на основе площади, количества комнат, расположения;
- предсказание продаж товара на основе рекламных затрат, сезона, цены;
- оценка влияния различных факторов (уровень образования, опыт работы) на зарплату;
- в более сложных архитектурах — как базовый блок в ансамблях моделей или как стартовая точка для сравнения с более сложными алгоритмами.
Популярные реализации
- в Python — библиотеки
scikit-learn(LinearRegression),statsmodels; - в R — функция
lm(); - в MATLAB — функции для линейной регрессии в Statistics and Machine Learning Toolbox.
