Регрессия (Regression)
Регрессия — это задача машинного обучения, направленная на предсказание непрерывных числовых значений на основе входных данных.
В контексте ИИ и ML регрессия позволяет модели «учиться» выявлять зависимости между признаками объектов и целевым числовым показателем, чтобы затем делать прогнозы для новых, ранее не встречавшихся данных. По сути, модель строит функцию, которая максимально точно отображает связь между входными переменными (признаками) и выходной переменной (целевым значением).
Аналогия из бытового мира
Представьте, что вы хотите предсказать стоимость квартиры. Вы собираете данные: площадь, количество комнат, этаж, район, расстояние до метро. Регрессионная модель в этом случае — как опытный риелтор, который на основе множества подобных примеров «чувствует», сколько примерно должна стоить квартира с заданными параметрами. Она не даёт 100 % гарантии, но выдаёт обоснованную оценку, опираясь на закономерности в данных.
Исторический контекст
Методы регрессии уходят корнями в статистику XVIII–XIX веков (например, метод наименьших квадратов, разработанный Гауссом и Лежандром). В машинном обучении регрессионные модели стали одними из первых алгоритмов, применяемых на практике. Линейная регрессия, например, остаётся популярной благодаря простоте и интерпретируемости. С развитием ML появились более сложные регрессионные методы: деревья решений, случайный лес, градиентный бустинг, нейронные сети для регрессии.
Смежные понятия и различия
- Классификация — другая ключевая задача ML, но она предсказывает не числовое значение, а класс/категорию (например, «спам» или «не спам» для письма). В регрессии выход непрерывный (цена, температура, вероятность), в классификации — дискретный (метка класса).
- Кластеризация — неконтролируемый метод, который группирует данные без заранее заданных меток. Регрессия же — контролируемый метод: для обучения нужны пары «признаки — целевое значение».
Примеры использования
- прогнозирование цен на недвижимость, акции, товары;
- предсказание погодных параметров (температура, осадки);
- оценка продолжительности жизни или риска заболевания на основе медицинских данных;
- прогнозирование трафика на дорогах или нагрузки на серверы.
Популярные реализации и модели
- линейная регрессия (Linear Regression);
- регрессия на основе деревьев решений (Decision Tree Regressor);
- случайный лес для регрессии (Random Forest Regressor);
- градиентный бустинг для регрессии (XGBoost, LightGBM, CatBoost);
- нейронные сети для регрессии (например, полносвязные сети с выходным слоем, выдающим одно числовое значение).
