Пространство признаков (Feature Space)
Многомерное пространство, в котором каждое измерение соответствует определённому признаку (характеристике) объектов, а каждый объект представлен в виде точки (вектора), координаты которой отражают значения его признаков; фундаментальное понятие в машинном обучении и анализе данных.
В контексте машинного обучения пространство признаков служит «сценой», на которой разворачиваются все операции с данными: от предварительной обработки до обучения моделей и интерпретации результатов. Именно в этом пространстве алгоритмы ищут закономерности, разделяют классы, прогнозируют значения — иными словами, «понимают» данные.
Аналогия
Представьте супермаркет, где каждый товар — это объект (например, яблоко), а его характеристики (цвет, вес, сорт, цена) — признаки. Пространство признаков в этом случае — виртуальный «каталог», где каждое яблоко представлено точкой с координатами по всем этим параметрам. Чем больше характеристик мы учтём, тем выше размерность пространства.
Исторический контекст
Идея представления объектов в виде векторов признаков уходит корнями в классическую статистику и линейную алгебру. В машинном обучении она стала ключевой с развитием методов классификации и регрессии в 1960–1970‑х годах (например, перцептроны, линейная регрессия). С ростом сложности моделей (SVM, деревья решений, нейронные сети) и объёма данных (эпоха Big Data с 2000‑х) пространство признаков стало центральным понятием для проектирования признаков (feature engineering) и снижения размерности (PCA, t‑SNE).
Смежные понятия и различия
- Пространство входных данных — более общее понятие; может включать «сырые» данные (изображения, текст), которые ещё не преобразованы в числовые признаки. Пространство признаков — результат такого преобразования.
- Латентное пространство (в автоэнкодерах, VAE, GAN) — скрытое пространство меньшей размерности, куда модель «сжимает» исходные признаки для генерации или реконструкции данных. В отличие от пространства признаков, оно не задаётся вручную, а учится моделью.
- Пространство решений — область, где модель принимает решения (например, границы классов в классификаторе). Оно строится на основе пространства признаков, но не тождественно ему.
Примеры использования
- Классификация изображений. Для CNN (свёрточных нейронных сетей) пространство признаков формируется на промежуточных слоях: первые слои кодируют края и текстуры (низкоуровневые признаки), последние — семантические объекты (высокоуровневые признаки).
- Обработка текста. В моделях вроде Word2Vec или BERT каждое слово/предложение представляется вектором в многомерном пространстве признаков (эмбеддинги), где близость векторов отражает семантическое сходство.
- Снижение размерности. Методы PCA (Principal Component Analysis) или t‑SNE проецируют исходное пространство признаков в пространство меньшей размерности, сохраняя ключевые структуры данных (например, для визуализации кластеров).
- Feature engineering. В табличных данных (кредитный скоринг, прогнозирование оттока) инженеры вручную создают новые признаки (например, «средний чек за месяц»), расширяя пространство признаков для повышения качества моделей (XGBoost, LightGBM).
- Transfer learning. Предварительно обученные модели (ResNet, ViT) используются как «извлекатели признаков»: их промежуточные слои дают компактное представление входных данных, которое затем подаётся в новый классификатор.
