Векторное пространство (Vector Space)
Математическая структура, используемая в машинном обучении и нейронных сетях для представления данных в виде векторов, что позволяет выполнять над ними алгебраические операции и анализировать их взаимосвязи.
В контексте ИИ и ML векторное пространство служит фундаментом для работы с данными: тексты, изображения, звуковые сигналы и прочие типы информации преобразуются в векторные представления, с которыми могут работать алгоритмы. Это даёт возможность измерять сходства между объектами, кластеризовать их, классифицировать и т. д.
Аналогия из бытового мира
Представьте библиотеку, где каждая книга — это объект данных (например, текст). Вместо того чтобы работать с полным текстом книги, мы создаём «векторную карточку» для каждой книги, где каждая координата отражает определённый признак: количество слов определённой тематики, эмоциональную окраску, длину и т. п. Все эти карточки образуют векторное пространство, где можно сравнивать книги, искать похожие по признакам, группировать их по жанрам и т. д., оперируя только числовыми векторами, а не полными текстами.
Исторический контекст
Понятие векторного пространства уходит корнями в линейную алгебру, но его применение в ИИ активно развивалось с ростом интереса к методам обработки естественного языка (NLP) и компьютерному зрению в 1990–2000‑х годах. Важным этапом стало появление методов векторного представления слов, таких как Word2Vec (2013, Tomas Mikolov и коллеги из Google), которые продемонстрировали, что семантические отношения между словами можно эффективно кодировать в виде векторов в многомерном пространстве. Позже появились модели GloVe (2014, Stanford NLP Group) и BERT (2018, Google), которые расширили и углубили подходы к векторным представлениям текста.
Смежные понятия и различия
- Евклидово пространство — частный случай векторного пространства с определённой метрикой (расстоянием). В ML часто используют именно евклидовы метрики для сравнения векторов, но векторное пространство в целом может быть оснащено и другими метриками (например, косинусной мерой сходства).
- Пространство признаков (feature space) — тесно связано с векторным пространством, но акцентирует внимание на наборе признаков, по которым описываются объекты. Векторное пространство — более общее понятие, охватывающее способы представления и манипуляции данными.
- Латентное пространство (latent space) — подпространство, в которое данные проецируются с помощью моделей (например, автоэнкодеров), чтобы выделить скрытые, наиболее значимые признаки. Это частный случай векторного пространства, специфичный для задач генерации и сжатия данных.
Примеры использования
- Word2Vec, GloVe — модели, создающие векторные представления слов, где близкие по смыслу слова имеют близкие векторы.
- BERT, GPT — трансформеры, использующие векторные представления токенов для обработки и генерации текста.
- Компьютерное зрение — изображения преобразуются в векторы признаков (например, с помощью CNN), которые затем используются для классификации, детекции объектов и т. д.
- Рекомендательные системы — пользователи и товары представляются в виде векторов в общем пространстве, что позволяет находить наиболее подходящие рекомендации на основе сходства векторов.
- Кластеризация и визуализация — методы вроде t-SNE и UMAP проецируют многомерные векторные представления в 2D/3D пространство для визуализации и анализа структуры данных.
