Векторная модель (Vector Model)
Векторная модель — это способ представления данных в виде векторов (упорядоченных наборов числовых значений) в многомерном пространстве, используемый в машинном обучении и обработке естественного языка для количественного описания объектов, слов, документов или иных сущностей.
В контексте ИИ и ML векторная модель позволяет перевести «нечисловой» мир (текст, изображения, звуки) в форму, понятную алгоритмам: вместо слов — векторы, вместо смыслов — геометрические расстояния между точками в пространстве. Ключевая идея: семантическая близость объектов отражается близостью их векторов (малой дистанцией в пространстве).
Представьте библиотеку, где каждая книга представлена не текстом, а точкой на огромной карте. Книги на схожие темы располагаются рядом, а на далёкие — на противоположных концах карты. Векторная модель делает примерно то же самое с текстом: превращает слова и документы в «точки на карте», где расстояние между ними отражает смысловую близость.
Исторический контекст
Идея векторного представления данных восходит к моделям информационного поиска 1970‑х годов (например, векторная модель документа в IR — Information Retrieval). В 1990‑е появились первые попытки использовать векторы для семантики (LSA — Latent Semantic Analysis). Прорыв произошёл в 2013 году с выходом word2vec (разработан в Google), который показал, что векторы слов могут отражать не только синонимию, но и сложные семантические отношения (король – мужчина + женщина ≈ королева). С тех пор векторные модели стали основой NLP и многих других областей ML.
Смежные понятия и отличия
- One-hot encoding — тоже способ представить слова векторами, но крайне разрежёнными и без семантической информации (каждое слово — единичный вектор длины словаря). Векторная модель (например, word2vec или BERT) даёт плотные векторы с семантикой.
- Встраивания (embeddings) — по сути, то же, что векторная модель для слов/токенов; термин чаще используется в контексте нейросетей (например, «токен‑эмбеддинги» в трансформерах).
- Векторное пространство признаков — более общее понятие; векторная модель — частный случай, где векторы несут семантику или иную интерпретируемую структуру.
Примеры использования
- word2vec, GloVe — классические модели для получения векторов слов.
- BERT, Sentence-BERT — нейросетевые модели, генерирующие векторы токенов и предложений.
- FAISS, Annoy — библиотеки для поиска ближайших векторов (например, поиск похожих документов по векторному представлению).
- Рекомендательные системы — векторы пользователей и товаров для расчёта сходства.
- Компьютерное зрение — векторы признаков изображений (например, выходы сверточных сетей).
- Кластеризация и визуализация — t‑SNE, UMAP для проецирования векторных представлений в 2D/3D.
