Визуальный поиск (Visual Search)
Что такое Визуальный поиск (Visual Search)?
Технология в области искусственного интеллекта и компьютерного зрения, позволяющая находить объекты, изображения или смысловые паттерны по визуальному запросу (изображению или эскизу) вместо текстового описания.
Аналогия из бытового мира
Представьте, что вы пришли в магазин одежды, но не можете вспомнить название нужной модели. Вместо того чтобы описывать её словами, вы показываете продавцу фото из телефона — и он сразу находит похожую вещь. Визуальный поиск работает примерно так же: вы «показываете» системе картинку, а она находит похожие или идентичные объекты в своей базе.
Исторический контекст
Идея поиска по изображениям возникла ещё в 1990‑х годах, когда исследователи начали разрабатывать алгоритмы для извлечения визуальных признаков. Однако настоящий прорыв произошёл в 2010‑х годах благодаря:- развитию свёрточных нейронных сетей (работы Я. Лекуна, К. Симняка, Дж. Хинтона и др.);
- появлению больших размеченных датасетов (например, ImageNet);
- росту вычислительной мощности GPU.
Смежные понятия и различия
- Текстовый поиск — ищет по ключевым словам, а не по визуальным признакам.
- Распознавание образов — фокусируется на идентификации конкретного объекта (например, лица или цифры), тогда как визуальный поиск ищет похожие изображения в большой базе.
- Семантический поиск — учитывает смысловые связи между объектами, но может опираться и на текст, и на изображения; визуальный поиск строго ориентирован на визуальные данные.
Примеры использования
- поисковые системы (Google Images, Яндекс Картинки) — позволяют искать изображения по загруженной картинке;
- маркетплейсы и онлайн‑магазины (Amazon, Wildberries) — функция «найти похожий товар» по фото;
- социальные сети (Pinterest) — поиск идей и контента по изображению;
- системы безопасности и видеонаблюдения — поиск лиц или объектов в архивах записей;
- медицинские системы — поиск схожих случаев по медицинским снимкам (рентген, МРТ).
Популярные реализации и архитектуры
- CNN‑архитектуры (ResNet, VGG, Inception) для извлечения признаков;
- алгоритмы поиска ближайших соседей (k‑NN, FAISS) для сопоставления векторов признаков;
- сервисы на базе облачных платформ (Google Cloud Vision, Amazon Rekognition).
