Боксы предсказаний (Prediction Boxes)

Что такое Боксы предсказаний (Prediction Boxes)?

Боксы предсказаний — это прямоугольные области (рамки), которые нейронные сети генерируют на изображении для локализации объектов определённого класса в задачах компьютерного зрения.

Представьте, что вы играете в «поиск предметов» на картинке: вам нужно обвести кружком или рамкой все изображённые кошки, машины или дорожные знаки.

Боксы предсказаний работают примерно так же — только вместо человека рамку автоматически рисует нейросеть. Она «смотрит» на изображение и для каждого обнаруженного объекта выдаёт координаты прямоугольника, который максимально точно охватывает этот объект.

Историческое развитие

Исторически задача обнаружения объектов (object detection) развивалась от простых методов, таких как скользящее окно (sliding window) и алгоритмы на основе признаков (например, Haar-подобные признаки в детекторе Виолы — Джонса, 2001 г.), к глубоким свёрточным сетям. Прорыв произошёл с появлением архитектур типа R‑CNN (2014), Fast R‑CNN (2015), Faster R‑CNN (2015), а затем YOLO (You Only Look Once, 2016) и SSD (Single Shot MultiBox Detector, 2016). Эти модели научились не просто классифицировать изображения целиком, но и выдавать боксы предсказаний для множественных объектов на одном кадре.

Отличия от других методов

Важно отличать боксы предсказаний от:

  • Масок сегментации (segmentation masks) — они задают не прямоугольник, а точную пиксельную границу объекта (используется, например, в Mask R‑CNN).
  • Кейпоинтов (keypoints) — точек, отмечающих ключевые части объекта (например, суставы человека в pose estimation).
  • Базовых рамок (anchor boxes) — заранее заданных шаблонов рамок, которые сеть использует как «отправную точку» для предсказания финальных боксов (ключевой элемент в Faster R‑CNN, SSD).

Примеры использования

  • В автономных автомобилях боксы предсказаний помогают обнаруживать пешеходов, другие машины, светофоры и дорожные знаки.
  • В системах видеонаблюдения — выявлять подозрительные объекты или людей в заданной зоне.
  • В розничной торговле — считать товары на полках или отслеживать очереди.

Популярные модели

Популярные модели, работающие с боксами предсказаний:

  • Faster R‑CNN — использует сеть предложений регионов (RPN) для генерации боксов.
  • YOLO — предсказывает боксы и классы за один проход через сеть, что делает её очень быстрой.
  • SSD — применяет пирамидальную структуру признаков для обнаружения объектов разных масштабов.
  • RetinaNet — вводит функцию потерь Focal Loss для улучшения обнаружения редких классов.

Формат бокса предсказания

Типичный формат бокса предсказания — это кортеж из четырёх чисел: (x_min, y_min, x_max, y_max) (координаты верхнего левого и нижнего правого угла) или (x_center, y_center, width, height). К боксу также обычно прилагается оценка уверенности (confidence score) и метка класса (class label).

Авторизация