Задача сегментации (Segmentation Task)
Задача в области машинного обучения и компьютерного зрения, заключающаяся в разделении изображения на отдельные области (сегменты) с присвоением каждому пикселю метки, указывающей на его принадлежность к определённому классу или объекту.
Основная суть сегментации — выделить на изображении смысловые части: объекты, их границы, области фона и т. д. Это позволяет модели «понимать» визуальные данные на более глубоком уровне, чем простая классификация всего изображения целиком.
Представьте, что вы раскрашиваете чёрно‑белый комикс: нужно аккуратно закрасить каждый персонаж, предмет и элемент фона своим цветом, не выходя за контуры. Сегментация в нейросетях делает примерно то же самое — «раскрашивает» пиксели изображения, присваивая им метки классов.
Исторический контекст
Задача сегментации активно исследуется с 1970–1980‑х годов, когда начали развиваться методы обработки изображений. Однако настоящий прорыв произошёл с появлением глубоких свёрточных нейронных сетей (CNN) в 2010‑х. Ключевой вехой стала архитектура Fully Convolutional Networks (FCN), представленная в 2015 году Джонатаном Лонгом, Эвансом Шелхамером и Тревором Далли. FCN позволила выполнять сегментацию «в один проход», без скользящего окна, что резко повысило скорость и качество. Позже появились такие знаковые архитектуры, как U‑Net (2015, Оливер Роннебергер и др.) для биомедицинской сегментации и Mask R‑CNN (2017, Кайминг Хе и др.) для инстанс‑сегментации.
Смежные понятия и различия
- Классификация изображений — определяет класс всего изображения целиком (например, «на фото кошка»), а не размещает метки по пикселям.
- Детекция объектов — находит ограничивающие рамки (bounding boxes) вокруг объектов, но не выделяет их точную форму на уровне пикселей.
- Семантическая сегментация — присваивает каждому пикселю метку класса (например, «дорога», «небо», «автомобиль»), но не различает отдельные экземпляры одного класса.
- Инстанс‑сегментация — не только маркирует классы, но и различает отдельные объекты одного класса (например, «автомобиль 1», «автомобиль 2»).
Примеры использования
- Медицинская визуализация: сегментация опухолей на МРТ/КТ, выделение клеток на микроскопических снимках (U‑Net).
- Автономные транспортные средства: разделение дороги, тротуаров, пешеходов, других машин на кадрах с камер (FCN, DeepLab).
- Дистанционное зондирование: выделение зданий, лесов, водоёмов на спутниковых снимках.
- Дополненная реальность: точное отделение фигуры человека от фона для наложения эффектов.
Популярные архитектуры и фреймворки
- U‑Net (биомедицина);
- FCN (общая семантическая сегментация);
- DeepLab (с использованием атrous convolution);
- Mask R‑CNN (инстанс‑сегментация);
- Segment Anything Model (SAM) от Meta (2023) — модель нулевого шота для сегментации любых объектов.
