Свёрточные слои (Convolutional Layers)

Что такое Свёрточные слои (Convolutional Layers)?

Ключевые компоненты свёрточных нейронных сетей (CNN), предназначенные для извлечения иерархических признаков из входных данных (чаще всего изображений) посредством применения операций свёртки с обучаемыми фильтрами (ядрами).

Основная часть

Свёрточные слои работают по принципу скользящего окна: небольшое ядро (фильтр) перемещается по входному изображению или карте признаков, выполняя поэлементное умножение и суммирование значений — так вычисляется отклик фильтра в каждой позиции. В результате формируется новая карта признаков, подчёркивающая определённые паттерны (например, края, текстуры, формы). Множество таких фильтров позволяет слою одновременно выявлять разные типы признаков.

Представьте, что вы рассматриваете фотографию через разноцветные цветные стёкла (синее, зелёное, красное). Каждое стекло «подсвечивает» определённые детали изображения: синее лучше выделяет холодные тона, красное — тёплые и т. д. Свёрточные фильтры работают похоже: каждый «подсвечивает» свои признаки (горизонтальные линии, вертикальные края и пр.), а сеть затем комбинирует эти «подсветки» для понимания целого.

Исторический контекст

Идея свёрточных сетей восходит к работе Яна Лекуна (Yann LeCun) и коллег в конце 1980‑х — начале 1990‑х годов. Их модель LeNet‑5 (1998) стала одной из первых успешных CNN для распознавания рукописных цифр. Прорыв произошёл в 2012 году с появлением AlexNet (разработчики: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton), который выиграл конкурс ImageNet с огромным отрывом, продемонстрировав мощь свёрточных слоёв для задач компьютерного зрения. С тех пор CNN стали стандартом в обработке изображений и видео.

Смежные понятия и отличия

Полносвязные слои (Dense) — в отличие от свёрточных, соединяют каждый нейрон предыдущего слоя с каждым нейроном текущего. Они не учитывают пространственную структуру данных и требуют гораздо больше параметров. Обычно используются после свёрточных слоёв для классификации.
Рекуррентные слои (RNN, LSTM) — ориентированы на последовательные данные (текст, временные ряды), а не на пространственные структуры. Они «помнят» предыдущие входные данные через скрытые состояния, тогда как свёрточные слои фокусируются на локальных паттернах в пространстве.

Заключительная часть

Примеры использования

В архитектуре AlexNet свёрточные слои извлекают низкоуровневые признаки (края, текстуры), которые затем обобщаются в более абстрактные понятия (формы, объекты).
В VGGNet используется множество небольших свёрточных фильтров (3×3) для построения глубокой сети.
В ResNet применяются «остаточные блоки» (residual blocks), включающие свёрточные слои и «короткие соединения» (skip connections) для обучения очень глубоких сетей.
В U‑Net свёрточные слои комбинируются с операциями понижения и повышения разрешения для задач сегментации изображений (например, выделение опухолей на медицинских снимках).