Сетевая архитектура (Network Architecture)
Структура и организация компонентов нейронной сети, определяющая способ соединения нейронов, количество слоёв, типы операций и поток данных между элементами модели.
Представьте, что нейронная сеть — это здание, а сетевая архитектура — его проект. Как архитектурный план задаёт расположение комнат, коридоров, лестниц и несущих конструкций, так и сетевая архитектура определяет «планировку» модели: где будут находиться входные данные, как они будут преобразовываться в скрытых слоях и как будет формироваться итоговый результат на выходе. От «проекта» зависит, насколько эффективно здание (сеть) будет выполнять свою функцию.
История развития сетевых архитектур
История развития сетевых архитектур тесно связана с эволюцией искусственного интеллекта. Первые модели, такие как перцептрон Фрэнка Розенблатта (1958 г.), имели крайне простую архитектуру — всего один слой нейронов. В 1980‑х годах возродился интерес к многослойным перцептронам (MLP), что дало толчок к развитию более сложных архитектур. Прорыв произошёл в 2012 году, когда архитектура сверточных нейронных сетей (CNN) AlexNet продемонстрировала рекордные результаты в задаче классификации изображений на соревновании ImageNet, открыв эру глубокого обучения.
Отличия сетевой архитектуры от других понятий
Важно отличать сетевую архитектуру от:
- гиперпараметров — настроек, которые задаются до обучения (например, скорость обучения, размер батча); архитектура определяет структуру, а гиперпараметры — процесс обучения;
- весов модели — числовых параметров, которые настраиваются в ходе обучения; архитектура задаёт где и как эти веса будут использоваться, но не их конкретные значения.
Примеры сетевых архитектур и их применения
- Сверточные нейронные сети (CNN) — используются для обработки изображений (например, ResNet, VGG, Inception). Их архитектура специально адаптирована для выявления пространственных паттернов.
- Рекуррентные нейронные сети (RNN) — подходят для работы с последовательными данными (текст, речь), например, LSTM и GRU. Их архитектура включает обратные связи, позволяющие учитывать контекст.
- Трансформеры — революционная архитектура для обработки последовательностей (например, BERT, GPT). Отличается механизмом внимания (attention), который позволяет модели «фокусироваться» на важных частях входных данных.
- Генеративно‑состязательные сети (GAN) — состоят из двух подсетей (генератор и дискриминатор), конкурирующих друг с другом. Пример: StyleGAN для генерации фотореалистичных изображений.
- Автоэнкодеры — архитектуры для обучения представлений данных через сжатие и восстановление. Используются для шумоподавления, уменьшения размерности и др.
