Механизм самовнимания (self-attention mechanism)

Что такое Механизм самовнимания (self-attention mechanism)?

Механизм самовнимания — это компонент нейронных сетей, позволяющий модели оценивать значимость различных частей входной последовательности при обработке данных, тем самым усиливая релевантные элементы и ослабляя менее значимые.

Основная часть

Механизм самовнимания (англ. self‑attention mechanism) — ключевая составляющая современных архитектур в обработке естественного языка (NLP) и не только. Его суть в том, что каждый элемент последовательности (например, слово в предложении) «обращает внимание» на все остальные элементы, вычисляя для них веса значимости. На основе этих весов формируется новое представление элемента, обогащённое контекстом всей последовательности.

Аналогия из бытового мира

Представьте, что вы читаете книгу и встречаете незнакомое слово. Чтобы понять его смысл, вы не ограничиваетесь только этим словом — вы оглядываетесь на соседние слова и предложения, ищете контекст. Механизм самовнимания работает похожим образом: он позволяет модели «оглянуться» на всю последовательность, чтобы лучше понять каждый её элемент.

Исторический контекст

Механизм самовнимания был представлен в 2017 году в статье «Attention Is All You Need» (Vaswani et al.), где авторы предложили архитектуру Transformer. Это стало революцией в NLP: до этого доминировали рекуррентные сети (RNN) и LSTM, которые обрабатывали последовательности последовательно, шаг за шагом. Transformer с самовниманием показал, что можно обрабатывать всю последовательность параллельно, что резко ускорило обучение и улучшило качество.

Смежные понятия и различия

Внимание (attention) — более общий механизм, где модель учится «обращать внимание» на определённые части входных данных (например, на части изображения или фрагменты текста). Самовнимание — частный случай внимания, где «запрос», «ключ» и «значение» берутся из одной и той же последовательности.
RNN/LSTM — рекуррентные архитектуры, обрабатывающие последовательности последовательно. В отличие от них, самовнимание обрабатывает всю последовательность сразу, что позволяет лучше улавливать долгосрочные зависимости.
Свёрточные сети (CNN) — тоже обрабатывают данные параллельно, но их «поле зрения» ограничено размером фильтра. Самовнимание же «видит» всю последовательность целиком.

Примеры использования

Transformer — архитектура, целиком построенная на механизме самовнимания. Легла в основу таких моделей, как BERT, GPT, T5.
BERT (Bidirectional Encoder Representations from Transformers) — модель, использующая самовнимание для понимания контекста слов в обоих направлениях (слева направо и справа налево).
GPT (Generative Pre‑trained Transformer) — модель, применяющая самовнимание для генерации текста, учитывая контекст предыдущих токенов.
Vision Transformer (ViT) — адаптация механизма самовнимания для задач компьютерного зрения, где изображение разбивается на «патчи», а самовнимание помогает моделировать взаимосвязи между ними.