Модель с механизмом самовнимания (Self-Attention Model)

Что такое Модель с механизмом самовнимания (Self-Attention Model)?

Архитектура нейронной сети, в которой используется механизм самовнимания (self‑attention) для взвешенного учёта взаимосвязей между элементами входной последовательности при формировании выходных представлений.

Механизм самовнимания позволяет модели динамически определять, какие части входной последовательности наиболее важны для обработки текущего элемента. Вместо того чтобы обрабатывать элементы строго последовательно (как в рекуррентных сетях) или независимо (как в свёрточных), модель «смотрит» на всю последовательность целиком и вычисляет веса, отражающие значимость каждого элемента для текущего.

Аналогия

Представьте, что вы читаете текст и пытаетесь понять смысл предложения. Вы не просто читаете слова одно за другим — вы мысленно возвращаетесь к предыдущим словам, оцениваете их связь с текущим словом, обращаете особое внимание на ключевые термины. Механизм самовнимания работает примерно так же: он позволяет модели «возвращаться» к разным частям входной последовательности и взвешивать их значимость.

Исторический контекст

Механизм самовнимания был представлен в 2017 году в статье «Attention is All You Need» (Vaswani et al.), где была предложена архитектура Transformer. Это стало революционным шагом в обработке последовательностей, поскольку позволило отказаться от рекуррентных и свёрточных слоёв в пользу исключительно механизмов внимания. С тех пор модели на основе самовнимания (прежде всего, трансформеры) стали доминирующими в задачах обработки естественного языка (NLP), а затем распространились и на другие области — компьютерное зрение, аудио и т. д.

Смежные понятия и различия

Механизм внимания (attention) — более общее понятие, включающее не только самовнимание, но и «внешнее» внимание (например, когда модель переводит текст и «смотрит» на исходный текст). Самовнимание — это частный случай, где «запрос», «ключ» и «значение» берутся из одной и той же последовательности.
Рекуррентные нейронные сети (RNN) — обрабатывают последовательности последовательно, что ограничивает параллелизацию и затрудняет учёт долгосрочных зависимостей. Самовнимание позволяет обрабатывать всю последовательность параллельно и эффективно улавливать зависимости на больших расстояниях.
Свёрточные нейронные сети (CNN) — работают с локальными паттернами, тогда как самовнимание учитывает глобальные взаимосвязи между всеми элементами последовательности.

Примеры использования

Архитектура Transformer — базовая модель с самовниманием, лежащая в основе большинства современных NLP‑моделей.
BERT (Bidirectional Encoder Representations from Transformers) — модель для понимания текста, использующая двунаправленное самовнимание.
GPT (Generative Pre‑trained Transformer) — генеративная модель, основанная на декодере Transformer с самовниманием.
Vision Transformer (ViT) — адаптация трансформеров для задач компьютерного зрения, где самовнимание применяется к фрагментам изображения.
Wav2Vec — модели для обработки аудио, использующие самовнимание для анализа звуковых последовательностей.

Модель с механизмом самовнимания (Self-Attention Model)

Аналогия

Исторический контекст

Смежные понятия и различия

Примеры использования

Авторизация