Фокусировка внимания (Attention)
Что такое Фокусировка внимания (Attention)?
Механизм в нейронных сетях, позволяющий модели динамически выделять и усиливать наиболее значимые части входных данных при выполнении задачи.
Аналогия из бытового мира
Представьте, что вы читаете книгу и готовитесь к экзамену. Вы не вчитываетесь одинаково внимательно в каждую строчку: на одних абзацах вы задерживаетесь дольше, подчёркиваете ключевые мысли, а другие пробегаете глазами бегло. Механизм внимания в нейросетях работает похоже: он «решает», на какие части входной последовательности стоит «обратить больше внимания», а какие можно обработать поверхностно.
Исторический контекст
Механизм внимания был предложен в 2014 году в работах по машинному переводу:
- статья Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau et al., 2014) ввела концепцию alignment model — модели, которая учится «выравнивать» слова исходного и целевого языков, выделяя важные связи;
- чуть позже в работе Effective Approaches to Attention-based Neural Machine Translation (Luong et al., 2015) были предложены упрощённые и более эффективные схемы внимания.
Прорыв произошёл в 2017 году с появлением архитектуры Transformer (Attention Is All You Need, Vaswani et al., 2017). В ней внимание стало единственным механизмом взаимодействия между элементами последовательности — без рекуррентных слоёв (RNN) или свёрток. Это дало мощный толчок развитию больших языковых моделей (LLM) и компьютерного зрения.
Смежные и сходные понятия
- Самовнимание (self‑attention) — частный случай механизма внимания, когда модель «смотрит» на разные части одной и той же последовательности (например, слова в предложении). В отличие от «обычного» внимания, где есть «запрос» из одного источника и «контекст» из другого, самовнимание работает внутри одного объекта.
- Механизм памяти (memory networks) — модели, явно хранящие и извлекающие информацию из внешней памяти. Внимание же не хранит данные, а динамически взвешивает входные элементы.
- Gating mechanisms (например, LSTM, GRU) — механизмы «ворот», регулирующие поток информации в рекуррентных сетях. В отличие от внимания, они не выделяют конкретные фрагменты последовательности, а скорее контролируют, что запомнить/забыть на каждом шаге.
Примеры использования
- Машинный перевод (Google Translate, DeepL) — модель «фокусируется» на соответствующих словах исходного языка при генерации каждого слова перевода.
- Суммирование текста (например, модели BART, T5) — внимание помогает выделить ключевые предложения и факты для краткого пересказа.
- Ответы на вопросы (QA-системы на базе BERT, RoBERTa) — модель «присматривается» к фрагментам текста, содержащим ответ.
- Компьютерное зрение (Vision Transformer, Swin Transformer) — внимание позволяет модели выделять значимые области изображения (например, объект на фоне).
- Речь и аудио (WaveNet, Tacotron) — внимание связывает фрагменты аудиосигнала с соответствующими фонетическими элементами.
Популярные реализации и модели
- Transformer (Vaswani et al., 2017);
- BERT (Devlin et al., 2018);
- GPT (OpenAI, начиная с GPT‑1 в 2018 году);
- T5 (Raffel et al., 2019);
- Vision Transformer (Dosovitskiy et al., 2020).
