Широта контекста (Context Width)
Что такое Широта контекста (Context Width)?
Характеристика модели обработки естественного языка (NLP), отражающая объём текстовой информации (количество токенов, предложений, абзацев), которую модель способна учитывать при анализе и генерации текста.
Аналогия из бытового мира
Представьте, что вы ведёте долгий разговор с другом. Если вы помните только последнюю фразу собеседника — ваш ответ будет поверхностным и, возможно, неуместным. Но если вы держите в голове весь ход беседы, ключевые моменты и эмоции — вы сможете поддержать диалог глубже, уместнее, интереснее. Широта контекста в NLP — это «объём памяти» модели о предшествующем тексте, от которого зависит качество её «речи».
Исторический контекст
Ранние модели NLP (например, n‑gram модели) работали с крайне узким контекстом — всего 2–5 слов. С появлением рекуррентных нейронных сетей (RNN) и LSTM в 1990–2000‑х годах контекст расширился до десятков слов, но всё ещё были проблемы с «забыванием» далёких зависимостей. Прорыв произошёл с появлением трансформеров (Transformer, 2017, Vaswani et al.) и моделей типа BERT, GPT: они используют механизм внимания (attention), позволяющий учитывать сотни и тысячи токенов. Современные модели (например, GPT‑4, Claude 3) поддерживают контекстные окна в 100 000+ токенов, что позволяет им работать с целыми книгами или длинными диалогами.Смежные понятия
- Глубина контекста — иногда используется как синоним, но чаще подчёркивает не столько объём, сколько уровень семантического анализа (например, понимание метафор, иронии в рамках данного контекста).
- Длина последовательности — технический параметр, ограничивающий максимальное число токенов на входе/выходе модели; определяет «потолок» широты контекста.
- Окно контекста — конкретный фрагмент текста, который модель обрабатывает в данный момент (может быть меньше максимальной длины последовательности).
Примеры использования
- В чат‑ботах (например, ChatGPT) широкая контекстная память позволяет поддерживать долгие диалоги, помнить предыдущие вопросы и ответы, избегать противоречий.
- В суммаризации длинных документов (например, научных статей, юридических контрактов) модель должна «видеть» весь текст, чтобы выделить ключевые идеи без потери смысла.
- В машинном переводе широкая контекстная память помогает учитывать референции и согласования на уровне абзацев и разделов.
Популярные реализации
- GPT‑4 (контекстное окно до 128 000 токенов).
- Claude 3 Opus (до 200 000 токенов).
- Llama 3 (до 8 000 токенов в базовой версии, есть расширения до 100 000+).
- Gemini 1.5 Pro (до 1 000 000 токенов в экспериментальных версиях).
