Широта контекста (Context Width)

Что такое Широта контекста (Context Width)?

Характеристика модели обработки естественного языка (NLP), отражающая объём текстовой информации (количество токенов, предложений, абзацев), которую модель способна учитывать при анализе и генерации текста.

В контексте нейросетей и NLP широта контекста определяет, насколько «далеко назад» модель «смотрит» при принятии решения о следующем слове, фразе или смысловом блоке. Чем шире контекст, тем больше предшествующей информации модель может использовать для понимания нюансов смысла, отсылок, смены темы и т. д. Это критически важно для связности, логичности и релевантности генерируемого текста.

Аналогия из бытового мира

Представьте, что вы ведёте долгий разговор с другом. Если вы помните только последнюю фразу собеседника — ваш ответ будет поверхностным и, возможно, неуместным. Но если вы держите в голове весь ход беседы, ключевые моменты и эмоции — вы сможете поддержать диалог глубже, уместнее, интереснее. Широта контекста в NLP — это «объём памяти» модели о предшествующем тексте, от которого зависит качество её «речи».

Исторический контекст

Ранние модели NLP (например, n‑gram модели) работали с крайне узким контекстом — всего 2–5 слов. С появлением рекуррентных нейронных сетей (RNN) и LSTM в 1990–2000‑х годах контекст расширился до десятков слов, но всё ещё были проблемы с «забыванием» далёких зависимостей. Прорыв произошёл с появлением трансформеров (Transformer, 2017, Vaswani et al.) и моделей типа BERT, GPT: они используют механизм внимания (attention), позволяющий учитывать сотни и тысячи токенов. Современные модели (например, GPT‑4, Claude 3) поддерживают контекстные окна в 100 000+ токенов, что позволяет им работать с целыми книгами или длинными диалогами.

Смежные понятия

  • Глубина контекста — иногда используется как синоним, но чаще подчёркивает не столько объём, сколько уровень семантического анализа (например, понимание метафор, иронии в рамках данного контекста).
  • Длина последовательности — технический параметр, ограничивающий максимальное число токенов на входе/выходе модели; определяет «потолок» широты контекста.
  • Окно контекста — конкретный фрагмент текста, который модель обрабатывает в данный момент (может быть меньше максимальной длины последовательности).

Примеры использования

  • В чат‑ботах (например, ChatGPT) широкая контекстная память позволяет поддерживать долгие диалоги, помнить предыдущие вопросы и ответы, избегать противоречий.
  • В суммаризации длинных документов (например, научных статей, юридических контрактов) модель должна «видеть» весь текст, чтобы выделить ключевые идеи без потери смысла.
  • В машинном переводе широкая контекстная память помогает учитывать референции и согласования на уровне абзацев и разделов.

Популярные реализации

  • GPT‑4 (контекстное окно до 128 000 токенов).
  • Claude 3 Opus (до 200 000 токенов).
  • Llama 3 (до 8 000 токенов в базовой версии, есть расширения до 100 000+).
  • Gemini 1.5 Pro (до 1 000 000 токенов в экспериментальных версиях).

Авторизация