Исследование MIT: большие языковые модели могут ошибаться из‑за чрезмерной опоры на синтаксис

Как LLM учатся неправильным урокам

Исследование Массачусетского технологического института (MIT) показало, что большие языковые модели (LLM) иногда усваивают неверные закономерности. Вместо того чтобы отвечать на запрос, опираясь на предметные знания, модель может использовать грамматические шаблоны, выученные в процессе обучения. Это способно привести к неожиданным сбоям при решении новых задач.

Учёные обнаружили, что модели могут ошибочно связывать определённые структуры предложений с конкретными темами. В результате LLM может дать убедительный ответ, распознав знакомые формулировки, а не поняв суть вопроса.

Эксперименты и результаты

В ходе экспериментов исследователи выяснили, что даже самые мощные LLM подвержены этой ошибке. Недостаток может снизить надёжность моделей, используемых для:

обработки запросов клиентов;
суммирования клинических записей;
составления финансовых отчётов.

Кроме того, это создаёт риски для безопасности: злоумышленник может воспользоваться уязвимостью, чтобы заставить LLM генерировать вредоносный контент — даже если у модели есть защитные механизмы.

Механизм ошибки

LLM обучаются на огромных объёмах текста из интернета, усваивая взаимосвязи между словами и фразами. В предыдущих работах учёные выяснили, что модели запоминают шаблоны частей речи, часто встречающиеся вместе в обучающих данных. Эти шаблоны называют синтаксическими шаблонами.

Например, модель может усвоить, что вопрос «Где находится Париж?» имеет структуру «наречие / глагол / имя собственное / глагол». Если в обучающих данных много примеров такой конструкции, LLM может связать этот синтаксический шаблон с вопросами о странах.

В результате на бессмысленный вопрос с той же грамматической структурой — например, «Быстро сядь Париж облачный?» — модель может ответить «Франция», хотя ответ не имеет смысла.

Методы исследования

Исследователи протестировали феномен с помощью синтетических экспериментов:

В обучающих данных для каждого домена использовался только один синтаксический шаблон.
Затем учёные заменяли слова в вопросах на синонимы, антонимы или случайные слова, сохраняя синтаксис.
В каждом случае LLM часто давали правильный ответ, даже если вопрос был бессмысленным.
Когда структуру вопроса меняли, используя новый шаблон частей речи, модели часто ошибались — даже если смысл вопроса оставался тем же.

Этот подход проверили на предварительно обученных LLM, таких как GPT‑4 и Llama. Результаты показали, что усвоенное поведение существенно снижает их производительность.

Риски и защита

Учёные также изучили, можно ли использовать эту уязвимость, чтобы получить от LLM вредоносные ответы — даже если модель специально обучена отказывать в таких запросах.

Оказалось, что, сформулировав вопрос с использованием синтаксического шаблона, который модель ассоциирует с «безопасным» набором данных (не содержащим вредоносной информации), можно обойти политику отказа и заставить модель генерировать опасный контент.

«Из этой работы мне ясно, что нам нужны более надёжные механизмы защиты от уязвимостей безопасности в LLM. В этой статье мы выявили новую уязвимость, возникающую из‑за того, как LLM изучают язык. Поэтому нам нужно разработать новые механизмы защиты, основанные на том, как LLM осваивают язык, а не просто ad hoc‑решения для различных уязвимостей», — говорит Винит Суриякумар (Vinith Suriyakumar), один из авторов исследования.

Дальнейшие шаги

Хотя в этой работе исследователи не изучали стратегии смягчения последствий, они разработали метод автоматического бенчмаркинга. Он позволяет оценить, насколько LLM полагается на неверные корреляции между синтаксисом и доменом. Этот тест может помочь разработчикам заранее устранить недостаток, снизив риски безопасности и повысив производительность.

В будущем учёные планируют:

изучить потенциальные стратегии смягчения последствий (например, расширение обучающих данных за счёт разнообразных синтаксических шаблонов);
исследовать это явление в моделях рассуждения — особых типах LLM, предназначенных для решения многоэтапных задач.

Работа частично финансировалась Bridgewater AIA Labs Fellowship, Национальным научным фондом, фондом Гордона и Бетти Мур, наградой Google Research Award и Schmidt Sciences.

Источник: news.mit.edu