Учёные обнаружили уязвимость нейросетей в виде «поэтических атак»
Вредоносные запросы, поданные в виде стихов, заставляют искусственный интеллект (ИИ) на 62% чаще нарушать правила — к таким выводам пришли учёные, проведя эксперимент с 25 языковыми моделями. При этом поэтическая форма одинаково легко обходила самые разные фильтры нейросетей — в том числе для защиты от кибератак, манипуляций и нарушений приватности.
Суть таких атак сводится к маскировке изначально опасных смыслов за образами и метафорами. Этот метод проверки безопасности нейросетей оказался на удивление эффективным: авторские стихи дали более 62% успешных обходов защит. В случае с 1 200 вредоносными подсказками, автоматически преобразованными в стихотворную форму, этот показатель оказался немного ниже — около 43%. Важно отметить, что прозаические аналоги таких подсказок показывали в разы более низкие показатели.
Особенно уязвимыми перед «поэтическими атаками» оказались нейросети DeepSeek, а также модели от Google, включая Gemini 2.5 Pro, которая «сломалась» на всех 20 образцах вредоносных подсказок в стихах. Некоторые нейросети в ходе эксперимента выдавали опасные ответы в более чем 90% случаев.
Защитные механизмы работают преимущественно на уровне семантического анализа «типичных» вредоносных запросов, говорит в беседе с «Известиями» ведущий специалист отдела по работе с уязвимостями ИС «Бастион» Сергей Зыбнев. Однако, когда запрос меняет форму — например, становится стихотворением — классификаторы безопасности теряют способность корректно идентифицировать угрозу.
По мнению Сергея Зыбнева, уязвимость ИИ перед «поэтическими атаками» является серьёзной, но не критической — она требует целенаправленных усилий атакующего и не масштабируется автоматически. Однако сам факт её существования показывает, что сегодня индустрия нейросетей находится на начальном этапе построения надёжных защитных механизмов для них.
Исследование, проведённое итальянскими учёными, демонстрирует фундаментальный недостаток современных больших языковых моделей (LLM). Продукты Open AI и Anthropic оказались устойчивее, но и среди них не обошлось без провалов. В частности, линейка GPT-5 показала до 10% неудачных ответов.
Какие ещё необычные способы обхода защиты ИИ встречались ранее? Различные стратегии атак и взлома LLM обнаруживаются экспертами регулярно. Стратегия с «поэтическими атаками» интересна тем, что выглядит оригинально со стороны и относительно просто воспроизводится.
Как защититься от атак на ИИ при помощи стихов и других уловок? На сегодняшнем уровне развития LLM говорить про полную защиту нейросетей от взлома, к сожалению, не приходится. Однако можно существенно снизить риски, если сфокусироваться не на статической фильтрации запросов, а на форме запроса и понимании смысла.
```