OpenAI и Anthropic провели совместное тестирование безопасности ИИ-моделей
Две ведущие мировые лаборатории в области искусственного интеллекта — OpenAI и Anthropic — временно открыли доступ к своим тщательно охраняемым ИИ-моделям для проведения совместного тестирования безопасности. Это редкий пример межлабораторного сотрудничества в условиях острой конкуренции.
Цель тестирования — выявить слабые места во внутренних оценках каждой компании и продемонстрировать, как ведущие ИИ-компании могут сотрудничать в области безопасности и согласования в будущем.
«Возникает более широкий вопрос о том, как индустрия устанавливает стандарты безопасности и сотрудничества, несмотря на миллиарды долларов инвестиций, а также борьбу за таланты, пользователей и лучшие продукты», — сказал сооснователь OpenAI Войцех Заремба в интервью TechCrunch.
Совместное исследование по безопасности, опубликованное обеими компаниями в среду, проводится на фоне гонки вооружений между ведущими ИИ-лабораториями, такими как OpenAI и Anthropic. В этой гонке миллиардные ставки на дата-центры и компенсационные пакеты в размере 100 миллионов долларов для ведущих исследователей стали обычным делом.
Для проведения исследования OpenAI и Anthropic предоставили друг другу специальный API-доступ к версиям своих ИИ-моделей с меньшим количеством защитных мер (OpenAI отмечает, что GPT-5 не тестировался, так как ещё не был выпущен). Однако вскоре после проведения исследования Anthropic отозвала API-доступ для другой команды OpenAI, заявив, что OpenAI нарушила условия обслуживания, которые запрещают использовать Claude для улучшения конкурирующих продуктов.
Заремба утверждает, что эти события не связаны, и ожидает, что конкуренция останется жёсткой, даже если команды по безопасности ИИ будут пытаться сотрудничать. Николас Карлини, исследователь безопасности в Anthropic, говорит TechCrunch, что хотел бы и в будущем разрешать исследователям безопасности из OpenAI получать доступ к моделям Claude.
«Мы хотим расширять сотрудничество везде, где это возможно, в области безопасности, и стараться, чтобы это происходило более регулярно», — сказал Карлини.
Один из наиболее ярких результатов исследования связан с тестированием галлюцинаций. Модели Anthropic Claude Opus 4 и Sonnet 4 отказывались отвечать на до 70 % вопросов, когда они не были уверены в правильном ответе, вместо этого предлагая ответы вроде «У меня нет надёжной информации». В то же время модели OpenAI o3 и o4-mini реже отказывались отвечать на вопросы, но демонстрировали гораздо более высокий уровень галлюцинаций, пытаясь ответить на вопросы, когда у них не было достаточно информации.
Заремба считает, что правильный баланс, вероятно, находится где-то посередине — модели OpenAI должны чаще отказываться отвечать на вопросы, в то время как модели Anthropic, вероятно, должны чаще пытаться давать ответы.
Одним из наиболее насущных вопросов безопасности, связанных с ИИ-моделями, стала лесть — склонность ИИ-моделей подкреплять негативное поведение пользователей, чтобы угодить им.
В исследовательском отчёте Anthropic компания привела примеры «экстремальной» лести в GPT-4.1 и Claude Opus 4, когда модели сначала сопротивлялись психотическому или маниакальному поведению, но позже подтверждали некоторые тревожные решения. В других ИИ-моделях от OpenAI и Anthropic исследователи наблюдали более низкий уровень лести.
Во вторник родители 16-летнего мальчика, Адама Рейна, подали иск против OpenAI, утверждая, что ChatGPT (конкретно версия на базе GPT-4o) дал их сыну совет, который способствовал его самоубийству, вместо того чтобы отговорить его от суицидальных мыслей. Иск предполагает, что это может быть последним примером того, как лесть чат-ботов с ИИ приводит к трагическим последствиям.
«Трудно представить, насколько это тяжело для их семьи», — сказал Заремба, когда его спросили об этом инциденте. «Было бы печальной историей, если бы мы создали ИИ, который решает все эти сложные задачи на уровне PhD, изобретает новую науку, и в то же время у нас есть люди с проблемами психического здоровья как следствие взаимодействия с ним. Это антиутопическое будущее, которое меня не вдохновляет».
В своём блоге OpenAI сообщает, что значительно улучшила лесть своих чат-ботов с ИИ в GPT-5 по сравнению с GPT-4o, утверждая, что модель лучше реагирует на чрезвычайные ситуации, связанные с психическим здоровьем.
В будущем Заремба и Карлини хотят, чтобы Anthropic и OpenAI больше сотрудничали в области тестирования безопасности, изучали больше тем и тестировали будущие модели. Они надеются, что другие ИИ-лаборатории последуют их примеру.
