Anthropic использовала Pokémon для тестирования новой модели ИИ

Компания оснастила модель базовыми функциями памяти, ввода пикселей экрана и вызовами функций для нажатия кнопок и навигации по экрану, что позволило ей непрерывно играть в Pokémon. Уникальной особенностью Claude 3.7 Sonnet является её способность к «расширенному мышлению». Как и o3-mini от OpenAI и R1 от DeepSeek, Claude 3.7 Sonnet может «решать» сложные задачи, применяя больше вычислений и затрачивая больше времени. Это, по-видимому, пригодилось в Pokémon Red. По сравнению с предыдущей версией Claude, Claude 3.0 Sonnet, которая не смогла покинуть город Паллет-Таун, где начинается история, Claude 3.7 Sonnet успешно сразилась с тремя лидерами спортзала Pokémon и выиграла их значки. Неясно, сколько вычислений потребовалось Claude 3.7 Sonnet для достижения этих результатов и сколько времени заняло каждое действие. Anthropic только сообщила, что модель выполнила 35 000 действий, чтобы добраться до последнего лидера спортзала — Сёрджа. Вероятно, вскоре какой-нибудь предприимчивый разработчик это выяснит. Pokémon Red скорее является игрушечным бенчмарком, чем чем-то серьёзным. Однако существует долгая история использования игр для тестирования моделей ИИ. Только за последние несколько месяцев появилось множество новых приложений и платформ для тестирования способностей моделей играть в игры, начиная от Street Fighter и заканчивая Pictionary.

Авторизация