Учёные сравнили креативность AI и людей
Учёные из Гонконга и США провели крупнейшее сравнение креативности AI и людей. Результаты опубликованы в Nature Human Behaviour. Исследователи запустили 215 542 теста на восьми языковых моделях и 9198 людях.
Результаты тестов
GPT-4 Turbo получила 81.78 балла. Средний человек набирает 78–80 баллов. Получается, AI обошла большинство участников. Claude 3.5 Sonnet показала 80.01 балла. Китайская Ernie 4.0 набрала только 76.17.
Но картина меняется при взгляде на верхние результаты. Лучшие 10% людей обогнали лучшие 10% ответов GPT-4 Turbo. Разница статистически значима с показателем p < 0.001.
Методика тестирования
Тест Divergent Association Task требовал назвать 10 максимально разных существительных. Креативность оценивали через семантическую дистанцию между словами. Никаких субъективных оценок — только алгоритм.
Выводы учёных
Ключевое отличие нашли в распределении результатов. У людей высокая дисперсия — от слабых до выдающихся ответов. Модели стабильно держатся в середине. Люди также генерируют больше уникальных слов. AI повторяет одни и те же варианты вроде happiness и freedom.
Авторы назвали поведение моделей креативной мимикрией. LLM не понимают смысл, а манипулируют статистикой. Они либо достают редкие слова из базы, либо используют параметр температуры для случайности.
Вывод учёных практичен. LLM годятся для рутинных креативных задач. Они быстро выводят на средний уровень. Но прорывные идеи остаются за людьми — они создают редкие скачки качества.
```