OpenAI запускает GPT-4.5, долгожданную модель ИИ
Несмотря на свои размеры, OpenAI отмечает в официальном документе, что не считает GPT-4.5 передовой моделью.
Подписчики ChatGPT Pro, плана OpenAI за 200 долларов в месяц, получат доступ к GPT-4.5 в ChatGPT начиная с четверга в рамках исследовательского предварительного просмотра. Разработчики на платных тарифах API OpenAI также смогут использовать GPT-4.5 начиная с сегодняшнего дня. Что касается других пользователей ChatGPT, клиенты, подписавшиеся на ChatGPT Plus и ChatGPT Team, должны получить модель где-то на следующей неделе, сообщил представитель OpenAI изданию TechCrunch.
Отрасль затаила дыхание в ожидании Orion, который некоторые считают предвестником жизнеспособности традиционных подходов к обучению ИИ. GPT-4.5 была разработана с использованием той же ключевой техники — значительного увеличения объёма вычислительной мощности и данных на этапе предварительного обучения, называемого неконтролируемым обучением, — которую OpenAI использовала для разработки GPT-4, GPT-3, GPT-2 и GPT-1.
В каждом поколении GPT до GPT-4.5 масштабирование приводило к огромным скачкам производительности в разных областях, включая математику, письмо и кодирование. Действительно, OpenAI заявляет, что увеличенный размер GPT-4.5 дал ему «более глубокие знания о мире» и «более высокий эмоциональный интеллект». Однако есть признаки того, что выгоды от масштабирования данных и вычислений начинают снижаться. На нескольких тестах ИИ GPT-4.5 уступает новым моделям «рассуждения» ИИ от китайской компании DeepSeek, Anthropic и самой OpenAI.
Запуск GPT-4.5 также очень дорог, признаёт OpenAI — настолько дорог, что компания заявляет, что оценивает, стоит ли продолжать предоставлять GPT-4.5 в своём API в долгосрочной перспективе. Чтобы получить доступ к API GPT-4.5, OpenAI взимает с разработчиков 75 долларов за каждый миллион входных токенов (примерно 750 000 слов) и 150 долларов за каждый миллион выходных токенов. Для сравнения: GPT-4o стоит всего 2,50 доллара за каждый миллион входных токенов и 10 долларов за каждый миллион выходных токенов.
«Мы делимся GPT‐4.5 в качестве исследовательского предварительного просмотра, чтобы лучше понять его сильные и слабые стороны», — заявили в OpenAI в сообщении в блоге, которым поделились с TechCrunch. «Мы всё ещё изучаем, на что он способен, и нам не терпится увидеть, как люди будут использовать его способами, которых мы, возможно, не ожидали».
Смешанные результаты
OpenAI подчёркивает, что GPT-4.5 не предназначен для замены GPT-4o, рабочей лошадки компании, которая поддерживает большинство её API и ChatGPT. Хотя GPT-4.5 поддерживает такие функции, как загрузка файлов и изображений и инструмент Canvas в ChatGPT, в настоящее время ему не хватает таких возможностей, как поддержка реалистичного двустороннего голосового режима ChatGPT.
С одной стороны, GPT-4.5 более производителен, чем GPT-4o — и многие другие модели. На SimpleQA, тесте OpenAI, который проверяет модели ИИ на простых, фактических вопросах, GPT-4.5 превосходит GPT-4o и модели рассуждений OpenAI o1 и o3-mini с точки зрения точности. По данным OpenAI, GPT-4.5 реже галлюцинирует, чем большинство моделей, что, теоретически, означает, что он должен реже выдумывать что-то.
OpenAI не включила в список одну из своих наиболее эффективных моделей ИИ — deep research. Представитель OpenAI сообщил TechCrunch, что она не сообщала публично о производительности deep research на этом тесте и заявила, что это нерелевантное сравнение. Примечательно, что модель глубокого исследования Perplexity, которая показывает аналогичные результаты на других тестах, как и deep research от OpenAI, превосходит GPT-4.5 на этом тесте фактической точности.
OpenAI также утверждает, что GPT-4.5 качественно превосходит другие модели в областях, которые тесты не охватывают, например, в способности понимать намерения человека. GPT-4.5 отвечает в более тёплом и естественном тоне, утверждает OpenAI, и хорошо справляется с творческими задачами, такими как письмо и дизайн.
В одном неофициальном тесте OpenAI предложила GPT-4.5 и двум другим моделям, GPT-4o и o3-mini, создать единорога в SVG, формате для отображения графики, основанной на математических формулах и коде. GPT-4.5 была единственной моделью ИИ, которая создала что-то похожее на единорога.
В другом тесте OpenAI попросила GPT-4.5 и две другие модели ответить на запрос: «Я переживаю трудный период после провала теста». GPT-4o и o3-mini дали полезную информацию, но ответ GPT-4.5 был наиболее социально уместным.
«[Мы] с нетерпением ждём возможности получить более полное представление о возможностях GPT-4.5 благодаря этому выпуску», — написали в OpenAI в сообщении в блоге, — «потому что мы признаём, что академические тесты не всегда отражают полезность в реальном мире».
Оспорены законы масштабирования
OpenAI утверждает, что GPT-4.5 «находится на переднем крае того, что возможно при неконтролируемом обучении». Это может быть правдой, но ограничения модели также, по-видимому, подтверждают предположения экспертов о том, что «законы масштабирования» предварительного обучения больше не будут действовать.
Соучредитель OpenAI и бывший главный научный сотрудник Илья Суцкевер заявил в декабре, что «мы достигли пика данных» и что «неконтролируемое обучение в том виде, в каком мы его знаем, безусловно, закончится». Его комментарии перекликаются с опасениями, которые инвесторы, основатели и исследователи ИИ поделились с TechCrunch для статьи в ноябре.
В ответ на проблемы предварительного обучения отрасль, включая OpenAI, взяла на вооружение модели рассуждений, которым требуется больше времени, чем нерассуждающим моделям для выполнения задач, но которые, как правило, более последовательны. Увеличивая количество времени и вычислительных мощностей, которые модели рассуждений ИИ используют для «продумывания» проблем, лаборатории ИИ уверены, что они могут значительно улучшить возможности моделей.
OpenAI планирует в конечном итоге объединить свою серию моделей GPT с серией «o» рассуждений, начиная с GPT-5 позже в этом году. GPT-4.5, который, как сообщается, было невероятно дорого обучать, несколько раз откладывали, и он не оправдал внутренних ожиданий, может и не занять первое место в рейтинге ИИ-тестов. Но OpenAI, вероятно, видит в нём ступеньку к чему-то гораздо более мощному.
