Ограничения современных ИИ-агентов и роль сред обучения с подкреплением
На протяжении многих лет руководители крупных технологических компаний рассказывали о перспективах ИИ-агентов, которые смогут автономно использовать программные приложения для выполнения задач. Однако современные потребительские ИИ-агенты, такие как ChatGPT Agent от OpenAI или Comet от Perplexity, пока далеки от совершенства. Для повышения их надёжности могут потребоваться новые методы, которые индустрия только начинает открывать.
Один из таких методов — тщательное моделирование рабочих пространств, где агенты могут обучаться выполнению многоэтапных задач в средах обучения с подкреплением (RL). Аналогично тому, как размеченные наборы данных способствовали развитию ИИ в прошлом, среды RL начинают играть ключевую роль в разработке агентов.
Спрос на среды RL
Исследователи ИИ, основатели компаний и инвесторы сообщают TechCrunch, что ведущие ИИ-лаборатории требуют всё больше сред RL. Появилось множество стартапов, стремящихся удовлетворить этот спрос. Среди них — Mechanize и Prime Intellect.
«Все крупные ИИ-лаборатории создают среды RL собственными силами, — говорит Дженнифер Ли, генеральный партнёр Andreessen Horowitz. — Но создание таких наборов данных — очень сложная задача, поэтому лаборатории также рассматривают сторонних поставщиков, которые могут создавать высококачественные среды и проводить оценки. Все следят за этим направлением».
Крупные компании, занимающиеся разметкой данных, такие как Mercor и Surge, также инвестируют в среды RL, чтобы не отставать от отраслевых тенденций. По данным The Information, лидеры Anthropic обсуждают возможность потратить более 1 миллиарда долларов на среды RL в следующем году.
Что такое среда RL?
По своей сути среды RL — это тренировочные площадки, которые имитируют действия ИИ-агента в реальном программном приложении. Один из основателей описал их создание как «создание очень скучной видеоигры».
Например, среда может имитировать браузер Chrome и поручить ИИ-агенту купить пару носков на Amazon. Агент оценивается по результатам и получает сигнал вознаграждения при успешном выполнении задачи. Однако даже такая простая задача может оказаться непростой для ИИ-агента. Он может запутаться в выпадающих меню веб-страницы или купить слишком много носков.
Конкуренция на рынке
Компании, занимающиеся разметкой данных, такие как Scale AI, Surge и Mercor, стремятся создать среды RL. У этих компаний больше ресурсов, чем у многих стартапов, а также тесные связи с ИИ-лабораториями.
CEO Surge Эдвин Чен сообщил TechCrunch о значительном росте спроса на среды RL в ИИ-лабораториях. Mercor, стартап с оценкой в 10 миллиардов долларов, также работает с OpenAI, Meta и Anthropic. Компания предлагает инвесторам бизнес по созданию сред RL для конкретных задач, таких как кодирование, здравоохранение и право.
Перспективы масштабирования
Вопрос о том, смогут ли среды RL масштабироваться так же, как предыдущие методы обучения ИИ, остаётся открытым. Обучение агентов в средах RL может быть более ресурсоёмким, чем предыдущие методы. Несмотря на потенциал, некоторые эксперты выражают скептицизм относительно возможностей масштабирования сред RL.
