Институт AIRI открыл тестовый доступ к VLA Arena

Институт AIRI открыл тестовый доступ к VLA Arena — открытой платформе для оценки и сравнения моделей управления роботами. Площадка работает по аналогии с платформами для сравнения LLM. Решение делает тестирование технологий доступным для исследователей, инженеров и любителей робототехники.

Платформа имеет интерфейс для запуска роботов в виртуальной среде. К VLA Arena можно подключать реальные устройства. Пользователи оценивают работу моделей в разных сценариях, в том числе на русском языке. Поддерживаются как реальные роботы, так и симуляции.

Возможности VLA Arena

  • Тестирование моделей в симуляции или на реальном роботе.
  • Сравнение моделей в виртуальной среде без использования робота.
  • Проверка работы разных моделей управления с роботом.
  • Таблица лидеров.

Все модели оцениваются пользователями с учётом их предпочтений в реальных условиях. Оценки основаны на случайных тестах, что помогает избежать предвзятости.

Доступные модели

На момент запуска доступны 3 модели для реальных роботов и 4 для симуляций. Среди них:

  • π0.5 от Physical Intelligence;
  • SmolVLA от Hugging Face;
  • Flower с открытым кодом;
  • модель от AIRI для работы на русском языке.

Платформа содержит чистые датасеты для LeRobot из открытых источников. Датасеты размечены и переведены на русский язык, что помогает разработчикам обучать свои модели.

VLA-модели

VLA-модели — это адаптированные версии больших языковых моделей. Они понимают и выполняют инструкции пользователя, работают в разных сценариях, включая сложные задачи с обобщением и анализом контекста. Все модели имеют открытый исходный код, пользователи могут настраивать их под свои задачи.

Владислав Куренков, руководитель научной группы «Адаптивные агенты» AIRI, отмечает огромный потенциал VLA-моделей. VLA Arena — это не просто инструмент для тестирования, но и научный проект. Он должен повысить прозрачность в оценке роботов и моделей управления.

Институт делает акцент на доступности и объективных метриках. Метрики учитывают не только технические характеристики, но и оценку эффективности с точки зрения пользователей. Первый запуск рассчитан на 3 месяца. В этот период планируется собирать данные и отзывы для улучшения арены.

Источник: mltimes.ai

Авторизация