Институт AIRI открыл тестовый доступ к VLA Arena
Институт AIRI открыл тестовый доступ к VLA Arena — открытой платформе для оценки и сравнения моделей управления роботами. Площадка работает по аналогии с платформами для сравнения LLM. Решение делает тестирование технологий доступным для исследователей, инженеров и любителей робототехники.
Платформа имеет интерфейс для запуска роботов в виртуальной среде. К VLA Arena можно подключать реальные устройства. Пользователи оценивают работу моделей в разных сценариях, в том числе на русском языке. Поддерживаются как реальные роботы, так и симуляции.
Возможности VLA Arena
- Тестирование моделей в симуляции или на реальном роботе.
- Сравнение моделей в виртуальной среде без использования робота.
- Проверка работы разных моделей управления с роботом.
- Таблица лидеров.
Все модели оцениваются пользователями с учётом их предпочтений в реальных условиях. Оценки основаны на случайных тестах, что помогает избежать предвзятости.
Доступные модели
На момент запуска доступны 3 модели для реальных роботов и 4 для симуляций. Среди них:
- π0.5 от Physical Intelligence;
- SmolVLA от Hugging Face;
- Flower с открытым кодом;
- модель от AIRI для работы на русском языке.
Платформа содержит чистые датасеты для LeRobot из открытых источников. Датасеты размечены и переведены на русский язык, что помогает разработчикам обучать свои модели.
VLA-модели
VLA-модели — это адаптированные версии больших языковых моделей. Они понимают и выполняют инструкции пользователя, работают в разных сценариях, включая сложные задачи с обобщением и анализом контекста. Все модели имеют открытый исходный код, пользователи могут настраивать их под свои задачи.
Владислав Куренков, руководитель научной группы «Адаптивные агенты» AIRI, отмечает огромный потенциал VLA-моделей. VLA Arena — это не просто инструмент для тестирования, но и научный проект. Он должен повысить прозрачность в оценке роботов и моделей управления.
Институт делает акцент на доступности и объективных метриках. Метрики учитывают не только технические характеристики, но и оценку эффективности с точки зрения пользователей. Первый запуск рассчитан на 3 месяца. В этот период планируется собирать данные и отзывы для улучшения арены.
