Xiaomi представила ИИ-модель Xiaomi-Robotics-0 для робототехники
Xiaomi-Robotics-0: новый этап в развитии робототехники
Компания Xiaomi представила Xiaomi-Robotics-0 — модель искусственного интеллекта с открытым исходным кодом, разработанную для робототехники. Модель включает 4,7 миллиарда параметров и объединяет три ключевых компонента: визуальный, языковой и компонент действия. Это сочетание формирует ядро физического интеллекта, позволяя роботу в реальном времени распознавать образы, понимать язык и выполнять действия.
- Модель продемонстрировала выдающиеся результаты, установив несколько рекордов в симуляциях и реальных испытаниях.
- ИИ-модели для роботов функционируют по замкнутому циклу: восприятие → принятие решения → выполнение операции.
Архитектура и ключевые компоненты
В основе Xiaomi-Robotics-0 лежит архитектура смеси трансформеров (MoT), распределяющая задачи между двумя основными компонентами:
- Визуально-языковая модель (VLM) — выполняет функцию «мозга» робота. Её задачи:
- интерпретация человеческих команд (в том числе расплывчатых, например, «пожалуйста, сложи полотенце»);
- понимание пространственных отношений на основе визуальных сигналов высокого разрешения;
- обнаружение объектов, ответы на вопросы, логические рассуждения.
- Эксперт по действиям (Action Expert) — использует архитектуру диффузионного трансформера (DiT). Его особенности:
- генерирует не одно действие, а последовательность действий;
- применяет методы сопоставления потоков;
- обеспечивает точность и плавность движений.
Решённые проблемы и инновационные подходы
Инженеры Xiaomi преодолели ряд сложностей:
- Потеря способностей к пониманию при обучении физическим операциям. Решение: одновременное обучение модели на мультимодальных данных и данных о действиях.
- Задержка вывода (пауза между прогнозами модели и физическим движением робота). Решение: асинхронный вывод, разделяющий вычисления модели и действия робота.
- Рывки в движении. Решение: техника Clean Action Prefix, возвращающая в модель предсказанное ранее действие для плавного движения.
- Низкая отзывчивость к изменениям среды. Решение: маска внимания, направляющая модель на актуальный визуальный ряд и понижающая приоритет прошлых состояний.
Результаты тестирования
Модель успешно прошла испытания:
- в симуляциях LIBERO, CALVIN и SimplerEnv превзошла около 30 других моделей;
- в реальных экспериментах на роботе с двумя манипуляторами продемонстрировала стабильную координацию рук и глаз при выполнении задач (складывание полотенец, разборка блоков конструктора).
