Xiaomi представила ИИ-модель Xiaomi-Robotics-0 для робототехники

Xiaomi-Robotics-0: новый этап в развитии робототехники

Компания Xiaomi представила Xiaomi-Robotics-0 — модель искусственного интеллекта с открытым исходным кодом, разработанную для робототехники. Модель включает 4,7 миллиарда параметров и объединяет три ключевых компонента: визуальный, языковой и компонент действия. Это сочетание формирует ядро физического интеллекта, позволяя роботу в реальном времени распознавать образы, понимать язык и выполнять действия.

Модель продемонстрировала выдающиеся результаты, установив несколько рекордов в симуляциях и реальных испытаниях.
ИИ-модели для роботов функционируют по замкнутому циклу: восприятие → принятие решения → выполнение операции.

Архитектура и ключевые компоненты

В основе Xiaomi-Robotics-0 лежит архитектура смеси трансформеров (MoT), распределяющая задачи между двумя основными компонентами:

Визуально-языковая модель (VLM) — выполняет функцию «мозга» робота. Её задачи:
- интерпретация человеческих команд (в том числе расплывчатых, например, «пожалуйста, сложи полотенце»);
- понимание пространственных отношений на основе визуальных сигналов высокого разрешения;
- обнаружение объектов, ответы на вопросы, логические рассуждения.
Эксперт по действиям (Action Expert) — использует архитектуру диффузионного трансформера (DiT). Его особенности:
- генерирует не одно действие, а последовательность действий;
- применяет методы сопоставления потоков;
- обеспечивает точность и плавность движений.

Решённые проблемы и инновационные подходы

Инженеры Xiaomi преодолели ряд сложностей:

Потеря способностей к пониманию при обучении физическим операциям. Решение: одновременное обучение модели на мультимодальных данных и данных о действиях.
Задержка вывода (пауза между прогнозами модели и физическим движением робота). Решение: асинхронный вывод, разделяющий вычисления модели и действия робота.
Рывки в движении. Решение: техника Clean Action Prefix, возвращающая в модель предсказанное ранее действие для плавного движения.
Низкая отзывчивость к изменениям среды. Решение: маска внимания, направляющая модель на актуальный визуальный ряд и понижающая приоритет прошлых состояний.

Результаты тестирования

Модель успешно прошла испытания:

в симуляциях LIBERO, CALVIN и SimplerEnv превзошла около 30 других моделей;
в реальных экспериментах на роботе с двумя манипуляторами продемонстрировала стабильную координацию рук и глаз при выполнении задач (складывание полотенец, разборка блоков конструктора).

Источник: mltimes.ai

Xiaomi представила ИИ-модель Xiaomi-Robotics-0 для робототехники

Xiaomi-Robotics-0: новый этап в развитии робототехники

Архитектура и ключевые компоненты

Решённые проблемы и инновационные подходы

Результаты тестирования

Авторизация