Xiaomi представила ИИ-модель Xiaomi-Robotics-0 для робототехники

Xiaomi-Robotics-0: новый этап в развитии робототехники

Компания Xiaomi представила Xiaomi-Robotics-0 — модель искусственного интеллекта с открытым исходным кодом, разработанную для робототехники. Модель включает 4,7 миллиарда параметров и объединяет три ключевых компонента: визуальный, языковой и компонент действия. Это сочетание формирует ядро физического интеллекта, позволяя роботу в реальном времени распознавать образы, понимать язык и выполнять действия.

  • Модель продемонстрировала выдающиеся результаты, установив несколько рекордов в симуляциях и реальных испытаниях.
  • ИИ-модели для роботов функционируют по замкнутому циклу: восприятие → принятие решения → выполнение операции.

Архитектура и ключевые компоненты

В основе Xiaomi-Robotics-0 лежит архитектура смеси трансформеров (MoT), распределяющая задачи между двумя основными компонентами:

  1. Визуально-языковая модель (VLM) — выполняет функцию «мозга» робота. Её задачи:
    • интерпретация человеческих команд (в том числе расплывчатых, например, «пожалуйста, сложи полотенце»);
    • понимание пространственных отношений на основе визуальных сигналов высокого разрешения;
    • обнаружение объектов, ответы на вопросы, логические рассуждения.
  2. Эксперт по действиям (Action Expert) — использует архитектуру диффузионного трансформера (DiT). Его особенности:
    • генерирует не одно действие, а последовательность действий;
    • применяет методы сопоставления потоков;
    • обеспечивает точность и плавность движений.

Решённые проблемы и инновационные подходы

Инженеры Xiaomi преодолели ряд сложностей:

  • Потеря способностей к пониманию при обучении физическим операциям. Решение: одновременное обучение модели на мультимодальных данных и данных о действиях.
  • Задержка вывода (пауза между прогнозами модели и физическим движением робота). Решение: асинхронный вывод, разделяющий вычисления модели и действия робота.
  • Рывки в движении. Решение: техника Clean Action Prefix, возвращающая в модель предсказанное ранее действие для плавного движения.
  • Низкая отзывчивость к изменениям среды. Решение: маска внимания, направляющая модель на актуальный визуальный ряд и понижающая приоритет прошлых состояний.

Результаты тестирования

Модель успешно прошла испытания:

  • в симуляциях LIBERO, CALVIN и SimplerEnv превзошла около 30 других моделей;
  • в реальных экспериментах на роботе с двумя манипуляторами продемонстрировала стабильную координацию рук и глаз при выполнении задач (складывание полотенец, разборка блоков конструктора).

Источник: mltimes.ai

Авторизация