Microsoft представила систему VibeVoice для создания аудиоподкастов

Microsoft представила новую систему с открытым исходным кодом под названием VibeVoice. Эта технология превращает текст в аудиоподкасты длительностью до 90 минут на английском или китайском языке. Разработчики обещают добавить другие языки в будущих версиях.

Особенности системы

  • Способность создавать диалоги с участием до четырёх разных голосов — это заметно превосходит возможности других похожих моделей, которые обычно ограничены одним-двумя спикерами.
  • Умение передавать эмоции и создавать естественные переходы между репликами разных участников.

Версии VibeVoice

  1. Модель с 1,5 млрд параметров: генерирует до 90 минут аудио, работает с текстами длиной до 64 тысяч токенов.
  2. Более крупная версия на 7 млрд параметров: создаёт аудио до 45 минут, обрабатывает тексты до 32 тысяч токенов.

Microsoft также планирует выпустить лёгкую версию на 0,5 млрд параметров для работы в реальном времени. Для локального запуска меньшей модели нужно около 7 ГБ видеопамяти, а для большей — до 18 ГБ.

Хотя голоса звучат довольно реалистично, их искусственное происхождение всё же заметно. Попытки синтезировать музыку пока не удаются.

В перспективе разработчики рассматривают возможность добавить функцию клонирования голоса.

Источник: mltimes.ai

Авторизация