Microsoft представила систему VibeVoice для создания аудиоподкастов
Microsoft представила новую систему с открытым исходным кодом под названием VibeVoice. Эта технология превращает текст в аудиоподкасты длительностью до 90 минут на английском или китайском языке. Разработчики обещают добавить другие языки в будущих версиях.
Особенности системы
- Способность создавать диалоги с участием до четырёх разных голосов — это заметно превосходит возможности других похожих моделей, которые обычно ограничены одним-двумя спикерами.
- Умение передавать эмоции и создавать естественные переходы между репликами разных участников.
Версии VibeVoice
- Модель с 1,5 млрд параметров: генерирует до 90 минут аудио, работает с текстами длиной до 64 тысяч токенов.
- Более крупная версия на 7 млрд параметров: создаёт аудио до 45 минут, обрабатывает тексты до 32 тысяч токенов.
Microsoft также планирует выпустить лёгкую версию на 0,5 млрд параметров для работы в реальном времени. Для локального запуска меньшей модели нужно около 7 ГБ видеопамяти, а для большей — до 18 ГБ.
Хотя голоса звучат довольно реалистично, их искусственное происхождение всё же заметно. Попытки синтезировать музыку пока не удаются.
В перспективе разработчики рассматривают возможность добавить функцию клонирования голоса.
