Индийская лаборатория ИИ Sarvam представила новое поколение языковых моделей
Индийская лаборатория ИИ Sarvam представила новое поколение языковых моделей
Во вторник индийская лаборатория искусственного интеллекта Sarvam представила новое поколение больших языковых моделей. Компания делает ставку на то, что более компактные и эффективные модели с открытым исходным кодом смогут отвоевать долю рынка у дорогостоящих систем, предлагаемых крупными американскими и китайскими конкурентами.
Презентация состоялась на саммите India AI Impact Summit в Нью-Дели. Она соответствует стремлению индийских властей снизить зависимость от зарубежных ИИ-платформ и адаптировать модели к местным языкам и сценариям использования.
Характеристики новых моделей
Sarvam сообщила, что новая линейка включает:
- модели с 30 миллиардами и 105 миллиардами параметров;
- модель преобразования текста в речь;
- модель преобразования речи в текст;
- модель зрения для анализа документов.
Это значительный шаг вперёд по сравнению с моделью Sarvam 1 с 2 миллиардами параметров, выпущенной в октябре 2024 года.
Модели с 30 млрд и 105 млрд параметров используют архитектуру mixture-of-experts, которая активирует лишь часть общих параметров за раз, что существенно снижает вычислительные затраты. Модель на 30 млрд параметров поддерживает окно контекста в 32 000 токенов, предназначенное для диалогов в реальном времени, а более крупная модель предлагает окно в 128 000 токенов для сложных многоэтапных задач.
Обучение и поддержка
В Sarvam заявили, что новые ИИ-модели были обучены с нуля, а не доработаны на основе существующих систем с открытым исходным кодом. Модель на 30 млрд параметров предварительно обучена на примерно 16 триллионах токенов текста, а модель на 105 млрд параметров — на триллионах токенов, охватывающих несколько индийских языков.
Модели предназначены для поддержки приложений в реальном времени, включая голосовых помощников и чат-системы на индийских языках.
Обучение моделей проводилось с использованием вычислительных ресурсов в рамках поддерживаемой правительством Индии программы IndiaAI Mission. Инфраструктурную поддержку предоставил оператор центров обработки данных Yotta, а техническую — компания Nvidia.
Планы компании
Руководители Sarvam заявили, что компания планирует взвешенно подходить к масштабированию своих моделей, уделяя основное внимание реальным приложениям, а не просто увеличению размеров.
«Мы хотим внимательно подходить к масштабированию, — заявил соучредитель Sarvam Пратиш Кумар на презентации. — Мы не хотим масштабировать бездумно. Мы хотим понять, какие задачи действительно важны в больших масштабах, и создавать решения для них».
Sarvam планирует открыть исходный код моделей на 30 млрд и 105 млрд параметров, однако не уточнила, будут ли опубликованы данные для обучения или полный код обучения.
Компания также обозначила планы по созданию специализированных ИИ-систем, включая модели, ориентированные на программирование, и корпоративные инструменты в рамках продукта Sarvam for Work, а также платформу разговорного ИИ-агента под названием Samvaad.
Компания Sarvam, основанная в 2023 году, привлекла более 50 миллионов долларов инвестиций. Среди её инвесторов — Lightspeed Venture Partners, Khosla Ventures и Peak XV Partners (ранее Sequoia Capital India).
