Индийская лаборатория ИИ Sarvam представила новое поколение языковых моделей

Во вторник индийская лаборатория искусственного интеллекта Sarvam представила новое поколение больших языковых моделей. Компания делает ставку на то, что более компактные и эффективные модели с открытым исходным кодом смогут отвоевать долю рынка у дорогостоящих систем, предлагаемых крупными американскими и китайскими конкурентами.

Презентация состоялась на саммите India AI Impact Summit в Нью-Дели. Она соответствует стремлению индийских властей снизить зависимость от зарубежных ИИ-платформ и адаптировать модели к местным языкам и сценариям использования.

Характеристики новых моделей

Sarvam сообщила, что новая линейка включает:

модели с 30 миллиардами и 105 миллиардами параметров;
модель преобразования текста в речь;
модель преобразования речи в текст;
модель зрения для анализа документов.

Это значительный шаг вперёд по сравнению с моделью Sarvam 1 с 2 миллиардами параметров, выпущенной в октябре 2024 года.

Модели с 30 млрд и 105 млрд параметров используют архитектуру mixture-of-experts, которая активирует лишь часть общих параметров за раз, что существенно снижает вычислительные затраты. Модель на 30 млрд параметров поддерживает окно контекста в 32 000 токенов, предназначенное для диалогов в реальном времени, а более крупная модель предлагает окно в 128 000 токенов для сложных многоэтапных задач.

Обучение и поддержка

В Sarvam заявили, что новые ИИ-модели были обучены с нуля, а не доработаны на основе существующих систем с открытым исходным кодом. Модель на 30 млрд параметров предварительно обучена на примерно 16 триллионах токенов текста, а модель на 105 млрд параметров — на триллионах токенов, охватывающих несколько индийских языков.

Модели предназначены для поддержки приложений в реальном времени, включая голосовых помощников и чат-системы на индийских языках.

Обучение моделей проводилось с использованием вычислительных ресурсов в рамках поддерживаемой правительством Индии программы IndiaAI Mission. Инфраструктурную поддержку предоставил оператор центров обработки данных Yotta, а техническую — компания Nvidia.

Планы компании

Руководители Sarvam заявили, что компания планирует взвешенно подходить к масштабированию своих моделей, уделяя основное внимание реальным приложениям, а не просто увеличению размеров.

«Мы хотим внимательно подходить к масштабированию, — заявил соучредитель Sarvam Пратиш Кумар на презентации. — Мы не хотим масштабировать бездумно. Мы хотим понять, какие задачи действительно важны в больших масштабах, и создавать решения для них».

Sarvam планирует открыть исходный код моделей на 30 млрд и 105 млрд параметров, однако не уточнила, будут ли опубликованы данные для обучения или полный код обучения.

Компания также обозначила планы по созданию специализированных ИИ-систем, включая модели, ориентированные на программирование, и корпоративные инструменты в рамках продукта Sarvam for Work, а также платформу разговорного ИИ-агента под названием Samvaad.

Компания Sarvam, основанная в 2023 году, привлекла более 50 миллионов долларов инвестиций. Среди её инвесторов — Lightspeed Venture Partners, Khosla Ventures и Peak XV Partners (ранее Sequoia Capital India).

Источник: techcrunch.com

Индийская лаборатория ИИ Sarvam представила новое поколение языковых моделей