Amazon раскрывает детали разработки чипов Trainium: тур по лаборатории AWS

Amazon раскрывает детали разработки чипов Trainium: тур по лаборатории AWS

Вскоре после того, как генеральный директор Amazon Энди Джесси объявил о грандиозной сделке с OpenAI на сумму 50 миллиардов долларов, компания пригласила журналиста на частную экскурсию по лаборатории разработки чипов — ключевому элементу соглашения.

Эксперты отрасли внимательно следят за чипом Trainium от Amazon: он может обеспечить более дешёвые вычисления для ИИ и пошатнуть почти монопольное положение Nvidia.

Экскурсия по лаборатории

Гидами в ходе визита выступили:

  • Кристофер Кинг (Kristopher King) — директор лаборатории;
  • Марк Кэрролл (Mark Carroll) — директор по инженерным разработкам;
  • Дорон Аронсон (Doron Aronson) — представитель PR-команды, организовавший визит.

Сотрудничество AWS с Anthropic и OpenAI

AWS с ранних дней является основной облачной платформой для Anthropic. Это партнёрство сохранилось, несмотря на то, что Anthropic позже добавила Microsoft в качестве облачного партнёра, а Amazon укрепила связи с OpenAI.

Сделка с OpenAI делает AWS эксклюзивным поставщиком платформы для создания ИИ-агентов Frontier. Однако Financial Times сообщает, что Microsoft может считать сделку OpenAI с Amazon нарушением собственного соглашения — по нему Redmond должен получать доступ ко всем моделям и технологиям OpenAI.

Почему OpenAI выбирает AWS?

В рамках сделки Amazon обязалась предоставить OpenAI 2 гигаватта вычислительных мощностей на базе чипов Trainium. Это серьёзное обязательство, учитывая, что Anthropic и собственный сервис Amazon Bedrock уже потребляют чипы Trainium быстрее, чем Amazon успевает их производить.

Чипы Trainium: особенности и преимущества

На данный момент развёрнуто 1,4 миллиона чипов Trainium всех трёх поколений. Более миллиона чипов Trainium2 используются для работы Claude от Anthropic.

Изначально Trainium разрабатывался для более быстрого и дешёвого обучения моделей, но теперь он также оптимизирован для инференса — процесса запуска ИИ-модели для генерации ответов. Это сейчас главное узкое место в отрасли.

Trainium2 обрабатывает большую часть трафика инференса в сервисе Amazon Bedrock, который помогает корпоративным клиентам создавать ИИ-приложения.

«Наша клиентская база растёт так быстро, как мы только можем наращивать мощности», — отметил Кинг. «Bedrock однажды может стать таким же крупным, как EC2», — добавил он, имея в виду масштабный облачный сервис вычислений AWS.

Trainium против Nvidia

Amazon утверждает, что её новые чипы на специализированных серверах Trn3 UltraServers обходятся до 50 % дешевле в эксплуатации при сопоставимой производительности по сравнению с классическими облачными серверами.

Вместе с Trainium3 (выпущен в декабре) команда AWS разработала новые коммутаторы Neuron. По словам Кэрролла, эта комбинация меняет правила игры:

«Это даёт нам нечто грандиозное. Коммутаторы позволяют каждому чипу Trainium3 взаимодействовать с любым другим чипом в сетевой конфигурации, снижая задержки. Именно поэтому Trainium3 бьёт все рекорды, особенно по соотношению цены и мощности».

Признание от Apple и другие разработки

В 2024 году команда Amazon по разработке чипов получила признание от Apple. Директор по ИИ Apple публично рассказал, как компания использует чипы Graviton (низкопотребляющий серверный CPU на базе ARM) и Inferentia (чип, специально разработанный для инференса). Также была отмечена перспективность Trainium.

Преодоление барьеров

Исторически главным препятствием для перехода на новые чипы были затраты на перестройку приложений. Программы, написанные для чипов Nvidia, нужно перепроектировать, чтобы они работали с другими решениями.

Однако команда AWS с гордостью сообщила, что Trainium теперь поддерживает PyTorch — популярный фреймворк с открытым исходным кодом для создания ИИ-моделей. Переход требует «всего лишь изменения одной строки, перекомпиляции и запуска на Trainium», — пояснил Кэрролл.

Новые партнёрства и разработки

AWS объявила о партнёрстве с Cerebras Systems, интегрируя чип для инференса этой компании на серверах с Trainium. Amazon обещает сверхвысокую производительность ИИ с низкой задержкой.

Помимо чипов, AWS разрабатывает и серверы для их размещения. Команда создала:

  • «Nitro» — комбинацию аппаратного и программного обеспечения для виртуализации;
  • новейшую технологию жидкостного охлаждения;
  • платформы (sleds) для размещения оборудования.

История и местоположение лаборатории

Подразделение Amazon по разработке чипов появилось после покупки израильской компании Annapurna Labs в январе 2015 года за 350 миллионов долларов. Команда сохранила корни и название Annapurna.

Лаборатория расположена в современном здании с хромированными окнами в престижном районе Остина «The Domain», который иногда называют «силиконовой долиной» Остина.

Процесс «bring-up»

«Bring-up» — это момент, когда команда впервые получает чип и проверяет, работает ли он так, как задумано. Это похоже на большую вечеринку: инженеры остаются в лаборатории на всю ночь.

Для Trainium3 прототип чипа изначально охлаждался воздухом, как и предыдущие версии. Текущая версия использует жидкостное охлаждение, что даёт энергетические преимущества.

«Оставаться на ногах всю ночь и решать проблемы — вот что такое bring-up», — сказал Кинг.

«Sleds» — сердце лаборатории

«Sleds» — это платформы, на которых размещаются чипы Trainium AI, чипы CPU Graviton и сопутствующие компоненты. Если сложить их вместе на стойке с сетевым компонентом (также разработанным командой), получится система, лежащая в основе успеха Anthropic Claude.

Текущие проекты и перспективы

Сейчас большая часть чипов Trainium2 развёрнута в Project Rainier — одном из крупнейших в мире кластеров для вычислений ИИ, запущенном в конце 2025 года с 500 000 чипов. Он используется Anthropic.

Команда также имеет собственный частный дата-центр для тестирования. Он расположен неподалёку, но не является частью дата-центров AWS. В нём строго соблюдаются протоколы безопасности, а система охлаждения настолько громкая, что обязательны беруши.

Внимание руководства и давление

Генеральный директор Amazon Энди Джесси внимательно следит за лабораторией и публично хвалит её продукты. В декабре он заявил, что Trainium уже стал многомиллиардным бизнесом для AWS и является одним из самых перспективных технологий компании.

Инженеры работают круглосуточно в течение 3–4 недель вокруг каждого события bring-up, чтобы устранить любые проблемы и обеспечить массовое производство чипов.

«Очень важно как можно быстрее доказать, что всё работает», — сказал Кэрролл. «Пока что у нас всё получается».

Источник: techcrunch.com

Авторизация