TurboQuant от Google: алгоритм сжатия памяти для ИИ, который сравнивают с Pied Piper
TurboQuant: новый алгоритм сжатия памяти от Google
Исследователи Google представили TurboQuant — ультраэффективный алгоритм сжатия памяти для ИИ. В интернете его уже сравнивают с технологией вымышленного стартапа Pied Piper из сериала HBO «Кремниевая долина» (2014–2019).
В сериале Pied Piper разработал алгоритм сжатия, который значительно уменьшал размер файлов практически без потери качества. TurboQuant решает похожую задачу, но применительно к узкому месту в системах ИИ — рабочей памяти.
По словам исследователей, TurboQuant позволяет ИИ хранить больше информации, занимая меньше места и сохраняя точность. Алгоритм использует разновидность векторного квантования для устранения узких мест в кэше при обработке данных.
Как работает TurboQuant
- Использует метод квантования PolarQuant.
- Применяет метод обучения и оптимизации QJL.
- Сокращает рабочую память ИИ (KV cache) как минимум в 6 раз.
Результаты исследования будут представлены на конференции ICLR 2026.
Перспективы и ограничения
Если TurboQuant успешно внедрят на практике, это может существенно снизить затраты на работу ИИ. Однако пока технология остаётся лабораторным прорывом и не развёрнута в широком масштабе.
Важно отметить, что TurboQuant нацелен только на память для вывода (inference), а не на обучение моделей. Поэтому он не решит проблему нехватки оперативной памяти, вызванной обучением ИИ, которое по-прежнему требует огромных объёмов RAM.
Некоторые эксперты, например CEO Cloudflare Мэтью Принс, сравнивают TurboQuant с достижениями китайской модели ИИ DeepSeek, которая была обучена с минимальными затратами, оставаясь при этом конкурентоспособной.
