ТехнологииВажное

Google представил TurboQuant — новый алгоритм сжатия памяти для ИИ

Google Research анонсировал TurboQuant — алгоритм сжатия памяти для искусственного интеллекта, который сокращает рабочий KV‑кеш минимум в 6‑кратном размере без потери точности.

Технология демонстрирует рост интереса к эффективным решениям для inference‑моделей и может снизить затраты на эксплуатацию ИИ‑сервисов.

Сигнал: пока TurboQuant остаётся лабораторным прототипом, его дальнейшее масштабирование может изменить подход к использованию RAM при инференсе.

Google Research представил TurboQuant — метод векторного квантизации, который уменьшает объём рабочей памяти ИИ‑моделей, не ухудшая их производительность. Алгоритм сочетает квантизацию PolarQuant и оптимизационный процесс QJL.

Что это

Алгоритм сокращает KV‑кеш, используемый во время инференса, минимум в 6‑раз, позволяя моделям хранить больше данных в меньшем объёме памяти. Исследователи отметили, что сжатие сохраняет исходный уровень точности.

Почему это важно

Снижение потребления памяти уменьшает затраты на оборудование и электроэнергию, что особенно актуально для крупных ИИ‑развёртываний. CEO Cloudflare Мэтью Принс сравнил достижение с событием «DeepSeek‑момент», когда китайская модель достигла конкурентных результатов при ограниченных ресурсах.

Перспективы

Сейчас TurboQuant остаётся лабораторным достижением и не используется в продакшн‑среде. При успешном масштабировании он может стать важным решением проблемы дефицита RAM при инференсе, хотя не устраняет ограничений памяти в процессе обучения.

Все материалы