Google Research представил TurboQuant — метод векторного квантизации, который уменьшает объём рабочей памяти ИИ‑моделей, не ухудшая их производительность. Алгоритм сочетает квантизацию PolarQuant и оптимизационный процесс QJL.
Что это
Алгоритм сокращает KV‑кеш, используемый во время инференса, минимум в 6‑раз, позволяя моделям хранить больше данных в меньшем объёме памяти. Исследователи отметили, что сжатие сохраняет исходный уровень точности.
Почему это важно
Снижение потребления памяти уменьшает затраты на оборудование и электроэнергию, что особенно актуально для крупных ИИ‑развёртываний. CEO Cloudflare Мэтью Принс сравнил достижение с событием «DeepSeek‑момент», когда китайская модель достигла конкурентных результатов при ограниченных ресурсах.
Перспективы
Сейчас TurboQuant остаётся лабораторным достижением и не используется в продакшн‑среде. При успешном масштабировании он может стать важным решением проблемы дефицита RAM при инференсе, хотя не устраняет ограничений памяти в процессе обучения.