Вкратце
- Google заявил, что его алгоритм TurboQuant может сократить основное узкое место памяти ИИ как минимум в шесть раз без потери точности во время инференса.
- Акции производителей памяти, включая Micron, Western Digital и Seagate, упали после публикации статьи.
- Метод сжимает память инференса, а не веса модели, и был протестирован только на исследовательских бенчмарках.
Google Research опубликовал TurboQuant в среду — алгоритм сжатия, который уменьшает основное узкое место памяти инференса как минимум в 6 раз, сохраняя нулевую потерю точности.
Статья запланирована для презентации на ICLR 2026, и реакция онлайн была немедленной.
Генеральный директор Cloudflare Мэтью Принс назвал это моментом DeepSeek для Google. Цены на акции производителей памяти, включая Micron, Western Digital и Seagate, упали в тот же день.
Так это реально?
Эффективность квантования само по себе большое достижение. Но "нулевая потеря точности" требует контекста.
TurboQuant нацелен на KV-кеш — фрагмент памяти GPU, который хранит все, что языковой модели нужно запомнить во время разговора.
По мере роста контекстных окон до миллионов токенов эти кеши раздуваются до сотен гигабайт на сессию. Это реальное узкое место. Не вычислительная мощность, а необработанная память.
Традиционные методы сжатия пытаются уменьшить эти кеши путем округления чисел вниз — например, от 32-битных чисел с плавающей точкой до 16, до 8, до 4-битных целых чисел. Чтобы лучше понять это, представьте уменьшение изображения с 4K до Full HD, до 720p и так далее. Легко определить, что это одно и то же изображение в целом, но в разрешении 4K больше деталей.
Загвоздка: они должны хранить дополнительные "константы квантования" рядом со сжатыми данными, чтобы модель не потеряла эффективность. Эти константы добавляют от 1 до 2 битов на значение, частично снижая выигрыш.
TurboQuant утверждает, что полностью устраняет эти накладные расходы.
Это достигается с помощью двух подалгоритмов. PolarQuant отделяет величину от направления в векторах, а QJL (Quantized Johnson-Lindenstrauss) берет крошечную остаточную ошибку и сводит ее к одному знаковому биту, положительному или отрицательному, без хранимых констант.
Результат, по словам Google, представляет собой математически несмещенную оценку для вычислений внимания, которые управляют трансформерными моделями.
В бенчмарках с использованием Gemma и Mistral TurboQuant соответствовал производительности полной точности при 4-кратном сжатии, включая идеальную точность извлечения в задачах поиска иглы в стоге сена до 104 000 токенов.
Для контекста о том, почему эти бенчмарки важны, расширение используемого контекста модели без потери качества было одной из самых сложных проблем в развертывании LLM.
Теперь мелкий шрифт.
"Нулевая потеря точности" применяется к сжатию KV-кеша во время инференса — а не к весам модели. Сжатие весов — это совершенно другая, более сложная проблема. TurboQuant их не затрагивает.
То, что он сжимает — это временная память, хранящая вычисления внимания в середине сессии, что более допустимо, потому что эти данные теоретически можно восстановить.
Также существует разрыв между чистым бенчмарком и производственной системой, обслуживающей миллиарды запросов. TurboQuant был протестирован на моделях с открытым исходным кодом — Gemma, Mistral, Llama — а не на собственном стеке Gemini от Google в масштабе.
В отличие от повышения эффективности DeepSeek, которое требовало глубоких архитектурных решений с самого начала, TurboQuant не требует переобучения или тонкой настройки и заявляет о незначительных накладных расходах во время выполнения. Теоретически он напрямую интегрируется в существующие конвейеры инференса.
Именно эта часть напугала сектор оборудования памяти — потому что если это работает в производстве, каждая крупная лаборатория ИИ работает более эффективно на тех же GPU, которыми они уже владеют.
Статья будет представлена на ICLR 2026. До тех пор, пока она не выйдет в производство, заголовок "нулевые потери" остается в лаборатории.
Ежедневная рассылка новостей
Начинайте каждый день с главных новостей прямо сейчас, плюс оригинальные материалы, подкаст, видео и многое другое.
Источник: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss


