Исследователи Google Research анонсировали новый алгоритм сжатия памяти TurboQuant, который позволяет значительно сократить объем оперативной памяти, необходимой для работы нейросетей, без потери производительности. Разработка направлена на устранение одного из главных ограничений современных ИИ-систем — высокой нагрузки на оперативную память, возникающей при обработке данных.

Технология использует метод векторной квантизации для оптимизации так называемого KV-кэша, который выполняет роль рабочей памяти искусственного интеллекта. Благодаря этому системы могут обрабатывать больший объем информации, занимая меньше ресурсов и сохраняя точность вычислений. По заявлениям разработчиков, TurboQuant позволяет уменьшить объем используемой памяти как минимум в шесть раз.
В технологическом сообществе разработку сравнивают с вымышленным алгоритмом сжатия из сериала HBO «Кремниевая долина». В сериале стартап Pied Piper представил технологию, которая значительно уменьшала размер файлов практически без потери качества, что вызвало революцию в вычислительной сфере. Генеральный директор Cloudflare Мэтью Принс назвал TurboQuant «моментом DeepSeek для Google», проведя параллель с китайской моделью искусственного интеллекта, которая продемонстрировала высокую эффективность при более низких вычислительных затратах.
Планируется, что результаты исследования будут представлены на конференции ICLR 2026. На данный момент технология остается на стадии лабораторных разработок и не внедрена в коммерческие продукты.
Эксперты отмечают, что в случае успешной реализации TurboQuant может существенно снизить стоимость эксплуатации ИИ-систем на этапе логического вывода. Однако технология решает лишь часть проблемы высоких вычислительных затрат, поскольку направлена на оптимизацию выполнения задач и не затрагивает ресурсоемкий этап обучения моделей, который по-прежнему требует значительных мощностей.
Читайте также: «Arm впервые представила собственный процессор AGI CPU».