Команда Yandex Research разработала метод HIGGS, который позволяет «ужимать» сложные ИИ-модели до размеров, совместимых с обычными ноутбуками и смартфонами, без потери качества. Технология устраняет ключевое препятствие для массового использования ИИ — зависимость от дорогих серверов и видеокарт.
Лаборатория Yandex Research совместно с ведущими научными вузами создала метод HIGGS, который позволяет сжимать большие языковые модели (LLM) без потери качества, делая их доступными для смартфонов и ноутбуков. Раньше для этого требовались мощные серверы и недели вычислений, но теперь квантизацию можно выполнить за минуты прямо на обычных устройствах.
Это открывает новые возможности для стартапов, небольших компаний и исследователей, у которых нет доступа к дорогому оборудованию. Например, даже такие гигантские модели, как DeepSeek-R1 (671 млрд параметров) и Llama 4 Maverick (400 млрд параметров), теперь можно сжать и запустить на более слабых устройствах.
HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) не требует дополнительных данных или сложной оптимизации, что делает его универсальным решением для сжатия нейросетей. Он уже протестирован на моделях Llama 3 и Qwen2.5 и показал лучшие результаты по сравнению с другими методами, такими как NF4 и HQQ.
Разработка велась совместно с учеными из НИУ ВШЭ, MIT, ISTA и KAUST. Технология уже применяется в Яндексе для быстрого прототипирования и может быть полезна в образовании, социальных проектах и других сферах с ограниченными ресурсами.