Мощные языковой модели Google стали доступны на обычных видеокартах

Google выпустила обновление своей языковой модели Gemma 3, адаптировав ее для эффективной работы на потребительских видеокартах благодаря технологии Quantization-Aware Training. Теперь крупнейшие модели серии Gemma могут использоваться на обычных персональных компьютерах и даже ноутбуках, что сделает продвинутые ИИ доступнее широкому кругу пользователей.

Google представила обновленную линейку моделей Gemma 3, разработанных с использованием технологии Quantization-Aware Training (QAT), позволяющей запускать мощные языковые модели на стандартных видеокартах типа NVIDIA RTX 3090 без значительных потерь в качестве генерации текста. Ранее модели Gemma демонстрировали выдающиеся показатели производительности исключительно на высокопроизводительных серверных ускорителях класса H100, используя формат вычислений BFloat16 (BF16). Новая версия позволяет резко уменьшить потребление видеопамяти, делая модели удобными для локальных расчетов.

Технология QAT предусматривает интеграцию этапа квантования непосредственно в процесс обучения сети, минимизируя негативные последствия уменьшения разрядности весов и активаций. Это обеспечивает значительное сокращение объема оперативной памяти, требуемого для хранения модели, позволяя экономить ресурсы оборудования и расширять круг потенциальных пользователей.

К примеру, Gemma 3 объемом 27 миллиардов параметров (Gemma 3 27B) ранее занимала около 54 ГБ видеопамяти в режиме BF16, тогда как после квантования до формата int4 ее размер сократился до всего лишь 14,1 ГБ. Аналогично уменьшились потребности и других представителей семейства: Gemma 3 12B (с 24 до 6,6 ГБ), Gemma 3 4B (с 8 до 2,6 ГБ) и Gemma 3 1B (с 2 до 0,5 ГБ).

Использование низкоразрядных представлений снижает нагрузку на оборудование и делает возможным эксплуатацию мощных моделей на бытовых компьютерах. Например, Gemma 3 27B (int4) легко запускается на популярной видеокарте RTX 3090 с памятью 24 ГБ, Gemma 3 12B доступна для владельцев ноутбуков с картой RTX 4060 (8 ГБ видеопамяти), а младшие версии, такие как Gemma 3 4B и 1B, подходят даже для мобильных платформ.

Разработчики обеспечили совместимость моделей с рядом инструментов и фреймворков, среди которых Ollama (для быстрого старта через командную строку), LM Studio (графическая оболочка для загрузки и тестирования моделей), MLX (оптимизированный инференс на платформе Apple Silicon), а также gemma.cpp и llama.cpp, позволяющие запускать модели на центральных процессорах с поддержкой популярного формата GGUF.

Что будем искать? Например,ChatGPT

Мы в социальных сетях