Группа Alibaba открыла исходный код своей новой флагманской модели искусственного интеллекта Qwen3-Next. Разработчики заявляют, что архитектурные инновации позволили сделать модель в десять раз мощнее предшественника при одновременном снижении стоимости ее обучения также в десять раз.
Alibaba Group Holding открыла исходный код своей новейшей модели искусственного интеллекта Qwen3-Next-80B-A3B. Модель построена на принципиально новой архитектуре, которая, по заявлению разработчиков, в десять раз мощнее предыдущей версии при этом ее создание обошлось в десять раз дешевле. Разработкой модели занималось подразделение компании Alibaba Cloud.
Новая модель с 80 миллиардами параметров сравнивается по производительности с флагманской Qwen3-235B-A22B, но при этом оптимизирована для эффективной работы на потребительском оборудовании. Как сообщила команда Qwen на платформах GitHub и Hugging Face, внедрение архитектурных инноваций позволило не только значительно сократить затраты на обучение, но и в десять раз увеличить скорость выполнения некоторых задач по сравнению с предшественником, моделью Qwen3-32B.
Это событие рассматривается как часть общей стратегии Alibaba Cloud и других китайских компаний по сокращению отставания от американских коллег через открытый исходный код, делающий модели доступными для использования и модификации сторонними разработчиками. Благодаря этому Alibaba Cloud превратила Qwen в крупнейшую в мире экосистему ИИ с открытым исходным кодом.
Помимо базовой модели, также была представлена модель логического вывода Qwen3-Next-80B-A3B-Thinking, которая, согласно независимым тестам, превзошла по ряду показателей аналогичные разработки, включая Gemini-2.5-Flash-Thinking от Google.
Повышение эффективности стало возможным благодаря ряду технологий, включая «гибридное внимание» для упрощения обработки длинных текстов и высокоразреженную архитектуру «смеси экспертов», которая разделяет модель на специализированные подсети для оптимального баланса производительности и эффективности. Другими улучшениями стали стратегия «многотокенного прогнозирования» и повышенная стабильность в процессе обучения.
