Компания Сбер представила экспериментальную диффузионную языковую модель GFusion, созданную на базе архитектуры GigaChat. Релиз включает не только саму модель, но и сопутствующие инструменты с открытым исходным кодом, предназначенные для исследователей и разработчиков в области генеративного искусственного интеллекта.

В отличие от традиционных больших языковых моделей (LLM), которые генерируют текст последовательно, слово за словом (авторегрессивный метод), GFusion использует иной принцип. Сначала система создает черновой вариант ответа, а затем итеративно его уточняет — по аналогии с тем, как работают нейросети для генерации изображений. Такой подход позволяет обрабатывать токены не поочередно, а пакетно. Согласно внутренним тестам, это обеспечивает прирост скорости генерации до 45% по сравнению с GigaChat 3, на основе которого проводилось обучение.
Среди ключевых особенностей диффузионных моделей отмечается гибкость: порядок написания текста не строго фиксирован (слева направо), что позволяет модели самостоятельно выбирать очередность дополнения ответа на каждом шаге. Кроме того, утверждается, что такие модели способны более эффективно извлекать информацию из ограниченных наборов данных за счет многократного использования одного датасета в процессе обучения.
Автором проекта выступил Даниил Тихонов, который на момент начала работы был студентом 4-го курса Факультета компьютерных наук НИУ ВШЭ и стажером в Сбере. Модель создавалась в рамках проектной работы и диплома, после успешной защиты которого разработчик вошел в штат банка в команду фундаментальных моделей.
Вместе с моделью опубликован набор открытых инструментов для ускорения обучения диффузионных моделей — первый подобный опенсорс-проект в России. Эти утилиты призваны снизить требования к вычислительным ресурсам и сократить время обучения. Также команда внесла изменения в популярный международный инструмент SGLang, добавив поддержку GFusion и нового алгоритма генерации, который, по заявлению разработчиков, повышает качество работы диффузионных моделей в целом.
Представители компании отмечают, что диффузионные языковые модели являются одним из наиболее активно развивающихся направлений с конца 2025 года и находят применение в сценариях, требующих низкой задержки, включая автодополнение кода и агентные системы. Открытый релиз GFusion рассматривается как отправная точка для дальнейших исследований в этой области. По имеющимся данным, это первая публично доступная диффузионная модель для генерации текста подобного масштаба, выпущенная в России.
