Исследователи Сбера создали модель GigaEmbeddings, способную эффективно обрабатывать тексты на русском языке. Это открытие позволит значительно повысить точность интеллектуальных поисков и улучшить функциональность чат-ботов, помогая решить ряд проблем, связанных с обработкой русскоязычного контента.

Исследователи Сбера разработали новую модель глубокого понимания русского языка, открывающую перспективы в улучшении интеллектуального поиска и развитии чат-ботов. Статья «GigaEmbeddings — эффективная модель векторных представлений для русского языка», представленная на конференции ACL 2025, описывает интонационную модель обработки текста.
GigaEmbeddings основана на архитектуре GigaChat-3B и проходит трехступенчатое обучение: предобучение, тонкую настройку и мультизадачное обучение. Оптимизация позволила уменьшить количество параметров на 25%, сохранив качество.
«Сегодня мы закрываем критически важную потребность рынка в качественных NLP-решениях для русского языка. Наша комплексная платформа позволяет бизнесу радикально оптимизировать все процессы работы с текстами — от базового поиска и рекомендательных алгоритмов до передовых RAG-систем в чат-ботах. Особую ценность представляет глубокая языковая адаптация — то, чего годами не хватало российскому рынку».
Федор Минькин, технический директор GigaChat Сбербанка
До появления GigaEmbeddings бизнес испытывал нехватку эффективных решений для русской лингвистики: существующие инструменты были ресурсоемкими или недостаточно производительными. Новая модель успешно решает задачи поиска, классификации и анализа текстов, полезна для разработки продвинутых чат-ботов, анализа клиентских запросов в банковском секторе и ретейле, создания персонализированных рекомендаций в медиасфере и электронной коммерции.
