Исследователи из MWS AI (входит в МТС), Университета ИТМО и Международного университета информационных технологий (IITU) предложили подход к обучению чат-ботов и голосовых помощников, направленный на повышение точности отслеживания состояния диалога. Работа представлена на конференции EACL 2026, которая проходит в Рабате с 24 по 29 марта.

Состояние диалога определяется как память системы о параметрах запроса пользователя. Искажение или потеря этих данных в процессе взаимодействия может приводить к формированию ответов, не соответствующих исходному запросу.
Одной из задач, рассматриваемых в исследовании, является адаптация диалоговых систем к новым предметным областям. Перенастройка модели на другой сценарий традиционно требует сбора значительного объема размеченных данных.
В представленном методе используется обучение с подкреплением GRPO (Group Relative Policy Optimization). В отличие от подходов, основанных на демонстрации эталонных примеров, данная схема предполагает, что система самостоятельно исследует варианты решений и получает обратную связь на основе точности результата. По данным авторов, это позволяет реализовать обучение без дополнительных тяжелых компонентов в доступном вычислительном контуре.
Эксперименты показали устойчивый прирост качества на моделях разного масштаба — от 1,5 до 32 миллиардов параметров. Один из самых показательных результатов связан с моделью на 8 миллиардов параметров: после обучения с использованием GRPO она превзошла не только GPT-4, но и модель в четыре раза крупнее, обученную классическим способом. При этом обучение проходило на данных из других доменов, а модель тестировали на новых для нее сценариях. По метрике точности отслеживания диалога модель на 8 млрд параметров показала результат 41,9%, тогда как у GPT-4 этот показатель составил 38,7%, а у модели на 32 млрд параметров с классическим дообучением — 39,9%.
Инженер-исследователь MWS AI Тимур Ионов отметил, что GRPO дает заметный эффект даже при небольшом объеме обучающих данных, снижая барьер входа при адаптации системы к новому сценарию. По его словам, практическая польза метода будет наиболее востребована в клиентской поддержке, голосовых ассистентах, системах бронирования и внутренних корпоративных ботах, то есть там, где важно удерживать контекст диалога. Весь процесс обучения и инференса укладывается на одну GPU, а код выложен в открытый доступ.