Российские исследователи представили новую методологию тестирования ИИ-ассистентов

Российские ученые из Сбера, MWS AI, ИТМО, МИСИС и НИУ ВШЭ разработали открытую методологию DRAGOn для тестирования RAG-систем, которая впервые позволяет оценивать точность ИИ-ассистентов на динамически обновляемых корпоративных данных. Исследование принято на крупнейшую международную конференцию по компьютерной лингвистике EACL 2026.

Российские исследователи представили новую методологию тестирования ИИ-ассистентов

RAG-системы объединяют большие языковые модели с корпоративными базами знаний, позволяя нейросетям работать на актуальной информации и снижая риск ошибок. В отличие от существующих тестов, которые часто полагаются на статичные наборы данных или страдают от расхождения с реальными базами знаний компаний, новая методология DRAGOn предполагает постоянное обновление корпуса данных. Система автоматически вычленяет новые факты из свежих новостных лент, формируя «карту знаний», и создает многоуровневые логические задачи, требующие от ИИ сопоставления нескольких источников вместо простого копирования фрагментов текста. Проверкой ответов занимается нейросеть-судья, которая анализирует фактическую точность и полноту.

Соавтор исследования, руководитель центра разработки больших языковых моделей MWS AI Валентин Малых отметил, что конкуренция в сфере ИИ смещается от гонки параметров к эффективности прикладного контура. По его словам, предложенная методология универсальна и легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до работы с судебными документами.

В рамках исследования запущен первый публичный лидерборд RAG-систем на русском языке. Текущие результаты показывают, что связка из нескольких моделей в комбинации с продвинутыми методами поиска демонстрирует лучшие показатели точности, однако даже такие решения сталкиваются с трудностями при обработке сложных логических связей в динамичном потоке данных.

Для бизнеса практическая ценность методологии заключается в том, что на ее основе каждая компания может развернуть собственный контур тестирования на внутренних данных. Это позволяет до внедрения оценить, насколько точно ИИ-система работает в конкретной инфраструктуре, сравнивать разные модели по единым критериям и снижать риски ошибок в ответах.

В исследовании приняли участие специалисты Сбера (команда SberAI), Университета искусственного интеллекта имени Мохаммеда бин Заида (MBZUAI), ИТМО, МИСИС, НИУ ВШЭ, MWS AI, Международного университета информационных технологий (IITU) и Школы анализа данных Яндекса.

Читайте также: «Первый российский ускоритель нейросетей создала компания «ХайТэк».

Что будем искать? Например,ChatGPT

Мы в социальных сетях