Хватит переплачивать за размер: первый российский RAG-бенчмарк сломал главный миф о корпоративном ИИ

Российский бизнес ежегодно теряет десятки миллионов рублей на пилотных проектах с ИИ, которые не решают реальные корпоративные задачи. Проблема в том, что RAG-системы часто тестируют на стерильных наборах данных, не имеющих ничего общего с хаосом реальной документации.

Главный миф о том, что для качественного ИИ-ассистента нужна «самая большая» модель, разрушили результаты российского бенчмарка RRNCB. Оказалось, что компактные локальные решения обходятся в 4–5 раз дешевле облачных гигантов, теряя при этом лишь 8–15% в точности. Об этом «Компьютерре» сообщили организаторы бенчмарка — «Аватар Машина».

Что такое RRNCB

RRNCB (Russian RAG Normative — Corporate Benchmark) — это первый в России открытый инструмент для комплексного аудита RAG-систем, специализирующийся на работе с тяжелым корпоративным контентом. В отличие от традиционных тестов, этот бенчмарк анализирует RAG как целостный продукт, проверяя каждый этап конвейера — от точности извлечения данных из документов до финальной генерации ответа.

Используя специализированные датасеты с эталонными фрагментами документов и сложные метрики качества (включая RougeN и RougeL), RRNCB дает коммерческим и производственным компаниям объективную линейку для выбора наиболее эффективного ИИ-решения под их конкретные бизнес-задачи.

Зачем и как измеряли интеллект

Организатор исследования, компания «Аватар Машина», при поддержке АЛРИИ и сообщества Fractal Agents запустила бенчмарк ради проверки конкретной инженерной гипотезы. Разработчики стремились доказать на практике эффективность гибридного агентного подхода, где качество RAG-системы определяет не масштаб языковой модели, а точность гибридного поиска, грамотное ранжирование и выверенный баланс всех компонентов.

В такой архитектуре задача LLM сводится к точной суммаризации уже найденного в базе знаний контента. Специализированный бенчмарк стал тем самым инструментом, который позволил перевести теоретическую уверенность инженеров в плоскость объективных, измеримых данных.

Вызов приняли пять команд, представляющих как независимые стартапы, так и ИТ-структуры с госучастием. Исследование разделили на два этапа — открытый раунд прошел с 5 по 12 декабря 2025 года, после чего с 15 по 22 декабря состоялось закрытое тестирование «вслепую» на изолированном массиве данных.

Алгоритмы проверяли на прочность самым сложным корпоративным контентом, включая технические регламенты, ГОСТы, СНиПы, юридические кодексы и финансовую отчетность. Для максимальной объективности оценка решений проводилась по двум независимым и взаимодополняющим контурам.

Первый контур — консенсус трех независимых LLM-судей

В этой роли выступили GPT-4o-mini, Claude Haiku 4.5 и Gemini 3 Flash Preview. Использование нейросетей в качестве арбитров позволило оценить ответы по критическим для бизнеса критериям:

фактологическая точность;
полнота предоставленной информации;
структурированность ответа и его релевантность исходному запросу.

Чтобы полностью исключить человеческий фактор и субъективность, организаторы применили турнирную систему с транзитивной редукцией.

Второй контур — автоматические метрики

Помимо экспертной оценки нейросетей-судей, в бенчмарке задействовали ROUGE-счет — это жесткий математический фильтр, который проверяет, насколько точно ИИ воспроизводит термины, аббревиатуры и конкретные формулировки из ГОСТов или СНиПов.

Система настроена так, чтобы отдавать приоритет точному совпадению длинных фраз и устойчивых выражений (коэффициент 0.5 для ROUGE-L). В корпоративном секторе это вопрос безопасности, ведь любая вольная трактовка термина может привести к ошибкам в проектировании и реальным миллионным убыткам.

Однако даже при таком строгом подходе организаторы обнаружили «человеческую» слабость у самих ИИ-арбитров — позиционную предвзятость. Выяснилось, что нейросети в 62–68% случаев склонны хвалить тот ответ, который просто идет первым в списке.

Чтобы этот баг не исказил рейтинг, применили метод двойного слепого тестирования. Каждую пару ответов судьи оценивали дважды, меняя их местами, а итоговый балл высчитывали как среднее арифметическое. Эта процедура позволила выровнять шансы до математически безупречных 49.8%, гарантируя, что места в лидерборде распределены за реальные знания, а не за удачную позицию в списке.

Победители и проигравшие

На основе результатов бенчмарка сформировалась четкая картина того, какие архитектурные подходы работают лучше всего. В тройку лидеров вошли следующие решения:

1-е место — CustomRAG v1 от Idris. Победитель задействовал мощную облачную платформу объемом около 100B параметров. Решающим фактором успеха стала не грубая вычислительная сила, а глубокая кастомизация поискового слоя и собственные векторные представления.
2-е место — «Авандок» (КОРУС Консалтинг + EORA). Решение на базе компактной Qwen3 30B, заточенное под юридическую специфику, получило 8.31 балла. Система на 30-миллиардной модели обошла 100-миллиардного лидера по совокупной интегральной оценке, доказав преимущество специализации над универсальностью.
3-е место — Donkit AI. Весь конвейер на базе DeepSeek V3.2 спроектировал RAGOps-агент. ИИ самостоятельно провел свыше 150 экспериментов с конфигурациями, подготовил тестовые данные и дообучил векторы, создав open-source проект с упором на экстремальную экономичность вычислений.

Итоговый лидерборд бенчмарка RRNCB представлен в таблице.

Итоговый рейтинг LLM_Rank	Название решения	Компания	LLM	Размер LLM, b
1	CustomRAG v1	Idris	CustomLLM	100
2	Авандок.ИИ Ассистент	КОРУС Консалтинг	Qwen3 30B A3B Instruct 2507	30
3	donkit, open source	donkit	DeepSeek V3.2	685
4	Meno	Novosibirsk State University	qwen2.5-32b-instruct	32
5	Meno	Novosibirsk State University	meno-lite-0.1	7
6	Anonym	Anonym	t-tech/T-pro-it-1.0	32
8	donkit, closed source	donkit	gemini-2.5-flash	50

Организаторы бенчмарка решили не включать свое собственное RAG-решение Fractal TechDocs в официальный зачет, однако прогнали его через ту же систему тестов. Результаты оказались показательными — гибридная сборка на базе компактной Gemma 3 27B сумела на 1% обойти систему победителя (Idris).

Подписывайтесь на наш Telegram Подписаться

Инсайты тестирования

Анализ результатов выявил несколько ключевых закономерностей, меняющих подход к корпоративному ИИ.

Настройка поиска важнее размера модели

Разрыв между участниками первой тройки не превысил 10%, при этом решения на базе моделей в 27–32 млрд параметров продемонстрировали результаты на уровне 100-миллиардных систем. Показательным стал пример команды НГУ, которой удалось улучшить итоговый показатель на 12% исключительно благодаря оптимизации стратегии поиска и настройке FRIDA-эмбеддингов, без замены самой языковой модели.

Теперь перед согласованием бюджетов на тяжелые облачные LLM необходимо проверять корректность настройки поискового конвейера, так как именно в нем скрыт основной резерв качества. На основе этого при внедрении RAG-решений в 2026 году стоит опираться на три правила:

Провести аудит текущих конвейеров для проверки качества поиска и векторных представлений перед любой заменой модели.
Протестировать работу компактных моделей (27–32B) на корпоративных данных.
Использовать для тестирования только собственные документы компании для получения объективной картины.
В большинстве сценариев минимальная разница в качестве не перекрывает разницу в цене размещения.

Стоимость размещения можно снизить в 4–5 раз

Отказ от облачных моделей в пользу локальных сборок на базе 27–32B снижает стоимость владения инфраструктурой в 4–5 раз при допустимом падении качества ответов на 8–15%. Такая экономика работает в зависимости от контекста.

Для корпоративных баз знаний, FAQ и внутренних систем поддержки клиентов погрешность выльется в два-три дополнительных уточняющих вопроса в день, что полностью окупается пятикратной экономией. Однако для контуров юридического комплаенса или анализа финансовой отчетности снижение точности является поводом для дополнительной настройки поиска, а не причиной для отказа от локального ИИ.

При этом слепая замена компактной модели на мощную облачную без модернизации поиска не обеспечивает роста качества. Это подтверждает результат Donkit — open-source версия на DeepSeek V3.2 (685B) забрала бронзу, тогда как тот же самый конвейер с подключенной облачной Gemini 2.5 Flash рухнул на 8-е место из 9.

«Риски при внедрении RAG-решений видятся в необходимости дополнительной валидации ответа и связности информации между различными документами или частями документа. Иными словами, необходимо поддерживать корпус-глоссарий, чтобы LLM отвечала в рамках различающихся запросов в едином понятийном поле».

Артем Кострюков, генеральный директор «Тест АйТи» (ГК «Девелоника», FabricaONE.AI, акционер — «Софтлайн»)

От пилотов к жесткому аудиту ROI

Индустрия в 2026 году меняет логику принятия решений — энтузиазм вокруг генеративных сетей сменяется жесткой прагматикой, где технические подразделения должны доказывать возврат инвестиций (ROI), а не просто демонстрировать работающие прототипы.

«К техническим отделам стали предъявляться более жесткие требования по оценке ROI инвестиций в ИИ, что формирует запрос на инструменты тестирования, применимые к специфике конкретной компании. Для этого бенчмарки должны работать с наборами данных из собственных бизнес-кейсов заказчика — тогда оценка решения будет максимально отражать его практическую ценность».

Захар Понимаш, технический директор ООО «Аватар Машина»

Как показали результаты RRNCB, на первый план выходят компактные архитектуры, ювелирно настроенные под специфику конкретных рабочих процессов. В таких системах каждый вложенный рубль отрабатывает себя за счет точности поиска и грамотной работы с базами знаний, а не за счет аренды гигантских облачных мощностей. Эпоха универсальных LLM, которые обещают закрыть все потребности бизнеса «из коробки», уходит в прошлое.