В 2023 году в России появился открытый бенчмарк MERA — инструмент для объективной оценки качества ИИ-моделей, работающих с русским языком. Его создали крупнейшие игроки ИИ-отрасли: «Альянс в сфере искусственного интеллекта», Сбер, MTS AI, НИУ ВШЭ и «Сколтех». MERA позволяет не просто сравнивать ChatGPT, GigaChat или A-Vibe по единой шкале, но и выявлять их слабые места — от проблем с математикой до неумения вести логичный диалог. Сегодня этот бенчмарк становится де-факто стандартом для тестирования русскоязычного ИИ — как в научной среде, так и в бизнесе. В статье подробно расскажем, для чего он нужен и как использовать.
Что такое MERA?
MERA (Multimodal Evaluation for Russian-language Architectures) — это открытый инструмент для оценки работы крупных языковых моделей на русском языке.
Проект был представлен в конце 2023 года. Его создали «Альянс в сфере искусственного интеллекта», SberDevices, Sber AI, MTS AI, НИУ ВШЭ и «Сколтех».
MERA служит нескольким ключевым целям, объединяя научные, практические и отраслевые задачи, например, он может измерить и сравнить производительность разных моделей (от GPT-4 до российских GigaChat, A-Vibe) на едином наборе задач или выявлять слабые места моделей.
Для разработчиков инструмент может быть полезен в качестве подсказки для направления улучшения модели. Например, MERA может выявить плохие «математические навыки» модели. Также MERA предоставляет возможность тестирования промышленных решений перед внедрением.
Открытость MERA стимулирует развитие сообщества: любой разработчик может интегрировать модель через GitHub, предложить новые задачи или улучшить методологию. Кроме того, бенчмарк выполняет образовательную роль, демонстрируя возможности и ограничения ИИ на адаптированных для русского языка примерах.
В долгосрочной перспективе MERA планирует расшириться на мультимодальные задачи (анализ изображений, видео) и запустить специализированную версию MERA Industrial для отраслевых решений в медицине или юриспруденции, сохраняя статус де-факто стандарта для русскоязычных ИИ.
Какие метрики и задачи использует MERA?
Цель бенчмарка — всесторонне оценить интеллектуальные способности модели с помощью специально разработанных или адаптированных тестов на:
- Знания — проверка уровня знаний в истории, культуре, науке и других областях с помощью ruMMLU.
- Логику и рассуждения — оценка способности применять логическое мышление, дедуктивный анализ и устанавливать причинно-следственные связи.
- Генерацию кода — проверка умения модели интерпретировать технические задания и писать корректный код на Python и других языках.
- Понимание контекста — анализ сложных текстов и ответы на вопросы, требующие учета информации из разных частей документа.
- Этику и безопасность — оценка способности модели генерировать безопасный, непредвзятый и этичный контент.
- Математику — решение арифметических и логических задач.
Среди форматов тестирования разработчики бенчмарка предлагают Zero-shot, в котором модель получает только задание без примеров решений, и Few-shot, где к запросу автоматически добавляются несколько примеров правильных решений. Независимо от тестирования к ключевым метрикам относятся:
- Точность (Accuracy) — главная метрика для задач с несколькими вариантами ответов, показывающая долю правильных ответов.
- Строгое соответствие (Exact Match — EM) — метрика, которая применяется для оценки открытых ответов, таких как текст или код, и оценивает полное совпадение с эталонным ответом.
- F1-Score, которая используется для более гибкой оценки, особенно при вариациях в формулировках.
- Специальные метрики для таких задач, как генерация кода, могут применяться дополнительные параметры, например, pass@k (доля задач, решенных корректно хотя бы в нескольких попытках).
В отличие от международных бенчмарков вроде HELM, MT-Bench или BIG-bench, MERA ориентирована именно на русскоязычный контекст. Она включает задания на знание российской истории, понимание культурных аллюзий, работу с отечественными стандартами, школьными и вузовскими программами. Это не просто перевод западных тестов, а полноценная адаптация под российскую ментальную модель.
MERA для бизнеса
Среди пятерки лидеров в бенчмарке:
- Human-Benchmark — онлайн-платформа, предлагающая набор тестов для измерения когнитивных способностей человека.
- Claude 3.7 Sonnet — языковая модель от компании Anthropic
- Gemini 2.0 Flash — мультимодальная модель искусственного интеллекта от Google.
- DeepSeek-V3 — большая языковая модель с открытым исходным кодом, разработанная китайской компанией DeepSeek
- Gemini 1.5 Pro от Google.
Бизнес, в свою очередь, использует бенчмарк для валидации промышленных решений.
Яркий пример — модель A-Vibe от «Авито», которая дообучалась с учетом данных MERA для генерации описаний товаров, а компании вроде Сбера или MTS сверяются с его лидербордом при выборе LLM для чат-ботов или аналитики.
Следует отметить, что A-Vibe продемонстрировала превосходство среди облегченных моделей с количеством параметров до 10 млрд в бенчмарке MERA, опередив международные аналоги от OpenAI, Google и Anthropic.
В ходе тестирования были представлены задачи различной степени сложности — от базового понимания текста до сложных лингвистических задач, требующих глубокого анализа контекста.
Команда «Авито» утверждала, что генерация кода на 25% эффективнее у Gemini 1.5 с 8 миллиардами параметров. Ведение диалога на 32% точнее у Llama 3.1 с 405 миллиардами параметров. А способность понимать смысл текста на 23% лучше у Claude 3.5 Haiku.
Популярность MERA усиливается и потому, что она готова к следующему этапу — адаптации под конкретные отрасли. Например, в июне разработчики представили MERA Industrial — набор специализированных тестов для медицины, юриспруденции и других сфер, где важна не просто генерация текста, а точность, юридическая корректность и способность учитывать критический контекст.
Анонсирована и мультимодальная версия MERA — с задачами на анализ изображений, видео и аудио. Это делает платформу еще более ценной для компаний, работающих с комбинированными данными и комплексной аналитикой.