Альянс в сфере ИИ создал первый открытый бенчмарк для тестирования русскоязычных ИИ-моделей в программировании MERA Code. В создании этого эталона приняли участие команды из Сбера, Т-Банка, MWS AI, Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании «Сибирские нейросети».
Альянс в сфере ИИ представил MERA Code — первый открытый бенчмарк для тестирования русскоязычных ИИ-моделей в программировании. В его разработке участвовали команды Сбера, Т-Банка, MWS AI (входит в МТС Web Services), Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании «Сибирские нейросети».
С развитием больших языковых моделей ИИ все чаще применяется для генерации кода, автоматизации задач и работы с документацией, но до сих пор не было единого стандарта оценки их эффективности в русскоязычной среде. MERA Code призван решить эту проблему, предлагая прозрачную методику тестирования, учитывающую специфику русского языка.
Бенчмарк включает 11 разнообразных задач в форматах text2code, code2text и code2code, охватывающих 8 языков программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala. Тестирование проходит в изолированных средах, что гарантирует объективность оценки, а не просто анализ текста. Платформа открыта и предоставляет сквозную систему подсчета баллов, рейтинг и удобный фреймворк для тестирования. MERA Code анализирует как открытые модели, так и проприетарные API, помогая разработчикам выбирать оптимальные решения, исследователям — сравнивать модели в единых условиях, а компаниям — принимать обоснованные решения на основе прозрачных данных. Это важный шаг к стандартизации оценки ИИ в русскоязычном программировании.