В России определят самую сильную ИИ-модель для бизнеса

В России запущен первый открытый продуктовый бенчмарк для комплексной оценки решений с применением ИИ в реальных бизнес-задачах — RRNCB. Инициатива реализуется компанией «Аватар Машина» при поддержке Ассоциации лабораторий ИИ.

В России определят самую сильную ИИ-модель для бизнеса

Новый бенчмарк призван решить проблему отсутствия прозрачных критериев оценки эффективности ИИ-решений для бизнеса. В отличие от существующих инструментов, которые проверяют работу отдельных компонентов, например, языковых моделей, RRNCB тестирует полные RAG-пайплайны на реальных корпоративных задачах. Это позволяет оценить продукт целиком — от извлечения данных до финальной генерации — и дать потенциальным заказчикам объективное представление о его сильных и слабых сторонах.

К участию в бенчмарке приглашены все российские компании, разрабатывающие ИИ-продукты для бизнеса. Среди ожидаемых участников — такие решения, как GigaChat от «Сбера», «Нейроэксперт» от «Яндекса», Cotype от МТС, Prefentum от Softline, а также продукты «Авито», «Точка Банка», Just AI и других ключевых игроков рынка. Свое участие также подтвердили ряд других разработчиков и научных организаций.

Прием заявок от разработчиков продлится до 21 ноября. Тестирование пройдет в два этапа: с 22 по 28 ноября и с 29 ноября по 10 декабря. Публикация результатов и рейтинга лучших ИИ-решений запланирована на 12 декабря. Подробная информация о методологии и процессе участия доступна на на сайте бенчмарка.

«В России уже есть бенчмарки, которые проверяют работу отдельных компонентов ИИ-системы — например, качество LLM-моделей. Но таких бенчмарков, которые бы оценивали весь пайплайн ИИ-продукта и могли бы дать объективное представление о его сильных и слабых сторонах для потенциальных заказчиков — то есть людей, которые с помощью ИИ хотят решить свои бизнес-задачи, — просто нет. RRNCB оценивает весь пайплайн целиком: от извлечения данных до финальной генерации. Мы проверяем, насколько разработчики ИИ-решений квалифицированы в настройке всех компонентов, и даем компаниям объективный инструмент для принятия решений о закупке того или иного решения».

Захар Понимаш, технический директор «Аватар Машина»

Как отмечают организаторы, участие в независимом бенчмарке дает компаниям объективное подтверждение качества продукта и дополнительный инструмент для продаж. Для рынка в целом инициатива создает единый стандарт оценки, предоставляя заказчикам прозрачный механизм сравнения решений и помогая принимать обоснованные решения при выборе поставщика.

Что будем искать? Например,ChatGPT

Мы в социальных сетях