VK выложила в открытый доступ нейросеть для обработки разговорного русского языка

Компьютерра 24 июля 2025 19:23

На чтение: 2 минуты

Нравится:

VK предоставила открытую языковую модель RuModernBERT, предназначенную для обработки естественного русского языка. Эта модель способна анализировать длинные тексты без необходимости их разбиения на фрагменты. Кроме того, она работает автономно, не требуя подключения к внешним API, что позволяет снизить нагрузку на инфраструктуру.

Компания VK открыла доступ к языковой модели RuModernBERT, предназначенной для обработки естественного русского языка. Эта модель способна анализировать длинные тексты целиком, без разбиения на фрагменты, и работает локально, без подключения к внешним API, что снижает нагрузку на инфраструктуру. Разработчики могут применять ее для решения широкого круга задач, включая извлечение информации, анализ тональности, поиск и ранжирование данных в приложениях и сервисах. RuModernBERT понимает сложные и объемные запросы пользователей, например, в поисковых системах, и находит наиболее релевантные результаты, будь то статьи, видео, товары или документы.

Модель обучена на 2 триллионах токенов данных, включая тексты на русском и английском языках, а также программный код, с максимальной длиной контекста до 8 192 токенов. Для обучения использовались разнообразные источники: книги, статьи, посты и комментарии из соцсетей, что позволяет RuModernBERT эффективно работать с современными текстами, включая разговорную речь.

Доступны две основные версии модели: базовая с 150 миллионами параметров и облегченная — с 35 миллионами, что дает разработчикам гибкость в выборе подходящего решения. Также обновлены специализированные версии USER и USER2, которые помогают лучше группировать и находить похожую информацию. В USER2 применяется особая технология, сокращающая объем данных почти без потери точности.

RuModernBERT демонстрирует высокую производительность: обучение и развертывание на устройствах происходит на 10–20% быстрее, а обработка длинных контекстов — в 2–3 раза быстрее по сравнению с аналогами. Тесты на валидационном датасете подтвердили, что модель превосходит существующие решения в области обработки русского языка.

Подписывайтесь на наш Telegram Подписаться