Исследователи Сбера представили новый метод предобучения нейросетей HuBERT-CTC, который вдвое снижает количество ошибок распознавания русской речи по сравнению с лучшими зарубежными аналогами. Технология решает проблему зависимости от размеченных данных.

Исследователи Сбера разработали новый метод предобучения моделей искусственного интеллекта для распознавания русской речи, который получил название HuBERT-CTC. Этот подход использует целевые переменные из модели Connectionist Temporal Classification, что позволяет формировать более семантические представления данных.
Метод уже продемонстрировал выдающиеся результаты для русского языка, сокращая количество ошибок распознавания на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.
Ключевым преимуществом технологии является ее способность снижать зависимость от дефицитных размеченных аудиоданных. Благодаря self-supervised обучению модели могут обучаться на больших массивах неразмеченных данных, что открывает возможности для создания качественных систем распознавания для различных языков и специализированных областей.
Метод масштабируется по размеру модели и объему данных, а использование динамического маскирования self-attention обеспечивает гибкость: одна архитектура работает как в онлайн-, так и в офлайн-режимах без необходимости переобучения.
«Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов».
Федор Минькин, технический директор GigaChat Сбербанка
Практическое значение разработки затрагивает сервисы автоматического распознавания речи, голосовых помощников, контакт-центры и системы аналитики телефонных звонков. Метод может быть востребован в мультимодальных системах, например, в чат-ботах с поддержкой аудиопотока. Открытый код технологии позволяет дообучать модели для конкретных языков и задач, предоставляя новый инструмент для исследователей и разработчиков.
