VK улучшила точность распознавания речи с помощью обновленной AI-модели

VK представила обновленную систему автоматического распознавания речи (ASR), точность которой повысилась на 20%. Технология, основанная на машинном обучении, уже используется для создания субтитров и расшифровки голосовых сообщений в сервисах компании.

VK улучшила точность распознавания речи с помощью обновленной AI-модели

Специалисты по искусственному интеллекту компании VK усовершенствовали технологию автоматического распознавания речи. Обновленная система, основанная на моделях машинного обучения, распознает речь на двадцать процентов точнее предыдущей версии. Это улучшает качество автоматических субтитров, расшифровок голосовых сообщений и функции «кружочков» в различных сервисах компании.

Технология преобразует голос в текст, оцифровывая звук, очищая запись от посторонних шумов и анализируя акустические особенности для определения произнесенных слов. Использование больших языковых моделей и нейросетевых алгоритмов позволяет системе учитывать контекст, смысловые связи и устойчивые выражения, делая итоговый текст более естественным и точным.

Новая версия системы была дообучена на расширенном наборе аудиоданных из публичных видеороликов VK Видео, что позволило улучшить распознавание различных темпов и манер речи. По результатам внутреннего тестирования, разработка VK показывает более высокое качество расшифровки русскоязычных аудиодорожек по сравнению с зарубежными аналогами.

Эта технология уже применяется для создания субтитров в VK Видео, VK Клипах, на платформе Учи.ру, а также для распознавания голосовых сообщений в мессенджере. Кроме того, она используется для внутренних задач: расшифровки и суммаризации встреч, а также для улучшения мультимодальных моделей в рекомендательной системе Discovery. Обновление уже запущено в VK Видео и VK Клипах, используется внутри компании и будет постепенно внедряться в другие продукты. В дальнейших планах команды — повышение точности обработки голосовых сообщений, добавление поддержки новых языков и внедрение диаризации — разделения речи по разным говорящим.

Что будем искать? Например,ChatGPT

Мы в социальных сетях