От расшифровки звонков к корпоративной памяти: куда движется рынок speech-to-text

Одними из ключевых трендов в развитии речевых технологий становятся переход от простой транскрибации аудио и видео в текст к аналитике на базе больших языковых моделей, распространение open-source-решений, использование расшифровок как инструмента корпоративной памяти, а также дообучение моделей под узкие предметные области. К таким выводам пришла команда Speech2Text по итогам анализа отраслевых данных, практик российских и зарубежных разработчиков, а также запросов компаний, использующих речевые технологии в продажах, клиентском сервисе и командной работе за 2026 год. Об этом «Компьютерре» рассказал Андрей Сегренев, CEO Speech2Text.

LLM-модели изменили рынок речевых технологий

По словам Андрея Сегренева, еще несколько лет назад решения в сфере речевой аналитики в основном строились на rule-based-подходе: правилах, словарях, ключевых словах и заранее подготовленной семантике. Такие системы могли реагировать на отдельные фразы или триггеры, но требовали сложной настройки и постоянной поддержки.

«Сейчас практически все игроки на рынке полностью перешли на LLM-модели. Если, например, нужно отследить негатив в речи, LLM-модель гораздо больше знает ключевых слов, так или иначе связанных с негативом. Не нужно составлять огромный словарь и вытаскивать правила. Можно просто спросить модель, был ли в разговоре негатив со стороны клиента, грубость со стороны оператора».

По оценке Speech2Text, использование LLM в речевой аналитике заметно снизило трудозатраты на внедрение таких решений и сделало алгоритмы более гибкими. При этом стоимость решений выросла: классические статистические инструменты и триггеры остаются дешевыми, тогда как применение больших языковых моделей обходится дороже. На некоторых моделях стоимость выше в 4–5 раз.

В результате рынок находится в поиске баланса между дорогими продвинутыми решениями и базовой транскрибацией без глубокой аналитики. В отдельный сегмент выделяются продукты, которые предлагают недорогую речевую аналитику для массовых бизнес-сценариев, например, контроля работы по скрипту, оценки качества звонков, анализа продаж и работы операторов.

Open-source решения и транскрибация

Еще одним важным трендом стало развитие open-source-решений. Доступность открытых моделей для перевода речи в текст и текста в речь дала рынку существенный импульс. Благодаря этому появились массовые продукты для расшифровки звонков, аудио, видео, YouTube-роликов, а также сервисы с функциями саммари и последующей аналитики.

«До конца 2023 — начала 2024 г. речевые технологии во многом оставались B2B-инструментом. Они были дорогими и использовались в основном корпорациями. С появлением открытых моделей стали развиваться продукты, которые позволили выходить на массовый рынок с простым и понятным пользовательским сценарием».

По словам эксперта, развитие open source также расширило возможности команд и разработчиков по доработке моделей. При этом просто установить модель недостаточно: в реальных продуктах требуется работа с шумами, разделением спикеров, именами участников, постобработкой и другими техническими нюансами.

Подписывайтесь на наш Telegram Читать

Речевые технологии и корпоративная память

Последний тренд, который в будущем изменит восприятие технологий в области транскрибации, заключается в его способности систематизировать знания компаний по любым вопросам. Расшифровки встреч, звонков и обсуждений могут использоваться для фиксации договоренностей, восстановления контекста, поиска идей и поддержки командной работы.

Сегренев отметил, что в компаниях часто теряется значительная часть информации, которая обсуждается устно. Если созвон переведен в текст, к нему можно вернуться спустя месяц или полгода, проверить договоренности с клиентом, восстановить детали проекта или использовать данные как основу для принятия решений.

«Это инструмент корпоративной памяти, инструмент принятия решений и повышения эффективности команды. Следующий этап — помощь в организации командной работы».

Речевые технологии и ИИ идут в узкопрофильные отрасли

Еще одним трендом стало дообучение моделей на узких предметных областях. Если в общих разговорах современные системы распознавания речи показывают высокую точность, то в специализированных сферах качество может снижаться на 5–15% из-за нехватки размеченных данных. Причем плохо распознаются именно специфические и, следовательно, важные термины, например, в медицине.

По оценке эксперта, за последние два года точность решений в сфере speech-to-text при расшифровке стандартных разговоров выросла примерно с 92–93% до 95–98%, однако итоговый показатель зависит от модели, качества записи, тематики и наличия специализированной лексики.

Таким образом, речевые технологии ушли от простой транскрибации к полноценной аналитике на базе LLM, но рынок еще ищет баланс между стоимостью и глубиной решений. Open-source сделал технологии массовыми, а расшифровки превращаются в инструмент корпоративной памяти. Следующий рубеж — дообучение моделей под узкие отрасли, где специфическая лексика пока остается слабым местом систем распознавания.