Голосовые технологии на взлете: метрики пользы, безопасность и закон

Голосовые технологии стремительно становятся «рабочими руками» бизнеса и сервисов, но одновременно растут требования к качеству и безопасности. На каком этапе развития находятся речевые технологии? О трендах отрасли «Компьютерра» поговорила с ключевыми экспертами ИТ-рынка России.

Голосовые технологии стремительно становятся «рабочими руками» бизнеса и сервисов, но одновременно растут требования к качеству и безопасности. На каком этапе развития находятся речевые технологии? О трендах отрасли «Компьютерра» поговорила с ключевыми экспертами ИТ-рынка России.

С одной стороны, системы на стыке речи и ИИ помогают людям в реальном времени, с другой — создают новые риски, связанные с подделкой голоса. Научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» Института AIRI Дмитрий Корж подчеркивает, что технические меры важны, но основным средством предотвращения злонамеренных действий должна быть осведомленность пользователей, рациональность и обычные методы проверки, такие как звонок, код авторизации, push-уведомление, пароль. Их совместное использование должно повышать вероятность успешной детекции синтетической речи.

Методы борьбы с дипфейками

Чем популярнее голосовые технологии, тем острее вопрос защиты от подделок и дипфейков. Дмитрий Корж отмечает, что методы детекции подписи имеют ограниченное распространение, а вот методы встраивания водяных знаков становятся популярнее, их применяют крупные компании для своих моделей генерации. Так, в Китае это нужно уже делать по закону.

«Вотермарки нужно детектировать специальной моделью или подмоделью, которые, очевидно, не могут находится в открытом доступе. И пока непонятно, как учитывать все возможные способы создания и встраивания вотермарок из разных источников».

Дмитрий Корж, научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» Института AIRI 

Детекторы поддельного аудио тоже развиваются, но, по словам Дмитрия Коржа, они страдают от плохой обобщающей способности к новым методам синтеза и к новым доменам речи — другой язык, окружающие шумы. При этом в последние годы результаты существенно улучшились за счет использования Self supervised learning (SSL) и Audio LLM моделей. 

«Создание расширяющегося набора данных синтезированных и подлинных аудио, в который добавляют данные от новых синтезаторов речи, и дообучение моделей CM является оптимальным прикладным решением на сегодняшний день, — подчеркивает ученый. — В случае задачи верификации по голосу, объединение методов верификации по голосу и голосового антиспуфинга может давать более устойчивые результаты, чем stand-alone CM модель. В целом большие модели и обновляемые объемы данных плюс адаптация к целевому домену дают хорошие результаты».

При этом отрасль сталкивается с менее очевидной, но опасной практической зоной — когда подделка не полностью синтетическая, а «частичная» или «встроенная» в реальную запись. 

Дмитрий Корж предупреждает: «Количество исследований по детекции partial spoof content и временной атрибуции заметно меньше, чем для детекции полностью искусственно сгенерированного контента. Это может стать серьезным ограничением на практике». Он также отмечает перспективное направление — объяснимость детекции дипфейков. Это может привести к улучшению обобщающей способности модели и к упрощенной оценке человеком-экспертом.

Как снизить правовые и репутационные риски

Чем активнее голос используется как интерфейс и как идентификатор, тем важнее юридическая рамка — здесь прослеживается тренд на ужесточение и детализацию. 

Юрист Мирза Чирагов объясняет: «Ключевой вопрос — квалификация голоса», потому что если запись нужна только для фиксации разговора и контроля качества, речь идет о персональных данных. Но когда голос применяют «для установления личности, он приобретает статус биометрических персональных данных, что влечет требование письменного согласия и повышенные меры защиты».

Отдельная тенденция — раздельное согласие под разные цели, особенно когда данные идут для обучения моделей. 

«Запись для исполнения договора и запись для обучения ML-моделей — это разные цели». Обучение не может «подразумеваться» в общей формулировке «для улучшения сервиса», оно должно быть прямо указано в уведомлении и согласии, с описанием механизма обезличивания и срока хранения записи.

Мирза Чирагов, юрист 

Наконец, развитие синтеза голоса подводит отрасль к «праву на голос» и ответственности за ввод аудитории в заблуждение. Чирагов предупреждает, что синтез узнаваемого голоса конкретного лица затрагивает нематериальные блага. 

Возможны требования о защите репутации и даже сценарии с уголовно-правовой квалификацией, например, при мошенничестве. Юрист уверен: несмотря на то, что в данный момент отдельной нормы в УК РФ нет, появление специальной уголовно-правовой квалификации — вопрос времени. Уже сейчас суды оценивают не только факт генерации, но и риск введения аудитории в заблуждение.

Чирагов описывает комплаенс-подход — запрет на имитацию конкретных лиц без их согласия, обязательная маркировка синтетического контента, внедрение водяных знаков и технологического фингерпринтинга, неизменяемое логирование генераций и процедура оперативного реагирования. 

«В условиях роста регуляторного внимания к ИИ именно превентивная прозрачность процессов является основным инструментом снижения правовых и репутационных рисков», — резюмирует юрист.

Суфлер в наушнике — как работают современные колл-центры

Один из заметных трендов — рост «умных подсказок» в колл-центрах: это не классический «домашний помощник», а ИИ-суфлер. Он анализирует диалог с пользователем в реальном времени и дает оператору советы: как ответить или какой шаг сделать дальше. Технология помогает снизить количество ошибок и ускоряет принятие решения клиентом. 

«На практике после внедрения речевой аналитики в колл-центрах заметно улучшается показатель FCR — доля решения вопроса клиента с первого обращения. Хорошим показателем работы операторов до недавнего времени считался FCR от 60% до 75%. За последние два года благодаря новым решениям по речевой аналитике на базе ИИ и умным подсказкам этот порог вырос до 70-75%».

Юлия Черноуцян, генеральный директор ИТ-компании MightyCall 

Эксперт рассказывает, что подсказки оператору встроены в готовые сценарии часто задаваемых вопросов, которые предусматривают десятки разных вариантов развития беседы. В зависимости от вопроса у оператора возникает ветка с рекомендацией оптимального ответа и дальнейшего сценария, чтобы в каждом случае прийти к нужному результату.

Руководитель продуктового направления MWS AI (входит в МТС Web Services) Людмила Бахметьева отмечает, что принципиально «не только корректно внедрить подсказки в рутину операторов, но и регулярно замерять метрики по взаимодействию операторов с помощником».

Она подчеркивает, что важно выделять процент подсказок, которые оператор использовал или явно оценил как полезные, мониторить долю измененных подсказок. А также частоту игнорирования — долю подсказок, которые оператор не использовал, потому что высокий показатель может означать нерелевантность или перегрузку оператора лишними советами.

Дополнительно качество подсказок важно проверять посредством ручной или автоматизированной разметки. Это важно, поскольку если у оператора выстроен неоптимальный UX-путь взаимодействия с суфлером, то даже корректные подсказки могут игнорироваться. В частности, это может происходить также из-за скорости ответов системы. 

Людмила Бахметьва отдельно выделяет техническую метрику Latency — это время от получения реплики клиента до выдачи подсказки. 

«Критично, чтобы задержка не нарушала естественный ход диалога». 

Людмила Бахметьева, руководитель продуктового направления MWS AI (входит в МТС Web Services) 

Компании и аутсорсинговые колл-центры постоянно совершенствуют работу операторов — проводят тренинги, обновляют скрипты и сценарии бесед, через многопрофильную аналитику отслеживают KPI и корректируют проблемные моменты. 

Чтобы доказать, что голосовой ассистент действительно помогает, отрасль опирается на экспериментальные подходы. Эксперт говорит, что зачастую для этого запускают A/B-тестирование, но важно учитывать нюансы — стратификацию по опыту операторов, контроль по типу запросов.

Длительность теста должна составлять минимум 2–4 недели для стабилизации поведения, а когда A/B невозможно — использовать causal inference, причинно‑следственный вывод. 

При внедрении суфлера Людмила Бахметьева советует: 

  • пилотный запуск начните с 10–15 % операторов, отслеживая метрики в режиме реального времени;
  • каждые 2 недели анализируйте топ‑10 ошибок LLM и дообучайте модель;
  • дайте операторам возможность отключать подсказки в критических сценариях.

Что будем искать? Например,ChatGPT

Мы в социальных сетях