Машинное обучение позволяет подделать голос

Современные технологии искусственного интеллекта и машинного обучения могут использоваться для полноценной имитации речи любого человека. Об этом заявили представители компании Symantec по итогам собственного расследования ряда киберпреступлений с использованием поддельных голосов ряда топ-менеджеров ряда компаний. По мнению аналитиков, такие системы могут применяться для хищения различных активов, включая финансы, корпоративную и частную информацию, сообщает IKSMEDIA.

По данным Symantec, технология уже использовалась для хищения «миллионов долларов». Аналитики компании сообщили о как минимум трех случаях, когда поддельные голоса гендиректоров были применены для обманах глав финансовых отделов компаний с целью вывода денежных средств. Названия пострадавших компаний в Symantec не назвали. Технология получила название Deepfaked Audio, то есть, «подделка аудио на основе машинного обучения».

Аналогичный подход применяется для тренинга систем с использованием реальных изображений и видео человека для синтеза поддельного видео. Жертвами «глубокой подделки видео» уже неоднократно становились многие публичные персоны и главы компаний.

Все, что нужно для «тренинга» технологии «глубокого поддельного аудио» – это «достаточное количество» аудиозаписей предполагаемой жертвы, отмечают в Symantec. Далее искусственный интеллект использует аудио для тренинга двух так называемых «генеративных состязательных сетей» (GAN). В процессе обучения две нейросети такого типа «конкурируют» друг с другом: одна генерирует подделки, другая пытается отличить подделку от настоящего образца данных, и в процессе обе сети учатся на своих ошибках.

В случае преступлений против глав компаний источниками аудио могут выступать многочисленные записи голоса в открытом доступе. Специфические фоновые шумы позволяют замаскировать манеру произношения слогов и слов в наименее убедительных местах. Для таких целей используется имитация прерывистой сотовой связи или фоновый шум в оживленном людном месте. Однако для производства действительно качественных подделок аудио требуются значительные временные и финансовые ресурсы. Между тем, в некоторых случаях на создание достаточно реалистичного голосового профиля может понадобиться всего 20 минут аудиозаписей.

В отличие от поддельного видео, технология имитации голоса имеет значительно больший потенциал для мошеннических махинаций. Так, в отличие от подделки видео, где «натренированная модель» должна заместить собой исходное видео для подделки лица, поддельный аудио профиль может использоваться даже с давно известной технологией преобразования текста в голос.

По мнению специалистов Symantec, руководящему звену компаний, имеющему доступ к распоряжению финансами, следует серьезно проанализировать аудиозаписи своих выступлений в публичном доступе. Отныне злоумышленники могут получить необходимые им образцы голоса даже в телефонном разговоре или в личной беседе.

Финансовым отделам компаний аналитики Symantec советуют переосмыслить уровень угроз от киберпреступлений с использованием поддельного аудио, и серьезнее относится к защите доступа к конфиденциальным данным и финансам компании.

В Symantec в настоящее время разрабатывают методы анализа аудио, которые позволили бы проверять телефонные звонки и оценивать вероятность их подлинности. Существующие технологии для предотвращения кибератак с применением поддельного аудио, по мнению аналитиков компании, пока что слишком дорогостоящие.