В мессенджере MAX обнаружена система распознавания ключевых слов во время звонков

Анализ кода мессенджера MAX (VK) показал наличие нейросетевого модуля распознавания ключевых слов, работающего во время голосовых вызовов. Сейчас система обучена на фразу «не слышу» и отключена сервером, но архитектура позволяет VK удаленно заменить модель на любые другие слова без обновления приложения и уведомления пользователей.

В мессенджере MAX обнаружена система распознавания ключевых слов во время звонков

В мессенджере MAX обнаружена встроенная система распознавания ключевых слов во время голосовых вызовов. Анализ кода показал, что внутри модифицированного WebRTC работает нейросетевая модель BC-ResNet, которая обрабатывает аудиопоток с микрофона в реальном времени. В текущей версии модель обучена распознавать только фразу «не слышу» — предположительно для оценки качества связи — и на сервере эта функция отключена.

Однако ключевая особенность архитектуры в том, что сама нейросеть и список распознаваемых слов не зашиты в код приложения, а загружаются с серверов VK. Это позволяет компании удаленно заменить модель на любую другую (например, для распознавания иных фраз) без обновления самого мессенджера и без уведомления пользователей. При возможном срабатывании результат с уровнем уверенности отправляется на сервер VK. В политике конфиденциальности и пользовательском соглашении прямое описание этой функции отсутствует.

Модуль активен только во время звонков, фоновой работы не обнаружено. Также в коде найден серверный флаг для возможной записи аудио звонков, а все вызовы проходят через TURN-сервер VK без прямых P2P-соединений. Автор публикации предоставил ссылки на скачивание модели, фрагменты кода и описание сетевых запросов для независимой проверки.

UPD: В Центре безопасности Max опровергли публикации о якобы доступе к разговорам пользователей. Все разговоры зашифрованы, данные пользователей надежно защищены. Там уточнили, что использование ИИ-инструментов в мессенджере направлено исключительно на повышение качества звонков, а сам инструмент работает обезличенно и не имеет доступа к звонкам.

Что будем искать? Например,ChatGPT

Мы в социальных сетях