Анализ кода мессенджера MAX (VK) показал наличие нейросетевого модуля распознавания ключевых слов, работающего во время голосовых вызовов. Сейчас система обучена на фразу «не слышу» и отключена сервером, но архитектура позволяет VK удаленно заменить модель на любые другие слова без обновления приложения и уведомления пользователей.

В мессенджере MAX обнаружена встроенная система распознавания ключевых слов во время голосовых вызовов. Анализ кода показал, что внутри модифицированного WebRTC работает нейросетевая модель BC-ResNet, которая обрабатывает аудиопоток с микрофона в реальном времени. В текущей версии модель обучена распознавать только фразу «не слышу» — предположительно для оценки качества связи — и на сервере эта функция отключена.
Однако ключевая особенность архитектуры в том, что сама нейросеть и список распознаваемых слов не зашиты в код приложения, а загружаются с серверов VK. Это позволяет компании удаленно заменить модель на любую другую (например, для распознавания иных фраз) без обновления самого мессенджера и без уведомления пользователей. При возможном срабатывании результат с уровнем уверенности отправляется на сервер VK. В политике конфиденциальности и пользовательском соглашении прямое описание этой функции отсутствует.
Модуль активен только во время звонков, фоновой работы не обнаружено. Также в коде найден серверный флаг для возможной записи аудио звонков, а все вызовы проходят через TURN-сервер VK без прямых P2P-соединений. Автор публикации предоставил ссылки на скачивание модели, фрагменты кода и описание сетевых запросов для независимой проверки.
UPD: В Центре безопасности Max опровергли публикации о якобы доступе к разговорам пользователей. Все разговоры зашифрованы, данные пользователей надежно защищены. Там уточнили, что использование ИИ-инструментов в мессенджере направлено исключительно на повышение качества звонков, а сам инструмент работает обезличенно и не имеет доступа к звонкам.