В Колумбийском университете разработано приложение XRay, которое определяет детали использования персональных данных популярными интернет-ресурсами. Эта программа способна выяснить, какая именно информация личного характера сохраняется при использовании онлайновых сервисов. Её отчёт помогает выявлять возможные злоупотребления со стороны рекламодателей и владельцев сайтов, а также вносит свой вклад в создание прозрачной схемы обработки приватной информации.

Ещё до шпионского скандала вокруг истории с Эдвардом Сноуденом было очевидно, что многие правительственные организации и частные компании собирают через интернет и хранят в своих базах информацию о всех людях, попадающихся им в поле зрения. Как правило, речь шла об анализе предпочтений на основе технической информации: версии браузера, списка наиболее посещаемых адресов, времени и места выхода в сеть…

Схема работы программы XRay (изображение: mathias.lecuyer.me).
Схема работы программы XRay (изображение: mathias.lecuyer.me).

С недавних пор список существенно расширился. Популярные сайты и мобильные приложения через один запрашивают геоданные и языковые настройки, определяют наличие AdBlock и просят разрешить им доступ к аккаунтам в соцсетях. Некоторые даже пытаются получить доступ к истории поиска и адресной книге.

Все эти действия традиционно объясняются заботой о пользователе: попыткой создать более эффективные и персонализированные сервисы или автоматически подбирать личные рекомендации. Однако реальные причины обычно другие и касаются они схем монетизации дохода от предоставляемых бесплатно услуг. В самом безобидном случае сбор данных необходим для демонстрации целевой рекламы. Однако на основе поведенческого анализа и набора легко доступных сетевых идентификаторов предпринимаются даже попытки идентифицировать пользователя без явной авторизации и без его ведома.

Вероятностный анализ использования персональных данных для показанной рекламы. Вероятность указана в долях единицы (изображение: mathias.lecuyer.me).
Вероятностный анализ использования персональных данных для показанной рекламы. Вероятность указана в долях единицы (изображение: mathias.lecuyer.me).

К примеру, использование Google Now постепенно становится удобнее, но расплатой за это служит утрата пользователями последних остатков приватности. Зачастую такая жертва приносится даже не вполне осознанно, поскольку мало кто вчитывается в тексты лицензионных соглашений и задумывается о деталях реализации бесплатных сервисов.

В дата-центрах Google и Apple сохраняются все актуальные контакты пользователей и пароли от Wi-Fi сетей, а по данным GPS легко определить фактическое место проживания самого человека, узнать его ближайшее окружение и многое другое. Конечно, корпорации сотрудничают с правительством, но гораздо охотнее – друг с другом.

Вопреки распространённому мнению, правоохранительные органы мало интересует сетевая активность граждан (пока она не приводит к серьёзным последствиям в обычной жизни, приводящим к подаче исковых заявлений и постановлениям правительства). Основные охотники за личными данными – рекламодатели, маркетологи, кредитные организации и страховые компании. Все они платят не малые средства за детали о личной жизни своих клиентов – реальных и потенциальных.

Ограничение уровня вмешательства в личную жизнь и предотвращение злоупотреблений персональными данными стало юридической и технической проблемой. Чтобы решить её, исследователи из Колумбийского университета предложили универсальный статистический подход. Они создали наборы с ключевыми словами, некоторые из которых содержали конфиденциальную информацию, и внедрили их в тестовые аккаунты.

Программа XRay - тест с ключевыми словами (изображение: columbia.edu).
Программа XRay – тест с ключевыми словами (изображение: columbia.edu).

Затем с помощью вероятностной математической модели они проверили, как наличие определённых слов среди личных данных влияет на характер предлагаемой рекламы. Тексты с набором ключевых слов добавлялись в профили пользователя и отправлялись в его почтовые ящики, имитируя сетевую активность. Это позволило соотнести частоту встречаемости определённых терминов в созданной подборке и демонстрируемых предложениях персонального характера.

На основе этого алгоритма было создано приложение XRay, помогающее выяснить, какие именно данные и как используют компании. Программа отслеживает, как активность пользователя влияет на характер предлагаемой ему рекламы, персональные рекомендации и предложения посмотреть определённое видео на YouTube. По словам авторов исследования, их система была в состоянии предсказать таргетинг с точностью от восьмидесяти до девяноста процентов.

Количество целевых рекламных объявлений после добавления разных ключевых слов (изображение: columbia.edu).
Количество целевых рекламных объявлений после добавления разных ключевых слов (изображение: columbia.edu).

Анализ результатов привёл к выводам, что рекламодатели часто злоупотребляют таргетированными сообщениями, используя в качестве источника темы писем в почтовых ящиках пользователей. Особенно это касается здравоохранения и финансовой сферы. Специфические средства для лечения различных заболеваний быстро добавлялись к потоку общей рекламы при попадании в почтовые ящики Gmail писем с соответствующими ключевыми словами. Аналогичным образом предлагались услуги кредитования, если в ящике было тестовое письмо о задолженности.

Программа XRay всё ещё находится на стадии ранней беты, но исследователи надеются, выпуск программного обеспечения по лицензии с открытым исходным кодом будет способствовать развитию целого класса подобных приложений. Текущая версия может анализировать использование данных в Google Gmail, YouTube и Amazon, однако сам подход легко адаптировать и для других веб-сервисов.