Опасная сторона «больших данных»

Big Data / Мнения
автор: Кирилл Тихонов  12 октября 2013

На конференции EmTech 2013, которую на этой неделе провёл Массачусетский технологический институт, то и дело всплывала тема «больших данных». По мнению некоторых выступающих, эта технология даёт слишком богатые возможности для злоупотреблений.

Первым об этом заговорил Крейг Манди, бывший директор Microsoft по исследованиям и стратегии, который руководил разработкой Windows CE и стоял за инициативой Trustworthy Computing. Год назад он отошёл от дел, но пока остаётся советником главы Microsoft Стива Балмера.

По мнению Манди, сбор информации о людях, которым занимаются и корпорации, и государственные органы, вышел из-под контроля. Ограничивать его нужно было раньше. Сейчас запреты не помогут. Момент, когда джинна ещё можно было загнать в бутылку, давно миновал.

Манди считает, что теперь стоит бороться не со сбором, а с использованием персональной информации без разрешения. Причём бороться очень жёстко. «Лично я сделал бы это тяжким уголовным преступлением, — говорит бывший руководитель Microsoft. — В противном случае наказание будет слишком лёгким и никого не отпугнёт».

Чем именно опасен сбор и анализ данных, объяснила участникам EmTech Кейт Кроуфорд из Microsoft Research.

crowford

Компании всё чаще и чаще пытаются узнать о своих клиентах побольше, по крупицам отыскивая информацию о них из общедоступных источников — например, публичных постов в социальных сетях. Как правило, эти данные используются для того, чтобы точнее подбирать рекламу и маркетинговые предложения.

Речь идёт не только о контекстной рекламе Google и «Яндекса» или персонализированных рекомендациях в Amazon и Netflix. Тот же подход эксплуатируют и компании, работающие преимущественно в офлайне. Вспомните, например, сеть супермаркетов Walmart, которая разработала систему, внимательно следящую за тем, что пишут в интернете её покупатели:

Система Social Genome в реальном времени переваривает все публичные посты в социальных сетях, до которых ей удаётся дотянуться: Twitter, Facebook, даже Foursquare. Посты подвергаются семантическому анализу. Social Genome способна по контексту обходить большинство ловушек, связанных с неоднозначностью естественного языка. Добытая информация помогает составлять пугающе точные рекомендации и персонализировать рекламные рассылки.

Обычно подобная персонализация делает сервис удобнее для потребителей, но так происходит не всегда. Узнав о человеке побольше, компания может решить, что она не желает иметь с ним дело. В этом случае он лишится возможностей, которыми обладают другие.

Кроуфорд видит в таком подходе обновлённую версию печально известной «политики красной черты» (redlining), которая была распространена в Соединённых Штатах несколько десятилетий назад. В те времена банки и страховые компании предпочитали сотрудничать с состоятельными белыми мужчинами. Шансы женщин, представителей меньшинств и обитателей бедных кварталов на получение кредита или страховки стремились к нулю.

Взгляните, например, на эту карту Филадельфии. В 1936 году её использовала госкорпорация HOLC, помогавшая жертвам Великой депрессии перекредитовать ипотеки. Красным цветом отмечены бедные районы. Обращения, поступающие оттуда, отвергались без рассмотрения.

Home_Owners'_Loan_Corporation_Philadelphia_redlining_map

В 1968 году подобная практика была запрещена. Теперь для того, чтобы отказать в обслуживании, американским компаниям требуется более веская причина, чем раса, происхождение, религиозные взгляды, пол, семейное положение или наличие инвалидности.

Сбор и анализ данных — это лазейка, помогающая обойти этот запрет, считает Кроуфорд. Если компания решила, что её клиент относится к одной из нежелательных категорий, она может просто не сообщать ему о существовании некоторых услуг или предложить менее выгодные условия. Формально отказа нет, но эффект тот же.

Кроуфорд утверждает, что банки и страховые компании уже применяют «большие данные» для того, чтобы отсеивать клиентов, которые особенно нуждаются в помощи. Они добывают анонимизированные сведения о покупателях Amazon и посетителях медицинского портала WebMD, а затем сличают их с демографической информацией, пытаясь определить, кто есть кто. Это может привести, например, к тому, что женщина, которая разыскивала в WebMD сведения о раке груди и покупала в Amazon книги на ту же тему, вряд ли сумеет получить страховку или ссуду.

По мнению Кроуфорд, с этим нужно что-то делать. При достаточно большом количестве данных анонимность превращается в иллюзию и больше не защищает людей. Первым шагом к решению проблемы могла бы стать большая прозрачность процесса сбора и анализа данных. Кроуфорд считает, что компании должны сообщать людям, какой информацией о них они обладают и как именно это влияет на их решения.

В этом есть смысл, но нужно заметить, что пример Кроуфорд — это лишь часть картины. Ничуть не реже использование «больших данных» приводит к совершенно иному эффекту.

В чём заключался смысл «политики красной черты»? Она представляла собой очень грубый и неточный способ оценки риска. Именно грубость, заставляющая стричь под одну гребёнку целые социальные группы, вела к дискриминации.

«Большие данные» решают эту проблему. Они позволяют оценить риск индивидуально и разобраться в особенностях каждого случая по отдельности. Так делает, к примеру, компания ZestFinance, о которой мы не так давно писали. Она предоставляет краткосрочные кредиты малообеспеченным людям с плохой кредитной историей:

Обычные кредиторы опасаются доверять деньги тем, кто не способен подтвердить свою платёжеспособность, но они не знают о своих потенциальных клиентах и половины того, что знает о них ZestFinance.

В отличие от конкурентов, которые по старинке оценивают риск, руководствуясь дюжиной простых и очевидных признаков, в ZestFinance принимают во внимание тысячи факторов. Влияние многих факторов на результат трудно объяснить, но данные свидетельствуют, что оно есть. В ZenCash делают ставку на технологии, которые позволяют увидеть в данных закономерности, которые незаметны и даже непонятны для человека.

Вот пример. Клиент, признавшийся в том, что он вряд ли успеет вернуть деньги в срок, в большинстве банков попадёт в списки неблагонадёжных. Логично? Да. Проблема в том, что логика в таких вопросах — плохой помощник. В ZestCash обнаружили, что в действительности такое признание не уменьшает, а увеличивает вероятность того, что кредит будет выплачен до конца.

Это полная противоположность «политике красной черты».

В конечном счёте всё сводится к тому, что у «больших данных», как и у любой другой важной технологии, есть две стороны. Они могут использоваться во вред людям (и, вероятно, используются). Но они могут использоваться и во благо (и это происходит как минимум не реже). Занимаясь борьбой с первым, не следует забывать о втором.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
Небольшие выводы о больших данных
Небольшие выводы о больших данных
Технологии In-Memory на практике
Технологии In-Memory на практике
Облачный анализ: как облака могут изменить рынок бизнес-аналитики
Облачный анализ: как облака могут изменить рынок бизнес-аналитики
  • jno

    Вот и темную сторону силы из каментов в тему подняли.

  • Афиук

    Кроуфорд считает, что компании должны сообщать людям, какой информацией
    о них они обладают и как именно это влияет на их решения.
    Просто сообщать бесполезно. Возьмём для примера приложения для Google Play. Во-первых, мы обычно не можем прямо повлиять на то, какие разрешения просит себе программа (или продавец). Если тебе подозрительно, что калькулятору необходим доступ в Сеть, чтобы скачивать рекламу, ты можешь только отказаться от его использования. Но проблема в том, что других нет. Чтобы облегчить себе жизнь, все разработчики (и продавцы в широком смысле) просят себе авансом огромное количество полномочий, в которых фактически не нуждаются. И принуждают клиента заключать невыгодную сделку с навязанными условиями.

    Кроме того, очень трудно запомнить, какое приложение какие полномочия запрашивает, и в каких действительно нуждается, чтобы не выдать чрезмерные. Т.о., пользователь вроде бы «проинформирован», но толку от этой информации ноль. У пользователя нет ни понимания этого процесса, ни возможности повлиять на него.

    • Обычная серость

      кстати, непонятно, почему тут андроид не пошел по пути iOS, где можно для каждого приложения давать/запрещать доступ к адресным книгам, геолокации и т.д.
      Вроде бы намного логичнее, чем разрешать или запрещать все разом и не так уж сложно реализовать

      • Владимир Литвин

        в андроидах это решается в кастомных прошивках, в окне информации о приложении можно запрещать/непрощать.

        • Афиук

          Неоригинальная прошивка — не выход. Во-первых, это, как правило, лишение гарантии. Во-вторых, это как в «Линуксе», — из-за одной (не) работающей функции или реализованной особенности менять дистрибутив. Причём в каждом дистрибутиве такие функции есть и нет ни одного работающего безупречно. (Есть фанаты, взахлёб это утверждающие про собственный вариант ОС.)

      • В новом андроиде эта фича есть, но не активирована по умолчанию. Есть шанс, что в следующей версии будет штатно.

  • Сергей Зыкин

    Информация имеет очень много общего с оружием. Так же как и оружие она может быть нужна и обоснована. Но только в определнных пределах и для определенных целей.

    • Олег Парамонов

      В отличие от оружия, информацию можно получать непреднамеренно.

  • I.F.

    есть еще момент, связанный с неравномерным представлением разных групп населения — объемы статистики, доступные по социально и экономически активным людям гораздо больше, чем по малоимущим, не пользующимся кредитными карточками или мобильными гаджетами. соответственно разница в качестве аналитики будет расти.

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"