Порочные стимулы: что на самом деле происходит после победы «больших данных»

Big Data / Мнения
автор: Кирилл Тихонов  14 января 2014

Сюжет многих историй успеха, связанных с использованием «больших данных», строится по одной и той же схеме. В начале компания, организация или даже целая отрасль работает по-старинке, полагаясь на интуицию и опыт экспертов. Затем кто-то решает проверить, стоит ли до такой степени верить традициям. Он изучает данные и обнаруживает, что они скрывают массу ценных закономерностей, которые можно выявить лишь с помощью современных методов анализа.

История всегда кончается хеппи-эндом. Захудалая спортивная команда, пользуясь анализом данных, вырывается вперёд и побеждает богатых соперников. Платёжная система выявляет признаки, которые выдают мошенников, и спасает десятки миллионов долларов. Компания, изучая статистику, находит прекрасных сотрудников, которые в противном случае были бы отсеяны отделом кадров.

После прочтения нескольких историй подобного рода напрашивается вопрос: а что будет дальше? Что произойдёт, когда богатые соперники той спортивной команды тоже займутся анализом данных? Когда мошенники разгадают, как платёжная система определяет сомнительные платежи? Или претенденты на рабочие места поймут, как обмануть алгоритм, который заменил менеджера по персоналу?

Статья финансового обозревателя агентства Reuters Феликса Салмона «Почему квонтам известно не всё«, опубликованная в свежем номере журнала Wired, предлагает один из вариантов ответа на этот вопрос. Квонты, упомянутые в заголовке, — это финансовые аналитики, использующие математические модели вместо рекомендаций экспертов. Салмон использует этот термин для обозначения апологетов анализа данных в любой области.

Он считает, что нашествие квонтов, как правило, происходит в четыре этапа. Истории успеха, про которые мы рассказываем в «Компьютерре», описывают первые два — «дореволюционный» период и саму революцию. Трудности начинаются на третьем этапе, который часто остаётся за кадром:

«Самая распространённая проблема заключается в том, что появление всех этих метрик, алгоритмов и автоматических процессов принятия решений приводит к тому, что люди начинают обманывать систему труднопредсказуемым, хотя и рациональным образом. Социолог Дональд Т. Кэмпбелл обратил внимание на эту динамику ещё в семидесятые, сформулировав закон, который теперь называют его именем. «Чем важнее количественные социальные показатели для принятия решений, — писал он, — тем уязвимее они для коррупционного воздействия и тем сильнее искажаются те самые социальные процессы, которые подвергаются мониторингу».

Иными словами, как только у игры появляются правила, находятся и способы их нарушить. В истории можно найти этому массу иллюстраций. В XIX веке власти колониального Вьетнама объявили, что будут выплачивать премию за каждую убитую крысу. Предполагалось, что в результате город избавится от крыс, но результат оказался противоположным: как только дератизация стала выгодным ремеслом, вьетнамцы принялись разводить грызунов на убой.

Похожий случай произошёл с палеонтологами, путешествовавшими по Китаю в XIX веке. Они пообещали местным жителям награду за фрагменты костей динозавров, которые те помогут отыскать. Местные жители оказались хитрее, чем думали учёные: чтобы заработать побольше, они специально разбивали найденные кости на мелкие кусочки и требовали награду за каждую крошку.

Более свежий пример у нас перед глазами — бесконечная война между поисковыми системами и поисковыми оптимизаторами. Поисковики вознаграждают более важные сайты высоким местом в выдаче. Оптимизаторы выясняют, на какие признаки опирается алгоритм поисковика, чтобы определить важность страницы, а затем используют это знание для того, чтобы его обмануть. Разумеется, следующая версия алгоритма уже учитывает их трюки, но это помогает недолго. Рано или поздно в ней тоже находят лазейки — и так без конца.

Если данные, которые анализирует алгоритм, зависят от действий людей, люди научатся действовать так, чтобы добиться от него нужных им результатов. Что на этот счёт думают авторы алгоритма, будет волновать их не больше, чем китайских фермеров, разбивавших кости динозавра, беспокоило мнение заезжих палеонтологов.

Это значит, что хедж-фонд, предсказывающий поведение рынка при помощи анализа сообщений в Twitter, рискует стать жертвой конкурента, который преднамеренно замусорит социальную сеть ложными сообщениями, генерируемыми тысячами ботов. Можно не сомневаться, что мошенники научатся скрываться от систем антифрода, и алгоритмы придётся усложнять, — да что там, это уже происходит. Даже карту, предназначенную для прогнозирования очагов преступности, вероятно, можно использовать во вред. Если известно, что полиция распределяет силы в соответствии с её показаниями — значит, известны и места, где полиции нет.

Подвоха не будет только в данных, которые поставляют природа и неразумные машины. Впрочем, с ними, как указывает Феликс Салмон, тоже не всё просто. Американская национальная метеорологическая служба подсчитала, что опытные синоптики способны улучшить точность прогноза, выданного машиной, почти на 25%. Это, по мнению Салмона, подсказывает нам выигрышный путь развития. Абсолютное доверие анализу данных — временное явление. Успех ждёт тех, кто научится совмещать интуицию экспертов с показаниями машин.

Только человек заметит, когда у используемого алгоритма появляются непредвиденные побочные эффекты. «Пока люди остаются у руля и понимают, чем именно они рулят, всё будет в порядке», — заключает он.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
Небольшие выводы о больших данных
Небольшие выводы о больших данных
Технологии In-Memory на практике
Технологии In-Memory на практике
Облачный анализ: как облака могут изменить рынок бизнес-аналитики
Облачный анализ: как облака могут изменить рынок бизнес-аналитики
  • Andrew Voxel

    Прекрасная статья, спасибо!

  • Alex Ross

    я так и не понял почему анализу данных нельзя доверять… то, что найдутся более изощренные способы мошенничества, это не повод отказываться от систем безопасности.

    кроме того «интуиция экспертов» в любом случае должна опираться на анализ, иначе это гадание по кофейной гуще.

    • Twain

      речь о том, что нельзя безоговорочно доверять ни алгоритмам, ни экспертам. а если их «объединить», то результату можно доверять. эдакий симбиоз человека и машины.

      • Alex Ross

        и это настолько неочевидно, что нужно статью писать? :)

  • Пётр

    Аналитик боится что скоро аналитики будут не нужны.

    • Pixel Hunter

      Ага, бигдата же все делает сама — ни модель данных строить не надо, ни результаты интерпретировать — все бигдата животворящая.

      • Пётр

        Ладно, перефразирую, аналитик боится что скоро 90% аналитиков будут не нужны.

        • Pixel Hunter

          Это заблуждение.
          Из той же оперы, что «автоматизация бизнес-процессов сокращает потребность в персонале».
          Характер работы аналитиков поменяется, да.
          Но потребность в аналитиках не только не уменьшится, но наоборот, только увеличится.

          • Пётр

            > «автоматизация бизнес-процессов сокращает потребность в персонале»
            _Правильная_ «автоматизация бизнес-процессов сокращает потребность в персонале».

          • Pixel Hunter

            «Правильная» — это у теоретиков и в бизнес-кейсах.
            В реальности — «неправильная».

  • snow b

    Вообще трудно согласиться, что «Подвоха не будет только в данных, которые поставляют природа и неразумные машины». Как убедительно показал тот же Талеб в «Черном Лебеде», развитие определяют отнюдь не повседневные процессы, а как раз малопредсказуемые редкие события, которые не прогозируются никакой бигдатой. А про «оптимизацию» экспертами нужных данных — так и есть.

  • Artem Artemenko

    Получение данных процесс непрерывный, релевантность данных можно и разграничить. Не так страшен этот черт. В любом случае точка равновесия сместится, после нескольких качений маятника.

  • Valentin Tayursky

    Достаточно сложно обмануть анализ данных которые собраны от деятельности БОЛЬШОЙ группы людей: покупателей магазинов, пользователей общественного транспорта и т.п.
    Чтобы сфальсифицировать такую биг дату, нужно иметь возможность манипулировать огромными человеко-ресурсами. Что, имхо, несоизмеримо по затратам с итоговым результатом.

    • Олег Парамонов

      Обман может происходить на другой стадии — когда результаты, полученные в результате анализа деятельности большой группы людей, применяется к деятельности одного человека. Если этот человек знает, какие показатели анализируются, и как они влияют на результат, он может изменить своё поведение, чтобы добиться интересующего результата.

      Другой пример, который приводит Салмон, связан с переоптимизацией единственного показателя в ущерб другим. Он пишет, что во время американских выборов 2008 года штаб Обамы крайне успешно применил A/B-тестирование рассылок и сайта, чтобы добиться увеличения предвыборных пожертвований. К 2012 году A/B-тестирование использовали уже все кандидаты. За четыре года сайты настолько заоптимизировали на сбор пожертвований, что их стало практически невозможно использовать для чего-то ещё.

      • Valentin Tayursky

        Да, при применении к одному человеку — смухлевать можно))

        • evadim

          Но человеки то друг у друга учатся, перенимают так сказать передовой опыт :) С миру по нитке — нищему на верёвку.

      • jno

        у Вас же прямо получается: обман возникает там, где БигДата перестаёт быть БИГдатой :)

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"