Учёные против «больших данных»

Big Data / Мнения
автор: Олег Парамонов  15 января 2014

Одна из наиболее спорных идей, связанных с «большими данными», заключается в том, что необходимость понимания причинно-следственных связей переоценена. Согласно этой точке зрения, тот факт, что анализ данных не даёт объяснения найденным корреляциям и закономерностям, не является проблемой. Если корреляция действительно существует, её можно эксплуатировать, даже не зная причин.

Очередной опрос учёных, футурологов и всевозможных экспертов, опубликованный недавно изданием Edge, показывает, что многим трудно примириться с таким подходом. В этом году издание попросило специалистов в различных областях знания назвать научные концепции, от которых пришла пора избавиться. Некоторые ответы были целиком отданы критике чрезмерного увлечения анализом данных.

Вот характерный пример — реплика специалиста по когнитивной психологии Гэри Маркуса, занимающегося изучением связи между устройством мозга человека и пониманием языка. На вопрос о том, какую концепцию стоит отправить в утиль, Маркус ответил: «Большие данные». Впрочем, дальше он поясняет, что проблема в другом:

«Нет, я не имею в виду, что мы в буквальном смысле этого слова должны избавиться от концепции “больших данных” или отказаться от их сбора. Но мы должны перестать делать вид, будто “большие данные” — это волшебство. Существует не так много областей знания, которым не пойдут на пользу крупные наборы данных. Но многие, в том числе учёные, верят в “большие данных” сильнее, чем они того стоят. Складывается впечатление, что в последнее время половина разговоров по поводу понимания науки — от физики до нейробиологии — касается “больших данных” и сопутствующих методов вроде “нейронных сетей”, “алгоритмов машинного обучения” и “визуализации информации”».

Маркус упоминает недавнее заявление Гордона Мура, одного из основателей компании Intel и автора одноимённого закона. В начале января Мур пообещал потратить более $20 млн на финансирование фундаментальных научных исследований, но лишь в том случае, если они будут построены на «анализе данных с помощью алгоритмов машинного обучения, статистических методов и других приёмов, распространённых в сфере “больших данных”». Это, по мнению Маркуса, является тревожным знаком:

«Центром науки по-прежнему остаётся поиск законов, которые описывают нашу вселенную. И если есть что-то, для чего “большие данные” подходят не особенно хорошо, — это как раз идентификация законов. “Большие данные” показывают потрясающие результаты, когда нужно уловить корреляцию. Чем обильнее ваш набор данных, тем выше шансы на то, что удастся найти корреляции, даже сложные, описывающие зависимости между множеством переменных. Но наличие корреляции не свидетельствует и никогда не будет свидетельствовать о наличии причинно-следственной связи. Сами по себе все “большие данные” мира не помогут определить, вызывает ли курение рак лёгких. Чтобы действительно понять связь между курением и раком, необходимы эксперименты и механистическое понимание таких вещей, как канцерогены, онкогены и репликация ДНК. Просто свести в одну таблицу всех курящих и некурящих из каждого города мира и все сведения о том, когда они курили, где они курили, сколько они прожили и как умерли, недостаточно для того, чтобы разобраться во всей сложной биологической подоплёке — независимо от количества терабайтов, которые займёт эта таблица».

Справедливости ради нужно заметить, что вряд ли даже самые горячие сторонники «больших данных» не согласятся с этим выводом. Действительно, анализ такой таблицы ничего не скажет о механизмах, связывающих курение с раком лёгких. Однако из неё будет следовать, что курящие чаще становятся жертвами рака лёгких. Она не даст понимания механизмов, но способна помочь снизить риск заболеть.

Эмануэль Дерман — ещё один противник чрезмерной веры в статистику, отметившийся в опросе Edge. Его мнение особенно интересно, потому что вся карьера Дермана непосредственно связана именно с верой в статистику. Он занимается количественным финансовым анализом и в прошлом даже возглавлял соответствующий отдел в Goldman Sachs. Многие концепции, которые теперь связывают с «большими данными», использовались в количественном анализе ещё тридцать лет назад.

Критическое отношение Дермана к статистике и математическим моделям, применяемым для анализа поведения людей, давно известно. Он написал множество статей о разнице между моделями в естественных науках и финансах. Показатели, с которыми имеют дело, например, физики, объективны. В финансах, психологии, экономике или социологии исходные данные заведомо субъективны.

В Edge Дерман соглашается с Маркусом:

«В последнее время мир, особенно в области общественных наук, очарован статистикой и анализом данных. Их считают источником знания, истиной в последней инстанции. Кое-кто даже утверждает, что автоматизированный статистический анализ закономерностей способен заменить традиционные методы, с помощью которых мы докапываемся до истины, и не только в общественных науках и медицине, но и в естественных науках. Я уверен, что нам следует быть осторожнее. Не стоит ставить всё на статистику и анализ данных».

Дерман сравнивает статистику с Калибаном — обиженным дикарём из шекспировской «Бури»:

«Статистика как область знания в некотором роде напоминает Калибана, уродившегося где-то на острове между математикой и естественными науками. Это и не в чистом виде язык, и не настоящая наука, изучающая реальный мир, а скорее собрание методов, предназначенных, по моему убеждению, для того, чтобы проверять гипотезы. Статистика в изоляции годна лишь на то, чтобы отыскивать тенденции и корреляции, наблюдавшиеся в прошлом, исходя из предположения, что они сохранятся и дальше. Однако есть знаменитое высказывание: корреляция не свидетельствует о наличии причинно-следственной связи».

В финале Дерман заключает, что анализ данных не способен подменить традиционные методы познания. Чтобы сделать открытие, сначала нужны интуитивные догадки, затем — моделирование, формулирование теории, и только после этого может потребоваться статистика.

Сторонники «больших данных» наверняка нашли бы, что ответить на этот выпад, но это тема для другой статьи. Их аргументы мы много раз слышали. Критика встречается реже.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
Небольшие выводы о больших данных
Небольшие выводы о больших данных
Технологии In-Memory на практике
Технологии In-Memory на практике
Облачный анализ: как облака могут изменить рынок бизнес-аналитики
Облачный анализ: как облака могут изменить рынок бизнес-аналитики
  • Сергей теплов

    Подобное состояние было в микроэлектронике где то до середины восьмидесятых,когда «большими данными» пытались заменить труднодоступные прямые измерения.

  • Пошёл Ньютон в парк и десять лет наблюдал за падающими яблоками.

    • unk32

      Десять лет наблюдал за абсолютно всем в парке — травой, бабочками, птицами, муравьями … Через десять лет он точно знал сколько родилось бабочек и упало яблок. В итоге получилась корреляция между бабочками и яблоками.

  • kue

    Современные микродатчики для «интернета вещей» может и смогут нагенерить такое кол-во статистики, которое перейдет в качество. Другой вопрос : — какой ценой ?

    • В.П.(W_P_)

      Не перейдет оно никуда. И цена известна. Статистика, а бигдата в особенности, специально приспособлены для нивелирования всякого различия, в т.ч. и возможного качественного.
      Тема на самом деле, прелюбопытнейшая, странно что комментариев мало. И удивительно, что немало есть еще людей, осознающих принципиальную ущербность чисто «количественных» подходов.

      • kue

        Может и перейдет, т.к. оценка данных есть метод формальный, а потому вычисляемый. Для этого подойдет и «лобовой» подход через увеличение данных плюс специализированный ИИ. Цена будет неплохая, это тоже понятно. Я бы только патетически восклицал как СГ : — «Зачем ??» ))

        • В.П.(W_P_)

          Ну как «зачем». Вон сколько в статье таких «зачем» перечислено. Уместнее спросить, почему у этих зачем столько энтузиастов ))

          • kue

            Их «зачем» как раз таки и не соответствуют, имхо, той цене, которую придется за все это удовольствие заплатить, что и нервирует, ну, типа. Я еще вспоминаю как год или более назад в КТ был описан shortlist от НАСА для обоснования работ по межзвездной теме, так там вопрос о собственно цели стоял на 8-м месте из 10 позиций и еще в очень мутной формулировке. И тут можно только гадать про основные и второстепенные цели. Интересно бы найти ту статью, — у меня не получилось, к сож.

          • В.П.(W_P_)

            Ну вот и одна из «цен», кстати — проблемы с целями ))

          • kue

            Собственно цели, как и это «зачем», вероятно, некоторым субьектам известны лучше, чем другим равным. Но это конспирология и я яростно от нее открещиваюсь )

          • В.П.(W_P_)

            Не, не вижу именно здесь особой конспирологии. Только общая тенденция «околичествлевания» . Я имею ввиду, что за восторгом от гигантского массива доступной информации зачастую теряются цели…
            Я видимо, про НАСА на свой лад понял ))

      • jno

        дык, для большинства век магии уже наступил!
        никто не знает, как работает телефон, телевизор, ПК — пользуются и ладно.
        это уже — культурный стереотип: знаний не надо, надо умение!

        • В.П.(W_P_)

          Даже не умение, можно даже и не уметь. Главное чтоб польза была. И желательно, монетизируемая по максимуму ))

          • jno

            для массобраза это, похоже, одно и то же.

            польза же не для обучаемого, а для нанимателя…

          • В.П.(W_P_)

            Ну типа того. А массобраз, наряду с медициной и фарминдустрией — самые яркие примеры случаев, когда цена статистических, усредняющих методов и подходов становится особенно неподъемной.

          • jno

            цена, которую платит кто? :)
            для текущего истеблишмента и обслуживающего его бизнеса цена явно не выглядит завышенной.

          • В.П.(W_P_)

            Цены разные, имхо. Свою цену платят те, кого усредняют )) А своей ценой бизнес может и пренебречь, да.

          • В.П.(W_P_)

            Но это в краткосрочной перспективе, а в долгосрочной цена скорее всего станет общей.

          • jno

            вИдение долгосрочной перспективы может существенно разниться для разных социальных групп.
            раньше бы сказали — классов.

          • В.П.(W_P_)

            Ну да, при условии, что у тех «классов», от которых что-то «долгосрочное» может реально зависеть, хоть какое-то видение вообще имеется)) Есть подозрение, что далеко не всегда. 20 лет новой российский истории что-то оптимизма не добавляют

          • jno

            ну что Вы, ей богу…
            вИдение есть у всех — и у индивидуальных представителей и у классов в целом.
            «быстро с3.14здить и быстро свалить» — тоже метод, как говорится…
            у кого-то, безусловно, территория РФ в сколько-нибудь отдалённой перспективе не фигурирует.

          • В.П.(W_P_)

            В таком смысле и у амебы свое видение есть, выходит, недалеко ушли)) Самое забавное, что при некоторых раскладах территория РФ вполне может оказаться не самым худые местом, в отличие от…

        • IF

          во времена паровоза — какой процент знал, как он работает? а я до сих пор не знаю, как это так вот можно творог в пачку положить, что бумажка в параллелпипед складывается…

          • jno

            не скажите!
            во времена паровоза всё, что надо, знал каждый, кто с паровозом работал — и машинист, и кочегар, и кондуктор.
            И где там котёл, и где топка, и каково рабочее давление, и как кривошипно-шатунный механизм устроен…

            да и Вы, поди, напрягши извилину, сообразите, что бумажку в параллелепипед не эльфы складывают, а неособо навороченная кинематика вроде этой вот :)

          • IF

            кто работал — да, но не кто пользовался. а с телевизором кто работает? китаец на сборочной линии?
            про бумажку смотреть не буду — должна же в повседневности магия оставаться. а то посмотрю — и как потом рассмотреть?

          • jno

            ну, как-то в годы Оны справлялись же и с телевизором — крутили и настройку и, что характерно, подстройку (длинной отвёрткой в разные дырки)…
            сейчас, конечно, не вдруг поймёшь, что это «телевизор» — аналоговый тракт там рудиментарный, всё остальное — от смартфона :)

          • На счет творога — а действительно, фантастика какая-то…

      • IF

        а про невилировку различий как раз неверно. «биг» в бигдате реально нужен, в частности чтоб хвосты отлавливать.

        • В.П.(W_P_)

          Ну в этом смысле, наверное, да. Мне тут сложно сужить. Я скорее о принципе, о том что в статье говорят. Хотя, те кто больше в теме, и здесь найдут что возразить при желании))

  • jno

    Однако из неё будет следовать, что курящие чаще становятся жертвами рака
    лёгких. Она не даст понимания механизмов, но способна помочь снизить
    риск заболеть.

    Первое — не обязательно, второе — прямая ложь!

    • Олег Парамонов

      Второе действительно не всегда следует из первого. Возможно, и курение, и рак зависят от чего-то, что не фигурирует в таблице. В этом случае уменьшение курения не повлияет на риск рака. Но это вполне можно проверить. Кто сказал, что анализ заканчивается на обнаружении корреляций в исторических данных?

      Увидев корреляцию между раком и курением, мы можем поставить опыт и узнать, снижает ли прекращение курения риск рака. Если эксперимент подтверждает это предположение, то риск рака снижен, и мы знаем, что делать дальше. Однако мы по-прежнему не знаем, почему прекращение курения снижает риск рака.

      • jno

        Мы даже не сможем корректно сформулировать условия эксперимента.
        Тем более, что в таких «резонансных» темах крайне велик риск исходно получить biased-данные… Или не менее biased-интерпретацию.
        Про то, что в широко публикуемых результатах таких исследованиях часто не указывают ни ковариации, ни полученных коэффициентов, я уж и вовсе молчу.

        Впрочем, история со «всемирным потеплением» определённую известность всё же получила.

        • Олег Парамонов

          Мне кажется, вы преувеличиваете. И курение, и рак лёгких — это довольно однозначные вещи. Человек либо курит, либо нет. Рак лёгких либо есть, либо его нет. Тут не очень много места для субъективности.

          Кто-то сомневается в наличии связи между курением и раком лёгких? В глобальном потеплении, кажется, не сомневается никто из тех, кто понимает, о чём говорит.

          • unk32

            При этом пока он доедет на работу мимо проедет куча машин с двигателем внутреннего сгорания. Как это занести в биг дата, включая марки топлива, износ двигателей и что добавили в бензин? Сюда еще надо внести данные места работы: используемые кондиционеры, из какой пластмассы, мебель, линолеум, перестали они выделять фенолы (или что там), марки пылесосов (какого диаметра частицы они задерживают а какие поднимают в воздух), тип городской пыли и наличие пылевых бурь в Африке и на «Целине», которые умудряются покрывать пол планеты. И всё это оседает в легких.

          • Олег Парамонов

            Всё это не играет роли, если мы измеряем связь ОТКАЗА от курения с риском рака. Если в результате отказа от курения риск рака снижается, то отказ от курения можно использовать для снижения риска рака.

          • jno

            придётся сначала определить понятие «риск рака»…

            выглядит очевидным, что исключая внешние факторы (куда войдёт и курение), мы исключаем и экзогенные причины клеточных мутаций.
            за исключением (гы-гы, кто бы мог подумать!) накопленных.

            внешние факторы, теоретически, можно редуцировать до питания (инъекционного) и дыхания (готовой газовой смесью), да. останется на протяжении пары-тройки поколений проследить за подопытними на предмет выявления лёгочных онкозаболеваний… ну и мощность выборки должна быть статистически значима. потом надо будет потихоньку (по одному за пару поколений для демпфирования колебаний) возвращать потенциальные канцерогены…

            а так — даже разница между некурившими и бросившими не всегда выделяется.

            и уж совершенно странным выглядит метод оценки «риска» по выборке у заведомо больных! читайте «о вреде огурцов», что ли…

          • kue

            Верно ! У матери вот засол капусты на балконе пропал из-за этого проклятого потепления ( Пора запрещать уже эту станцию на Аляске для раскачивания ионосферы..

          • В.П.(W_P_)

            Еще вспоминается небезызвестный борцун с курением Аллен Карр, куривший 30 лет, потом почти столько же боровшийся с заразой и в результате умерший от рака легких.
            Это так, тоже музыкой навеяло. А книжка у него хорошая !

          • kue

            Вот этот еще хорош: «Здесь курят»

          • Олег Парамонов

            Вы опять рассуждаете о том, как определить влияет ли курение на риск гибели от рака. Я же говорю о противоположной задаче

          • jno

            я говорю о тенденциозности в решении определённого класса задач.

            и ещё о том, что статистические методы не всегда применимы.

            и о том, что корректный эксперимент не всегда удаётся даже сформулировать…

          • jno

            вот-вот, никто не сомневается.
            и даже не пытается.
            всё — «однозначно», хотя и нет прямых доказательств.
            голая статистика пардон, БигДата…

            Бог — либо есть, либо нет.
            Бог, что — курит?

            а с «потеплением» было весело, когда нашли переписку британских учёных, которые весело подгоняли данные под идею, ога.

          • kue

            Про «потепление» вот тут.. ребята хотели успеть, пока тепло. ) ps Айрин Куэйл страшна как климат..

          • Олег Парамонов

            Всемирный заговор! Народ дурят! В вопросах медицины можно верить только тем, кто ничего не смыслит в медицине, а в вопросах климата — исключительно тем, кто о климате знает только из прогнозов погоды. Специалисты куплены тайным мировым правительством.

          • jno

            можно, конечно, и иронизировать, но факты — вещь упрямая.

            подтасовка исходных данных в «доказательстве» всемирного потепления, таки, была. это, разумеется, не доказывает отсуствия этого потепления.

            тенденциозные (читай — biased) подходы к «доказательству» вреда курения так же налицо. что, разумеется, не доказывает, что курение полезно.

            просто надо отделять учёных от науки.

            у учёных (даже и без кавычек) есть свои слабости и взгяды.
            которые влияют на результат.

      • unk32

        Если бы в такую выборку сразу вводили химию (консерванты, удобрения, пестициды, гербициды, чем там травят сигареты в России и Болгарии что на языке привкус БОВ — думаю на времена ДДТ должен был приходиться один из пиков) — результат после обработки большими данными был бы налицо. А если ввести слишко много данных то химия утонет в флуктуациях количества троллейбусов, бабочек на квадратный метр и пыли в галактике Андромеда.

  • IF

    лет 25 назад наблюдал, такой подход — сложную задачу, где матричные операции надо было производить аналитически (матрица — не числа, а некоторые выражения общего вида), сперва выполняли на системе символьных вычислений (reduce тогда был), а потом, уже зная ответ, находили иногда изящный способ получить то же «руками».

  • В.П.(W_P_)

    Хм, действительно странно, что отклика в комментариях почти нет. Тема горячая, критика весьма разумная и по делу, а никого особо не взволновало. Либо вера непоколебима, либо не поняли, либо всем пофиг и раскрутка искусственная ))

  • Fandanguero

    Интуиция, это как раз и есть результат реализации ассоциаций на основе накопленного опыта. Те же корелляции big data, только биологическим путём.

  • Dmitry Ignatov

    Вот уж действительно пример в стиле попутать божий дар с яичницей

    «Чтобы сделать открытие, сначала нужны интуитивные догадки, затем — моделирование, формулирование теории, и только после этого может потребоваться статистика.»

    Забавно, м-р Дерман готов теорию придумать до всякого эмпирического анализа и наблюдений. В физике данные до выдвижения гипотезы и данные после для проверки. А в экономике теория из головы… И некоторые экономисты мечтают о превращении экономики в физику.

    Я не против больших данных, но против неверного толкования концепций современного анализа данных и отсутствия у некоторых ученых всякого желания проверять свои теории на реальных данных. Причем я против только «статистической валидации теории».

    Рецензировал статьи в которых авторы измеряют корреляции и утверждают, что валидируют теорию. Имхо, в печь такие статьи.

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"