Учёные против "больших данных"

Одна из наиболее спорных идей, связанных с «большими данными», заключается в том, что необходимость понимания причинно-следственных связей переоценена. Согласно этой точке зрения, тот факт, что анализ данных не даёт объяснения найденным корреляциям и закономерностям, не является проблемой. Если корреляция действительно существует, её можно эксплуатировать, даже не зная причин.

Очередной опрос учёных, футурологов и всевозможных экспертов, опубликованный недавно изданием Edge, показывает, что многим трудно примириться с таким подходом. В этом году издание попросило специалистов в различных областях знания назвать научные концепции, от которых пришла пора избавиться. Некоторые ответы были целиком отданы критике чрезмерного увлечения анализом данных.

Вот характерный пример — реплика специалиста по когнитивной психологии Гэри Маркуса, занимающегося изучением связи между устройством мозга человека и пониманием языка. На вопрос о том, какую концепцию стоит отправить в утиль, Маркус ответил: «Большие данные». Впрочем, дальше он поясняет, что проблема в другом:

«Нет, я не имею в виду, что мы в буквальном смысле этого слова должны избавиться от концепции “больших данных” или отказаться от их сбора. Но мы должны перестать делать вид, будто “большие данные” — это волшебство. Существует не так много областей знания, которым не пойдут на пользу крупные наборы данных. Но многие, в том числе учёные, верят в “большие данных” сильнее, чем они того стоят. Складывается впечатление, что в последнее время половина разговоров по поводу понимания науки — от физики до нейробиологии — касается “больших данных” и сопутствующих методов вроде “нейронных сетей”, “алгоритмов машинного обучения” и “визуализации информации”».

Маркус упоминает недавнее заявление Гордона Мура, одного из основателей компании Intel и автора одноимённого закона. В начале января Мур пообещал потратить более $20 млн на финансирование фундаментальных научных исследований, но лишь в том случае, если они будут построены на «анализе данных с помощью алгоритмов машинного обучения, статистических методов и других приёмов, распространённых в сфере “больших данных”». Это, по мнению Маркуса, является тревожным знаком:

«Центром науки по-прежнему остаётся поиск законов, которые описывают нашу вселенную. И если есть что-то, для чего “большие данные” подходят не особенно хорошо, — это как раз идентификация законов. “Большие данные” показывают потрясающие результаты, когда нужно уловить корреляцию. Чем обильнее ваш набор данных, тем выше шансы на то, что удастся найти корреляции, даже сложные, описывающие зависимости между множеством переменных. Но наличие корреляции не свидетельствует и никогда не будет свидетельствовать о наличии причинно-следственной связи. Сами по себе все “большие данные” мира не помогут определить, вызывает ли курение рак лёгких. Чтобы действительно понять связь между курением и раком, необходимы эксперименты и механистическое понимание таких вещей, как канцерогены, онкогены и репликация ДНК. Просто свести в одну таблицу всех курящих и некурящих из каждого города мира и все сведения о том, когда они курили, где они курили, сколько они прожили и как умерли, недостаточно для того, чтобы разобраться во всей сложной биологической подоплёке — независимо от количества терабайтов, которые займёт эта таблица».

Справедливости ради нужно заметить, что вряд ли даже самые горячие сторонники «больших данных» не согласятся с этим выводом. Действительно, анализ такой таблицы ничего не скажет о механизмах, связывающих курение с раком лёгких. Однако из неё будет следовать, что курящие чаще становятся жертвами рака лёгких. Она не даст понимания механизмов, но способна помочь снизить риск заболеть.

Эмануэль Дерман — ещё один противник чрезмерной веры в статистику, отметившийся в опросе Edge. Его мнение особенно интересно, потому что вся карьера Дермана непосредственно связана именно с верой в статистику. Он занимается количественным финансовым анализом и в прошлом даже возглавлял соответствующий отдел в Goldman Sachs. Многие концепции, которые теперь связывают с «большими данными», использовались в количественном анализе ещё тридцать лет назад.

Критическое отношение Дермана к статистике и математическим моделям, применяемым для анализа поведения людей, давно известно. Он написал множество статей о разнице между моделями в естественных науках и финансах. Показатели, с которыми имеют дело, например, физики, объективны. В финансах, психологии, экономике или социологии исходные данные заведомо субъективны.

В Edge Дерман соглашается с Маркусом:

«В последнее время мир, особенно в области общественных наук, очарован статистикой и анализом данных. Их считают источником знания, истиной в последней инстанции. Кое-кто даже утверждает, что автоматизированный статистический анализ закономерностей способен заменить традиционные методы, с помощью которых мы докапываемся до истины, и не только в общественных науках и медицине, но и в естественных науках. Я уверен, что нам следует быть осторожнее. Не стоит ставить всё на статистику и анализ данных».

Дерман сравнивает статистику с Калибаном — обиженным дикарём из шекспировской «Бури»:

«Статистика как область знания в некотором роде напоминает Калибана, уродившегося где-то на острове между математикой и естественными науками. Это и не в чистом виде язык, и не настоящая наука, изучающая реальный мир, а скорее собрание методов, предназначенных, по моему убеждению, для того, чтобы проверять гипотезы. Статистика в изоляции годна лишь на то, чтобы отыскивать тенденции и корреляции, наблюдавшиеся в прошлом, исходя из предположения, что они сохранятся и дальше. Однако есть знаменитое высказывание: корреляция не свидетельствует о наличии причинно-следственной связи».

В финале Дерман заключает, что анализ данных не способен подменить традиционные методы познания. Чтобы сделать открытие, сначала нужны интуитивные догадки, затем — моделирование, формулирование теории, и только после этого может потребоваться статистика.

Сторонники «больших данных» наверняка нашли бы, что ответить на этот выпад, но это тема для другой статьи. Их аргументы мы много раз слышали. Критика встречается реже.

Учёные против «больших данных»