Алгоритм, который знает, где был Бен Ладен

Культуромика — наука молодая. Собственно, возможность её зарождения появилась только с развитием интернета как глобального хранилища информации — новостей, книг, очерков, результатов исследований… Культуромическое исследование может показать, как менялся язык с годами? или узнать, сколько люди помнят о своём прошлом. А может, как в случае, о котором пойдёт речь, указать, с помощью анализа новостей разных лет, где скрывался Бен Ладен и весенние арабские революции.

Карта упоминаний Бен Ладена с 1979 года

Исследование проводилось с помощью суперкомпьютера Nautilus. Он исследовал информацию, заложенную в три больших новостных базы данных. В них содержались все номера New York Times с 1945 по 2005 годы, незасекреченные данные из Summary of World Broadcasts с 1979 года по 2010 и архив статей, попавших в Google News с 2006 по 2011 годы.

Используя полученные данные, исследователь Калев Литару из Иллинойского университета в Урбана-Шампейн получил сеть общим объёмом 2,4 петабайта, в которую были включено 10 миллиардов людей, мест, вещей и действий, объединённых более чем 100 триллионами связей (выведенных из новостных источников). Учёный позволил суперкомпьютеру вычленить интересные закономерности в этом сборнике информации, которые он потом также проредил вручную. В результате он получил прогнозы — например, насчёт национальных конфликтов и перемещения конкретных людей.

Литару обращает особенное внимание на тон, с которым источники освещают то или иное событие. Например, перед Перл-Харбором американская служба наблюдения за новостями Foreign Boadcast Information Service составила отчёт, в котором указывалось на то, что в японском эфире начали костерить США, а призывы к миру подутихли. «Они поняли, что самое важное в новостях не то, о чём рассказывают, а как — тон, эмоциональная окраска», — говорит исследователь.

Конечно, сам Литару не стал просматривать все источники. В его распоряжении был алгоритм, который фильтровал негативные и позитивные слова. Сначала программа выясняла плотность позитивных и негативных слов в документе и соответственно относила его к позитивно или негативно настроенным, а потом каждое позитивное или негативное слово сверялось со словарём, в котором каждому из них присваивался определённый рейтинг. Среднее арифметическое определяло силу общего посыла того или иного материала.

Литару удалось добиться достаточно интересных результатов. На основе полученных данных можно было предсказать революции в Египте, Тунисе и Ливии, конфликт в Сербии и побеспокоиться о стабильности Саудовской Аравии.

Но самое главное подтверждение надёжности алгоритма — обнаружение местонахождения Бен Ладена с точностью до 200 км. Хотя город Абботабад, возле которого находилось укрытие террориста, упоминался всего один раз в статьях из баз данных, он находится меньше чем в 200 км от двух других городов, которые ассоциировались с ним: Исламабадом и Пешаваром. Вообще же в 49 процентах статей имя Бен Ладена было связано с Пакистаном.

Литару признаёт, что его технология не дала бы точного ответа о местоположении террориста. При этом он указывает на то, что результаты работы алгоритма показывают, что найти Бен Ладена в Пакистане было в два раза вероятнее, чем в Афганистане, и что пространство между Пешаваром и Исламабадом — как раз то самое место, где его стоило искать.

Почему бы Литару не предсказать что-нибудь из будущего? Вообще, как становится понятным из его слов, прежде всего учёного интересовало, работает ли его алгоритм, и он лишь искал тому подтверждение. «Это исследование — вовсе не волшебная палочка, которая призвана решить все проблемы, оно лишь открывает дорогу новым разработкам, — говорит он. — Мне это видится как исследование глубин океана: мы были так поглощены созерцанием поверхности и только начинаем познавать целый мир, который скрывается под ней».