"Большие данные" и эволюция бессмысленных профессий

Не знаю, как вам, я мне за последние три года порядком надоели новости с заголовком «Big Data поможет в…» (далее следует вставить название отрасли — скажем, «в животноводстве»). Тем не менее я осознаю, что реакция моя — тоже стереотип, и он мешает разглядеть интересные процессы эволюции, когда нечто новое возникает совсем не там, где его ожидали. А ведь я о таких процессах уже писал — например, про увлечение газонокосилками как побочный эффект развития другой индустрии или про лавинообразование бессмысленной моды на примере Google Glass. Давайте теперь поглядим, какие социальные феномены может породить бум Big Data — при условии, что сами «большие данные» останутся совершенно бесполезным явлением с точки зрения своих главных ожиданий, то есть принципиально новой информации.

Возможно, условие бесполезности покажется вам слишком бредовым. Однако таких явлений вокруг очень много. Ураганы, землетрясения и морские приливы едва ли назовешь «осмысленными действиями», но именно они формируют ландшафт, в котором мы живём. Представим, что Big Data — такое же тупое и масштабное явление природы. Оно не обещает никому «помогать», у него нет для этого мозга и рук. Однако мы можем понять законы его движения — и прогнозировать последствия. Например, появление четырех новых популярных профессий.

1. «Хранители». Эту позицию я услышал на одном мероприятии по Big Data. Сначала эксперты как бы для виду рассказывали красивые байки из разряда «А ещё это поможет в медицине». Но потом вдруг признались: «Ну да, мы пока не можем извлечь из этих тонн песка никакого золота. Но мы можем сохранить этот песок! Глядишь, следующие поколения научаться копать глубже».

Здесь можно заподозрить банальную рекламу производителей памяти, тем более что среди них множество евангелистов Big Data. Скажу больше, даже скандалы с прослушкой АНБ иногда кажутся мне всего лишь рекламой дата-центров — потому что никаких особо ярких данных из этой многолетней прослушки мы не узнали, зато почитали презентации АНБ о том, как хорошо у них эти данные собираются.

С другой стороны, собирание информации без особого смысла очень свойственно людям и без АНБ; взять хоть кучи личных фотографий, которые мы зачем-то храним. Внешняя память — логичная пристройка для мозга, способного на абстрактное мышление. А значит, хранители будут в моде.

Их даже законами станут поддерживать. За всеми скандалами вокруг защиты персональных данных многие граждане забывают (а может, и не знали?), что в некоторых индустриях существуют не просто разрешения, а законодательные требования хранить данные не менее семи лет.

Кстати, это даже иногда помогает. Я недавно хотел собрать свои лучшие статьи про интернет — и обнаружил, что у меня их нет. Публиковались на сайтах, которые уже померли. И только благодаря проекту Archive.org, где архивируется весь интернет, мне есть куда ставить ссылки.

2. «Датаграфисты». Здесь тоже можно было бы начать с прагматики. Дескать, правильная визуализация «больших данных» позволит нам увидеть те золотые прожилки, которые не видны в классических табличных дата-сетах. Но это всё отмазы. На самом деле никто не может доказать существование такой визуализации для каждого конкретного случая. Поэтому давайте зайдем с другого конца.

У многих бессмысленных вещей нашего мира есть такое оправдание, как красота. Не обходит она и «большие данные». Надо просто научиться воспринимать их как творческий материал. Вот вам мой краткий курс эволюции изобразительного искусства: уголь, акварель, масло, проявитель, «Фотошоп», Big Data.

Многие западные дизайнеры уже неплохо раскрутились на этом стыке информатики с эстетикой. Самое простое — нарисовать что-нибудь в виде дерева: то ли получателей вирусного письма, то ли структуру корпорации в динамике, то ли количество слов в предложениях разных писателей (на картинке выше — визуализация стиля Джека Керуака).

Другой популярный вариант: берешь карту — и раскрашиваешь дома в соответствии с их возрастом, или количеством аварий на ближних улицах или национальным составом жителей:

Тут можно уже стать джигитал-критиком и с умным видом рассказывать о разнице жанров нового искусства. К примеру, сейчас на пике популярности — картины в стиле SNA (social network analysis). Или, говоря по-французски, «ёжики с одуванчиками». Хотя мы понимаем, что все жанровые деления — от лукавого. Главное — чтобы было красиво, и люди к тебе потянутся.

3. «Инфастрология». Читая про художников в стиле Big Data, иной читатель воскликнет: да что тут нового, в нашем НИИ тоже любили красивые графики чертить! Однако есть реально новая фича — персонализация. И «больших данных», и соответствующих картинок.

О рациональной составляющей этого тренда я рассказывал в колонке «От фитбита до медкарты: как заставить персональные данные работать на себя«. Здесь же добавлю немного про эстетику, то есть про бессмысленное. Уже сейчас видно, что наиболее успешны в данной области не те, кто собирает много данных, а те, кто грамотно сервирует простому человеку даже минимальную персональную аналитику. Классический пример — астрология: на одной только дате рождения строится огромная потребительская культура информационных продуктов на каждый день.

Очевидно, в цифровом мире для такой культуры ещё больше возможностей. Недавно видел, как одна знакомая очень переживала за лишнюю чашку кофе: фитнес-приложение на экране «Айфона» наглядно показывало, что девушке грозит страшная дегидратация.

Или вот совсем в яблочко: проект Astroverb предлагает всем желающим персональные «Знаки цифрового зодиака». Машинка выкачивает ленту ваших публичных записей из «Фейсбука» и проводит многофакторный анализ текста: как часто человек пишет о себе, какие категории слов любит употреблять, в какое время чаще пишет. Даже отзывы френдов учитываются. Вычисленные таким образом персональные характеристики автора раскладываются по восьми осям, и из этой «розы ветров» выходит очень персональная и почти научная визуализация личности, которую можно отлить в пластмассе или металле, как личный брелок-талисман.

4. «Укротители роботов». Первого представителя этой профессии я описал 15 лет назад в романе «Паутина». Друг героя, специалист по безопасности, делится с ним секретами своей профессии в 2018 году:

«Все отношения имеют особые признаки: где-то при разговоре звучит больше императивов, где-то паузы длиннее. Даже если мы с тобой будем называть дома “ульями”, а динамит — “медом”, сдвиг в типе отношений все равно будет заметен. Но это еще не самое интересное. А вот потом, когда индивидуальные профили складываются в сетку, по этой сетке прекрасно отслеживаются сингулярности…

Без Сети нашу странную тройку хрен бы кто так быстро отследил. Потому что следили-то раньше люди! А теперь чуть что — и тут как тут красная лампочка. На чистой автоматике, которой спать-гулять не требуется. Потом тот же искусственный интеллект может и дальше нашу ситуацию проанализировать. Сам запустит суперкомпьютерный имитатор помощней и еще на несколько шагов вперед поглядит, что из нашей отклонившейся тройки может вырасти — встреча старых рокеров или Организация освобождения Палестины».

В этом прогнозе угадано две вещи из трёх. Первое — то, что обработка «больших данных» потребует самообучающихся систем (искусственный интеллект). Второе — что сферой наиболее активного развития этой технологии станет безопасность (война).

А вот с возможностями семантического анализа я, кажется, переборщил. Что сейчас рассказывают нам специалисты по SNA на основе огромных массивов данных «Фейсбука»? Что с возрастом дочки общаются с родителями больше, чем сыновья? Что студенты, которые лучше общаются, как правило, и учатся лучше? Но, кажется, мы знали это и без социальных сетей. Даже постфактумный анализ твиттерных контактов террориста Джохара Царнаева выявляет лишь, что школьные друзья лучше университетских. Ну да, опять эти модные SNA-картинки в стиле «ёжик в тумане».

Почему аналитики социальных сетей так и не научились вычислять вкусы и намерения, давать пользователям вменяемые потребительские рекомендации, предсказывать обострение массовых психозов или хотя бы отличать позитивную реакцию на событие от негативной? Очевидно, машинка упирается в семантическую расплывчатость естественного языка.

Однако есть сферы, где «большие данные» состоят из более чётких сигналов статуса, без человеческой неопределённости. Это данные от устройств. И вот здесь службы безопасности дошли до навороченных систем под названием SIEM (Security Information and Event Management), которые проделывают ровно то, что было описано в моей фантастике, — только не для людей, а для компьютерных сетей. Они собирают логи со множества узлов большой инфраструктуры (например, сеть промышленной компании), проводят корреляционный анализ и автоматически выявляют даже те атаки, которые проводятся очень скрытно.

Правда, если такая система будет самообучаться, то внутри неё возникнет своя логика, которая человеку неподвластна; распознавать паттерн научилась, но как — не объяснить. Уже доходит до смешного: специалисты по безопасности проводят конкурсы с призами, пытаясь выяснить, что конкретно умеет делать та или иная SIEM; а в комментариях им пишут, что, дескать, умеет-то она очень много, да только не хватает людей, которые бы это поняли. Видимо, не много осталось времени до того момента, когда общение с подобными «существами» будет на самом деле напоминать камлание шамана с бубном. Что ж, тоже прикольная профессия. А смысл? Да бросьте. Укротителей и наездников в цирке видели? Ну и какой там смысл? Зато весело.

«Большие данные» и эволюция бессмысленных профессий