Эпохальный номер Nature
Эпохальный номер Nature.

Big Data, «большие данные» — одно из самых популярных понятий современного компьютерного мира. Поисковик «Компьютерры» даёт 719 ссылок на связанные с ним материалы. Google предлагает 1 730 000 адресов. Концепция «больших данных» прошла большой путь за неполные пять лет. Да, менее чем через месяц ей можно будет отмечать пятилетие. 4 сентября 2008 года в свет вышел специальный выпуск Nature «Наука петабайтной эры», посвященный тому, как повлияют на будущее наук возможности работы с большими объемами данных. А всего лишь через три года аналитики из Gartner поставили эту технологию на второе место в перечне важнейших тенденций компьютерного мира. Логика их была железной: данные увеличиваются восьмикратно за пятилетку. 80% этих данных не структурировано. (Следовательно — и не обрабатываемо традиционными методами…) А ведь если их собрать и упорядочить, то из того, что уже доступно, можно получить информацию, чрезвычайно полезную для захвата и удержания места на рынке.

Тогда Gartner’овцы отдали Big Data второе место после виртуализации. Ну а теперь эксперты Cisco, опросившие 1 800 ИТ-специалистов по всему миру, получили такой ответ: «Четверо из пяти опрошенных говорят, что для работы с Big Data понадобится облачная инфраструктура». («Что мешает нам начать пользоваться плодами Big Data»). То есть «большие данные» сходятся в развитии с технологическим преемником виртуализации.

«Большие данные» в облаках (прогноз на 2017 год); выделяется роль бизнес-применений.

Но, несмотря на интереснейшие применения Big Data, вопрос-то всё равно задаётся так? «Что мешает?..» И, может быть, кроме названных айтишниками проблем с планированием, финансами, инфраструктурой, риск-менеджментом и безопасностью (напомним, что опрос Cisco производился до шумихи, связанной со Сноуденом), есть ещё причина одна. Незаметная тем, кто находится в среде ИТ-специалистов и многое воспринимает как должное. Может быть, концепция эта и связанные с ней технологии недостаточно популяризируются? Может быть, многочисленные материалы понятны лишь специалистам? А финансисты и руководители некомпьютерных бизнесов, равно как и некомпьютерные специалисты, не слишком хорошо представляют, почему же данные «большие» и какие преимущества это даёт в практической деятельности… (По опросам весны прошлого года лишь менее половины считало термин Big Data точно определённым.)

Так смеются над размытостью терминов вокруг Big Data и их проблемами безопасности
Так смеются над размытостью терминов вокруг Big Data и их проблемами безопасности.

Давайте же попробуем ответить на эти вопросы, воспользовавшись концепциями дисциплины кибернетики, бурно развивавшейся в пятидесятые–шестидесятые годы прошлого века. Они имеют то преимущество, что давно вошли в учебные планы и достаточно широко известны. Возможно, наши рассуждения пригодятся и ИТ-специалистам — в общении с коллегами некомпьютерного профиля, при обучении молодёжи.

Три V
Три V «больших данных» — Объём, Вариативность и Скорость — известны широко.

Итак, кибернетика. Была в ней концепция больших систем. И концепция эта оказалась столь плодотворна, что даже удостоилась отдельной статьи в 3-м издании Большой советской энциклопедии. Вот с ней-то мы и попробуем соотнести наши Big Data. Которые были анонсированы в Nature, подробно описывающем биологические приложения. А вот классическим примером большой системы считался «живой организм с его системами питания, дыхания, движения, нервной и гуморальной регуляции, восстановления разрушающихся элементов (клеток) и воспроизведения дочерних организмов». Так — сразу находим нечто общее!

Дальше, всего лишь через три года, как мы видели, Gartner счёл «большие данные» вторым по актуальности бизнес-направлением. Но ведь и в большие системы включалась «торговая сеть, включающая поставщиков товаров, склады, торговые точки, персонал, финансы, учёт и отчётность», — это в советской-то энциклопедии конца 1960-х, когда ни полноценных сетей, ни рыночной дистрибуции в стране не было. То есть с самого начала мы видим параллели между теми объектами, которые пытались изучать с помощью теории больших систем, и теми, данные с которых сегодня обрабатываются методами Big Data! Не правда ли, интересно?

А дальше еще занимательней: «… с целью изучения и совершенствования Б. с. используются только такие методы, которые не игнорируют наличия тесной взаимосвязи между большим числом факторов, определяющих поведение рассматриваемой системы; учитывается большая или меньшая неопределённость поведения системы в целом и отдельных её частей как результат действия случайных факторов и участия в системе людей; принимается во внимание взаимовлияние системы и окружающей её среды; учитываются изменения во времени свойств системы и внешней среды. Такой подход эффективен при исследовании сложных технических, экономических и биологических систем, для которых оказываются бесплодными традиционные методы, основанные на поочерёдном изучении отдельных черт системы или отдельных явлений или на далеко идущем упрощении объекта рассмотрения»; ведь «совершенствование Б. с.» — это же та же самая оптимизация деятельности торговой сети, для которой собирают и обрабатывают «большие данные».

А данные, которыми оперирует современный бизнес, действительно очень велики. Сеть универмагов Walmart за час обрабатывает более миллиона потребительских транзакций; ещё несколько лет назад они размещались в базе данных объёмом более 2,5 петабайт (2 560 терабайт); считалось, что это в 167 раз больше информации, чем во всех книгах Библиотеки конгресса. И вот теперь, при обработке «больших данных», как и раньше, в теории больших систем, ставятся задачи учесть многочисленные связи, присутствующие в обоих случаях. Скажем, возьмём живой объект теории больших систем. Что могли сделать с ним традиционные методы наук о жизни?

Прежде всего — описать и классифицировать. Этим занимались еще в античности, когда работать руками учёным мужам было не принято. Потом настало Новое время с его экспериментальным подходом, выражавшимся прежде всего в анатомировании. (Стандартный сюжет историй той эпохи — врачи, ворующие трупы с кладбища и принимаемые суеверными обывателями за чертей…) Появились микроскопы, и объём получаемой анатомической информации резко возрос, порождая цитологию. Потом, по мере успехов химии, стал возможен качественный анализ живой материи. Потом биохимия, анализы количественные и даже в динамике… Но – по одному, двум параметрам. А в живом организме их много больше, и все они связаны между собой. (Видите, в объекте теории больших систем уже налицо и объём, гигантское количество клеток, и изменчивость, присущая биохимическим процессам, и потребная скорость изучения, без которой жизнь утечёт мимо — практически аналоги 3 V из Big Data.) И по отдельности микроскопические наблюдения и химические анализы говорят о чём угодно, но только не о том, как организм работает в целом. Вот тут-то теория больших систем и предложила свой специфический подход. Свою собственную систему понятий. Методы формирования моделей, которые были бы достаточно сложными, чтобы описывать реальные процессы, и достаточно простыми, чтобы работать с ними на практике. Приёмы декомпозиции, позволяющие разделить систему на отдельные части, но не потерять основных связей между ними. И — противоположные им приёмы агрегатирования, состоящие в замене нескольких показателей одним, но важнейшим для решения задач анализа и оптимизации системы.

Именно тогда был предложен приём, сводящийся к тому, что для исследования большой системы надо создать её модель. Математическую, просчитываемую далее на цифровых или аналоговых (где напряжения моделировали переменные) машинах. Такая вот теория… Оставшаяся теорией: мощь тогдашних компьютерных технологий была ничтожна, несравнима со смартфоном.

S

А сейчас мы читаем о моделировании головного мозга. Имитация работы ста триллионов синапсов — это развитие давнишних методов теории больших систем. Ведь даже современной процессорной мощи лобовой просчёт не по силам. Налицо упрощённое моделирование, декомпозиция и агрегатирование, снижение скорости моделирования в 1 500 раз по сравнению с реальными нейронами. Но — задача, хоть и в упрощенном виде, решается.

И вот сегодняшние Big Data информационных технологий поразительно похожи на большие системы кибернетики. Только теми занималась теория (ну не было еще процессорной мощи), а «большими данными» — практика. Nature рассуждает о петабайтной науке, а у Walmart уже давно петабайтные базы. Именно благодаря такому сращиванию бизнеса и информационных технологий США лидирует, скажем, на глобальном рынке интернет-торговли.

Так вот, из баз данных универмага можно вытащить поразительно много интересного для улучшения дел в бизнесе. Только данные эти в конечном счёте необходимо свести к виду и объёму, обозримому для человека, который будет принимать решения. То есть, говоря аналогиями из биологии, не перечислять зоологу все статические и динамические данные всех клеток организма, а, выполнив декомпозицию, сказать, что есть у него мозг, сердце, печень… Выполнив агрегатирование, доложить, что пульс такой-то, а кровяное давление такое-то… И что по составу крови видно: если животному не дать сена, то оно сдохнет. Причём последнее заключение должно даваться в течение времени, пока скотина ещё жива, а не с замедлением на порядки!

Ах да, в отличие от зоолога, знающего анатомию, методы работы с Big Data не подозревают о наличии таких готовых паттернов, как сердце и почки. Они должны выяснить их существование в процессе применения: в этом сложность работы с «большими данными», но в этом и их мощь. Скажем, бухгалтерия по своим стандартам-паттернам легко перемелет цифры приходов и расходов, связанные с покупательскими транзакциями, — и определит, что Amazon во втором квартале 2013 года понёс убытки в 7 миллионов долларов, по паре центов на акцию. Но даже если транзакций в день миллионы, то это не работа с «большими данными». А вот оперативно выявить предпочтения многочисленных покупателей (изменчивые, неясные даже им самим, но отражающиеся в накопленной информации об их покупках) и скорректировать рекламные кампании, цены, ввести новый ассортимент, обратив убытки в прибыли (и всё это в ограниченное время) — это была бы работа с Большими Данными (3 V). К которой бизнес неизбежно придёт: слишком уж сложен современный мир. А аналогии, при всей их неточности, могут ему в этом помочь…

Важно лишь запомнить главное: Big Data — это те самые большие системы кибернетики. Только сделанные не из живых клеток, подобно коровам, составлявшим богатство скотоводов-масаи в традиционном обществе, а из чисел. Тех самых чисел, которые в информационном обществе породили астрономические капиталы Microsoft и Apple.