Российские ИТ-руководители любят “большие данные”. Согласно опросу, проведённому аналитиками агентства Coleman Parkes по заказу фирмы Ricoh, наши соотечественники склонны ставить работу с ними в Топ-5 ключевых факторов успешного роста компании. Правда, Big Data оказываются именно на почётном на пятом месте, с рейтингом 25% по «мягкой» шкале, допускающей более одного ответа. (Европейские ИТ-вожди это место, с рейтингом 26,5% уделяют виртуализации и облачным технологиям, “большими данными” в «пятерке» пренебрегая.)

Но вот можно ли было бы от отечественных поклонников “больших данных” получить однозначный ответ – что это такое? Чаще всего после нескольких итераций разговор сводится к тому, что это маркетинговый приём. Но не были ли в таком же положении и «персональный компьютер» (непонятно зачем нужный на дому в момент появления), и «мультимедиа» (десктоп, в который засунута звуковая плата и подсоединены колонки)?..

Маркетинговые ухищрения неразрывно связаны с выведением в жизнь любой технологии. (Причём порой довольно грязноватые: вспомним, как велика в судьбе видеостандартов позиция индустрии «фильмов для взрослых»…) Но у технологий – если это действительно технологии, а не покраска корпусов в политкорректные цвета радуги – есть ещё и сухой остаток. Не очень ясно описываемый, пока технология только зарождается. Тем не менее попытаемся обозначить его с помощью аналогий.

Вначале – исторический анекдот. Из эпохи предвоенной индустриализации. Самого что ни на есть индустриального общества конца 1920-х. В котором бурно (почти как компьютеры в конце ХХ века) развивались авиационные двигатели. Эти моторы, работающие по 4-тактному циклу Отто, поимые за отсутствием высокооктанового бензина смесью с бензолом и толуолом, за чуть более десятилетие прошли путь от тридцатисильного «херувимчика» Cherub III с воздушным охлаждением от фирмы Бристоль до тысячесильного Cub от Непира, с охлаждением водяным.

И, естественно, после недолгой остановки на спортивно-рекордных машинах чудеса техники двадцатых годов занимали подобающее им место в мотогондолах военных самолётов, тяжёлых и истребительных. Диким цветом бушевала «доктрина Дуэ», мечталось о воздушных армиях, способных с помощью воздушного террора сломить волю противника к сопротивлению… И вставал вопрос: чем же вооружать истребители в качестве наступательного, а бомбовозы – оборонительного оружия?

Бережно восстанавливаемые ныне полуторапланы когда-то были стремительными машинами, требовавшими высокоскоростного автоматического оружия
Бережно восстанавливаемые ныне полуторапланы когда-то были стремительными машинами, требовавшими высокоскоростного автоматического оружия.

По опыту Первой мировой самым подходящим оружием оказывался пулемёт. Причём – винтовочного калибра. Несмотря на первые опыты Юнкерса и Туполева, аэропланы в основном строились из дерева и покрытой лаком ткани. (Даже в фантастическом романе Юрия Долгушина «Генератор чудес», вышедшем в конце тридцатых, СВЧ-техника используется для высокочастотной сушки древесины для нужд авиапрома…) Так что разрушительное действие трёхлинейных пуль считалось вполне достаточным. Проблема была в другом: рост мощности двигателей сводил до минимума время воздушного боя. За которое надо было выкинуть в сторону противника максимум металла. Чтобы, несмотря на «ушедшую за молоком» большую часть, супостат получил достаточные поражения. «Максим», стандартный станковый пулемёт Первой мировой, для этих целей мало подходил: тяжёлая конструкция, водяное охлаждение, позволявшее в непрерывном бою выпускать до ста тысяч пуль и иметь общий ресурс до миллиона выстрелов, в условиях авиации были не нужны. А темп стрельбы переделанного для нужд авиации А. В. Надашкевичем “Максима”, 750 выстрелов/мин, был для авиации недостаточен. (Тем не менее этот ПВ-1 производился с 1926 по 1938 год.) И ДА, “Дегтярёв Авиационный”, – спешно переделанная для самозащиты лёгкомоторных самолётов версия ручного пулемёта Дегтярёва – проблем не решал. Создать сверхскорострельный пулемёт удалось Борису Шпитальному и Иринарху Комарицкому. Их ШКАС, представленный на испытания в 1932 году, имел темп стрельбы в 1 800 выстрелов в минуту. И вот при эксплуатации этого пулемёта – кроме обычных проблем, связанных с живучестью пружин на таких скоростях (не сразу удалось довести живучесть до дюжины тысяч выстрелов), – пришлось столкнуться с эффектом почти что “больших данных”…

720p-ShKAS_machine_gun_

Патроны для ШКАС пришлось переконструировать из-за слишком больших нагрузок: утолщать стенки гильзы, усиливать крепление пули и капсюля. Но, в какой-то момент ШКАСы начали давать осечки. Теми патронами, что в пехотном оружии работали безукоризненно. Причём, по словам расследовавшего ЧП будущего Главного маршала артиллерии Н. Н. Воронова, выяснилось также, что «какие-то партии патронов… не дают осечек при стрельбе из ШКАС».

Но какие и почему, – продолжает Воронов, – этого никто не мог точно установить. На очередном заседании комиссии я обратил внимание на лежащие на столе образцы боевых капсюлей. Стал внимательно их рассматривать и обнаружил одну деталь: фольга в месте крепления с капсюлем была покрыта чёрным или красным лаком. Красный лак был импортным, а чёрный — отечественным. Провели новые стрельбы. Капсюли, покрытые импортным лаком, не давали осечек. Вторые, наоборот, давали осечки. Все патроны с капсюлями, покрытыми чёрным лаком, были немедленно изъяты из ВВС и переданы для использования в сухопутные войска. Военно-воздушные силы стали снабжаться патронами с капсюлями, покрытыми красным лаком.»

То есть причина была сугубо индустриального происхождения. Отечественный синтетический лак – видимо, глифталевый, предложенный для снижения зависимости от импорта вместо шеллакового, который был сделан на оранжевой или красной смоле, импортируемой из Юго-Восточной Азии (куда уже нацелились самураи), – имел некие недокументированные свойства. Проявляющиеся в ограниченных размерах – только на сверхвысоких скоростях работы ШКАСа. Факторов могло было быть много. И патронов – очень много (вспомним про темп работы ШКАСа).

И комкор Воронов не знал, в чём дело, какие хвосты реакций ослабляют фольгу (вот полная аналогия с отсутствием начального паттерна обработки при работе с “большими данными”!): ему просто бросился в глаза разный цвет капсюлей. Такое вот свойство есть у человеческого мозга (довольно большой системы) – обращать внимание на мелочи, растворённые в довольно большом объёме поступающих данных. Выработанное эволюцией. Другие на этом глобусе не выживают!

Игру «Жизнь» можно было увидеть и на дисплее отечественной ЭВМ МИР-2
Игру «Жизнь» можно было увидеть и на дисплее отечественной ЭВМ “МИР-2”.

А вот теперь мы уже можем перейти от исторического анекдота к будущему. Образу, иллюстрирующему технологии Big Data «в пределе». К аналогии из ИТ-дисциплин. Вернёмся ещё раз в прошлое. Осенью 1970 года великий популяризатор математики Мартин Гарднер опубликовал описание игры «Жизнь», придуманной математиком Джоном Конвеем (отечественный читатель мог познакомится с ней в книге Гарднера «Математические досуги» парой лет позже). Несмотря на простоту (плоскость, клетки в двух состояниях – жизнь/смерть – и простейшие правила, по которым эти состояния меняются) – игра мгновенно приобрела популярность в научных кругах, приходилось видеть её реализации на дисплее ЭВМ «МИР-2». И это было заслужено. Конвей же создал гениально простую иллюстрацию к идее самовоспроизводящихся клеточных автоматов фон Неймана, одним из случаев которых является и существование белковых тел!

Простейшие расстановки клеток порождали в «Жизни» сложнейшие и разнообразнейшие формы. Некоторые из них, мелькнув, исчезают. Некоторые воспроизводят сами себя, двигаясь по доске, как «Планер», избранный в 2003 году эмблемой хакерского сообщества. Некоторые ведут экспансию, как «Планерное ружьё». Игрок, создав начальную конфигурацию, дальше наблюдает за процессом. Не зная, к каким результатам он приведёт… Но это была предельно простая модель.

720р-Artificial_Electronic_Life_Forms

А дальше, по мере роста компьютерных мощностей и их доступности, появилось целое научное направление – “искусственная жизнь”, a-life, artificial life – изучение жизни, живых систем и их эволюции при помощи созданных человеком моделей и устройств. Причём моделирование ведётся скорее на уровне автоматов фон Неймана и определения жизни по Ляпунову. Исследуются самые общие свойства, присущие любым самовоспроизводящимся существам.

Среда моделируется куда сложнее, чем плоскость в «Жизни». И состояний много больше, чем в ней. И начальные конфигурации куда сложнее. И – воздействие случайных и систематических факторов. Но – запускается начальная конфигурация, и смотрится, к чему она придёт. Без знания того, что же окажется в результате. И это что-то напоминает, не правда ли? Работу с “большими данными”. В которой отсутствует начальный паттерн обработки. И тоже применяются эволюционные алгоритмы с отбраковкой. И тоже, во всяком случае при начальной калибровке систем, запускают в них и начальные образы, и их «мутации», со вполне случайными возмущениями. Только вот критерий отбраковки несколько иной. В a-life – модельные воздействия. В Big Data – полезность полученной информации фирме. Не будет таковой – закроют проект. Не будет пользы от ряда проектов – вылетит с рынка фирма. Всё по Дарвину.

Современные
Современные “большие данные” – нечто большее, чем установка Миллера – Юри, но много меньшее, чем первородная планета, на которой рождалась жизнь.

Так что попробуем сформулировать вторую (после больших систем) аналогию для “больших данных”. Как данных (и алгоритмов обработки) самоорганизующихся, живущих некоей искусственной жизнью. Эволюционирующих. Но в среде, где критерии отбора задаются условиями конкурентной борьбы реальных фирм.

И вот тут можно попробовать ответить на вопрос, почему же алгоритмы БД, не умея сконструировать телевизор (задача, доступная радиолюбителю), будут извлекать информацию, полезную для бирж, где крутятся большие миллиарды. Это – аналогия с жизнью. Опыты Миллера – Юри по синтезу жизни завершились созданием пяти аминокислот – а слепая садистка Эволюция породила нас. Американцы (и академик Опарин, чью теорию они проверяли) химию знали лучше. Но у не знающей вообще ничего Эволюции просто было больше материала и времени. Размер имеет значение!