Российские ИТ-руководители любят «большие данные». Согласно опросу, проведённому аналитиками агентства Coleman Parkes по заказу фирмы Ricoh, наши соотечественники склонны ставить работу с ними в Топ-5 ключевых факторов успешного роста компании. Правда, Big Data оказываются именно на почётном на пятом месте, с рейтингом 25% по «мягкой» шкале, допускающей более одного ответа. (Европейские ИТ-вожди это место, с рейтингом 26,5% уделяют виртуализации и облачным технологиям, «большими данными» в «пятерке» пренебрегая.)

Но вот можно ли было бы от отечественных поклонников «больших данных» получить однозначный ответ — что это такое? Чаще всего после нескольких итераций разговор сводится к тому, что это маркетинговый приём. Но не были ли в таком же положении и «персональный компьютер» (непонятно зачем нужный на дому в момент появления), и «мультимедиа» (десктоп, в который засунута звуковая плата и подсоединены колонки)?..

Маркетинговые ухищрения неразрывно связаны с выведением в жизнь любой технологии. (Причём порой довольно грязноватые: вспомним, как велика в судьбе видеостандартов позиция индустрии «фильмов для взрослых»…) Но у технологий — если это действительно технологии, а не покраска корпусов в политкорректные цвета радуги — есть ещё и сухой остаток. Не очень ясно описываемый, пока технология только зарождается. Тем не менее попытаемся обозначить его с помощью аналогий.

Вначале — исторический анекдот. Из эпохи предвоенной индустриализации. Самого что ни на есть индустриального общества конца 1920-х. В котором бурно (почти как компьютеры в конце ХХ века) развивались авиационные двигатели. Эти моторы, работающие по 4-тактному циклу Отто, поимые за отсутствием высокооктанового бензина смесью с бензолом и толуолом, за чуть более десятилетие прошли путь от тридцатисильного «херувимчика» Cherub III с воздушным охлаждением от фирмы Бристоль до тысячесильного Cub от Непира, с охлаждением водяным.

И, естественно, после недолгой остановки на спортивно-рекордных машинах чудеса техники двадцатых годов занимали подобающее им место в мотогондолах военных самолётов, тяжёлых и истребительных. Диким цветом бушевала «доктрина Дуэ», мечталось о воздушных армиях, способных с помощью воздушного террора сломить волю противника к сопротивлению… И вставал вопрос: чем же вооружать истребители в качестве наступательного, а бомбовозы — оборонительного оружия?

По опыту Первой мировой самым подходящим оружием оказывался пулемёт. Причём — винтовочного калибра. Несмотря на первые опыты Юнкерса и Туполева, аэропланы в основном строились из дерева и покрытой лаком ткани. (Даже в фантастическом романе Юрия Долгушина «Генератор чудес», вышедшем в конце тридцатых, СВЧ-техника используется для высокочастотной сушки древесины для нужд авиапрома…) Так что разрушительное действие трёхлинейных пуль считалось вполне достаточным. Проблема была в другом: рост мощности двигателей сводил до минимума время воздушного боя. За которое надо было выкинуть в сторону противника максимум металла. Чтобы, несмотря на «ушедшую за молоком» большую часть, супостат получил достаточные поражения. «Максим», стандартный станковый пулемёт Первой мировой, для этих целей мало подходил: тяжёлая конструкция, водяное охлаждение, позволявшее в непрерывном бою выпускать до ста тысяч пуль и иметь общий ресурс до миллиона выстрелов, в условиях авиации были не нужны. А темп стрельбы переделанного для нужд авиации А. В. Надашкевичем «Максима», 750 выстрелов/мин, был для авиации недостаточен. (Тем не менее этот ПВ-1 производился с 1926 по 1938 год.) И ДА, «Дегтярёв Авиационный», — спешно переделанная для самозащиты лёгкомоторных самолётов версия ручного пулемёта Дегтярёва — проблем не решал. Создать сверхскорострельный пулемёт удалось Борису Шпитальному и Иринарху Комарицкому. Их ШКАС, представленный на испытания в 1932 году, имел темп стрельбы в 1 800 выстрелов в минуту. И вот при эксплуатации этого пулемёта — кроме обычных проблем, связанных с живучестью пружин на таких скоростях (не сразу удалось довести живучесть до дюжины тысяч выстрелов), — пришлось столкнуться с эффектом почти что «больших данных»…

Патроны для ШКАС пришлось переконструировать из-за слишком больших нагрузок: утолщать стенки гильзы, усиливать крепление пули и капсюля. Но, в какой-то момент ШКАСы начали давать осечки. Теми патронами, что в пехотном оружии работали безукоризненно. Причём, по словам расследовавшего ЧП будущего Главного маршала артиллерии Н. Н. Воронова, выяснилось также, что «какие-то партии патронов… не дают осечек при стрельбе из ШКАС».

«Но какие и почему, — продолжает Воронов, — этого никто не мог точно установить. На очередном заседании комиссии я обратил внимание на лежащие на столе образцы боевых капсюлей. Стал внимательно их рассматривать и обнаружил одну деталь: фольга в месте крепления с капсюлем была покрыта чёрным или красным лаком. Красный лак был импортным, а чёрный — отечественным. Провели новые стрельбы. Капсюли, покрытые импортным лаком, не давали осечек. Вторые, наоборот, давали осечки. Все патроны с капсюлями, покрытыми чёрным лаком, были немедленно изъяты из ВВС и переданы для использования в сухопутные войска. Военно-воздушные силы стали снабжаться патронами с капсюлями, покрытыми красным лаком.»

Реклама на Компьютерре

То есть причина была сугубо индустриального происхождения. Отечественный синтетический лак — видимо, глифталевый, предложенный для снижения зависимости от импорта вместо шеллакового, который был сделан на оранжевой или красной смоле, импортируемой из Юго-Восточной Азии (куда уже нацелились самураи), — имел некие недокументированные свойства. Проявляющиеся в ограниченных размерах — только на сверхвысоких скоростях работы ШКАСа. Факторов могло было быть много. И патронов — очень много (вспомним про темп работы ШКАСа).

И комкор Воронов не знал, в чём дело, какие хвосты реакций ослабляют фольгу (вот полная аналогия с отсутствием начального паттерна обработки при работе с «большими данными»!): ему просто бросился в глаза разный цвет капсюлей. Такое вот свойство есть у человеческого мозга (довольно большой системы) — обращать внимание на мелочи, растворённые в довольно большом объёме поступающих данных. Выработанное эволюцией. Другие на этом глобусе не выживают!

А вот теперь мы уже можем перейти от исторического анекдота к будущему. Образу, иллюстрирующему технологии Big Data «в пределе». К аналогии из ИТ-дисциплин. Вернёмся ещё раз в прошлое. Осенью 1970 года великий популяризатор математики Мартин Гарднер опубликовал описание игры «Жизнь», придуманной математиком Джоном Конвеем (отечественный читатель мог познакомится с ней в книге Гарднера «Математические досуги» парой лет позже). Несмотря на простоту (плоскость, клетки в двух состояниях — жизнь/смерть — и простейшие правила, по которым эти состояния меняются) — игра мгновенно приобрела популярность в научных кругах, приходилось видеть её реализации на дисплее ЭВМ «МИР-2». И это было заслужено. Конвей же создал гениально простую иллюстрацию к идее самовоспроизводящихся клеточных автоматов фон Неймана, одним из случаев которых является и существование белковых тел!

Простейшие расстановки клеток порождали в «Жизни» сложнейшие и разнообразнейшие формы. Некоторые из них, мелькнув, исчезают. Некоторые воспроизводят сами себя, двигаясь по доске, как «Планер», избранный в 2003 году эмблемой хакерского сообщества. Некоторые ведут экспансию, как «Планерное ружьё». Игрок, создав начальную конфигурацию, дальше наблюдает за процессом. Не зная, к каким результатам он приведёт… Но это была предельно простая модель.

А дальше, по мере роста компьютерных мощностей и их доступности, появилось целое научное направление — «искусственная жизнь», a-life, artificial life — изучение жизни, живых систем и их эволюции при помощи созданных человеком моделей и устройств. Причём моделирование ведётся скорее на уровне автоматов фон Неймана и определения жизни по Ляпунову. Исследуются самые общие свойства, присущие любым самовоспроизводящимся существам.

Среда моделируется куда сложнее, чем плоскость в «Жизни». И состояний много больше, чем в ней. И начальные конфигурации куда сложнее. И — воздействие случайных и систематических факторов. Но — запускается начальная конфигурация, и смотрится, к чему она придёт. Без знания того, что же окажется в результате. И это что-то напоминает, не правда ли? Работу с «большими данными». В которой отсутствует начальный паттерн обработки. И тоже применяются эволюционные алгоритмы с отбраковкой. И тоже, во всяком случае при начальной калибровке систем, запускают в них и начальные образы, и их «мутации», со вполне случайными возмущениями. Только вот критерий отбраковки несколько иной. В a-life — модельные воздействия. В Big Data — полезность полученной информации фирме. Не будет таковой — закроют проект. Не будет пользы от ряда проектов — вылетит с рынка фирма. Всё по Дарвину.

Так что попробуем сформулировать вторую (после больших систем) аналогию для «больших данных». Как данных (и алгоритмов обработки) самоорганизующихся, живущих некоей искусственной жизнью. Эволюционирующих. Но в среде, где критерии отбора задаются условиями конкурентной борьбы реальных фирм.

И вот тут можно попробовать ответить на вопрос, почему же алгоритмы БД, не умея сконструировать телевизор (задача, доступная радиолюбителю), будут извлекать информацию, полезную для бирж, где крутятся большие миллиарды. Это — аналогия с жизнью. Опыты Миллера — Юри по синтезу жизни завершились созданием пяти аминокислот — а слепая садистка Эволюция породила нас. Американцы (и академик Опарин, чью теорию они проверяли) химию знали лучше. Но у не знающей вообще ничего Эволюции просто было больше материала и времени. Размер имеет значение!