Стоит ли верить в "большие данные"

Любое действие вызывает противодействие. На каждую статью о том, как «большие данные» перевернут мир, приходится другая — противоположного содержания. Скептики не понимают, что особенного в «больших данных», и сомневаются в их полезности. Они подозревают, что всё придумали ИТ-компании, чтобы выжимать деньги из клиентов, на которых перестали действовать байки про «облака».

Среди критиков «больших данных» встречаются и признанные эксперты. Вот, например, статья математика Сэмюэла Эрбисмена в Washington Post. Среди прочего, он пишет о том, как ограничения методов сбора информации искажают результат анализа:

«Распространено заблуждение, будто чем больше получено данных, тем проще решить задачу. Проблема заключается в том, что методы сбора и изучения данных могут строиться на ложных предположениях. В этом случае увеличение количества информации не поможет. К примеру, когда вы пытаетесь понять, как люди взаимодействуют друг с другом, анализируя данные, собранные с помощью мобильных телефонов, не играет роли, возьмёте вы архив за месяц или за целый год, если останется проигнорирован тот факт, что мобильные телефоны имеются не у всех».

Некоторые критики «больших данных» убеждены, что количество не просто не гарантирует качества, но даже вредит ему. По их мнению, нежелание фильтровать исходную информацию практически гарантирует невысокое отношение «сигнал/шум». Полезные результаты могут утонуть в бессмыслице, сетует специалист по анализу данных Винсент Грэнвилль:

«Проклятие “больших данных” заключается в том, что при поиске закономерностей в очень больших наборах данных, содержащих миллиарды или даже триллионы значений и тысячи показателей, вы неизбежно обнаружите случайные совпадения, которые лишены предсказательной силы. Хуже того, самыми заметными закономерностями окажутся те, которые, во-первых, целиком и полностью объясняются случайностью, во-вторых, невоспроизводимы, в-третьих, не имеют предсказательной силы и, в-четвёртых, приводят к тому, что обладающие предсказательной силой, но менее яркие закономерности оказываются проигнорированы».

И это ещё не самый плохой случай. Наличие данных и даже умения извлекать из них скрытые закономерности не гарантирует ни того, что закономерности действительно есть, ни того, что они полезны. Питер Фейдер, один из руководителей Инициативы потребительской аналитики при Уортонской школе бизнеса, склоняется к мнению, что ожидания, связанные с «большими данными», значительно завышены:

«Всё это здорово напоминает мне то, что происходило с CRM лет пятнадцать назад. Тогда говорили: “Подумайте только, какие предсказания мы сможем делать, если станем собирать все эти разнообразные транзакции и данные!” Спросите у кого-нибудь, какие ассоциации вызывает “CRM” теперь. Вы услышите слова “неудовлетворённость”, “катастрофа”, “дороговизна” и “неконтролируемость”. Это, как выясняется, была погоня за несбыточным. И я опасаюсь, что с “большими данными” мы движемся в том же направлении».

Недоверие можно понять. Значение словосочетания Big Data поразительно туманно, и попытки ИТ-компаний ухватить тренд за хвост вносят ещё больше путаницы. Когда говорят о «больших данных», в одну кучу валят технологии параллелизации, статистические методы, бизнес-аналитику, машинное обучение и уйму других, не особенно хорошо сочетающихся друг с другом вещей. Иногда связь с модным термином едва прослеживается. В ассортименте Oracle, к примеру, есть программно-аппаратный комплекс Big Data Appliance, по сути представляющий собой стойку серверов с предустановленной платформой Hadoop. Как заметил один из выступавших на недавнем EMC Forum, с тем же успехом можно было поставить Hadoop на ноутбук и назвать его Big Data Laptop.

Без ясного понимания того, что в действительности представляют собой «большие данные», очень трудно обсуждать их полезность. Попробуем разобраться в сути этого понятия ещё раз, уделяя особое внимание не примерам использования (их за последние пару месяцев было достаточно), а характерным особенностям и отличиям.

Вопреки мнению скептиков, термин «большие данные» придумали не маркетологи. Фрэнсис Дибоулд из Института экономических исследований при Пенсильванском университете установил, что первые публикации, в которых словосочетание «big data» употреблено в современном значении, датируются 1998 и 2000 годах и касаются информатики и статистики. В 2001 году появилось распространённое определение «больших данных»: «Volume, Velocity, Variety«. Его предложил аналитик META Group Дуг Лэйни.

Тогда же в Google, Yahoo! и Amazon начиналась разработка технологий, которые теперь ассоциируются с этим понятием. Это было вынужденной мерой: интернет-гиганты первыми столкнулись с потоками информации таких масштабов. Всех остальных «большие данные» захлестнули спустя десять лет.

Этот факт часто иллюстрируют статистикой количества информации, которую человечество накопило за последние годы, но есть более наглядный пример — YouTube. Каждую минуту пользователи заливают туда около ста часов контента. Много ли это? Несколько лет назад с таким количеством видео приходилось иметь дело только Google. Тогда это было исключительным показателем. Сегодня дать ответ сложнее, потому что аналогичная задача стоит перед сотнями компаний, в том числе перед нашей МГТС, — и они справляются.

Московские камеры слежения, обслуживаемые МГТС, без особого труда соперничают по производительности с пользователями YouTube. Тысяча камер генерирует более шестнадцати часов видео в минуту. Если на каждой улице города разместить хотя бы пару камер, то МГТС станет принимать больше видео, чем крупнейший видеосайт мира. И это не должно удивлять или восхищать. Весь смысл примера в том, что такие объёмы данных перестают быть чем-то экстраординарным.

Данных действительно становится больше — это очевидно. Однако то же самое можно было сказать и десять, и сто, и тысячу лет назад. Что особенного в сегодняшних «больших данных»? Чем они заслужили выделение в особую категорию?

Этот вопрос подробно разбирается в книге Виктора Мейер-Шонбергера и Кеннета Кукье Big Data: A Revolution That Will Transform How We Live, Work, and Think. Авторы полагают, что традиционные методы анализа данных тесно связаны с техническими ограничениями, которые преодолены лишь недавно. «Большие данные» интересны не столько размерами, сколько возможностью выйти за привычные рамки.

Главное изменение, из которого следуют все остальные, — отказ от выборок. В прошлом выборки позволяли кое-что узнать о целом, изучив лишь незначительную долю информации. Теперь нужды ограничиваться частью больше нет. Ничто не мешает взять весь набор данных целиком.

Отказ от выборок даёт несколько побочных эффектов. Во-первых, он позволяет различать в данных более мелкие «детали» — например, выявляя при классификации субкатегории, которые в противном случае неизбежно потерялись бы. Во-вторых, избыток информации снижает потребность в точности. Поскольку погрешности, которые вносили выборки, перестают быть проблемой, можно обходиться «сырыми» данными с относительно высоким уровнем «шума» и всё равно получать осмысленные результаты.

Последнее следствие перехода к «большим данным», которое видят Мейер-Шонбергер и Кукье, заключается в том, что корреляции становятся важнее понимания причин. Сегодня понимание не требуется ни для того, чтобы отыскать в собранных данных закономерности, ни для того, чтобы их использовать. Полезность закономерностей никак не зависит от того, известны ли нам их причины. Они либо полезны, либо нет.

Тем, чья работа связана с интернет-бизнесом, такая логика может показаться знакомой. Интернет давно живёт по законам «больших данных». Электронные коммерсанты тщательно анализируют каждый шаг посетителей интернет-магазинов, пытаясь найти способы увеличить конверсию. Чтобы определить эффективность различных модификаций интерфейса, их тщательно тестируют на пользователях. Побеждает тот, который даёт лучший результат: больше кликов, больше внимания, больше денег. Знание причин не обязательно, главное — результат.

В определённом смысле «большие данные» — это перенос в реальную жизнь подхода, который давно победил в интернете. Google Analytics — но не для сайтов, а для супермаркета. Самообучающиеся фильтры — но не для спама, а для мошенников. A/B-тестирование — но не для интерфейсов, а, скажем, для целого города.

Можно не сомневаться, что «большие данные», как и их предшественники из интернета, не решат всех проблем и не спасут от всех бед. Конвертация потоков информации в непосредственную выгоду крайне трудна и требует определённой удачи и высокой квалификации (именно поэтому так велик спрос на хороших специалистов по анализу данных). Иными словами, дело обстоит так же, как и с любой другой технологией: это не панацея, а всего лишь инструмент — ценный, но не лишённый недостатков и ограничений. Кто-то ожидал иного?

Стоит ли верить в «большие данные»