“Работа биржевого детектива” – так назвал своё выступление на конференции Wired Business 2013 Эрик Хансейдер, возглавляющий компанию Nanex. Зачем на бирже понадобились детективы? Чтобы разобраться, чем в действительности занимаются неконтролируемые “роботы”, которые захватили торги пять лет назад.

По меньшей мере 70% сделок на американских биржах заключают автономные торговые программы. Это происходит с такой скоростью, что люди заведомо не могут повлиять на действия машин. За миллионные доли секунды тысячи враждующих алгоритмов без участия человека создают и разрушают целые состояния.

Компания Nanex записывает и анализирует котировки – и делает это со скоростью биржевых роботов. За секунду её серверы фиксируют около 6,5 миллиона котировок. За десять секунд собранная компанией информация о торгах заполняет накопитель ёмкостью один терабайт. За сутки архив вырастает до нескольких петабайтов (петабайт в тысячу раз больше терабайта).

Работа “детектива” начинается, когда нужно понять, какие тайны прячутся в этих петабайтах. Например, узнать, что в действительности произошло в “чёрный вторник” 6 мая 2010 года, когда за две с половиной минуты индекс Доу – Джонса рухнул почти на тысячу пунктов. Об истинных причинах молниеносного биржевого обвала спорят до сих пор.

Лобовой подход тут не работает: данных слишком много. В Комиссии по ценным бумагам и биржам США (SEC) несколько месяцев распутывали терабайты записей, чтобы найти виновника. В Nanex мрачно шутят, что если бы Комиссии пришлось анализировать данные о торгах, собранные за несколько часов, то никто не дожил бы до конца расследования.

У Nanex свои методы, помогающие отличать шум от сигнала, выявлять скрытые закономерности в огромных массивах данных и представлять информацию в масштабе, доступном не только машинам, но и человеку. Сейчас подобные методы принято обозначать ярлыком Big Data – “большие данные”.

У Big Data, как это порой бывает с туманными маркетинговыми терминами, нет простого и понятного определения, однако стоящие за ним проблемы, процессы и возможности более чем реальны.

Взрывной рост количества данных происходит не только на биржах. По оценкам социолога Мартина Гильберта, объём накопленной человечеством информации в 2007 году достигал 300 эксабайт (эксабайт в миллиард раз больше гигабайта). За пять лет, которые миновали с тех пор, этот показатель увеличился почти вчетверо. Ожидается, что в 2013 году он дорастёт до 1 200 эксабайт – и это, очевидно, не предел.

Откуда берутся наводнившие мир данные? Первая половина ответа – повсеместное распространение камер, датчиков и всевозможных программ для сбора информации, начиная со счётчиков Google Analytics, стоящих почти на каждой странице в интернете, и заканчивая специализированным корпоративным софтом.

Вторая половина ответа сводится к тому, что мы перестали избавляться от информации, даже если она не очень-то нужна. Nanex не сотрёт свои архивные ленты, хотя нет ничего эфемернее котировок, меняющихся миллион раз в секунду. Twitter тоже не спешит удалять забытые твиты 2006 года, хотя новые прибывают со скоростью 400 миллионов штук в сутки.

Может показаться, что “информация” – слишком громкое слово для глупых постов в соцсетях, неудачных фоток и бестолковой статистики, из которых в значительной степени и состоит тот эксабайт, но, как ни странно, даже от мусора может быть польза. Методы Big Data позволяют рассматривать огромные массивы бесполезной на первый взгляд информации как сырьё для переработки в нечто новое.

Обучение Google Translate началось со сравнения документов ООН, переводимых на шесть официальных языков: английский, французский, испанский, русский, арабский и китайский
Обучение Google Translate началось со сравнения документов ООН, переводимых на шесть официальных языков: английский, французский, испанский, русский, арабский и китайский.

Возьмём, к примеру, машинный переводчик Google Translate. На стадии обучения он просеивает сотни миллионов текстов. Совершенно не важно, что именно написано в переводных книгах, на многоязычных сайтах и в документах международных организаций, которые анализирует программа. Все они – лишь исходный материал для генерации статистических моделей, необходимых переводчику.

Интересно, что в Google Translate не заложены правила языков. Этой программе безразличен смысл слов, не говоря уж об их падежах, лицах и склонениях. При обучении она вычисляет вероятности возможных сочетаний и соответствий фраз. Чтобы перевести текст с одного языка на другой, ей остаётся подобрать самые вероятные соответствия и расставить их в статистически правдоподобном порядке.

Трудно поверить, что из такого подхода что-то выходит. Люди учат языки совершенно иначе: мы пытаемся докопаться до сути и свести язык к набору простых правил и алгоритмов (а когда не получается, запоминаем исключения). Google Translate полностью игнорирует вопрос “Почему?” и взамен делает то, что человеку не под силу: механически запоминает миллиарды ответов на вопросы “Как?” и “Что?”.

Это особенность характерна не только для машинного переводчика Google. Колоссальные потоки информации заведомо выходят за рамки нашего понимания. Чтобы справиться с ними, необходимы методы, которые не имеют ничего общего с тем, к чему мы привыкли. Разумеется, и получаемые результаты порой противоречат здравому смыслу – но тем и ценны.

Экономист Виктор Мейер-Шенбергер и журналист Кеннет Кукье, авторы книги Big Data: A Revolution That Will Transform How We Live, Work, and Think, пишут:

Эпоха больших данных ставит под сомнение то, как мы живём и взаимодействуем с миром. Самое значительное изменение заключается в том, что людям потребуется частично отказаться от поиска причин и довольствоваться простыми корреляциями: знать лишь “что”, но не “почему”.

Американский стартап ZestCash занимается предоставлением краткосрочных кредитов. Его специализация – малообеспеченные люди с плохой кредитной историей, которым отказали все остальные. Обычные кредиторы опасаются доверять деньги тем, кто не способен подтвердить свою платёжеспособность, но они не знают о своих потенциальных клиентах и половины того, что знает о них ZestCash.

В отличие от конкурентов, которые по старинке оценивают риск, руководствуясь дюжиной простых и очевидных признаков, в ZestCash принимают во внимание тысячи факторов. Влияние многих факторов на результат трудно объяснить, но данные свидетельствуют, что оно есть.

В ZenCash делают ставку на технологии, которые позволяют увидеть в данных закономерности, которые незаметны и даже непонятны для человека.

Вот пример: клиент, признавшийся в том, что он вряд ли успеет вернуть деньги в срок, в большинстве банков попадёт в списки неблагонадёжных. Логично? Да. Проблема в том, что логика в таких вопросах – плохой помощник. В ZestCash обнаружили, что в действительности такое признание не уменьшает, а увеличивает вероятность того, что кредит будет выплачен до конца.

Крупные дата-центры потребляют столько энергии, что их стараются возводить поближе к электростанциям
Крупные дата-центры потребляют столько энергии, что их стараются строить поближе к электростанциям.

В числе первых ценность данных осознали интернет-компании. На первых порах одним из главных конкурентных преимуществ интернет-магазина Amazon была сложная система, которая внимательно следила за поведением каждого пользователя на сайте, а затем предлагала товары, которые покупают другие посетители, ведущие себя примерно так же.

Оказалось, что этот метод точнее всего предсказывает предпочтения людей. К 2006 году каждая третья покупка, совершаемая на Amazon, происходила по рекомендации, которую подобрала автоматическая система анализа поведения пользователей.

Офлайновые торговые сети постепенно втягиваются в ту же гонку. Британская сеть магазинов Tesco, занимающая в мире второе место по величине, ежемесячно собирает 1,5 миллиарда фактов о своих покупателях и использует их для того, чтобы регулировать цены и точнее подбирать адресную рекламу. С не меньшим рвением в Tesco следят за своими сотрудниками.

О том, как анализ данных помог сети магазинов Target отыскивать беременных покупательниц, мы писали несколько месяцев назад:

Target хранит грандиозную базу данных, содержащую список покупателей и их покупок. Аналитики компании выделили часть базы со списком покупательниц, о которых известно, что у них уже родился ребёнок, и стали изучать, чем отличаются покупки, которые они делали до беременности, от покупок во время вынашивания ребёнка.

Оказалось, что в первые двадцать недель беременности многие покупают минеральные пищевые добавки. Другой признак: они начинают приобретать вату и мыло без запаха в куда больших количествах, чем прежде. Если несколько подобных признаков совпадает, то вероятность того, что покупательница беременна, очень велика. А значит, можно бомбардировать её рекламой и скидочными купонами на товары для новорождённых.

Точность метода оказалась настолько высокой, что едва не привела к скандалу. Компания стала получать жалобы от обескураженных родителей, не понимающих, почему магазин предлагает их несовершеннолетним дочерям скидки на пелёнки и кроватки для грудничнов. Оказалось, что алгоритм Target заметил беременность быстрее родственников.

Даже самые невинные покупки могут говорить о людях на удивление много, и магазины пользуются этим.
Даже самые невинные покупки могут говорить о людях на удивление много, и магазины пользуются этим.

Крупнейший американский видеосервис Netflix считает считает своё будущее в значительной степени зависящим от того, понравятся ли пользователям фильмы и сериалы, попавшие на первый экран интерфейса. И тут снова всё упирается в данные:

Анализируя терабайты данных, в которые вливается каждый клик, каждый просмотр, каждый повтор и каждый отказ, списки открытых страниц и многое другое, мы можем для каждого формировать особый домашний экран, заполненный тем контентом, который с наибольшей вероятностью удвовлетворит именно этого пользователя.

Даже снимая собственные сериалы, Netflix руководствуется данными. Прежде чем потратить десятки миллионов долларов, компания просчитывает интерес своих зрителей к различным жанрам, актёрам и сюжетам. Количество накопленных данных о предпочтениях аудитории позволяет делать это с поразительной точностью.

Методы Big Data всё чаще применяют в торговле и на производстве, в здравоохранении и в нефтедобыче, в телекоме и в финансах, в рекламе и на транспорте. Во время опроса в крупнейших компаниях мира, проведённого аналитиками Gartner несколько месяцев назад, 42% респондентов заявили, что уже инвестируют в технологии Big Data или планируют сделать это в течение ближайшего года.

В какой-то степени происходящее напоминает переворот, который произошёл в науке во времена Ньютона и Лейбница, когда умозрительные рассуждения о природе бытия сменили эксперименты, измерения и расчёты. Иными словами, когда наука стала полагаться на данные.

Начиная работать с данными, компании быстро обнаруживают, что до сих пор разбирались в собственном бизнесе не лучше, чем Аристотель – в физике. Анализ всей доступной информации, ставший возможным лишь недавно, даёт понимание, которого невозможно достичь, зная о происходящем лишь в самых общих чертах и полагаясь только на здравый смысл.

Джозеф Холлерстейн из университета Калифорнии в Беркли полагает, что мир стоит на пороге “промышленной революции данных”. Это, возможно, некоторое преувеличение, но взрыв данных и попытки его обуздать действительно меняют очень многое – начиная с техники и заканчивая бизнесом и наукой. Они заслуживают куда больше внимания, и мы намерены это исправить.

В ближайшее время “Компьютерра” всерьёз возьмётся за эту тему. Мы будем писать об удивительных возможностях, открываемых наукой о данных, о технологиях, которые необходимы для того, чтобы обрабатывать информацию в петабайтных масштабах, и о реальных применениях того и другого. Будет интересно.