В Нью-Йорке завершилась конференция для специалистов по “большим данным” Strata + Hadoop World, устроенная издательством O’Reilly Media и компанией Cloudera. Частью мероприятия был смотр стартапов, занимающихся технологиями обработки данных. Из пары десятков претендентов специальное жюри выбрало три наиболее интересные компании.

Конференция Strata + Hadoop World (фото; O'Reilly Media)
Конференция Strata + Hadoop World (фото; O’Reilly Media).

Affinio

Affinio выросла из другого проекта, которым занимались его основатели. Несколько лет назад они разработали iTether – популярное приложение для подключения компьютера к интернету через iPhone. Одно из маркетинговых исследований аудитории iTether дало неожиданный побочный результат – технологию, которая легла в основу новой компании.

Основателей Affinio Тима Бурка и Стивена Хэнкинсона интересовало, на что годятся общедоступные сведения, которые можно почерпнуть из Twitter или Facebook. Они предположили, что анализ социальных связей позволит построить более точный портрет типичного пользователя приложения, чем данные, которые лежат на поверхности.

Проверить эту гипотезу оказалось не так уж просто. Граф связей между пользователями iTether, извлечённый из социальных сетей, получился поразительно большим: около 500 миллионов вершин и примерно 40 миллиардов рёбер. Это, мягко говоря, не те объёмы, которые можно загрузить в Excel.

Для начала Хэнкинсон построил кластер, состоящий из шести узлов, и поставил на него Cassandra – распространённую нереляционную систему управления базами данных. Несмотря на все усилия, производительность оставалась плачевной. HBase, ещё одно NoSQL-решение, показало себя не лучше. Облачное хранилище данных Amazon Redshift вело себя приличнее, но и с ним необходимые вычисления растягивались на полчаса.

Хэнкинсон решил подойти к задаче с другой стороны и начал разработку специализированного хранилища данных, ориентированного на операции с графами. Программа получила название Graph Engine и немедленно привлекла внимание инвесторов. На конференции Strata + Hadoop World стало известно, что венчурный фонд Build Ventures вложил в Affinio $1,5 млн.

Graph Engine оптимизирован для быстрой работы с твердотельными накопителями и позволяет “на лету” перерабатывать огромные массивы данных. В систему встроены инструменты для анализа информации, представленной в виде графа, в том числе средства коллаборативной фильтрации, поиска кратчайшего пути между вершинами и подсчёта треугольников.

Первым продуктом Affinio, базирующимся на Graph Engine, стала система анализа социальных сетей для рекламщиков и маркетологов, однако на ней амбиции компании не заканчиваются. Бурк и Хэнкинсон полагают, что у технологии Graph Engine есть масса перспективных применений, не связанных с маркетингом, рекламой и даже соцсетями.

Appuri

Если верить Деймону Даниэли, одному из основателей Appuri, он представляет самую маленькую компанию, участвующую в смотре стартапов на конференции Strata + Hadoop World. И, скорее всего, это действительно так. Кроме самого Даниэли, в Appuri работает только один человек – другой основатель Билал Аслам.

Несмотря на масштабы, Appuri совсем не проста. Эта компания совершенно не похожа на иные стартапы, хвастающиеся богатыми инвесторами, но не нашедшие ни единого платёжеспособного клиента. Тут мы имеем дело с обратным случаем: у Appuri нет инвесторов, зато имеются клиенты – и какие! Её продуктом пользуются Activision, один из крупнейших издателей компьютерных игр в мире с годовым оборотом порядка трёх миллиардов долларов, и HBO, знаменитый кабельный телеканал, снимающий сериалы “Игра престолов”, “Подпольная империя” и “Настоящая кровь”.

Оба основателя Appuri – выходцы из Microsoft. Даниэли был одним из ведущих разработчиков онлайнового сервиса Xbox Live, а затем несколько лет занимал пост технического директора Z2Live – преуспевающей компании – разработчика мобильных игр. Его напарник Аслам известен в качестве создателя магазина облачных сервисов Windows Azure Store.

Их новое детище, впрочем, не имеет отношения к былым заслугам. Продукт Appuri представляет собой интеллектуальный ETL-конвейер, способный обрабатывать сотни миллионов событий в день и без особого труда справляющийся с наборами данных, объём которых превышает петабайт (миллион гигабайтов).

Аббревиатура ETL расшифровывается как Extract-Tranform-Load, или, если перевести на русский язык, “извлечь-преобразовать-загрузить”. Эти три слова обозначают стадии предварительной обработки информации. Сначала её извлекают из внешних источников, затем “причёсывают” и, наконец, загружают в хранилище данных.

Программное обеспечение Appuri принимает информацию посредством основанного на HTTP программного интерфейса или через специальные “коннекторы”, поддерживающие распространённые источники данных, структурирует её (схема создаётся автоматически), а затем отправляет в облачное хранилище Amazon Redshift.

Зачем это нужно? Дело в том, что данные о клиентах, накопленные компаниями, редко бывают доступны в форме, готовой для анализа. То и дело встречается ситуация, когда различные аспекты пользовательской информации хранятся отдельно: маркетинговые данные – в одном месте, а сведения, например, о продажах – в другом. В итоге многие важные результаты оказываются практически недостижимыми. Продукт Appuri призван решить эту проблему.

Metric Insights

Чем крупнее компания, чем дольше она использует информационные технологии, тем запутаннее её компьютерные системы. Даже если изначальный замысел был прост и красив, через несколько лет от него ничего не остаётся. Он тонет под весом многочисленных перестроек и расширений, которые приходится делать для того, чтобы адаптировать систему к меняющимся требованиям.

Если Appuri борется с хаосом при сохранении данных, то компания Metric Insights, победившая в смотре стартапов на конференции Strata + Hadoop World, пытается навести порядок на стадии выдачи результата обработки.

По мнению главы Metric Insights Мариуса Московичи, избыток аналитических продуктов с разными интерфейсами и панелями управления, используемых в одной компании, ведёт к информационной перегрузке. “Пользователи тонут в этих панелях, – говорит Московичи. – У них нет ни единого шанса найти там то, что действительно имеет значение”.

Metric Insights предлагает свести воедино все показатели из различных продуктов. Панель управления должна быть только одна, и желательно, чтобы она была проще приборной доски космического “шаттла”. Для этого необходима технология, которая автоматически отсеивает всё неважное.

Система Push Intelligence, разработанная в Metric Insights, извлекает сотни измерений из всевозможных хранилищ, средств бизнес-аналитики, облачных сервисов и таких источников, как Hadoop, Cassandra или MongoDB, дополняет их полезными метаданными, а затем отбирает лишь те из них, которые значительно отклонились от нормы.

В число клиентов Metric Insights входят крупнейшая в Соединённых Штатах сеть книжных магазинов Barnes & Noble, фирма United Online, которой принадлежит американский прототип соцсети “Одноклассники”, и туристический сервис Homeaway. Известно, что компания сумела достичь прибыльности.