АлгоМост: анализ больших данных на конкурсной основе

Современный бизнес становится всё более наукоёмким. Растущие объёмы данных, часто поступающие в десятках разных форматов, требуют принципиально новых методик их анализа и систематизации. Умение извлекать ценную информацию отовсюду стало залогом сохранения конкурентных преимуществ для многих компаний. Держать штат аналитиков по-прежнему необходимо, но уже недостаточно. Специфика задач требует разной квалификации персонала и постоянного привлечения новых специалистов. Наиболее эффективным решением данной проблемы стал научный краудсорсинг – практика привлечения экспертов в различных сферах для решения практических задач на конкурсной основе.

Представление бизнес-задачи как конкурсного задания позволяет компании-заказчику в сжатые сроки получить широкий набор готовых решений и различных подходов. Остаётся только выбрать наиболее оптимальный вариант и связаться с предложившим его коллективом исследователей.

Сегодня анализ «больших данных» – растущая индустрия, в которую вовлечены крупные зарубежные и отечественные научные школы. Среди них открытый образовательный портал Cloudera, Массачусетский технологический институт, специализированная платформа CrowdANALYTIX и многие другие. В российской индустрии анализа больших данных такие соревнования на регулярной основе проводит платформа «АлгоМост».

Генеральный директор компании «АлгоМост» Михаил Левиев на конференции ICT Expo-2014 в Гонконге (фото: sk.ru).
Генеральный директор компании «АлгоМост» Михаил Левиев на конференции ICT Expo-2014 в Гонконге (фото: sk.ru).

Уже из названия становится понятен основной принцип работы: её коллектив действительно выступает в роли моста между заказчиком и коллективами специалистов по анализу данных, помогая им найти и понять друг друга. Основной целью любого задания на обработку «больших данных» в рамках конкретной бизнес-задачи является предложение оптимального алгоритма, выполняющего их корректный анализ.

Общая схема взаимодействия выглядит так: компания передает свои данные для первичного анализа специалистам «АлгоМоста», которые переводят их в математическую задачу. Далее эта задача размещается на их платформе как конкурсный проект, а все заинтересованные эксперты по анализу данных (математики, статистики, бизнес-аналитики) предлагают свои алгоритмы её решения. Они соревнуются за денежный приз и возможность работать с разместившей задачу компанией в будущем в качестве участников экспертной команды. В последнем заключается другая особенность «АлгоМоста».

Отличие их конкурсной модели заключается в том, что конкурс – лишь первый этап. После его проведения авторы лучших решений объединяются в команды для создания алгоритма, который объединит все преимущества самостоятельно разработанных решений. В дальнейшем эта научно-исследовательская группа будут работать с компанией в качестве экспертной команды по датамайнингу. Проведение конкурса позволяет достичь сразу нескольких целей.

Общая схема взаимодействия с платформой "АлгоМост" (изображение: algomost.com).
Общая схема взаимодействия с платформой «АлгоМост» (изображение: algomost.com).

Во-первых, это непосредственное решение предложенной задачи: создание эффективного алгоритма и его интеграция в бизнес-процессы. Во-вторых, за счёт соревновательного элемента происходит выявление лучших специалистов в сфере анализа данных. В-третьих, их объединение в научные группы развивает саму индустрию анализа «больших данных». Это прикладная дисциплина, и для поддержания своего уровня аналитики должны постоянно практиковаться в решении реальных задач.

К примеру, недавно на платформе «АлгоМост» было запущено два совершенно разных конкурса. Первый из них – задача по предсказанию развития динамического графа социальной сети. С точки зрения математики соцсеть – это универсальная структура, отражающая связи между людьми. Каждый человек представлен узлом (вершиной), а любое взаимодействие между ними – дугой (ребром) графа. Добавление в друзья и фолловеры, совершение звонка, совместная публикация научной статьи – всё это примеры таких взаимодействий. Динамический граф интересен тем, что отражает интенсивность связей в разные периоды времени. Вершины и рёбра в нём постоянно появляются и исчезают.

При использовании в практических задачах это помогает лучше понять динамику состояния клиентской базы. К примеру, оператор сотовой связи за счёт динамического графа может видеть текущую загруженность сети и реальное число активных абонентов. На основании этих данных принимаются обоснованные решения о приоритетах в развитии инфраструктуры, разрабатываются новые тарифные опции и вносятся другие коррективы в существующие схемы работы.

Иллюстрация основателей "АлгоМост" в одной из мотивирующих книг (изображение: algomost.com).
Иллюстрация основателей «АлгоМост» в одной из мотивирующих книг (изображение: algomost.com).

Обычно в качестве заказчика выступают коммерческие компании, стремящиеся повысить эффективность своих бизнес-процессов. Правильное предсказание появления ребра в динамическом графе означает для них возможность раньше других предложить востребованную услугу, рекомендовать потенциально интересное многим сообщество. В первом случае можно раньше начать брать плату за пользование услугой, во втором – увеличить лояльность клиента демонстрацией грамотно подобранных персональных рекомендаций.

Конкурс продлится до 30 ноября 2014 года. Его призовой фонд составляет $2000. Узнать все детали, а также скачать данные для работы можно здесь.

Другой конкурс проводится совместно с компанией SAS и в нём можно использовать только инструменты SAS University Edition. Его цель – создание аналитической модели для оценки платежеспособности заёмщика и прогнозирования выплат задолженности. Фактически это задача из области риск-менеджмента, сводящаяся к оптимизации коллекторского скоринга. Он применяется для взаимодействия с клиентами, отказывающимся погашать задолженность в соответствии с утверждённым графиком платежей.

Растущая дебиторская задолженность подрывает финансовую стабильность компании, но каждый отказ от выдачи кредита снижает её прибыль. Поэтому корректная оценка платёжеспособности заёмщика является краеугольным камнем всех кредитных организаций. На конкурсе информация о заемщике представлена тридцатью двумя исходными показателями, среди которых есть финансовые и обезличенные социально-демографические данные.

Задача аналитиков состоит в том, чтобы спрогнозировать выплаты по долгу. Из присланных решений будет выбрана тройка лучших, за которые их авторам выплатят призы в размере 90 000, 65 000 и 30 000 рублей соответственно. Также предусмотрены призы за лучшее оформление и лучшую студенческую работу.

В обоих конкурсах могут принимать участие все желающие: специалисты по анализу данных, студенты математических факультетов, бизнес-аналитики, программисты, которые увлекаются дата-майнингом.

Что будем искать? Например,ChatGPT

Мы в социальных сетях