Ярмарка анализа данных: как сервис Kaggle привлёк 150 тысяч специалистов и крупнейшие компании

Определить ключевые точки лиц на фотографиях, классифицировать цифры, написанные от руки, распознать тему 60 тысяч изображений, проанализировать возможный сценарий выживания «Титаника», проследить нейронные связи по флюоресцентным снимкам активности нервных клеток — с сервисом Kaggle аналитиков данных ждёт масса увлекательных задач.

Kaggle — интернет-платформа, помогающая объединиться математикам и коммерческим компаниям, желающим эффективно применять статистические данные. Более 150 тысяч статистиков и дата-майнеров, участники сообщества Kaggle, соревнуются за денежные вознаграждения от нескольких долларов до трёх миллионов.

Список клиентов компании впечатляет: среди них General Electric, Facebook, NASA, Microsoft, Ford, Tesco, фармацевтические компании Merck, Boehringer и Pfizer, несколько нефтегазовых компаний.

Работает Kaggle следующим образом: компания формулирует задачу, где решение или оптимизация подразумевает анализ данных, определяет приз для победителя и сроки, затем отдельные аналитики или команды берутся за проект и предлагают свои лучшие идеи и разработки. Компании остаётся лишь выбрать и наградить победителя.

Изначальная идея состояла в том, что любой желающий на основе набора данных, предоставленных бизнесом, может предложить идею или решение по рационализации процессов, причём никто не будет оценивать образование, квалификацию и резюме участников, а только лишь эффективность идеи. Лучшие статистики сражаются за первые места в открытом списке лидеров, что подогревает интерес участников. На доске лидеров множество русских имён, кроме того, хватает бразильцев и – традиционно — индусов. На сайте Kaggle есть форум, где участники обмениваются идеями и советами, обсуждают ошибки и наработки, ищут команду или партнёров для совместной работы и, конечно, жалуются на превратности судьбы.

Создатели Kaggle гордятся тем, что Facebook доверила им свой рекрутинговый проект: компания разыскивает потенциальных сотрудников, наблюдая за ходом конкурсов. Facebook уже трижды использовала Kaggle в качестве полигона для испытания будущих штатных аналитиков данных. В последнем конкурсе аналитики взялись за базу данных сервиса вопросов и ответов Stack Exchange. Задача состояла в том, чтобы по заголовку и формулировке вопроса определить теги или ключевые слова для каждого тикета.

Самый крупный приз за время существования Kaggle, $3 млн, предлагала медицинская компания Heritage Provider Network за создание алгоритма, который позволил бы на основе имеющихся медицинских записей найти пациентов, находящихся в группе риска, чтобы компания могла проактивно предложить им профилактическую программу.

В одном из последних конкурсов Kaggle перед участниками стояла задача создать алгоритм, предсказывающий, где, когда и насколько серьёзная вспышка гриппа произойдёт в выбранный период времени. Заказчик, компания Genentech, занимающаяся биотехнологиями, поставила на кон $120 тыс.

Для General Electric Kaggle ведёт постоянный проект по оптимизации траекторий полёта коммерческих самолётов с целью сокращения расхода топлива и задержек рейсов. GE заказала разработать настраиваемый алгоритм, который предоставляет пилоту информационную характеристику полёта в реальном времени, позволяющую ему более эффективно управлять ходом выполнения рейса.

На момент написания статьи Kaggle проводит 13 конкурсов, причём только в половине из них борьба идёт за денежное вознаграждение, в других в качестве приза предлагаются «знания» — то есть работа будет делаться бесплатно ради ценного опыта, а победитель специального конкурса с пометкой «swag» получит iPad Air. Судя по числу конкурсов без вознаграждения, для многих денежный приз не главное.

В феврале 2013 года на сайте начался конкурс, в котором победителя ждёт трудоустройство в Walmart, американский ритейлер с крупнейшей в мире розничной сетью. Соискателям предоставляются данные продаж 45 магазинов в различных регионах, и задача состоит в том, чтобы спрогнозировать объёмы продаж в каждом отделе каждого магазина. Интересно, что в задании в числе параметров для анализа есть данные о температуре в данной местности, ценах на бензин, уровне безработицы, специальных предложениях сети, а также выходных и праздничных днях. Известно, что праздники, такие как Рождество или День благодарения, влияют на продажи, но в каких отделах магазина продажи вырастут, а в каких — упадут? При подведении итогов конкурса за верные прогнозы на праздничные недели начислят в пять раз больше очков. Желающих работать с одним из крупнейших в мире набором данных хватает: в конкурсе участвует 231 команда.

На волне популярности добычи сланцевого газа в США, набирающей обороты уже несколько лет, в Kaggle открыли отдельное направление, специализирующееся на решениях в области энергетики. Компания взялась за анализ больших объёмов как общедоступных, так и закрытых данных, чтобы определить наиболее удачные буровые точки для добычи сланцевого газа, а также программу разработки скважин — они утверждают, что использование аналитических моделей решает эту задачу точнее и быстрее, чем классическая разведка и геолого-геофизическое моделирование, а также помогает принимать более эффективные решения в процессе эксплуатации месторождений.

В начале 2013 года открылся дополнительный сервис Kaggle Connect. С его помощью компании получали платные консультации у специалистов, отобранных самой Kaggle из списка наиболее успешных участников конкурсов. Однако в конце года эта инициатива была закрыта (вероятно, из-за высокой цены — $300 за час) — и компания полностью вернулась к конкурсной схеме.

Идея Kaggle посетила Энтони Голдблума в 2007 году, когда он работал в Резервном банке Австралии, прогнозируя с помощью эконометрических моделей тенденции в экономике для планирования государственного бюджета и политических стратегий. Примерно в то же время поставщик фильмов и сериалов Netflix организовал конкурс, в котором каждый желающий мог попытаться улучшить на 10% точность прогнозирующего алгоритма рекомендаций на основе оценок пользователей и получить главный приз — миллион долларов. Тем временем Голдблум отправился в Лондон на трёхмесячную стажировку в журнале The Economist. Он размышлял о том, что компании, с которыми он общался, не в полной мере используют имеющуюся в их распоряжении информацию, тогда как она могла бы помочь им принимать более эффективные для бизнеса решения, будучи обработанной статистическими методами. Тогда он решил бросить работу экономиста и полностью погрузиться в собственное начинание.

Kaggle открылась в 2010 году в Мельбурне с конкурсом на создание алгоритма, прогнозирующего ход голосования на Евровидении. К началу 2011-го проект набрал в США популярность большую, чем в Австралии, поэтому его основатель регулярно ездил в Сан-Франциско, а к концу года окончательно перебрался в Кремниевую долину. Вскоре инвестиции в проект составляли уже $11 млн. Голдблум говорит, что представители компаний из списка Fortune зачастую оценивают потенциальных партнёров по критерию надёжности инвесторов. С этой точки зрения Kaggle на высоте: в числе инвесторов — основатель PayPal Макс Левчин, венчурная фирма Khosla Ventures, специализирующаяся на инвестициях в технологии размером не менее $1 млрд, ведущий экономист Google Хал Вариан и швейцарский венчурный фонд Нила Раймера Index Ventures, финансировавший Skype и Betfair.

Сообщество участников конкурсов Kaggle росло быстро: 27 тысяч на начало 2012 года, 100 тысяч в 2013 году и уже более 150 тысяч сейчас. Тем не менее Kaggle — далеко не самая масштабная площадка для краудсорсинга интеллектуальных талантов на конкурсной основе: взять хотя бы Innocentive, где пул участников превышает 300 тысяч, или основанный в 1995 году фонд поддержки инноваций X Prize. Kaggle, в отличие от них, служит скорее для решения задач бизнеса, нежели научных открытий, и специализируется именно на «больших данных».

Очевидно, что, несмотря на внушительные денежные призы, компаниям выгоднее привлекать экспертов именно на конкурсной основе, поскольку они получают результат быстрее и качественнее, чем если бы наняли команду специалистов. Во-первых, конкурсы привлекают к специальным проблемам широкую аудиторию, в них участвуют представители разных областей знаний, которые могут привнести новый и нестандартный взгляд на задачу; во-вторых, соревновательный дух, наработки конкурентов и отсутствие гарантированной оплаты двигают процесс значительно быстрее. Кроме того, специалистам и группам во время работы над проектом приходится самим финансировать свою деятельность, а инициатор конкурса, получив разные варианты решения задачи, выплатит вознаграждения только одному победителю.

Добровольцы, в свою очередь, получают шанс пополнить портфолио и приумножить опыт работы, имея дело с совершенно реальными данными, увидеть реализацию собственной идеи и, конечно, сделать мир немного лучше и рациональнее — немаловажный стимул для статистиков и оптимизаторов.

Что будем искать? Например,ChatGPT

Мы в социальных сетях