Как анализ данных победил в спорте

Big Data / Практика
автор: Кирилл Тихонов  25 октября 2013

Существует не так много занятий, которые вызывают меньше ассоциаций с данными и статистикой, чем спорт. Никто не становится футболистом от избытка любви к цифрам. Это делает наметившийся симбиоз спорта и науки о данных особенно интересным.

Профессиональный спорт давно превратился в серьёзный бизнес. Годовые бюджеты спортивных команд измеряются сотнями миллионов долларов, а их стоимость может превышать миллиард. Доход английской Премьер-лиги в 2013 году, согласно прогнозам, составит $4,8 млрд. Даже гольф — далеко не самый народный вид спорта — приносит около $75 млрд в год, причём речь идёт лишь о Соединённых Штатах. Для сравнения: суммарная касса мирового кинематографа в 2012 году достигла $34,7 млрд, и это считалось совсем не плохим результатом.

Когда на кону такие деньги, все средства хороши. Даже настолько противоречащие традиционным представлениям о спорте, как статистика.

В 2008 году математик Стивен Строгац смоделировал историю бейсбола и доказал, что удача так же важна, как умения игрока. Модель показала, что лавры легендарного бейсболиста Джо Ди Маджо, 56 игр подряд делавшего удал на базу, могли достаться и другому.

В 2008 году математик Стивен Строгац смоделировал историю бейсбола и доказал, что удача так же важна, как умения игрока. Модель показала, что лавры легендарного бейсболиста Джо Ди Маджо, 56 игр подряд делавшего удал на базу, могли достаться и другому.

Первыми силу цифр оценили любители бейсбола. Это не случайность. В бейсболе игра распадается на множество обособленных стадий. Это отличает его от многих других командных видов спорта. Учитывать и оценивать события в ходе бейсбольного матча гораздо проще, чем следить за хаотичными передвижениями футболистов по полю.

Основоположником современной бейсбольной статистики считается канзасский болельщик по имени Билл Джеймс. Около сорока лет назад, работая ночным сторожем на консервной фабрике, он начал собирать и анализировать информацию о каждом заслуживающем внимания бейсбольном матче. Раз в год Джеймс публиковал итоги своих изысканий.

Одержимость, с которой он изучал данные, принесла плоды. Джеймс обнаружил, что многие общепринятые идеи о том, что важно, а что нет, не находят статистического подтверждения. Например, одним из важнейших качеств бейсболиста считалась его скорость и частота контакта (этот показатель зависит от того, часто ли игрок с битой входит в контакт с мячом). Расчёты Джеймса показывали, что связь между этими качествами и исходом матча не так уж сильна. Зато на результаты команды заметно влияют совсем не очевидные факторы — такие, например, как размер поля, на котором проходят тренировки. Кроме того, статистика свидетельствовала, что разница в уровне между игроками Главной и Низшей лиг куда меньше, чем принято считать.

В конце девяностых наблюдения Джеймса заинтересовали руководство команды «Окленд Атлетикс». Её дела шли хуже некуда, и тот факт, что соперники были многократно богаче, практически лишал её шансов на успех. Лучшие игроки достаются тем, кто готов платить больше. У «Окленд Атлетикс» такой возможности не было.

Команда сделала ставку на статистику. Её менеджер заметил корреляцию между положительным исходом матча и некоторыми характеристиками спортсменов, которые редко интересуют тренеров и болельщиков. Вычисления показывали, что бэттеры, которые чаще занимают базу, и спортсмены с высоким процентом отбивания заметно повышают шансы команды на победу, но не особенно высоко ценятся. Это значит, что они по карману даже «Окленд Атлетикс».

В 2002 году команда, укомплектованная и обученная «по цифрам», выиграла двадцать матчей подряд. При этом её бюджет был едва ли не самым низким во всей Главной лиге и в два–три раза уступал лидерам. Спустя год журналист Майкл Льюис описал историю успеха «Окленд Атлетикс» в книге «Moneyball. Как математика изменила самую популярную спортивную лигу в мире», которая быстро стала бестселлером. Не так давно по ней сняли фильм под названием «Человек, который изменил всё». Менеджера команды сыграл Брэд Питт.

Кадр из фильм "Человек, который изменил всё".

Кадр из фильма «Человек, который изменил всё».

«Moneyball» стала последней каплей, которой не хватало для того, чтобы убедить консервативных менеджеров и тренеров в том, что цифры сильнее чутья. Бейсбольная статистика обрела такую популярность, что эта дисциплина получила особое наименование — «сейберметрика», образованное от сокращённого названия Общества исследования американского бейсбола. Последователи «Окленд Атлетикс» подходят к делу серьёзно: вместо кустарных методов, не менявшихся десятилетиями, команда «Нью-Йорк Янкиз» потратила солидные средства на внедрение системы предиктивной аналитики, разработанной SAP.

Существует несколько серьёзных научных журналов, целиком посвящённых анализу спортивных данных. Специалисты в этой области проводят регулярные конференции; одна из них недавно закончилась в Праге и была посвящена применению технологий машинного обучения и Data Mining в спорте.

Название типичного доклада или научной статьи об анализе спортивных данных соединяет несовместимые на первый взгляд вещи: «Использование алгоритма random forest для предсказания вероятности победы в матчах NFL [профессиональная лига американского футбола в США]», «Прогноз исхода голосования в кубке Гейсмана при помощи байесовского анализа». «Оценка в реальном времени ожидаемой выгоды от обладания мячом в баскетбольных матчах NBA при помощи модели пространственно-временных переходов и данных слежения за игроками»…

Возьмём последнюю работу — ту, в которой упоминаются пространственно-временные переходы баскетбольных мячей. Это хороший пример того, какой путь проделала спортивная статистика со времён Билла Джеймса. Модель, которую разработали в Гарварде, основана на измерениях, выполняемых автоматически с помощью анализа видео и распознавания образов.

Систему отслеживания перемещений игроков разработала компания SPORTS, специализирующаяся на предоставлении СМИ информации о спортивных матчах. С помощью шести видеокамер, установленных на стадионе, она «на лету» определяет координаты каждого игрока, судьи и мяча, а затем пересчитывает их в десятки показателей. Например, во время баскетбольных матчей она, среди прочего, вычисляет скорость передвижения каждого игрока, расстояние, которое он преодолел с мячом, дальность бросков, излюбленные места на поле, долю результативных передач и общей темп игры команды.

Схемы и диаграммы, построеннные на основе данных системы, которую разрабатывают в SPORTS, многие, вероятно, видели по телевизору: их время от времени вставляют в спортивные трансляции. Кроме телевизионщиков, эта технология представляет интерес для самих спортсменов. В США её приобретают профессиональные команды для того, чтобы изучать игру во время тренировочных занятий. Кроме того, NBA планирует оснастить этой системой все свои стадионы.

Специалисты из Гарварда анализировали 800 миллионов измерений, собранных с помощью системы SPORTS в течение 515 матчей. Они представили обладание мячом в виде движения системы в конечном пространстве состояний, где вероятность перехода между состояниями зависит от истории расположений игроков и мяча на поле. Знание вероятности перехода системы из состояния в состояние позволяет выяснить, стоит ли ждать броcка в корзину, или, к примеру, определить, как различные баскетболисты справляются с принятием решений во время игры.

Иллюстрация из презентации гарвардских специалистов, показывающая точки броска для разных игроков.

Иллюстрация из презентации гарвардских специалистов, показывающая точки броска для разных игроков.

Анализ спортивных данных давно не ограничивается бейсболом. Футбольные команды Английской премьер-лиги пытаются использовать статистику во время тренировок, при выработки стратегии игры и поиске новых игроков. Год назад футбольный клуб «Ливерпуль» нанял для анализа данных доктора биофизики.

Для оценки перспектив начинающих футболистов Премьер-лига сотрудничает с такими компаниями, как Prozone или Opta, работающими в той же сфере, что и SPORTS. Несколько аналитиков Opta тщательно отсматривают каждую игру и выделяют «события» — каждый гол, каждый пас, каждый отобранный мяч и так далее. В течение матча накапливается несколько тысяч «событий». Затем собранные данные можно сличить с исторической статистикой, которой обладают те же компании.

Тем временем тренеры по американскому футболу неохотно, но всё же начинают использовать численные оценки работы игроков. Для измерения эффективности квотербеков выработана замысловатая формула, учитывающая массу факторов: частота перехватов, общее количество передач, количество удачных передач, количество передач, закончившихся тачдауном, и так далее. Кроме того, команды применяют аналитику, чтобы отыскивать хороших, но не очень дорогих спортсменов.

Инженеры McLaren Group следят за телеметрией во время гонок (фото: McLaren Group)

Инженеры McLaren Group следят за телеметрией во время гонок (фото: McLaren Group).

В технических видах спорта сбор и анализ данных — ещё более естественное занятие. Гоночные автомобили McLaren Group напичканы датчиками, непрерывно сообщающими инженерам, что происходит во время заезда. Телеметрию на ходу прогоняют через предиктивные модели, учитывающие архивные данные, и используют результаты для быстрого принятия решений.

Причина успеха науки о данных в спорте, в сущности, та же, что и в любом другом бизнесе. Далеко не всё можно заметить невооружённым взглядом. Далеко не всегда опыт и здравый смысл правы. Закономерности, которые можно различить только при помощи анализа данных, позволяют «срезать» углы и хоть немного, но увеличить эффективность. В спорте это «немного» может означать разницу между победой и поражением. Такую разницу трудно игнорировать.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
Как хеджфондовый миллиардер организовал Brexit и победу Трампа
Как хеджфондовый миллиардер организовал Brexit и победу Трампа
Кремниевый детектив RAVN ловит коррупционеров. Пока – британских
Кремниевый детектив RAVN ловит коррупционеров. Пока – британских
Сбербанк открывает свои данные
Сбербанк открывает свои данные
  • Сергей Наумов

    Давно мечтаю заполучить такую систему в юриспруденцию. Например рассчитать вероятность получить подзащитному на два года больше срока сидки, если в процессе участвует прокурор республики. Одно дело личный опыт, а другое дело big data…

    • Олег Парамонов
      • Сергей Наумов

        Знаю, общался с разработчиком сайта Глебом Суворовым. Недостаточно. Например, там нет решений по материалам об условно-досрочном освобождении и многим другим. По существу приходится выбирать решения в ручную и считать в экселе. Чем собственно и займусь сейчас

    • Жабот

      кое-что наработал Институт Проблем Правоприменения: http://www.enforce.spb.ru/issledovaniya

    • unk32

      Тогда уж надо биг дату применить к общению адвоката, прокурора и судьи в помещениях и зонах, не охватываемых средствами наблюдения. Думаю только она сможет вдруг открыть нам связь между наличием денег у подсудимого и совещаниями между обвинителями и защитниками не при свидетелях.

      • Сергей Наумов

        Это тоже учитывается, даже сейчас при помощи того же Росправосудия. Когда один и тот же судья по одной и той же фабуле дела (обстоятельства дела, включая как отягчающие, так и смягчающие обстоятельства) выносит разные по строгости наказания приговоры. Очевидно, что существует корреляция между «наличием денег у подсудимого и совещаниями между обвинителями и защитниками не при свидетелях».

        • Сергей Наумов

          И более того, есть исследования социолога Вадима Волкова относительно строгости наказания, в зависимости от социального статуса подсудимого в российских судах. И примечательно, другое, что исследования Волкова показывают что «студентам скидки» ;)

          Есть исследования американских социологов, о том, что судья до обеда чаще отказывает в условно-досрочном освобождении, чем после обеда. Об этом кстати писала Компьюлента.

          Есть работы также американских социологов, которые показывают что более привлекательным подсудимым, присяжные более благосклонны, чем к некрасивым.

  • Valentin Tayursky

    Ну вот у нас(в мире) теперь вместо спорта — статистика, да бабло. Печально.

    • ovod

      спорт никуда не делся, статистика-то строится не с потолка. использование анализа данных приводит к более высокой конкуренции, что выгоднее зрителю: чем сильнее команды играют, тем интереснее

      • Valentin Tayursky

        Ну как сказать. Я вот парусным спортом увлекаюсь. Банальнейший пример: купили себе на яхту новый парус — все соперники в жопе. При том что их квалификация повыше нашей и в прошлые года они нас «драли» как тузик грелку.

        А тут получается что статистика заменяет менеджера команды. Потом она заменит еще и тренера, когда анализ данных каждого игрока будет выдавать оптимальные варианты индивидуальных тренеровок… дальше — расчет стратегии. В конечном счете, утрируя, будут сравниваться заявки команд и компьютер скажет какая победила, а какая проиграла.
        Ну это я так… ))) малость пофантазировал.

        • ovod

          ну, новый парус — это не статистика ни какая) это технические средства. ка,к например, коньки у конькобежца, плавательный костюм у пловца или лыжи у биатлониста. тут как бы не математика, а физика. а в статье именно про математику.

          просто менеджер команды раньше интуитивно все делал, работал с человеческим фактором, это намного субъективнее, чем выводы на основе статистического анализа. то бишь, ошибался менеджер команды раньше чаще, а все его ошибки влияют на исход соревнования.
          вот оптимальные тренировки на основе анализа данных — это хорошая идея.
          стратегии, тактики, схемы игры все уже давно просчитаны и тут ничего нового компьютер не придумает. самая-то фишка как раз в реализации людьми в конкретном соревновании. хочется, чтобы спортсмен показал максимум, на что он способен.

          а вот прогнозирование исхода игры — это удел букмекерских контор и прогнозирования, приблизительно такого, как это происходит с погодой, или котировкой акций на биржах. это очень сложная наука, гораздо сложнее статистического анализа больших данных

          • Valentin Tayursky

            Ну про парус я пример приводил для демонстрации что денежный фактор весьма существенен.
            Раньше работа менеджера была более творческой, а теперь он оперирует числами и статистикой. Уменьшается человеческий фактор, вот что меня печалит.

  • ovod

    > Далеко не всё можно заметить невооружённым взглядом. Далеко не всегда опыт и здравый смысл правы.

    совершенно верно. в том же киберспорте, где анализ данных был изначален, не удается оцифровать многие тактические решения игрока. например, в World of Tanks, есть игроки с высоким коэффициентом полезного действия (на основ анализа данных), но с низким процентом побед. как так получается? он может спокойно смотреть большую часть игры как его команда сливается, и только в конце начинает активно приносить пользу, когда уже поражение неизбежно. и наоборот, низкий КПД и высокий процент побед: игрок может жертвуя собой, выманивать соперников на обстреливаемые позиции (троллить), тем самым принося в конечном счете победу своей команде

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"