Жилищно-коммунальный Шерлок Холмс: как анализ данных изменяет города

Первое убийство в городе Сан-Франциско произошло 21 июня 1849 года. Молодой мужчина по имени Белден Битти погиб от огнестрельного ранения в районе Телеграф Хилл. В полицейском отчёте записано, что поводом для совершения преступления стало «отсутствие взаимопонимания». Действительно, взаимопонимания не хватало: Телеграф Хиллом правили бандиты-чилийцы, а Битти состоял во враждующей банде, известной под названием Псы.

Второе убийство случилось в июле, когда Псы со стрельбой нагрянули на Телеграф Хилл, чтобы отомстить за погибшего товарища. Один из обитателей палаточного городка, в котором жили мигранты из Южной Америки, скончался от полученных ранений. Полицейский отчёт сохранил только его фамилию — Аллегрия. Запись, описывающая обстоятельства произошедшего, не менее лаконична: «Погром».

Телеграф Хилл на картине Джорджа Бёрджесса «Сан-Франциско в июле 1849 года».

Эту историю рассказывают первые строки электронной таблицы, которую составили в Исследовательском центре уголовной юстиции при Университете штата Огайо. Тысячи строк, следующие за ними, содержат полную историю преступности в Сан-Франциско. Таблица перечисляет каждое убийство, произошедшее в городе в период с 1849 по 2003 год. Из различных источников собраны имена жертв и убийц, информация об использованном оружии и мотивах преступников, перечислены места преступления.

Начало таблицы пропитано духом вестернов: перестрелки в салунах, повздорившие золотодобытчики, задушенные проститутки, пьяные моряки, дебоши в опиумокурильнях и борделях. Записи, датированные двадцать первым веком, отдают скорее сериалом Wire. Типичная причина убийства — наркотики. Примечание: «Расстрелян из проезжающего автомобиля».

Данные в этой таблице не назовёшь «большими». Сан-Франциско — не такой уж крупный город, поэтому полный список убийств за всю его историю умещается в семь тысяч строк. В 1849 году там обитало примерно 25 тысяч человек. С тех пор он подрос, но на мегаполис по-прежнему не тянет. По численности жителей Сан-Франциско сравним с Воронежем и даже немного уступает ему.

Тем не менее лучшей иллюстрации для того, чтобы передать суть «больших данных», не придумать. Она, вопреки распространённому заблуждению, не сводится к словам «петабайт», «Hadoop» и «data science». Главное — совсем в другом.

Мы привыкли к отчётам из горстки цифр, подытоживающих большое количество событий. Например, полиция, как правило, публикует лишь количество совершённых и раскрытых преступлений — не более. Где-то в архивах, вероятно, хранятся папки с более подробной информацией, но их достают лишь при необходимости. То же самое и в бизнесе. Магазины подсчитывают выручку и количество проданных товаров, но редко рассматривают каждую сделку по отдельности (хотя и эти данные где-то фиксируются). Компании отчитываются о своих оборотах и прибыли, но не вникают, из чего они складываются.

Именно поэтому полный набор данных, ещё не переработанный в удобоваримую статистику, кажется таким непривычным. Мы привыкли обходиться меньшим, потому что до недавнего времени работать с полными наборами данных было если не невозможно, то по крайней мере непрактично — даже если они относительно невелики и вполне умещаются в таблицу Excel.

Теперь этой проблемы нет. Необходимость ограничиваться итоговыми цифрами и даже выборками отпала. Существующие технические возможности позволяют без особых усилий использовать самые полные наборы данных напрямую. Сопоставляя их между собой, можно отыскивать закономерности и получать выводы, которые никак не сделать на основе кратких итогов. В этом и заключается суть «больших данных«.

Любой город порождает колоссальное количество информации, и полицейскими архивами дело, конечно, не ограничивается. Можно не сомневаться, что где-то хранятся сведения о каждом жителе, о каждом строении, о каждой компании и каждой водопроводной трубе. Скорее всего, даже деревья где-то учтены, причём не выборочно, а все до единого. Известна потребляемая энергия и объём производимых отходов. Парковочные автоматы записывают количество оставленных автомобилей, автоматические камеры на улицах следят за скоростью движения, а турникеты в общественном транспорте фиксируют идентификаторы проездных билетов.

Все эти богатства в большинстве случаев лежат мёртвым грузом.

В 2009 году власти Сан-Франциско решили выкладывать в интернет городские данные в надежде, что кто-то найдёт им применение. На сайте data.sfgov.org опубликовано около пятисот наборов данных. Ещё дальше пошёл Нью-Йорк: в Сети доступно 1 100 наборов данных, причём некоторые из них обновляются в реальном времени. Город публикует таблицы, содержащие результаты инспекций ресторанов и итоги выпускных экзаменов в школах, жалобы на шум, который производят фургоны с мороженым, и информацию о местах, где замечены крысы, списки граффити на стенах и спиленных деревьев.

У нью-йоркской любви к данным долгая история. В начале девяностых мегаполис страдал от невиданного всплеска преступности. Пессимисты полагали, что Нью-Йорк уже не спасти, но оказались неправы. Его спасли данные.

Полицейские в нью-йоркском метро, восьмидесятые годы XX века (фото: Марта Купер).

В 1994 году нью-йоркская полиция начала использовать систему CompStat, подразумевающую отслеживание и анализ преступлений по мере совершения. Происшествия впервые стали систематически рассматриваться как части единого целого, а не по отдельности. Это позволило быстро идентифицировать опасные районы, замечать едва наметившиеся тенденции и немедленно передислоцировать силы.

Результаты превзошли самые смелые ожидания. За год до внедрения CompStat в Нью-Йорке было совершено 2 420 убийств. К 1995 году их количество сократилось до 1 550. В 1998-м число убийств впервые за тридцать лет упало ниже тысячи. В 2012 году в Нью-Йорке убили 684 человека — в четыре раза меньше, чем двадцатью годами ранее, хотя население за тот же срок выросло более чем на полтора миллиона. После внедрения CompStat уровень насильственной преступности в городе держится на необычно низком уровне. Он на 70% уступает другим городам США с аналогичными демографическим и социоэкономическим составом населения и плотностью застройки.

Успешный подход пытались применять в других областях — в частности для борьбы с дорожно-транспортными происшествиями и пробками. А относительно недавно власти Нью-Йорка завели организацию, которая занимается только анализом данных для нужд города: Управление стратегии и стратегического планирования, возглавляемое бывшим прокурором Майклом Флауэрсом.

Одно из заданий, которые выполняло Управление, описано в статье «Нью-Йорк Таймс». Департамент защиты окружающей среды Нью-Йорка разыскивал рестораны, без разрешения сбрасывающие отработанные масло и жир в канализацию. Жир скапливается, затвердевает и засоряет трубы. В итоге городу приходится оплачивать устранение последствий засора и ремонт канализации. Как найти нарушителей? Отправить инспектора в каждый ресторан? Если представить размеры Нью-Йорка, становится ясно, что это потребует слишком больших усилий. Люди Флауэрса придумали способ упростить задачу.

Они обнаружили, что существует малоизвестная официальная организация, сертифицирующая оборудование, которое рестораны используют для вывоза жира. Получив список сертификатов, они выделили подмножество ресторанов, не имеющих такого оборудования. Затем сопоставили его с картой канализации и сократили список подозреваемых ещё сильнее. Изучить пристальнее оставшиеся в нём рестораны и найти виновников не составило труда.

Майкл Флауэрс (справа) в Управлении стратегии и стратегического планирования Нью-Йорка (фото: «Нью-Йорк Таймс»).

В другом случае они анализировали распространение оксикодона — сильного обезболивающего, продающегося в аптеках по рецептам. Оно является опиоидом и может использоваться как наркотик. Оказалось, что продажи оксикодона не распределены равномерно по всем 2 150 аптекам, имеющимся в Нью-Йорке. 60% расходов на это средство, которое несёт казна города, оплачивающая рецепты престарелых и бедняков по социальной программе Medicaid, сосредоточены в 21 аптеке. Очевидно, что к происходящему там есть смысл присмотреться повнимательнее.

Другие достижения Управления имеют схожий характер. Они в пять раз увеличили эффективность обнаружения квартир, заселённых в нарушение правил зонирования, ускорили поиск обветшавших зданий, которые представляют опасность, и удвоили результативность инспекторов, разыскивающих в магазинах сигареты, которые попали в штат без официального разрешения и уплаты соответствующих пошлин.

Данные, просеиваемые людьми Флауэрса, велики, но исчисляются всё же не эксабайтами, а более приземлёнными единицами измерения. Методы анализа, которые они применяют, не поражают воображения: зачастую их можно описать парой SQL-запросов. Тем не менее получается, что деятельность нескольких аналитиков (а в Управлении стратегического планирования пока меньше десятка сотрудников) способна дать более весомый эффект, чем увеличение штата других подразделений в несколько раз.

Чтобы добиться его, они всего лишь подняли пылящиеся архивы. Следующий этап сложнее: нужно добывать данные, которые пока недоступны. Тысячи датчиков помогут превратить управление городом в подобие игры Sim City, которая наглядно показывает, где именно не хватает полиции, куда не дотягивается водопровод и как избавиться от пробок. Это неизбежное будущее, но даже первые шаги, сделанные в Нью-Йорке, очень важны. Они ясно показывают, насколько ценной может быть информация, которую мы привыкли игнорировать.

Что будем искать? Например,ChatGPT

Мы в социальных сетях