Москва – огромный мегаполис с 11 979 529 жителей, по данным переписи населения 2013 года. Каждый из них ездит на работу, пользуется мобильным телефоном (а то и не одним), спускается в метро, стоит в пробках. За всем этим следят городские службы, государственные органы, частные компании, предоставляющие различные сервисы. Тысячи видеокамер, сотни тысяч датчиков, мониторов, которые контролируют жизнь города, миллионы мобильных телефонов, 3G/4G-модемов. А все вместе это миллиарды источников данных, обрабатывая которые можно получить информацию для дальнейшего планирования развития города, управления его транспортными потоками, обеспечения безопасности мегаполиса. Одним из немногих инструментов, способных справиться с обработкой такого количества информации, являются решения класса Big Data. Для начала рассмотрим, где они могут быть использованы.

Плотность проживания населения и данные о перемещении жителей

Основным инструментом определения численности и структуры населения, его распределения по местности на текущий момент является перепись. Основной недостаток переписи – стоимость её проведения и отсутствие данных о движении жителей. Источником информации для переписи служат сами жители, опрос которых проводится по месту их проживания.

Какие преимущества может предоставить использование решений Big Data? Для ответа на данный вопрос сначала определим, какие данные нам необходимы:

  • где ночуют и работают жители;
  • откуда и куда они ездят в будни и выходные;
  • каким транспортом пользуются москвичи и гости столицы;
  • откуда приезжают в город и зачем.

Для сбора этой информации нам в первую очередь необходимо определиться с источником данных и методом их анализа. Для определения местоположения жителя самым оптимальным является использование данных о местоположении его сотового телефона (он всегда с собой). Как это сделать?

Можно получить:

  • данные от сотовых операторов о местоположении телефонного аппарата;
  • данные от специализированных сервисов (таких, как “Яндекс.Пробки”);
  • данные от мобильных приложений со встроенным функционалом определения местоположения, предоставляемых городом для удобства жителей.

Для анализа полученной информации могут быть использованы различные алгоритмы в зависимости от источника, формата, способа их предоставления. Но вот основные положения.

Определение места, где ночуют жители и где работают, может быть получено путем анализа данных о перемещении и совершённых действиях. Например, периодическое отсутствие звонков с 22:00 до 7:00 и отсутствие перемещения покажет, где человек живет, а отсутствие перемещений в рабочие часы – где тот же человек работает, причем одним из критериев, повышающих точность, будет наличие активности телефонного аппарата абонента в данном местоположении. Здесь же можно будет определить, как часто человек перемещается в рабочее время, сколько людей в городе занимают должности, связанные с постоянным передвижением (курьеры, водители и другие профессии).

Определение направления перемещений жителей осуществляется аналогично, по тем же данным о перемещении абонентов сотовой связи, и позволяет выделить основные потоки перемещений местных жителей, приезжих, трудовых мигрантов, собрать статистику перемещений по районам и направлениям, узнать, как часто жители и гости посещают магазины, культурные мероприятия, городские достопримечательности, а также насколько популярны те или иные места в городе.

Отслеживая скорость перемещения и посещённые места, можно выделить, каким транспортом пользуется человек: автомобиль, метро, наземный общественный транспорт, междугородный транспорт.

Анализ работы городской инфраструктуры и обеспечение безопасности населения

Большое количество светофоров, систем управления городским движением, систем видеорегистрации событий (камеры наблюдения), контроль общественного транспорта в рамках города с населением более миллиона человек требует скоординированного подхода в управлении и централизации данных. Одной из проблем, выявленных в свое время при внедрении систем общегородского видеонаблюдения, стала невозможность контроля происходящих событий (например, с целью выявления неправомерных действий) силами оперативных дежурных. Учитывая текущие возможности современных технологий, становится возможным создание единых распределённых систем, обеспечивающих как распознавание событий по различным источникам (системы регулирования движения, камеры наблюдения и прочие), так и их аналитику с целью оперативной реакции: вызов полиции, сотрудников ремонтных организаций, иных оперативных служб города. Другим применением решений Big Data является распределенное и длительное хранение собранной информации, осуществление поиска необходимых данных и связанных с ними событий. Чем было вызвано то или иное изменение ситуации в городе, какие события ему предшествовали, на кого они повлияли – вот маленькая часть вопросов, на которые позволяют ответить «большие данные».

Сопоставление данных

Одним из ключевых моментов происходящих событий является определение характеристик объектов, в них участвующих. Для сбора данных могут быть использованы совершенно различные источники: например, для данных, полученных от оператора сотовой связи, – характеристики физического лица, на которого зарегистрирована сим-карта, для систем наблюдения – сведения от систем распознавания лиц, ведомственные базы данных. Одним из ключевых моментов является возможность анонимизации информации, исключения персональных составляющих при передаче данных от различных владельцев, источников.

Основные проблемы

И всё же во всём этом есть ложка дегтя. Основной проблемой всех интеграционных решений, особенно если обмен данными осуществляется между разными ведомствами, организациями, являются законодательные ограничения, которые не позволяют предоставлять данные в том виде, в котором они существуют. Как следствие – требуется предварительная их обработка на стороне владельца.

Итого

Подводя итог, хотелось бы отметить, что современные технологии обработки “больших данных” позволяют предоставить городу значительно больше, чем существующие ИТ-сервисы. При этом не требуется обновлять существующую инфраструктуру, так как могут быть использованы те источники данных, которые есть в настоящий момент.

С помощью решений класса Big Data можно повысить удобство жителей города и его гостей, уменьшить количество пробок не за счёт ограничений на въезд в город, а путём управления транспортными потоками, снизить количество преступлений благодаря оперативной реакции, повысить качество предоставления городских услуг вследствие их оперативного и автоматического контроля.