"Большие данные" против мошенников

Полезность «больших данных» очевидна далеко не всем. Кое-кто убеждён, что шумиха в этой области раздута искусственно. Другие сомневаются, что выгода, которую, возможно, дадут новые технологии, стоит усилий и расходов. Есть, впрочем, и третьи: они не могут позволить себе выжидать и сомневаться. Для них «большие данные» — это не модный термин и не прихоть, а вопрос почти что жизни и смерти.

Борьба с мошенническими транзакциями относится к третьей категории. Те, кто занят в этой области, экспериментировали с «большими данными» задолго до того, как эти два слова превратились в общепринятый термин. Они не спорят о том, нужна ли эта технология или лучше работать по старинке, потому что давно знают ответ. Да, нужна. Нет, по старинке больше не получится.

В 2011 году аналитическое агентство PricewaterhouseCoopers изучило ситуацию с экономической преступностью в нескольких странах мира. Оказалось, что в течение года мошенники нанесли ущерб 34% компаний и организаций, попавших в поле зрение агентства. В России этот показатель ещё выше — 37%, причём в 60% случаев убытки превышали $100 тыс.

Финансовая индустрия теряет на мошеннических транзакциях около $80 млрд в год, а суммарный ущерб, который мошенники наносят мировой экономике, аналитики оценивают в сотни миллиардов и даже триллионы долларов.

Иными словами, масштабы мошенничества, с которым имеют дело банки, платёжные сервисы и страховые компании, настолько грандиозны, что даже лёгкое изменение ситуации к худшему означает многомиллионные убытки.

И тут нужно понимать, что мошенники сегодня уже не такие, как десять лет назад. «Они читают те же самые книги, что и мы, — говорит Джон Кунце, глава компании Xoom, специализирующейся на денежных переводах в страны третьего мира. — У них самих есть учёные степени».

«Преступные силы, которым мы противостоим, становятся всё более изощрёнными в своих методах и направлениях атаки, — вторит ему Эллен Ричи, заведующая борьбой с рисками в платёжной системе Visa. — У нас нет возможности стоять на месте».

Visa не стоит на месте дольше большинства конкурентов. Корпорация, контролирующая треть рынка платёжных карт, разработала первую автоматическую систему выявления мошеннических транзакций около двадцати лет назад. По очевидным причинам, о «больших данных» тогда и речи не было.

Даже в 2011 году средства анализа платежей Visa оставались ограничены возможностями старых компьютеров. Они не позволяли рассматривать более сорока признаков мошеннических платежей одновременно и довольствовались мизерной выборкой — примерно двумя процентами данных о транзакциях, которые обрабатывает платёжная система.

Детектором служила своеобразная экспертная система, сличающая каждую сделку с заложенным в неё набором признаков, которые характерны для мошеннических транзакций. Тревогу может вызвать различие адреса доставки и биллингового адреса или, например, приобретение товара, который легко перепродать за наличные, особенно если при этом используется предоплаченная карта.

Порочность этого метода, вероятно, испытал на себе каждый турист, обнаруживший, что его кредитку заблокировали после первого же платежа за границей. И проблема не только в ложных срабатываниях. Жёсткий список правил оставляет массу лазеек для преступников, потому что упускает из виду признаки, которые невозможно заметить, рассматривая каждую транзакцию по отдельности.

Следующим уровнем защиты мог бы стать автоматический поиск аномалий и алгоритмы машинного обучения. И то и другое имеет смысл только в том случае, когда речь идёт не о выборке, а о работе с полным набором данных, каким бы большим он ни был.

«Выборки остались в прошлом, — цитирует O’Reilly Media мнение Абишека Мехты, основателя компании Tresata, разрабатывающей средства предиктивной аналитики. — Раньше, когда банкам приходилось архивировать петабайты информации на магнитной ленте, было невозможно разработать модель оценки риска и обойтись без выборок. Сегодня мы можем анализировать до 50 петабайтов данных, чтобы точнее просчитать риск. Такие технологии, как Hadoop, позволяют делать вещи, которые когда-то были невозможными».

Полный набор данных можно изучить методами статистики и поискать в нём отклонения от нормы, маловероятные повторы или, наоборот, лакуны. Можно, наконец, проверить его на соответствие закону Бенфорда. Машинное обучение нужно для того, чтобы выявить в наборе данных неочевидные для человека характеристики мошеннических транзакций и обнаружить следы преступной деятельности в виде скрытых закономерностей.

Апгрейд, позволяющий использовать все эти возможности, последовал два года назад. Новая версия антифрода Visa была основана на методах обработки «больших данных». В отличие от предшественников, она учитывала до 500 особенностей каждой транзакции и анализировала происходящее с точностью до отдельных банкоматов. За год система останавливает мошеннические платежи на сумму примерно $2 млрд в год.

В том же направлении движутся и другие компании, благополучие которых зависит от эффективности системы выявления мошеннических транзакций. Кто-то, подобно Visa, модернизируют свои средства защиты самостоятельно. Кто-то внедряет или адаптирует готовые решения. Кто-то обращается к фирмам, предлагающим поиск аномалий как сервис.

Один из крупных американских банков подключил к борьбе с мошенниками суперкомпьютер Watson, разработанный в IBM (IBM умалчивает имя своего клиента, но можно предположить, что речь идёт о Citigroup: об аналогичном проекте этих компаний не так давно писал журнал New Scientist). Watson известен способностью обрабатывать запросы на естественном языке, которая принесла ему победу в телевикторине Jeopardy! (американский прототип «Своей игры»).

Система IBM, использующая элементы Watson, анализировала поток транзакций в реальном времени, оценивая подозрительность каждой из них. На оценку, среди прочего, влияла история отношений банка с торговой точкой, которая инициировала сделку. Чем больше мошеннических транзакций в её послужном списке, тем меньше к ней доверия.

В IBM утверждают, что система на 15% увеличила количество выявленных мошеннических обращений к банку и на 50% сократила число ложных срабатываний. При этом сумма, которую удалось защитить от мошенников, выросла на 60%.

Те же методы работают и в других областях, причём не менее действенно. Министерство труда Германии приспособило их для анализа заявок на получение пособий по безработице. Скоро стало ясно, что около 20% пособий выплачивалось незаслуженно. Это и другие применения Big Data позволили министерству сократить расходы на €10 млрд.

Американская Комиссия по ценным бумагам и биржам (SEC) тоже планирует автоматизировать поиск мошенников, но в данном случае речь идёт не о мелких жуликах, обналичивающих краденые кредитки, и даже не о фальшивых безработных. В SEC метят выше и хотят выводить на чистую воду мухлюющие мегакорпорации. Желательно до того, как они обанкротятся и утянут за собой половину экономики.

Система выявления мошенничества, которую разрабатывают по заказу SEC, будет анализировать не только финансовые показатели (это само собой разумеется), но и менее структурированные данные — вплоть до лексики, использованной в пояснениях к отчётности компании.

Ещё интереснее то, чем занимаются такие компании, как ZestFinance, AvantCredit или Xoom. Они обосновались в нишах, которые известны высоким уровнем риска, и теснят конкурентов за счёт использования более совершенных технологий.

Типичный клиент AvantCredit — это человек с плохим кредитным рейтингом, попавший в трудную ситуацию. Возможно, он внезапно остался без работы. Возможно, его настигли непредвиденные медицинские расходы. Обычные банки не верят, что он сможет вернуть деньги, и отказываются с ним работать, а те, кто всё же готов дать заём, компенсируют свой риск чудовищной процентной ставкой.

AvantCredit предоставляет кредиты величиной до $10 тыс. и не требует хищнических процентов. Вместо традиционного кредитного рейтинга компания использует статистические модели и алгоритмы машинного обучения, которые учитывают тысячи параметров: информацию, которую клиент предоставил сам, сведения, почерпнутые из социальных сетей, его историю транзакций и многое другое. Чем точнее прогноз, тем меньше невыплаченных кредитов и тем выгоднее условия, которые может предложить компания.

«Парадоксальным образом использование технологий делает весь этот процесс более гуманным по отношению к нашим клиентам», — говорит один из основателей AvantCredit Джон Сан и поясняет: алгоритмы, вникающие во все детали, способны дать куда более справедливую оценку платёжеспособности человека, чем банковские служащие при личной встрече.

Xoom работает в другой области, но суть та же: пока конкуренты повышают тарифы, чтобы покрыть убытки, причиняемые мошенниками, эта компания избегает убытков с помощью «больших данных» и предлагает клиентам более выгодные условия.

Xoom представляет собой платёжный сервис для перевода наличных из Соединённых Штатов в Индию, на Филиппины, в ЮАР, а также страны Латинской Америки и Европы. Как правило, им пользуются приезжие из стран третьего мира, чтобы отправить деньги оставшейся на родине семье.

Риск в таком бизнесе неизбежен, но изощрённые алгоритмы, с помощью которых Xoom оценивает благонадёжность транзакций, позволяют сократить его до минимума. Лишь 0,35% переводов приводит к убыткам. Это втрое больше, чем у платёжных систем вроде Visa или Mastercard, но и задача, которая стоит перед Xoom, сложнее.

В 2011 году технология Xoom раскрыла преступную группу, которая действовала в Нью-Джерси. «Она увидела паттерн там, где его не должно было быть», — цитирует еженедельник Economist главу Xoom Джона Кунце.

Подозрения вызвала серия переводов, отправленных с платёжных карт Discover. По отдельности они ничем не выдавали свою истинную сущность. Странность происходящего становилась заметна только при изучении всей последовательности, а всю последовательность, в свою очередь, можно извлечь лишь при анализе полного набора данных. Обнаружить подобную закономерность в небольшой выборке нельзя.

Работая в Xoom, трудно сомневаться в том, нужны ли «большие данные». Странный вопрос: на них держится вся компания! «В нашем деле нужно очень хорошо разбираться в том, как ищут мошеннические транзакции, — говорит Кунце. — В противном случае всё кончится либо банкротством, либо тюрьмой».

«Большие данные» против мошенников