13 февраля в учебном центре SAS прошла церемония награждения победителей открытого конкурса «Соревнования SAS Russia по анализу данных: коллекторский скоринг» с призовым фондом в 225 тысяч рублей. Свои аналитические модели для оценки платежеспособности заемщика и прогнозирования выплат задолженности на суд экспертов компании SAS и международной платформы «АлгоМост» предложили сотни студентов, сотрудников банков и специалистов в области математической статистики. Мероприятие стало одной из первых общероссийских инициатив, направленных на привлечение внимания к проблеме анализа «больших данных» в конкретных бизнес-задачах.

Главной целью конкурса была разработка банковской аналитической модели при помощи приложения статистического и количественного анализа данных SAS University Edition. С 2014 года оно бесплатно доступно для учебного и некоммерческого использования в среде Windows, Linux и Mac.

Учебный центр SAS (фото: Андрей Васильков / "Компьютерра").
Учебный центр SAS (фото: Андрей Васильков / “Компьютерра”).

По условиям соревнования предложенная модель должна учитывать минимум тридцать два исходных показателя и прогнозировать на их основе темпы выплаты просроченного долга. Для расчётов участниками конкурса использовались обезличенные данные кредитной истории и социально-демографические маркеры в тренировочном и тестовом наборе. Качество работы проверялось на тестовой выборке. С подгонкой алгоритмов под неё устроители соревнования боролись различными методами – вводя задержки обновления списка лидирующих работ и ограничивая число присланных вариантов.

«Датамайнинг – одна из самых творческих профессий, – сказал генеральный директор «АлгоМост» Михаил Левиев. – Мы рады, что совместно с компанией SAS провели успешный конкурс, участники которого получили возможность в полной мере проявить свой творческий потенциал».

Организаторы и победители конкурса "Соревнования SAS Russia по анализу данных: коллекторский скоринг» (фото: Андрей Васильков / "Компьютерра").
Организаторы и победители конкурса “Соревнования SAS Russia по анализу данных: коллекторский скоринг» (фото: Андрей Васильков / “Компьютерра”).

Изначально предполагалось, что приз разделят между собой авторы трёх лучших алгоритмов и победители двух специальных номинаций: за лучшее оформление программы и за лучшую студенческую работу. Однако по итогам соревнования организаторами было решено объявить эквивалентными по ценности работы, занявшие второе и третье место. По точности моделирования результаты двух финалистов не отличались даже в третьем знаке после запятой.

Главным критерием качества работ был коэффициент Джини, но несмотря на его относительно низкое значение (0,508) алгоритм банковского аналитика Эдуарда Бабаяна оказался наиболее подробно описанным и удобным для практического применения. Он проработал полностью ручное построение модели, выполнил анализ значимости для каждой переменной и уделил особое внимание эффектам настройки одних переменных другими.

Эдуард Бабаян - победитель в номинации "лучшее оформление" (фото: Андрей Васильков / "Компьютерра").
Эдуард Бабаян – победитель в номинации “лучшее оформление” (фото: Андрей Васильков / “Компьютерра”).

По мнению Эдуарда, SAS UE содержит весь необходимый набор инструментов для решения конкурсной задачи, и переход на неё с обычной версии не вызывает никаких проблем. Однако приложение требует доработки по ряду параметров. В частности, для решения практических задач необходимо повысить скорость некоторых видов анализа и устранить ошибки с обработкой текстовых переменных.

Студент четвёртого курса факультета вычислительной математики и кибернетики МГУ Андрей Шапулин представил работу, близкую по уровню к алгоритмам практикующих специалистов. С результатом 0,514 он получил заслуженный приз в специальной номинации.

Генеральный директор "АлгоМост" Михаил Левиев вручает приз Андрею Шапулину за лучшую студенческую работу (фото: Андрей Васильков / "Компьютерра").
Генеральный директор “АлгоМост” Михаил Левиев вручает приз Андрею Шапулину за лучшую студенческую работу (фото: Андрей Васильков / “Компьютерра”).

Андрей увлекается технологиями машинного обучения и визуализации данных. Для решения учебных задач он обычно использовал Python (Pandas + skelarn), Octave (MATLAB) и программную среду R, оптимизированную для статистической обработки данных.

С программным пакетом SAS UE Андрей работал впервые. Он считает её перспективной программой за счёт множества встроенных статистических процедур и предлагает расширить их перечень ещё больше. Например, добавить отдельную процедуру кросс-валидации и сделать регулярзацию в логистической регрессии.

Конкурс SAS и АлгоМост проходил с 1 октября 2014 по 29 декабря 2014, но многие услышали о нём ближе к завершению. Риск-менеджер Альфа-Банка Ирина Макарова узнала о нём только в середине декабря, однако представленная за две недели до окончания работа оказалась настолько хороша, что разделила второе место вместе с моделью Валерия Ващенко.

Руководитель Академической программы SAS Михаил Петровский вручает приз Ирине Макаровой (фото: Андрей Васильков / Компьютерра).
Руководитель Академической программы SAS Михаил Петровский вручает приз Ирине Макаровой (фото: Андрей Васильков / Компьютерра).

Ирина отметила удобство совместного использования встроенных инструментов приложения SAS UE и акцентировала внимание на возможности написания собственного кода. Для аналитической программы это очень существенный момент, позволяющий решать нетривиальные задачи и оптимизировать общепринятые методы с учётом реальной специфики.

Как и большинство конкурсантов, Валерий опирался на метод бинарной логистической регрессии, широко используемой для построения скоринговых карт. При этом более взвешенный выбор исходных данных, учёт региональных факторов и тщательная оценка значимости переменных позволили ему быстро занять одну из лидирующих позиций.

Михаил Левиев поздравляет Валерия Ващенко (фото: Андрей Васильков / "Компьютерра").
Михаил Левиев поздравляет Валерия Ващенко (фото: Андрей Васильков / “Компьютерра”).

В частности, Валерий сделал подробный анализ взаимосвязи между регионом и темпами выплат долгов проживающих в нём заёмщиками. Так он определил города с благополучным кредитным профилем и населённые пункты, где выплаты по счетам производятся реже всего. Полученные данные были добавлены в модель в качестве новых параметров и поправочных коэффициентов.

Рейтинг регионов по кредитным данным (изображение: Валерий Ващенко).
Рейтинг регионов по кредитным данным (изображение: Валерий Ващенко).

В ходе работы над моделью Валерий отметил, что выплате большинства долгов препятствуют одни и те же стоп-факторы: основной долг погашен на 70%, общий долг остался больше 750 тысяч рублей, а возраст заёмщика превышает 60 лет.

Первое место занял Олег Куликов, практически постоянно возглавлявший предварительные списки победителей конкурса. По его словам, около 80% времени при решении подобных задач занимает процесс подготовки и обработки данных.

Михаил Левиев поздравляет победителя конкурса Олега Куликова (фото: Андрей Васильков / "Компьютерра").
Михаил Левиев поздравляет победителя конкурса Олега Куликова (фото: Андрей Васильков / “Компьютерра”).

Для улучшения качества анализа он вводил дополнительные переменные (например, нормированный остаток задолженности) и связывал их в модели между собой. Олег считает SAS UE мощным аналитическим ПО и приветствует решение разработчиков сделать его доступным для каждого бесплатно.

Валерий Панкратов, генеральный директор SAS Россия/СНГ (фото: Андрей Васильков / "Компьютерра").
Валерий Панкратов, генеральный директор SAS Россия/СНГ (фото: Андрей Васильков / “Компьютерра”).

«Первый опыт проведения конкурса я считаю позитивным, – сказал Валерий Панкратов, генеральный директор представительства SAS в России и странах СНГ. – Точность полученных моделей достаточно высока, и мы думаем о том, как эту форму развивать”.

Он обратил внимание на тот факт, что некоторые крупные фирмы используют простое маркетинговое продавливание своих решений, в то время как в SAS всегда стремятся привлечь профессионалов, создавая для них тонкие и общедоступные инструменты анализа.

После подведения итогов конкурса победителей поздравил начальник отдела кредитных стратегий департамента розничных рисков Промсвязьбанка Игорь Толстов. Он высоко оценил качество работ и подчеркнул, что даже при использовании общего метода регрессии их результат сильно зависел от квалификации аналитика – его умения выбрать верные критерии и найти не самые очевидные взаимосвязи между ними.