Представители SAS и «АлгоМост» поздравили победителей конкурса

Big Data / Практика IT-рынок
автор: Андрей Васильков  17 февраля 2015

13 февраля в учебном центре SAS прошла церемония награждения победителей открытого конкурса «Соревнования SAS Russia по анализу данных: коллекторский скоринг» с призовым фондом в 225 тысяч рублей. Свои аналитические модели для оценки платежеспособности заемщика и прогнозирования выплат задолженности на суд экспертов компании SAS и международной платформы «АлгоМост» предложили сотни студентов, сотрудников банков и специалистов в области математической статистики. Мероприятие стало одной из первых общероссийских инициатив, направленных на привлечение внимания к проблеме анализа «больших данных» в конкретных бизнес-задачах.

Главной целью конкурса была разработка банковской аналитической модели при помощи приложения статистического и количественного анализа данных SAS University Edition. С 2014 года оно бесплатно доступно для учебного и некоммерческого использования в среде Windows, Linux и Mac.

Учебный центр SAS (фото: Андрей Васильков / "Компьютерра").

Учебный центр SAS (фото: Андрей Васильков / «Компьютерра»).

По условиям соревнования предложенная модель должна учитывать минимум тридцать два исходных показателя и прогнозировать на их основе темпы выплаты просроченного долга. Для расчётов участниками конкурса использовались обезличенные данные кредитной истории и социально-демографические маркеры в тренировочном и тестовом наборе. Качество работы проверялось на тестовой выборке. С подгонкой алгоритмов под неё устроители соревнования боролись различными методами – вводя задержки обновления списка лидирующих работ и ограничивая число присланных вариантов.

«Датамайнинг – одна из самых творческих профессий, – сказал генеральный директор «АлгоМост» Михаил Левиев. – Мы рады, что совместно с компанией SAS провели успешный конкурс, участники которого получили возможность в полной мере проявить свой творческий потенциал».

Организаторы и победители конкурса "Соревнования SAS Russia по анализу данных: коллекторский скоринг» (фото: Андрей Васильков / "Компьютерра").

Организаторы и победители конкурса «Соревнования SAS Russia по анализу данных: коллекторский скоринг» (фото: Андрей Васильков / «Компьютерра»).

Изначально предполагалось, что приз разделят между собой авторы трёх лучших алгоритмов и победители двух специальных номинаций: за лучшее оформление программы и за лучшую студенческую работу. Однако по итогам соревнования организаторами было решено объявить эквивалентными по ценности работы, занявшие второе и третье место. По точности моделирования результаты двух финалистов не отличались даже в третьем знаке после запятой.

Главным критерием качества работ был коэффициент Джини, но несмотря на его относительно низкое значение (0,508) алгоритм банковского аналитика Эдуарда Бабаяна оказался наиболее подробно описанным и удобным для практического применения. Он проработал полностью ручное построение модели, выполнил анализ значимости для каждой переменной и уделил особое внимание эффектам настройки одних переменных другими.

Эдуард Бабаян - победитель в номинации "лучшее оформление" (фото: Андрей Васильков / "Компьютерра").

Эдуард Бабаян — победитель в номинации «лучшее оформление» (фото: Андрей Васильков / «Компьютерра»).

По мнению Эдуарда, SAS UE содержит весь необходимый набор инструментов для решения конкурсной задачи, и переход на неё с обычной версии не вызывает никаких проблем. Однако приложение требует доработки по ряду параметров. В частности, для решения практических задач необходимо повысить скорость некоторых видов анализа и устранить ошибки с обработкой текстовых переменных.

Студент четвёртого курса факультета вычислительной математики и кибернетики МГУ Андрей Шапулин представил работу, близкую по уровню к алгоритмам практикующих специалистов. С результатом 0,514 он получил заслуженный приз в специальной номинации.

Генеральный директор "АлгоМост" Михаил Левиев вручает приз Андрею Шапулину за лучшую студенческую работу (фото: Андрей Васильков / "Компьютерра").

Генеральный директор «АлгоМост» Михаил Левиев вручает приз Андрею Шапулину за лучшую студенческую работу (фото: Андрей Васильков / «Компьютерра»).

Андрей увлекается технологиями машинного обучения и визуализации данных. Для решения учебных задач он обычно использовал Python (Pandas + skelarn), Octave (MATLAB) и программную среду R, оптимизированную для статистической обработки данных.

С программным пакетом SAS UE Андрей работал впервые. Он считает её перспективной программой за счёт множества встроенных статистических процедур и предлагает расширить их перечень ещё больше. Например, добавить отдельную процедуру кросс-валидации и сделать регулярзацию в логистической регрессии.

Конкурс SAS и АлгоМост проходил с 1 октября 2014 по 29 декабря 2014, но многие услышали о нём ближе к завершению. Риск-менеджер Альфа-Банка Ирина Макарова узнала о нём только в середине декабря, однако представленная за две недели до окончания работа оказалась настолько хороша, что разделила второе место вместе с моделью Валерия Ващенко.

Руководитель Академической программы SAS Михаил Петровский вручает приз Ирине Макаровой (фото: Андрей Васильков / Компьютерра).

Руководитель Академической программы SAS Михаил Петровский вручает приз Ирине Макаровой (фото: Андрей Васильков / Компьютерра).

Ирина отметила удобство совместного использования встроенных инструментов приложения SAS UE и акцентировала внимание на возможности написания собственного кода. Для аналитической программы это очень существенный момент, позволяющий решать нетривиальные задачи и оптимизировать общепринятые методы с учётом реальной специфики.

Как и большинство конкурсантов, Валерий опирался на метод бинарной логистической регрессии, широко используемой для построения скоринговых карт. При этом более взвешенный выбор исходных данных, учёт региональных факторов и тщательная оценка значимости переменных позволили ему быстро занять одну из лидирующих позиций.

Михаил Левиев поздравляет Валерия Ващенко (фото: Андрей Васильков / "Компьютерра").

Михаил Левиев поздравляет Валерия Ващенко (фото: Андрей Васильков / «Компьютерра»).

В частности, Валерий сделал подробный анализ взаимосвязи между регионом и темпами выплат долгов проживающих в нём заёмщиками. Так он определил города с благополучным кредитным профилем и населённые пункты, где выплаты по счетам производятся реже всего. Полученные данные были добавлены в модель в качестве новых параметров и поправочных коэффициентов.

Рейтинг регионов по кредитным данным (изображение: Валерий Ващенко).

Рейтинг регионов по кредитным данным (изображение: Валерий Ващенко).

В ходе работы над моделью Валерий отметил, что выплате большинства долгов препятствуют одни и те же стоп-факторы: основной долг погашен на 70%, общий долг остался больше 750 тысяч рублей, а возраст заёмщика превышает 60 лет.

Первое место занял Олег Куликов, практически постоянно возглавлявший предварительные списки победителей конкурса. По его словам, около 80% времени при решении подобных задач занимает процесс подготовки и обработки данных.

Михаил Левиев поздравляет победителя конкурса Олега Куликова (фото: Андрей Васильков / "Компьютерра").

Михаил Левиев поздравляет победителя конкурса Олега Куликова (фото: Андрей Васильков / «Компьютерра»).

Для улучшения качества анализа он вводил дополнительные переменные (например, нормированный остаток задолженности) и связывал их в модели между собой. Олег считает SAS UE мощным аналитическим ПО и приветствует решение разработчиков сделать его доступным для каждого бесплатно.

Валерий Панкратов, генеральный директор SAS Россия/СНГ (фото: Андрей Васильков / "Компьютерра").

Валерий Панкратов, генеральный директор SAS Россия/СНГ (фото: Андрей Васильков / «Компьютерра»).

«Первый опыт проведения конкурса я считаю позитивным, – сказал Валерий Панкратов, генеральный директор представительства SAS в России и странах СНГ. – Точность полученных моделей достаточно высока, и мы думаем о том, как эту форму развивать».

Он обратил внимание на тот факт, что некоторые крупные фирмы используют простое маркетинговое продавливание своих решений, в то время как в SAS всегда стремятся привлечь профессионалов, создавая для них тонкие и общедоступные инструменты анализа.

После подведения итогов конкурса победителей поздравил начальник отдела кредитных стратегий департамента розничных рисков Промсвязьбанка Игорь Толстов. Он высоко оценил качество работ и подчеркнул, что даже при использовании общего метода регрессии их результат сильно зависел от квалификации аналитика – его умения выбрать верные критерии и найти не самые очевидные взаимосвязи между ними.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
СГ УРАЛСИБ внедряет SAS Fraud Framework for Insurance.
СГ УРАЛСИБ внедряет SAS Fraud Framework for Insurance.
768
АлгоМост: анализ больших данных на конкурсной основе
АлгоМост: анализ больших данных на конкурсной основе
SAS и SAP объединились, чтобы интегрировать средства аналитики SAS и базу данных HANA
SAS и SAP объединились, чтобы интегрировать средства аналитики SAS и базу данных HANA
  • KZ_Almaty

    Как вспомню дезьюнкция коньюнкция, коньюнкция дезюнкция. Так кто в банке дорастет до такого уровня IQ чтобы использовать этот софт, а тем более результаты работы начальству показывать.

    • KZ_Almaty

      Всегда думал, что есть закономерность, что если ПРОЩЕ система тем она больше идет в массы. Или если система сложные вещи, упрощает до уровня ниже среднего человека, это ХИТ.

      Калашников с его автоматом пример и его фраза «Проще в сто раз сделать сложнее чем сложно»

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"