«Диверсификация модельного риска в скоринговых моделях. Агрегатный подход» © Дмитрий Козлов Управление операционных рисков и контроля Владимир Левин Отдел скоринга Департамент рисков ОАО Банк ЗЕНИТ (Россия, Москва) Содержание 1. Гибридные модели скоринга – предпосылки и причины 2. Анализ используемых методов. Достоинства и недостатки 3. Выигрыш гибридной модели – снижение модельного риска за счет использования разных вариантов скоринга и формирования оптимального решения на их основе 2 Гибридные модели скоринга – предпосылки и причины Усиление конкуренции на рынке кредитных услуг в условиях кризисных явлений в экономике, и, как следствие, необходимость построения скоринговых моделей с более высокими показателями результативности и более точными оценками риска в целях оптимизации процессов управления рисками. 3 Гибридные модели скоринга – предпосылки и причины_2 Цель кредитного скоринга - на основе анализа клиентских данных дать объективную оценку риска, чтобы отличить «плохих» клиентов от «хороших» клиентов. Решение, на основе какого метода строить скоринговую систему, представляет собой сложную проблему, так как качество решения зависит как от модели, так и от качества имеющихся данных, их зашумленности и неоднородности. Как показывает практика, хорошей альтернативой использованию одного метода для построения скоринговой системы, является построение гибридной прогнозной модели, интегрирующей несколько возможных скоринговых моделей, как составных частей ансамбля классификаторов, и совокупное решение гибридной системы принимается путем голосования в соответствии с принятым правилом голосования. Использование нескольких классификаторов (логистическая регрессия, деревья решений, байесовские классификаторы, нейросети, генетические алгоритмы, метод опорных векторов) в составе гибридной модели (возможно как параллельно, так и последовательное, так и смешанное соединение моделей) позволяет понизить модельный риск (погрешность, определяемая используемой моделью классификации) и добиться увеличения качества оценки риска в гибридной модели до десятков процентов в сравнении с использованием отдельных моделей классификации Этапы развития скоринговых систем 1. 1941г –Дюран предложил использовать предложил различать «плохих» клиентов от «хороших» на основе измерений клиентских характеристик. Были описаны правила, по которым кредитные аналитики принимают решения предоставить кредит или отказать в кредите. Данные правила затем использовались неэкспертами как подсказка при принятии решений о кредите — первый пример экспертного кредитного скоринга. 2. 60-70-е гг– в связи с распространением кредитных карт получил развитие скоринг на основе статистических методов, что дало повышение качества решения, преодоление субъективизма экспертных систем принятия решений 3. 80-90-е гг - развитие моделей ИИ (нейросети, байесовские сети, Data Mining, KDD (Knowledge Discovery in Database) и их внедрение в практику кредитного скоринга 4. 90-00-е гг – появление и развитие гибридных (агрегированных) систем скоринга 5 Основные подходы к построению гибридных скоринговых систем Экспертные системы скоринга Скоринг на основе статистических методов Применение ИИ при построени скоринга Гибридные системы скоринга (ГСС) (множественность моделей+применение нечеткой логики при формировании решений и препроцессинге данных) 6 Основой для классификации ГСС являются следующие четыре характеристики комбинированных моделей: — способ отбора характеристик клиента, используемых в системе кредитного скоринга; — процедура предпроцессинговой обработки данных с целью достижения их однородности по отношению к уровню кредитного риска; — порядок соединения отдельных моделей в единый агрегат; — порядок выработки решения агрегата моделей на основе решений отдельных моделей, входящих в агрегат. Статистические и логико-вероятностные методы классификации 1. Линейный дискриминантный анализ (ДА) Ограничения: линейная зависимость переменных и предположение о нормальности распределения входных переменных 2. Логистическая регрессия (ЛР) Нет ограничения на нормальность переменных 3. Многовариантные адаптивные регрессионные сплайны (МARS) — метод нелинейной и непараметрической регрессии Fridman J.H. Multivariate Adaptive Regression Splines // Annals of Statistics. 1991. Vol. 19. No. 1. P. 1–141. Нет ограничения линейной зависимости переменных, хорошо работают для малых выборок 4. Деревья решений Деревья решений являются методом рекурсивного разбиения множества данных на классы. На первом этапе в соответствии с определенным стандартом множество обучающих данных разбивается на подмножества, однородные по уровню риска дефолта. Конструкция процесса принятия решений в дереве имеет три элемента: правила бифуркации, правила остановки и правила определения принадлежности конечного узла данному классу. Правила бифуркации определяют разбиение на новые подмножества. Правила остановки определяют, является данное подмножество конечным узлом или нет. Процесс разбиения продолжается, пока для новых подмножеств не выполнятся условия конечного узла дерева. Модели деревьев решений С 4.5 и CART наиболее часто используются для построения моделей кредитного скоринга. 5. Байесовские модели. Наивный байесовский классификатор. 7 Наивный байесовский классификатор является наиболее часто используемой байесовской моделью. Наивный байесовский классификатор предполагает, что характеристики, описывающие элементы выборки, условно независимы при заданном классе классификации. Методы искусственного интеллекта (ИИ) 1. Нейросети Преимущества NN заключаются в сильной способности обучаться без предположений о виде зависимости переменных. В то же время NN представляют собой систему типа «черный ящик»; получение в явном виде знаний относительно представляемой NN системы затруднено. Другой недостаток NN — сложность процесса создания и оптимизации топологии нейросети. Также NN требуют большого числа обучающих примеров и значительных временных затрат на проведение обучения. При этом они позволяют получить большую точность в сравнении с ЛДА и ЛР 2.Генетические алгоритмы (GA) и генетическое программирование (GP) 8 где n1, n2 — число неверных классификаций типа 1 (когда отклоняется «хороший» клиент) и типа 2 (когда одобряется «плохой» клиент); m1, m2 — соответственно число «хороших» и «плохих» клиентов в обучающей выборке; n1 / m1, n2 / m2 — ошибки классификации первого и второго типа. Так как ошибка второго типа приводит к потерям, вводится константа к для ее контроля (к — произвольное целое число, большее 1). М является масштабным коэффициентом, чтобы сделать изменения функции качества значимыми. Методы искусственного интеллекта (ИИ)_2 3. Метод опорных векторов (SVM) В сравнении с другими методами SVM хорошо работает для малых выборок и не зависит от распределения входных данных. Кроме того, SVM основан на принципе минимизации структурного риска, когда оптимизируются ошибка прогноза и структурная сложность системы и имеются теоретические результаты, что SVM обеспечивает устойчивость результатов. 9 Классификация методов и моделей GA(GP) Rough set 10 Параллельное соединение моделей 11 Пример гибридной системы с параллельным соединением FCM Ghodselahi A., Amirmadhi A. Application of Artificial Intelligence Techniques for Credit Risk Evaluation // International Journal of Modeling and Optimization. August 2011. Vol. 1. No. 3. P. 243–249. 12 Нечеткая кластеризация Нечеткая кластеризация представляет собой алгоритм кластеризации данных, где принадлежность данных заданному кластеру не является «жесткой» («ДА» или «НЕТ»), а нечеткой в смысле нечеткой (fuzzy) логики. На первом этапе используется FCM алгоритм (fuzzy C-Means=нечеткий алгоритм Ссредних), в целях препроцессинговой подготовки кластеров однородных наблюдений для скоринговых классификаторов, составляющих гибридную скоринговую модель., что повышает точность классификации отдельных моделей, составляющих гибридную модель. CM алгоритм кластеризации основан на минимизации следующей целевой функции где m - произвольное действительное число большее 1, uij есть степень принадлежности xi кластеру j, xi есть i-й элемент выборки данных, cj есть центр j-го кластера и ||..||- произвольная норма, выражающая близость данных выборки к центру кластера. 13 . Показатели качества 14 Результаты оценки точности 15 Пример последовательного соединения моделей Кластер изация Предпро цессинг (Общая точность) 16 Hamadani A.Z., Shalbafzadeh A., Rezvan T., Moghadam A.S. An Integrated Genetic-Based Model of Naive Bayes Networks for Credit Scoring // International Journal of Artificial Intelligence & Applications (IJAIA). January 2013. Vol. 4. No. 1.P. 85–103. ВЫВОДЫ Выводы Применение комбинированных моделей кредитного скоринга со сложной внутренней архитектурой, в которой методы и подходы искусственного интеллекта используются вместе с процедурами согласования результатов оценки кредитного риска по ансамблям моделей, позволяет улучшить качество кредитных портфелей банка, формируемых в автоматизированных прикладных программных системах, за счет снижения модельного риска (погрешность, определяемая используемой моделью классификации) при сокращении доли субъективных решений. В то же время не существует универсальных комбинированных моделей, решающих любые задачи оценки кредитного риска. Выбор наиболее эффективных комбинированных моделей во многом зависит от свойств той популяции, для которой они создаются, и представляет собой нетривиальную задачу методического обеспечения кредитного скоринг. 17 Спасибо за внимание! Козлов Дмитрий Николаевич Лёвин Владимир Владимирович [email protected] +7(495)9370737 вн. 2970 [email protected] 8-916-126-8459 [email protected] +7(495)9370737 вн. 2641 18