Методе локтя» (Elbow method) [12]. - LMS

advertisement
Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Национальный исследовательский университет
«Высшая школа экономики»
Факультет компьютерных наук
Основная образовательная программа
Прикладная математика и информатика
Кафедра «Математические методы системного анализа» Института
системного анализа РАН
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА БАКАЛАВРА
на тему
Применение кластерного анализа для анализа
кредитной привлекательности отраслей российской
экономики
Выполнил студент группы 402ПМ
Петров Никита Алексеевич
Научный руководитель:
к. т. н., Булычев Александр Викторович
Москва 2015
2
Оглавление
Введение ................................................................................................................... 3
1. Обоснование методов исследования ................................................................ 4
2. Структура исходных данных ............................................................................ 6
3. Процедуры предобработки и фильтрации исходных данных ....................... 8
4. Структурно-классификационный анализ исходного множества объектов 12
4.1. Задача кластеризации............................................................................... 12
4.2. Подходы к кластерному анализу ............................................................ 13
4.2.1. Алгоритм k-средних ...................................................................... 14
4.2.2. Алгоритм k-медиан ....................................................................... 17
4.3. Приятие решений в кластерном анализе ................................................. 22
4.3.1. Число кластеров ............................................................................ 22
4.3.2. Сравнительная характеристика используемых методов
кластерного анализа ..................................................................... 27
4.3.3. Интерпретация кластерной структуры ....................................... 28
5. Анализ полученных результатов и основные выводы ................................. 37
Заключение ............................................................................................................ 41
Источники .............................................................................................................. 42
Приложения ........................................................................................................... 43
3
Введение
Вопрос о регулировании рисков кредитных операций, доходность от
которых занимает значительную часть в структуре банковской прибыли,
является предметом обсуждения и породил множество эмпирических
исследований в этой области. Несмотря на негативные тенденции
уменьшения объемов банковского кредитования, которые наблюдаются в
экономике Российской Федерации в связи с финансовым кризисом,
начавшимся в конце 2014 г., процесс оптимизации кредитных рисков
остается принципиальным, поскольку современное состояние кредитования
характеризуется снижением качества кредитных обязательств.
Вместе с этим существует необходимость совершенствования
методики оценки кредитной привлекательности корпоративных клиентов
коммерческого банка с учетом отраслевой специфики. В настоящем
исследовании данная проблема рассматривается, как комплексная
прикладная задача кластерного анализа отраслей экономики России, решение
которой является основной целью работы и включает процедуры
предобработки массива сложно организованных данных и использование
методов принятия решений для адекватной интерпретации кластеров.
Теоретическая часть содержит обоснование актуальности исследования
инструмента определения приоритетных групп отраслей, а также более
подробное описание темы работы – развития многоаспектной методики
оценивания привлекательности предприятия для кредитования в отношении
его отраслевой классификации. Это логически приводит к более общему
виду модели – кластерной модели структурированной системы крупных
экономических отраслей. Для исследования используются наблюдения для
периода 2005–2013 гг., но анализ проводится на данных только за 2013 г.
4
1.
Обоснование методов исследования
Отраслевые особенности развития предприятия в экономике
Российской Федерации основываются на экономических, структурных и
прочих особенностях конкретной отрасли, порождают различия в
производственных и инвестиционных условиях. Негативным фактором при
этом является неопределенность, информационная непрозрачность и
сложность в оценке финансово экономического состояния предприятия в
определенной отрасли.
Одним из самых популярных инструментов оценок финансовой
стабильности, экономического состояния, привлекательности отрасли для
инвестирования или кредитования, являются рейтинги, которые
присваиваются выбранным отраслям экономики Российской Федерации, как
в статье [4]. Показатели рейтинга в компактной и емкой форме
характеризуют состояние и перспективные тенденции изменения
деятельности отрасли, играя роль индикаторов для принятия решений,
установления и поддержания деловых отношений.
При расчете отраслевого экономического индикатора
привлекательности отраслей экономики для кредитования используется
только количественный анализ, т. к. ретроспективное выставление оценок
привлекательности отраслей в рамках качественного анализа не является
возможным.
Данные методики имеют ряд недочетов и недостатков. Во-первых,
очень часто используется примитивное ранжирование по исследуемым
показателям. Во-вторых, отсутствует предварительный статистический
анализ исследуемых показателей. Рейтинги, присвоенные по таким
методикам, безусловно, способны определить лидеров и аутсайдеров, но не
могут дать весьма общую картину состояния отрасли и не способны
адекватно определить состояние предприятия в отдельно взятой отрасли.
5
Чтобы провести комплексный анализ, который будет учитывать
многомерные статистические данные, необходимо применять методы
кластерного анализа данных, которые позволят выделить исследуемую
выборку по группам (кластерам).
В связи с этим создание собственной адекватной оценочной системы
отраслей по уровню их финансово-экономического состояния является
актуальной задачей. Для ее решения целесообразно применять методы
многомерного статистического анализа.
6
2.
Структура исходных данных
В качестве источника исходных данных использовалась центральная
база «Первого Независимого Рейтингового Агентства»1. Данные о
функционирующей системе отраслей экономики представляют собой
таблицу значений некоторых параметров, характеризующих состояние
объектов. Данные о системе фиксируются многократно для периода 2005–
2013 гг.
В настоящем исследовании объектами системы являются следующие
20 крупных отраслей экономики Российской Федерации: атомная отрасль,
добыча газа, драгоценные металлы, инвестиции в недвижимость, лесная
промышленность, машиностроение, медиабизнес, металлургия, нефтяная
отрасль, оборонно-промышленный комплекс и Роскосмос, пищевая и
аграрно-промышленный комплекс, прочая промышленность, связь,
строительство, торговля, транспорт, угольная индустрия, химическая и
нефтехимическая промышленность, энергетика, сфера услуг.
Под вышеупомянутым термином «состояние отрасли» подразумевается
категория, отражающая финансово-экономическое состояние отрасли,
характеризуемое, на фиксированный момент времени, значениями основных
экономических показателей: физический объем выручки; объем инвестиций;
объем заказов; коэффициент рентабельности отрасли, равный отношению
прибыли к сумме полученной выручки [1]. Все величины, за исключением
уровня рентабельности, измеряемого в процентах, выражены в тыс. рублей.
Выбор низкого числа факторов продиктован опытом исследования
кластерного анализа данных [2], который показывает, что при небольшом
количестве исследуемых объектов использование относительно большого
числа исходных параметров приводит к сильному «перемешиванию»
классов, которые при этом плохо интерпретируются.
1
http://www.fira.ru/
7
Нужно иметь ввиду, что здесь приведена модель отраслевой экономики
России. В идеале, подбору объектов и параметров системы необходимо
уделить особое внимание. Поскольку несколько разных крупных отраслей
могут включать одну или более общих подотраслей, а количество факторов
кардинально влияет на итоговый результат исследования.
8
3.
Процедуры предобработки и фильтрации исходных
данных
Предварительная обработка данных является важным этапом
исследования, от которого зависит возможность получения качественных
результатов всего процесса кластеризации. Он включает статистический
анализ и выявление грубых ошибок в данных, т. е. значений параметров,
сильно отличающихся от средних значений («выбросы»).
В настоящем исследовании периодические экономические данные,
выраженные в денежных единицах, необходимо привести к одному моменту
времени, согласно теории временной стоимости денег – концепции, на
которой основано предположение о том, что текущая стоимость денег выше,
чем стоимость той же суммы, полученной в будущем. Этот процесс
называется дисконтированием денежных величин, а год, к которому
приводятся расчетные показатели последующих лет, называется базовым
годом.
Наиболее популярным методом дисконтирования является
корректировка денежных величин по ставке дисконтирования,
характеризующей скорость изменения стоимости денег во времени.
Несмотря на широкое использование данного метода, у него есть
существенный недостаток – результаты расчетов по оценке реальных
значений экономических показателей чувствительны к выбранному
значению ставки дисконтирования. В настоящий момент существует
проблематика обоснования величины ставки дисконтирования. Помимо
этого, в данном исследовании моделирование динамики экономических
показателей рассматриваемой структуры отраслей экономики РФ с помощью
ставки дисконтирования невозможно в силу недостаточности данных по
иным показателям необходимым для ее вычисления.
Поэтому фактические значения показателей отдельной отрасли
целесообразно вычислять по формулам:
9
𝑅𝑡 =
𝑟𝑡
;
𝑟𝑡−1
𝑖𝑡
;
𝑟𝑡
𝑜𝑡
𝑂𝑡 = ,
𝑟𝑡
𝐼𝑡 =
где 𝑡 – текущий год; 𝑅𝑡 – динамика выручки, равная отношению выручки 𝑟𝑡
от продажи товаров, работ и услуг за текущий год к выручке 𝑟𝑡−1 за
предыдущий год; 𝐼𝑡 и 𝑂𝑡 – объем инвестиций 𝑖𝑡 и объем заказов 𝑜𝑡 ,
нормированные по объему выручки 𝑟𝑡 2.
В связи с неполнотой наблюдений на период до 2005 г., динамика
выручки для 2005 г. отсутствует, и дальнейшее исследование проводиться на
данных за период 2006–2013 гг.
Показатели факторов представляют собой случайные величины,
функция распределения которых, также, как и линейная вероятностная
модель бинарного выбора, может прогнозировать значения вне единичного
интервала. Использование коэффициентов линейной регрессии обычно дает
бессмысленные результаты для экстремальных значений регрессоров [5].
Одним из способов устранения «выбросов» является использование
логит-трансформации. Формула логит-преобразования:
𝐿𝑜𝑔𝑖𝑡(𝑥) =
1
1 + 𝑒 𝑆𝑙𝑜𝑝𝑒∙(𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡−𝑥)
,
где 𝑥 – случайная величина, 𝐿𝑜𝑔𝑖𝑡(𝑥) – трансформированная. Согласно
данной формуле:
𝑒 𝑆𝑙𝑜𝑝𝑒∙(𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡−𝑥) =
1
− 1;
𝐿𝑜𝑔𝑖𝑡(𝑥)
𝑆𝑙𝑜𝑝𝑒 ∙ (𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡 − 𝑥) = ln (
2
1
− 1) ;
𝐿𝑜𝑔𝑖𝑡(𝑥)
Далее в работе под инвестициями и объемом заказов подразумеваются их нормированные значения.
10
1
− 1)
𝐿𝑜𝑔𝑖𝑡(𝑥)
𝑆𝑙𝑜𝑝𝑒 =
.
(𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡 − 𝑥)
ln (
Пусть 𝑥 = 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑙𝑒(𝐹(𝑥)) = 𝐿𝑜𝑤𝑒𝑟, т. е. нижняя 5 %-я перцентиль
𝑥, где 𝐹(𝑥) – функция распределения случайной величины 𝑥. Тогда следует
что:
1
ln (
− 1)
ln(19)
0,05
𝑆𝑙𝑜𝑝𝑒 =
=
.
(𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡 − 𝐿𝑜𝑤𝑒𝑟0,05 ) 𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡 − 𝐿𝑜𝑤𝑒𝑟0,05
Здесь 𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡 – среднее значение верхней и нижней 5 %-х
перцентилей. Значит:
𝑈𝑝𝑝𝑒𝑟0,05 + 𝐿𝑜𝑤𝑒𝑟0,05
;
2
𝑈𝑝𝑝𝑒𝑟0,05 + 𝐿𝑜𝑤𝑒𝑟0,05
𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡 − 𝐿𝑜𝑤𝑒𝑟0.05 =
− 𝐿𝑜𝑤𝑒𝑟0.05
2
𝑈𝑝𝑝𝑒𝑟0,05 − 𝐿𝑜𝑤𝑒𝑟0,05
=
.
2
𝑀𝑖𝑑𝑝𝑜𝑖𝑛𝑡 =
Однако в большинстве случаев, если необходимо устранить
«выбросы», применяют логарифмическое преобразование массива исходных
данных. Ниже изображены функции эмпирической плотности для значений
параметров после применения вышеуказанных инструментов статистической
предобработки.
11
Рисунок 1. ФЭП для параметров
Здесь к значениям для динамики выручки преобразования не
применялись, для инвестиций и объема заказов – логарифмирование, для
рентабельности – логит-преобразование.
Из рис. 1 видно, что совокупности рассматриваемых отраслей,
сформированные по разным экономическим показателям за период 2006–
2013 гг. имеют приблизительно колоколообразные распределения.
Следовательно, можно создать кластерную структуру, концентрация
объектов которой максимальна около некоторых центров кластеров.
12
4.
Структурно-классификационный анализ исходного
множества объектов
4.1. Задача кластеризации
Кластеризация – это разбиение исходного множества объектов на
группы по схожим признакам. Интеллектуальный метод кластерного анализа
нашел широкое применение в решении разнообразных задач обработки
данных [6], в том числе при распознавании образов, машинном обучении,
автоматической классификации, поддержке методов принятия решений,
выработке стратегий управления и т. д.
Поскольку для данных разных объемов и различной природы
эффективен определенный алгоритм кластеризации из большого числа
существующих, то до сих пор не было найдено какого-либо универсального
алгоритма, который был бы оптимален для всех видов исходных данных [3].
Наиболее популярными являются итеративные методы кластеризации,
базирующиеся на априорном звании количества кластеров и некотором
выборе первоначального разбиения. При этом результат их применения
существенно зависит от правильности оценки количества кластеров [3].
В задаче группировки отраслей экономики согласно их кредитной
привлекательности существенным аргументом при выборе метода
кластерного анализа применимого является его устойчивость, показывающая
насколько сильно отличаются конечные разбиения множества одних и тех же
объектов после многократного построения кластерной структуры данных [6].
Особенности конкретной прикладной задачи определяют цели
кластерного анализа исходного множества элементов:
1. Разбиение системы данных на группы схожих объектов для
упрощения дальнейшей обработки данных в каждом кластере в отдельности.
2. Сокращение объема хранимых данных, оставив по одному наиболее
типичному представителю от каждого кластера.
13
3. Выделение «спорных» объектов, не подходящих ни к одному из
кластеров.
4.2. Подходы к кластерному анализу
На данный момент число методов кластерного анализа составляет
несколько десятков алгоритмов и множество модификаций [3; 6]. Методы
кластеризации разделяют на неиерархические – каждому элементу
соответствует единственная группа, и, соответственно, иерархические –
каждая крупная группа состоит из более мелких. Классические
иерархические алгоритмы основаны на агломеративных (объединительных)
методах построения иерархий, когда строиться полное дерево вложенных
кластеров с помощью последовательное объединение исходных групп
объектов и соответствующее последовательное уменьшение числа кластеров.
В том числе – существуют дивизимные (разделительные) методы,
образующие последовательность расщепляющих групп. При этом изначально
делается предположение, что в системе существует только один кластер.
Достоинствами иерархических алгоритмов является сравнительно высокое
качество кластеризации и наглядность процесса, однако иерархические
алгоритмы используются при небольших объемах исходных данных.
Неиерархические алгоритмы используют некоторую целевую
функцию, которая определяет оптимальное разбиение исходного множества
объектов на кластеры. Целевой функцией алгоритмов семейства k-средних (kmeans), наиболее часто употребляемых в группе неиерархических методов,
является сумма квадратов, взвешенных отклонений координат элементов от
центров искомых кластеров. Форма искомых кластеров – сферическая, либо
эллипсоидная.
Поскольку не существует однозначно наилучшего критерия качества
кластерной структуры данных, оптимальное число кластеров, как правил
правило, заранее неизвестно и устанавливается согласно некоторому
субъективному критерию, а результат кластеризации во многих алгоритмах
14
значительно зависит от используемой метрики, принимаемой на основании
субъективной экспертной оценки, то решение задачи кластеризации
принципиально неоднозначно. От сюда следует, что единый универсальный
алгоритм кластеризации не существует, как было упомянуто ранее. Поэтому
любой алгоритм кластерного анализа имеет достоинства и недостатки,
которые необходимо учитывать при его использовании, принимая во
внимание, при этом, природу данных, с которыми он лучше работает, а также
его способность к масштабируемости.
4.2.1. Алгоритм k-средних
Остановимся на алгоритме кластеризации k-средних применимом к
решению задачи оценки кредитной привлекательности отраслей, поскольку
он прост и быстр в использовании, прозрачен и понятен. Метод k-средних –
это разбиение с центроидами – объектами, являющимися «представителями»
кластера с усредненными характеристиками, – дополненное принципом
минимального расстояния. Этот метод всегда будет представлена
выпуклыми, а значит и хорошо интерпретируемыми кластерами [6].
Для проведения кластерного анализа были использованы данные для
выбранных показателей видов экономической деятельности по состоянию на
2013 г., прошедшие процедуру предобработки. Данные представлены в табл.
1.
Таблица 1. Экономические показатели отраслей, 2013 г.
Отрасли
Динамика выручки
Инвестиции
Объем заказов
Рентабельность
Атомная
1,15
−0,39
−1,34
0,25
Газовая
1,09
−2,91
−3,41
0,59
Драгоценные металлы
1,71
−4,51
−4,78
0,30
Инвестиции в недвижимость
1,14
−2,06
−10,05
0,37
Лесная
1,02
−2,24
−0,93
0,55
Машиностроение
1,03
−3,15
−1,98
0,51
Медиабизнес
1,23
−3,12
−4,40
0,62
Металлургия
0,96
−2,90
−2,23
0,10
Нефтяная
1,14
−2,05
−3,14
0,70
ОПК и Роскосмос
1,15
−2,80
0,97
0,40
Пищевая и АПК
1,07
−3,81
−5,71
0,47
15
Прочая промышленность
1,06
−2,55
−2,09
0,64
Связь
1,03
−1,91
−5,82
0,83
Строительство
1,02
−1,97
−2,58
0,35
Сфера услуг
1,19
−1,37
−2,15
0,59
Торговля
1,10
−4,25
−7,26
0,36
Транспорт
1,06
−1,92
−5,35
0,38
Угольная
1,00
−1,87
−2,69
0,75
1,02
−2,35
−1,84
0,82
1,08
−1,76
−3,09
0,66
Химическая и
нефтехимическая
промышленность
Энергетика
Кластер – это часть данных (в типичном случае – подмножество
объектов или подмножество переменных, или подмножество объектов,
характеризуемых подмножеством переменных), которая выделяется из
остальной части наличием некоторой однородности ее элементов. В
простейшем случае речь идет о похожести элементов, в идеальном случае – о
совпадающих значениях основных переменных или иного рода близости,
выражаемой геометрической близостью соответствующих объектов.
Разбиение – совокупность непустых непересекающихся классов – одна
из самых популярных кластерных структур, особенно часто применяемая при
анализе данных о сходстве между объектами.
Данные имеют количественный формат и разные факторы
несоизмеримы. Для приведения факторов к соизмеримому виду используется
стандартизация путем изменения точки отсчета и перемасштабирования по
формуле:
𝑦𝑚𝑛 =
(𝑥𝑚𝑛 − 𝑎𝑛 )
.
𝑏𝑛
где 𝑋 = (𝑥𝑚𝑛 ) обозначает исходную матрицу данных; 𝑌 = (𝑦𝑚𝑛 ) –
стандартизированную; 𝑚 ∈ 𝑀 – объекты; 𝑛 ∈ 𝑁 – признаки. Признаки – это
принадлежность тому или иному фактору. Параметр 𝑎𝑛 сдвигает точки
отсчета, а 𝑏𝑛 – новый масштаб для каждого признака.
16
В результате преобразования нулевая точка 0 = (0 , … , 0) приобретает
уникальное значение, поскольку любое линейное преобразование 𝐴𝑌
геометрически выражает косоугольное вращение осей с изменением их
масштабов, оставляющее точку отсчета 0 инвариантной. Поэтому для
кластерного анализа, начало координат лучше всего помещать в районе
центра множества точек, представляющих объекты. Обычно для этой цели
используется среднее значение.
Масштабирующие коэффициенты 𝑏𝑛 , следует выбирать исходя из идеи
выравнивания относительных весов признаков, используя стандартное
отклонение, переводящее все признаки к «единому» масштабу единичного
стандартного отклонения.
Переходя к математической формулировке, рассмотрим матрицу 𝑌 =
(𝑦𝑚𝑛 ). Кластерная структура метода k-средних задается разбиением 𝑆
множества объектов на 𝐾 непересекающихся кластеров, 𝑆 = {𝑆1 , … , 𝑆𝑘 },
представляемых таким образом через кластеры 𝑆𝑘 , и центроиды 𝑐𝑘 =
(𝑐𝑘1 , … , 𝑐𝑘𝑁 ), 𝑘 = 1, 2, … , 𝐾. Тогда минимизируемым критерием метода
является сумма расстояний 𝑑(𝑦𝑚 , 𝑐𝑘 ) от объектов 𝑦𝑚 до соответствующих
центроидов 𝑐𝑘 :
𝐾
𝑊(𝑆, 𝑐) = ∑ ∑ 𝑑(𝑦𝑚 , 𝑐𝑘 ).
𝑘=1 𝑚∈𝑆𝑘
В качестве 𝑑(𝑦𝑚 , 𝑐𝑘 ) взят квадрат расстояния Евклида (Euclidian
distance) [9], которое определяется как:
𝑑(𝑦𝑚 , 𝑐𝑘 ) = √ ∑(𝑦𝑚𝑛 − 𝑐𝑘𝑛 )2 = √(𝑦𝑚 − 𝑐𝑘 )𝑇 (𝑦𝑚 − 𝑐𝑘 ).
𝑛∈𝑁
Каждый объект, представленный строкой 𝑦𝑚 = (𝑦𝑚1 , … , 𝑦𝑚𝑁 ) матрицы
𝑌, равен, с точностью до небольших погрешностей, центроиде
соответствующего кластера с𝑘 :
17
𝑦𝑚𝑛 = 𝑐𝑘𝑛 + 𝑒𝑚𝑛
для всех 𝑚 ∈ 𝑆𝑘 и всех 𝑛 = 1, 2, … , 𝑁. Сумма квадратов погрешностей этой
модели, очевидно, равна:
𝐾
2
𝐿2 = ∑ ∑ 𝑒𝑚𝑛
= ∑ ∑ ∑(𝑦𝑚𝑛 − 𝑐𝑘𝑛 )2 ,
𝑚∈𝑀 𝑛∈𝑁
𝑘=1 𝑚∈𝑆𝑘 𝑛∈𝑁
что, в свою очередь, совпадает с выражением для критерия 𝑊(𝑆, 𝑐).
Формализованный алгоритм состоит из четырех шагов:
1. Случайно выбрать 𝑘 точек, являющихся начальными центроидами
кластеров (любые 𝑘 из 𝑛 объектов, или вообще 𝑘 случайных точек).
2. Отнести каждый объект к кластеру с ближайшей центроидой.
3. Пересчитать центроиды кластеров согласно текущему членству.
4. Если критерий остановки алгоритма не удовлетворен, вернуться к
шагу 2.
Критериями остановки выполнения алгоритма являются следующие
условия:
1. Отсутствие перехода объектов из кластера в кластер на шаге 2.
2. Минимальное изменение среднеквадратической ошибки.
В настоящем исследовании используется первый критерий.
4.2.2. Алгоритм k-медиан
Поскольку начальные позиции центроид выбираются произвольным
образом, то алгоритм k-средних чувствителен к начальному выбору «центров
масс». Поэтому к решению поставленной задачи целесообразней
использовать его модификацию – алгоритм k-медиан (k-medoids), который
использует в качестве центроид кластеров соответствующие им медианы,
менее подверженные влиянию «выбросов» [6]. Также алгоритм k-медиан,
известен как алгоритм PAM (Partitioning Around Medoids).
В данной работе метод PAM используется с применением расстояния
Махаланобиса (Mahalanobis distance) [9] как расстояния 𝑑(𝑦𝑚 , 𝑐𝑘 ). Оно
18
отличается от расстояния Евклида, тем что учитывает корреляции между
переменными и независимо к масштабу.
Формально, расстоянием Махаланобиса между двумя точками 𝑦𝑚 и 𝑐𝑘
называется функция вида:
𝑑(𝑦𝑚 , 𝑐𝑘 ) = √(𝑦𝑚 − 𝑐𝑘 )𝑇 𝐷−1 (𝑦𝑚 − 𝑐𝑘 ).
Здесь 𝐷 – матрица ковариации для 𝑀𝑘 (𝑀𝑘 – число объектов в кластере
𝑆𝑘 ) точек определяется как:
𝐷=
1
𝐴𝑇 𝐴,
𝑀𝑘 − 1
где
(𝑦11 , … , 𝑦1𝑁 )𝑇 − (𝑐𝑘1 , … , 𝑐𝑘𝑁 )𝑇
(𝑦21 , … , 𝑦2𝑁 )𝑇 − (𝑐𝑘1 , … , 𝑐𝑘𝑁 )𝑇
𝐴=
.
⋯
𝑇
𝑇
((𝑦𝑀𝑘1 , … , 𝑦𝑀𝑘𝑁 ) − (𝑐𝑘1 , … , 𝑐𝑘𝑁 ) )
Если матрица ковариации является единичной, то расстояние
Махаланобиса становится равным расстоянию Евклида.
Расстояние Махаланобиса имеет преимущество в использовании перед
расстоянием Евклида. Этот тезис подтверждается следующим примером.
Если нужно определить вероятность принадлежности некоторой точки
в N-мерном пространстве Евклида множеству, заданному набором точек,
однозначно принадлежащих данному множеству, то интуитивно понятно, что
чем ближе данная точка к центру масс этого множества, тем больше
вероятность ее принадлежности множеству.
Однако, необходимо учитывать размер области рассредоточения точек
множества, чтобы определить на сколько значимо расстояния от заданной
точки до центра масс. Если среднеквадратическое отклонение точек
множества больше расстояния между заданной точкой и центром масс, то,
следует, что вероятность того, что точка принадлежит множеству, высока.
19
Такой подход имеет недостаток – используется предположение, что
точки заданного множества равномерно распределены вокруг центра масс по
всем измерениям, т. е. сферически. В случае явно несферического
распределения, то логично учитывать, помимо расстояния до центра масс,
направление на него. Например, если распределение имеет эллипсоидальную
форму, то в направлении короткой оси эллипсоида заданная очка должна
быть ближе к центру масс, чтобы принадлежать множеству, а в направлении
длинной оси – дальше.
В математическом виде эллипсоид, представляющий вероятностное
распределение множества, задан ковариационной матрицей точек, задающих
множество. Таким образом, расстояние Махаланобиса – это расстояние
между данной точкой и центром масс, деленное на ширину эллипсоида в
направлении этой точки. Следовательно, в результате использования
расстояния Махаланобиса, кластерная структура имеет эллипсоидальную
форму.
Ниже представлены двумерные графики, визуализирующие алгоритмы
кластеризации k-средних и k-медиан для комбинации следующих факторов:
инвестиции и объем заказов. Поскольку данная структура данных состоит из
небольшого количества объектов, для демонстрации формы кластеров,
интуитивно выбранное число кластеров равно двум. Для каждого алгоритма
графики построены для 2013 г. Цветом отмечены полученные кластеры,
черными перекрестиями – центры масс. Алгоритмы кластеризации k-средних
и k-медиан многомерных стандартизованных данных реализованы с
помощью пакета Statistics Toolbox высокоуровнего языка MATLAB версии
R2014b. Алгоритм k-средних:
20
Рисунок 2. Инвестиции - объем заказов, 2013 г. Алгоритм k-средних
Алгоритм k-медиан:
Рисунок 3. Инвестиции - объем заказов, 2013 г. Алгоритм k-медиан
Изображенные графики показали, что метод k-медиан имеет кластеры
эллипсоидной или сферической формы, а метод k-средних – сферические
кластеры. Следовательно, метод k-медиан менее подвержен влиянию
«выбросов».
Ниже представлены трехмерные графики, визуализирующие
алгоритмы кластеризации k-средних и k-медиан для комбинаций следующих
факторов: инвестиции, объем заказов и рентабельность. Оптимальное число
кластеров равно двум. Алгоритм k-средних:
21
Рисунок 4. Инвестиции - объем заказов - рентабельность, 2013 г. Алгоритм k-средних
Алгоритм k-медиан:
Рисунок 5. Инвестиции - объем заказов - рентабельность, 2013 г. Алгоритм k-медиан
Аналогично случаю для двумерного пространства изображенные
графики продемонстрировали, что метод k-медиан имеет кластеры
эллипсоидной формы, а метод k-средних – сферической. «Выбросом» для
данной модели является металлургическая промышленность, которая на рис.
4 относиться к множеству обозначенному желтым цветом, хотя он удален от
остальных объектов этого множества сильнее, чем от соответствующего
22
центроида; на рис. 5 – кластеру, обозначенному фиолетовым цветом, это
подтверждает устойчивость метода k-медиан к наличию «выбросов».
4.3. Приятие решений в кластерном анализе
В методе кластерного анализа нет явно формализуемого критерия
принятия решений – все формализации интуитивны, субъективны, и не
привязаны к построению моделей. Поэтому вопросы принятия наиболее
фундаментальных решений остаются нерешенными. Это следующие
проблемы [6]:
1. Выбор меры близости между объектами (см. 4.2).
2. Выбор кластерной структуры.
3. Выбор оптимального числа кластеров.
4. Валидация полученных результатов.
5. Интерпретация кластерной структуры.
В большинстве случаев выбор решений очевиден и следует из
структуры данных. Однако исследуемая модель данных является
четырехмерной, поэтому в этом случае нет интуитивного решения.
Далее, следуют основные этапы принятия решений в кластерном
анализе для задачи классификации отраслей экономики России для
кредитования.
4.3.1. Число кластеров
В настоящее время проблеме выбора числа кластеров посвящены
несколько десятков рациональных предположений. Из них остановимся на
«Методе локтя» (Elbow method) [12].
Кластеризация методами проводиться k-средних и k-медиан с
использованием «Метода локтя» для определения оптимального числа
кластеров, который заключается в том, что для каждого натурального числа k
из некоторого диапазона строится значение целевой функции 𝐽(𝑅), равной
23
сумме внутрикластерных расстояний. Количество кластеров определяется
как значение k начиная с которого величина 𝐽(𝑅) падает не так резко.
«Метод локтя» для алгоритмов кластеризации k-средних и k-медиан
многомерных стандартизованных данных реализован с помощью
высокоуровнего языка MATLAB версии R2014b.
Ниже приведены графики целевой функции для алгоритма k-средних.
Рисунок 6. "Метод локтя" для алгоритма k-средних, 2013 г.
24
На рис. 2 невозможно точно определить точку перегиба. «Метод локтя»
наглядно демонстрирует основной недостаток алгоритма k-средних –
неустойчивость кластерной структуры итеративным построениям.
Теперь – графики целевой функции для алгоритма k-медиан.
Рисунок 7. "Метод локтя" для алгоритма k-медиан, 2013 г.
Как видно из приведенных выше графиков, графики целевой функции
𝐽(𝑅) практически идентичны на каждой итерации и монотонно убывают.
Явных точек перегиба нет, поэтому трудно определить оптимальное число
кластеров. Поэтому необходимо использовать другой метод. В данном
случае исследование воспользуемся методом отыскания силуэтного
коэффициента (Silhouette coefficient) [6; 12], который определяется
следующим образом. Для каждого объекта 𝑖 заданной структуры данных
вычисляют: 𝑎𝑖 – среднее внутрикластерное расстояние; 𝑏𝑖 – минимальное
среднее межкластерное расстояние; силуэтный коэффициент 𝑆𝐶𝑖 по
соответствующей формуле:
25
𝑆𝐶𝑖 =
𝑏𝑖 − 𝑎𝑖
.
𝑚𝑎𝑥{𝑎𝑖 , 𝑏𝑖 }
Следовательно, −1 ≤ 𝑆𝐶𝑖 ≤ 1, и чем больше значение этого индекса,
тем лучше.
Для определения качества кластеризации используется средняя
силуэтная ширина, которая равна среднему значению силуэтных
коэффициентов для всех 𝑖.
Помимо оптимизации числа кластеров, средняя ширина силуэта
используется для определения качества валидации. Валидация кластеров –
это проверка их обоснованности. Средняя ширина силуэта относится к
индексам внутренней валидации, т. е. она индицирует насколько кластеры
соответствуют данным, упитывавшимся при их построении.
Метод оптимизации числа кластеров заключается в том, что для
каждого натурального числа k из некоторого диапазона строится значение
целевой функции 𝑆, равной средней силуэтной ширине. Количество
кластеров определяется как значение k для которого вогнутая функция 𝑆
принимает максимальное значение. Алгоритм нахождения средней ширины
силуэтов для методов кластеризации k-средних и k-медиан многомерных
стандартизованных данных реализован с помощью высокоуровнего языка
MATLAB версии R2014b.
Ниже приведены графики целевой функции для алгоритма k-средних.
26
Рисунок 8. График средней кластерной ширины для метода k-средних, 2013 г.
Графики целевой функции для алгоритма k-медиан.
Рисунок 9. График средней кластерной ширины для метода k-медиан, 2013 г.
Как видно из графиков на рис. 8, целевая функция для метода
кластеризации k-средних на каждом итеративном построении изменяет свою
форму, поэтому оптимальное число кластеров определяется интуитивным
образом. Целевая функция на рис. 9 итеративно более устойчивая, в
частности, на интервале [2; 3], при этом максимальное значение на этом
промежутке она принимает для числа кластеров равном трем.
27
Соответственно, три – искомое число кластеров. Это обусловлено тем, что
помимо нахождения оптимального количества кластеров, нужно достичь
консенсуса. Агрегирование множества построенных кластерных структур в
единую результирующую кластерную структуру (Output cluster structure),
наилучшим образом их представляющую – это кластерный консенсус [6].
Согласно рис. 9, на трех графиках из четырех построенных – оптимум
достигается при четырех кластерах, на одном графике – при трех кластерах.
Одновременно с этим значение в точке 𝑘 = 3 не меняется при повторном
построении. Следовательно, лучшее число кластеров для метода k-медиан
равно трем, и кластерный консенсус достигается в точке 𝑘 = 3. Необходимо
отметить что во всех случаях построения алгоритма k-средних показали
лучшие результаты, чем построения методом k-медиан – худшее значение
оптимальной средней ширины силуэта на рис. 8 превосходит лучший
результат, графически изображенный на рис. 9, примерно на 10 %.
4.3.2. Сравнительная характеристика используемых методов
кластерного анализа
Тестирование методов кластерного анализа k-средних и k-медиан
применимых к исследуемой структуре данных выявило их достоинства и
недостатки, сведенные в сравнительную таблицу (табл. 2).
Таблица 2. Сравнительная характеристика алгоритмов k-средних и k-медиан
Оптимальное число кластеров
Валидация кластерной
структуры
Наличие кластерного
консенсуса
k-средних
Трудноопределимо для
данной структуры данных.
Максимальная средняя
ширина кластеров для
оптимального числа в
конкретном случае кластеров
составляет 0,575.
Консенсус не существует для
данной структуры.
k-медиан
Три кластера, найденные с
помощью построения целевой
функции, представляющей
зависимость средней ширины
кластеров от числа кластеров
для заданного интервала.
Максимальная средняя
ширина кластеров для
оптимального числа в
конкретном случае кластеров
составляет 0,45.
Консенсус существует для
данной структуры.
28
Устойчивость к итеративным
построениям
Устойчивость к наличию
«выбросов»
Алгоритм итеративно не
устойчив
Алгоритм не устойчив к
«выбросам».
Алгоритм итеративно не
устойчив
Алгоритм более устойчив к
«выбросам», чем k-средних.
Несмотря на то, что алгоритм k-средних обладает более высоким
уровнем качества кластеризации, чем алгоритм k-медиан, алгоритм k-медиан
предпочтительнее использовать для кластеризации, поскольку количество
его достоинств превалирует над числом его недостатков в контексте
исследования структуры данных видов экономической деятельности по
состоянию на 2013 г. Соответственно, дальнейшее исследование проводиться
с использованием метода k-медиан.
4.3.3. Интерпретация кластерной структуры
В настоящий момент выделяют четыре уровня интерпретации
кластеров [6]:
1. Центроиды кластеров относительного средних по всей совокупности
данных.
2. Представители кластеров.
3. Вклады пар «кластер-признак» в разброс данных.
4. Концептуальное описание кластеров в терминах признаков,
использованных при их построении.
В табл. 3 приведены результаты кластеризации структуры данных
методом k-средних. Первая строка характеризует центроид по всей
совокупности в стандартизированной шкале, последующие строки –
построенные кластеры, составляющие их объекты, и соответствующие им
центроиды.
Таблица 3. Кластерная структура для метода k-медиан, 2013 г.
Центроид
Кластер 1
29
Кластер 2
Кластер 3
На уровне сравнения центроид кластеров относительно средних по
всей совокупности определяют наиболее значимые параметры структуры
данных. Как видно из табл. 3, Кластер 2 и Кластер 3 находятся на уровне
среднего уровня динамики выручки, отличаясь на 15–22 % по этому
признаку. По остальным параметрам эти кластеры откланяются значительно
в ту или иную сторону. Соответственно, инвестиции и объем заказов,
взвешенные по объему выручки, а также уровень рентабельности выделяют
Кластер 2 и Кластер 3 в структуре данных. Кластер 1 состоит из одного
объекта, отклоняясь от центроида по всей совокупности более чем на 320 %
в лучшем случае. Т. к. все построенные кластеры существенно отличаются от
центроида всей совокупности, то центроиды не характеризуют
соответствующие кластеры.
При использовании алгоритма k-средних центроид состоит из средних
арифметических и как правило не совпадает ни с каким объектом. Поэтому в
качестве представителя кластера вместо центроида выбирают объект,
находящийся ближе всего к центроиду по расстоянию Евклида,
используемому в критерии метода k-средних. Однако в данном исследовании
для конкретного случая используется метод k-медиан, и представителями
30
кластеров являются соответствующие центроиды, которые характеризованы
медианами среди объектов, составляющих кластеры.
Поскольку в данном случае не представляется возможным
охарактеризовать кластеры на уровне сравнения кластерных центроид
относительно общей медианы, но необходимо провести анализ пар «кластерпризнак». Вклад пары «кластер-признак» равен с𝑘𝑣 2 𝑁𝑘 [6], где 𝑘 – кластер; 𝑣
– признак; с𝑘𝑣 – элемент центроида; 𝑁𝑘 – число объектов в кластере. Признак
является более важным, если его внутрикластерное среднее дальше удалено
от общего среднего.
Вклады пар «кластер-признак» для кластерной структуры
экономических показателей отраслей экономики России представлены в
табл. 4.
Таблица 4. Пары "кластер-признак"
Элемент
Кластер Динамика Инвестиции Объем Рентабельность
выручки
заказов
Центроиды в
1
3,2600
−2,2221
−0,5567
−1,4844
стандартизованных 2
−0,6550
0,6110
−0,8012
−1,1263
шкалах
3
−0,6064
−0,0750
−0,5961
0,1684
Вклады кластеров
1
10,6276
4,9377
0,3099
2,2034
2
2,5741
2,2399
3,8515
7,6113
3
4,7804
0,0731
4,6194
0,3687
Суммарные вклады
𝟏𝟕, 𝟗𝟖𝟐𝟏
𝟕, 𝟐𝟓𝟎𝟕
𝟖, 𝟕𝟖𝟎𝟖
𝟏𝟎, 𝟏𝟖𝟑𝟒
Значимость каждого параметра оценивается в соответствии с их
суммарными вкладами – чем больший вклад дает тот или иной признак, тем
выше его значимость. Таким образом, параметры можно упорядочить в
соответствии с их значимостью: динамика выручки, рентабельность, объем
заказов, инвестиции, – наиболее значимый находится на первом месте.
Удачное концептуальное описание кластеров признаками достигается с
помощью описания каждого отдельного кластера конъюнкцией признаковых
интервальных предикатов, которые являются результатом построения пар
«кластер-признак» в разбросе данных. При этом, можно значительно лучше
31
интерпретировать полученные кластеры в прикладном плане, рассматривая
анализ кластерной структуры как сложную проблему принятия решений и
используя при этом математические инструменты системного подхода.
Поскольку значения параметров измеряются в шкале отношений, то
необходимо применять методы количественного оценивания
многокритериальных предпочтений в шкале отношений. Одним из таких
методов является простой метод многокритериальной оценки (Simple
Multiattribute Rating Technique – SMART), предложенный В. Эдвардсом [11].
Подход SMART состоит из пяти этапов:
1. Упорядочить параметры по важности.
2. Наиболее важному параметру присваивается оценка 100 баллов.
Согласно конъюнкции утверждений, относительно важности критериев, дать
балльную оценку другим параметрам.
3. Нормировать веса критериев, разделив их на сумму.
4. Оценить каждую альтернативу по шкале от 0 до 100 баллов,
используя формулы линейной нормировки.
5. Подсчитать количественный индикатор значимости каждой
альтернативы и определить лучшую.
Метод SMART довольно прост и надежен в практическом применении,
что существенно. Также преимущество метода заключается в том, что при
введении новых альтернатив оценки изначально рассматриваемых
альтернатив не будут меняться.
Явным недостатком этого метода является эвристические способы
назначения оценок критериев, т. е. способы, не имеющие строгого
обоснования. Например, вес наиболее значимого критерия назначается как
100 баллов, а веса других определяются из отношений важности других
критериев. Способы назначения весов дают различные результаты, которые
могут привести к различиям в упорядочении альтернатив. Однако, несмотря
на эвристические оценочные методики, применяемые к методу SMART,
проверка чувствительности к изменениям весов позволяет учесть влияние
32
неточностей при изменениях и возможной зависимости между
альтернативами.
Другой популярный метод количественного измерения
многокритериальных предпочтений в шкале отношений – подход
аналитической иерархии (Analytic Hierarchy Process – AHP), разработанный
Т. Саати [10] и являющийся предметом дискуссий [7; 8]. Метод AHP
применяется в следующем порядке:
1. На первом этапе структурируют задачу в виде иерархии с
несколькими уровнями: цель, критерии, альтернативы.
2. Методом парных сравнений элементов каждого уровня
иерархический структуры выполняется оценка их важности. Результаты
сравнений переводятся в числа согласно специальной шкале степеней
градаций.
3. Для элементов каждого уровня вычисляют коэффициенты
значимости, при этом выполняется проверка суждений на согласованность.
4. Подсчитывают количественный индикатор важности каждой
альтернативы и определяют лучшую.
Достоинством этого метода является направленность на сравнение
реальных альтернатив. Метод AHP адекватен в тех случаях, невозможно дать
точные оценки критериев. Иерархическая система устойчива к малым
изменениям, в том смысле, что они вызываю малый эффект. Метод AHP
чувствителен к введению новой недоминированной альтернативы, что может
привести к изменению предпочтений. Существенной проблемой данного
метода является необоснованность измерения чисел при проведении оценки
критериев. Числовые оценки, соответствующие градациям превосходства
приведены в табл. 5.
Таблица 5. Шкала относительной важности
Числовая оценка
1–2
Словесные градации
Равенство или одинаковость
33
2–3
Умеренное или заметное превосходство
3–4
Существенное или сильное превосходство
5–6
Очень сильное или явное превосходство
7–8
Абсолютное превосходство
9
Обратные величины
Для решения задачи кластеризации отраслей экономики Российской
Федерации, принимая во внимание достоинства и недостатки подходов
SMART и AHP, целесообразно использовать метод SMART, поскольку в
данном случае, согласно результатам вычисления суммарного вклада
каждого параметра, возможно дать абсолютно точные оценки критериев.
Согласно структуре исходных данных модели отраслей экономики РФ
и результатам кластеризации методом k-медиан, имеем следующий набор
альтернатив:
1) Кластер 1;
2) Кластер 2;
3) Кластер 3.
Критерии:
1) Динамика выручки;
2) Инвестиции;
3) Объем заказов;
4) Рентабельность.
Параметру кластеризации с самым большим суммарным вкладом
назначается оценка в 100 баллов, а остальным параметрам присваиваются
балльные оценки исходя из формулы:
𝑐𝑜𝑛𝑡𝑚𝑎𝑥 𝑐𝑜𝑛𝑡𝑘
=
,
100
𝑟𝑘
34
где 𝑐𝑜𝑛𝑡𝑚𝑎𝑥 – максимальный суммарный вклад; 𝑐𝑜𝑛𝑡𝑘 – вклад критерия 𝑘; 𝑟𝑘
– балльная оценка критерия 𝑘 ∈ 𝑁; 𝑁 – число критериев. При этом 0 ≤ 𝑟𝑘 ≤
100.
Применяя вышеуказанную формулу и значения суммарных вкладов
критериев, приведенных в табл. 4, получаем строгую ранжировку:
«Динамика выручки», «Рентабельность», «Объем заказов», «Инвестиции».
Критерии упорядочены по убыванию значимости и имеют следующие ранги
𝑟𝑖 , где 𝑖 – номер критерия (номера критериев и альтернатив соответствуют их
положению в списке критериев и в списке альтернатив): «Динамика
выручки» – 100; «Рентабельность» – 56,6307; «Объем заказов» – 48, Э8308;
«Инвестиции» – 40,3218.
Сумма полученных баллов: 100 + 56,6307 + 48,8308 + 40,3218 =
245,7833.
Нормируем веса критериев, разделив присвоенные баллы на сумму
𝑟
весов (𝑤𝑖 = ∑ 𝑖 , где 𝑤𝑖 – вес 𝑖-го критрия):
𝑟𝑖
𝑤1 =
100
≈ 0,4069;
245,7833
𝑤2 =
40,3218
≈ 0,1641;
245,7833
𝑤3 =
48,8308
≈ 0,1987;
245,7833
𝑤4 =
56,6307
≈ 0,2304.
245,7833
В модели SMART принята критериальная таблица. Представим ее
следующим образом.
Таблица 6. Критериальная таблица метода SMART
Динамика выручки
(𝑪𝟏 ) ↑
Инвестиции (𝑪𝟐 ) ↑
Объем заказов (𝑪𝟑 )
↑
Рентабельность (𝑪𝟒 )
↑
Кластер 1
3,2600
−2,2221
−0,5567
−1,4844
Кластер 2
−0,6550
0,6110
−0,8012
−1,1263
35
Кластер 3
−0,6064
−0,0750
−0,5961
0,1684
Оценка 𝑗-й альтернативы по 𝑖-му критерию осуществляется по формулам:
𝐶𝑖 ↑ : 𝑉̂𝑗𝑖 =
𝑉𝑗𝑖 − 𝑉𝑖 ∗
× 100;
𝑉𝑗𝑖 ∗ − 𝑉𝑖 ∗
𝑉𝑖 ∗ − 𝑉𝑗𝑖
𝐶𝑖 ↓ : 𝑉̂𝑗𝑖 = ∗
× 100.
𝑉𝑖 − 𝑉𝑖 ∗
В данных формулах 𝐶𝑖 ↑ – критерий, который необходимо
максимизировать, 𝐶𝑖 ↓: – критерий, который нужно минимизировать, 𝑉𝑖 ∗ –
максимальное значение критерия 𝑖, 𝑉𝑖 ∗ – минимальное значение критерия 𝑖. В
настоящей задаче все параметры являются максимизируемыми.
Альтернатива оценивается по шкале от 0 до 100. В табл. 6 желтым цветом
выделены наилучшие значения критериев в разбросе альтернатив, лиловым –
наихудшие значения.
Оценки каждой альтернативы для критерия «Динамика выручки»:
𝑉11 =
3,2600 + 0,6550
× 100 = 100;
3,2600 + 0,6550
𝑉21 =
−0,6550 + 0,6550
× 100 = 0;
3,2600 + 0,6550
𝑉31 =
−0,6064 + 0,6550
× 100 ≈ 1,2414.
3,2600 + 0,6550
Для критерия «Инвестиции»:
𝑉12 =
−2,2221 + 2,2221
× 100 = 0;
0,6110 + 2,2221
𝑉22 =
0,6110 + 2,2221
× 100 = 100;
0,6110 + 2,2221
𝑉32 =
−0,0750 + 2,2221
× 100 ≈ 75,7862.
0,6110 + 2,2221
Для критерия «Объем заказов»:
36
𝑉13 =
−0,5567 + 0,8012
× 100 = 100;
−0,5567 + 0,8012
𝑉23 =
−0,8012 + 0,8012
× 100 = 0;
−0,5567 + 0,8012
𝑉33 =
−0,5961 + 0,8012
× 100 ≈ 83,8855.
−0,5567 + 0,8012
Для критерия «Рентабельность»:
𝑉14 =
−1,4844 + 1,4844
× 100 = 0;
0,1684 + 1,4844
𝑉24 =
−1,1263 + 1,4844
× 100 ≈ 21,6663;
0,1684 + 1,4844
𝑉34 =
0,1684 + 1,4844
× 100 = 100.
0,1684 + 1,4844
Интеграция полученных коэффициентов важности осуществляется по
формуле:
𝑁
𝑆𝑗 = ∑ 𝑤𝑖 𝑉𝑗𝑖 ,
𝑖=1
где 𝑆𝑗 – индекс приоритетности 𝑗-й альтернативы.
Для трех альтернатив вычисления позволяют определить:
𝑆1 = 0,40 × 100 + 0,16 × 0 + 0,19 × 100 + 0,23 × 0 ≈ 60,56;
𝑆2 = 0,40 × 0 + 0,16 × 100 + 0,19 × 0 + 0,23 × 21,66 ≈ 21,40;
𝑆3 = 0,40 × 1,24 + 0,16 × 75,78 + 0,19 × 83,88 + 0,23 × 100 ≈ 52,65.
Итак, альтернатива «Кластер 1» – лучшая. На втором месте
соответственно полученным показателям важности находится альтернатива
«Кластер 3», и на третьем – «Кластер 2».
37
5.
Анализ полученных результатов и основные
выводы
В ходе исследования был сделан ряд выводов относительно
сформированной методики определения кредитной привлекательности
отраслей экономики:
1. Результатами проведенного кластерного анализа структуры данных
финансовых показателей отраслей экономики Российской Федерации за 2013
г. были являются три выявленных кластера, представленные в табл. 7.
Таблица 7. Реальные данные экономических показателей кластеров, 2013 г.
Кластер
Отрасли
Драгоценные
металлы
Атомная
1
2
Инвестиции в
недвижимость
Металлургия
3
Динамика
выручки
Инвестиции
Объем заказов
Рентабельность
1,710
0,011
0,008
2,224
1,147
0,674
0,261
1,212
1,135
0,127
0,000
3,394
0,959
0,055
0,107
−3,606
Строительство
1,016
0,139
0,076
3,149
Торговля
1,100
0,014
0,001
3,264
Транспорт
1,056
0,147
0,005
3,570
Газовая
1,087
0,055
0,033
7,018
Лесная
1,024
0,107
0,395
6,407
Машиностроение
1,033
0,043
0,138
5,835
Медиабизнес
1,227
0,044
0,012
7,699
Нефтяная
1,136
0,129
0,043
9,057
ОПК и Роскосмос
1,147
0,061
2,651
3,954
Пищевая и АПК
1,074
0,022
0,003
5,166
1,064
0,078
0,124
8,045
Прочая
промышленность
Связь
1,026
0,147
0,003
11,995
Сфера услуг
1,191
0,253
0,117
7,048
Угольная
1,003
0,153
0,068
10,214
1,025
0,096
0,158
11,718
1,078
0,173
0,045
8,351
Химическая и
нефтехимическая
промышленность
Энергетика
Первый кластер состоит только из одного объекта – драгоценные
металлы.
38
Во второй кластер вошли следующие экономические отрасли: атомная
отрасль, недвижимость, металлургия, строительство, торговля, транспорт.
Третий кластер является самым большим, и его образуют отрасли:
газовая отрасль, лесная промышленность, машиностроение, медиабизнес,
нефтяная отрасль, ОПК и Роскосмос, пищевая промышленность и АПК,
связь, сфера услуг, угольная индустрия, химическая и нефтехимическая
промышленность, энергетика.
Анализ стандартизированных кластерных центроид, представленных в
табл. 6, показал, что индустрию драгоценных металлов, входящую в первый
кластер, характеризуют высокие показатели динамики выручки и удельного
объема заказов, но низкие значения для рентабельности и инвестиций.
Второму кластеру в силу того, что в него входят атомная промышленность,
металлургическая отрасль и индустрия недвижимости, свойственны большие
объемы инвестиций и, соответственно, минимальные показатели динамики
выручки и объема заказов. Третий кластер, включающий преимущественно
экономические отрасли с высокой рентабельностью, как например, газовая
отрасль, выделяется из общей совокупности максимальной рентабельностью.
2. Системная интерпретация построенной кластерной структуры
показала, что первый кластер является самым предпочтительным для
кредитования. При этом он обладает максимальной рентабельностью
инвестиционного капитала [1], которая равна 91,02. Данный параметр
является отношением физического объема выручки к объему инвестиций.
Для первого кластера полученное соотношение свидетельствует о том, что 1
тыс. рублей, вложенная в отрасль драгоценных металлов, приносит примерно
91,02 тыс. рублей прибыли, что подтверждает прибыльность кредитования.
Анализируя инвестиционную рентабельность центроиды второго кластера,
совпадающей со значением входящей в него транспортной отрасли,
необходимо отметить, что данный показатель здесь равен 6,82. Это делает
объекты второго кластера наименее привлекательными для кредитования,
поскольку значение рентабельности инвестиций в отрасли третьего кластера
39
примерно в 2 раза больше и составляет 12,76. Центроида третьего кластера
совпадает с индустрией, агрегирующей прочие промышленности. Значения
рентабельности инвестиций для всех секторов экономики РФ, рассмотренных
в рамках данной работы, приведены в табл. 8.
Таблица 8. Реальные значения объема выручки, объема инвестиций и рентабельности инвестиций, 2013 г.
Кластер
Отрасли
Объем выручки
Объем инвестиций
1 619 381
Рентабельность
инвестиций
91,02
1
Драгоценные металлы
147 392 407
2
Атомная
284 782 827
192 027 318
1,48
Инвестиции в недвижимость
134 296 921
1 055 096 245
7,86
Металлургия
4 775 282 921
263 814 042
18,10
Строительство
3 288 776 501
458 319 353
7,18
Торговля
20 640 005 446
294 977 681
69,97
Транспорт
4 169 863 448
611 844 252
6,82
Газовая
8 080 153 640
440 733 999
18,33
Лесная
710 468 441
75 958 236
9,35
4 087 883 225
175 852 334
23,25
437 512 339
19 274 141
22,70
16 105 020 325
2 078 574 273
7,75
230 837 873
14 029 362
16,45
Пищевая и АПК
21 624 596 565
478 644 502
45,18
Прочая промышленность
2 613 424 789
204 735 133
12,76
Связь
1 672 354 558
246 502 033
6,78
Сфера услуг
5 004 514 788
1 268 384 590
3,95
651 920 979
100 038 793
6,52
2 032 839 155
194 233 766
10,47
3 915 754 915
675 835 248
5,79
3
Машиностроение
Медиабизнес
Нефтяная
ОПК и Роскосмос
Угольная
Химическая и нефтехимическая
промышленность
Энергетика
В итоге значения рентабельности инвестиционного капитала,
соответствующие полученным кластерам, подтверждают результаты
структурно-классификационного анализа отраслей экономики России по
состоянию на 2013 г.
3. Из табл. 7 видно, что индустрия драгоценных металлов и торговая
отрасль обладают схожими значениями параметров, а инвестиционная
рентабельность торговли, занесенная в табл. 8, приблизительно равна 70. Это
значит, что можно достичь лучшего качества кластеризации, если выбрать 4
кластера в качестве входных параметров метода k-медиан, выделив при этом
40
торговлю в отдельный кластер. Однако данное преобразование влечет
отклонение от кластерного консенсуса, что продемонстрированно методом
средней силуэтной ширины (рис. 9).
4. Проведенные исследования базировались на системе финансовых
показателей отраслей экономики Российской Федерации за 2013 г. В случае,
если требуется решить задачу прогнозирования будущего состояния
кластерной структуры данных, многократно зафиксированных для периода
2006–2013 гг., то необходим комплекс методов достижения этой цели,
включающий предварительные аналитические исследования динамики
показателей экономической эффективности каждой рассматриваемой
отрасли на наличие стабильной тенденции. В прил. 1 изображены графики
динамики всех стандартизованных показателей анализируемых секторов
экономики России для периода 2006–2013 гг.
Среди отраслей экономики РФ для заданного периода только у отрасли
связи выявлена стабильная динамика всех показателей. Таким образом,
эффективное прогнозирование кластерной структуры данных возможно
только на начало 2014 г. по финансовым показателям отраслей экономики за
2013 г. Из этого можно сделать вывод, что объекты являются
привлекательными для кредитования, согласно их принадлежности
построенным кластерам, в краткосрочной перспективе. Однако, даже в
случае наличия стабильной динамики у всех отраслей, подобные
предсказания, сделанные на основании ранее изученных формализованных
законов развития исследуемой системы, носят вероятностный характер.
41
Заключение
Основным результатом исследования является разработанная методика
оценивания кредитной привлекательности потенциального заемщика по его
отраслевой принадлежности. Вместе с тем данная методика позволяет
значительно снизить количество времени, затрачиваемого аналитиками в
процессе обработки существенных объемов информации, и снизить
повышенные риски кредитования организаций.
В работе подробно описаны неиерархические методы кластерного
анализа k-средних и k-медиан, использованные к решению задачи оценки
кредитной привлекательности отраслей экономик Российской Федерации.
Исследование данной прикладной задачи позволяет узнать достоинства и
недостатки алгоритмов кластеризации, примененных к ее решению. В целях
повышения качества интерпретации полученных кластеров в практическом
применении, анализ кластерной структуры рассматривается как сложная
проблема принятия решений и, при этом предложено использовать
математические инструменты системного подхода многокритериальной
оценки.
На основе полученных результатов впоследствии могут быть
использованы новые алгоритмы. Например, которые будут требовать
небольших вычислительных затрат, или будут помехоустойчивыми и
способными давать адекватные оценки на множестве данных различной
природы.
42
Источники
1. Бригхэм Ю., Эрхардт М. Анализ финансовой отчётности. СПб.:
Питер, 2007.
2. Дорофеюк А.А. Методология экспертно-классификационного
анализа в задачах управления и обработки сложноорганизованных данных
(история и перспективы развития) // Проблемы управления. 2009. № 3.1.
3. Дюран Б. Кластерный анализ. М.: Книга по Требованию, 2012.
4. Кого ждут деньги: рейтинг отраслей по привлекательности для
банковского кредитования // РБК daily. 2011. 30 сен. №179.
5. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика:
Начальный курс. М.: Дело, 2007.
6. Миркин Б.Г. Методы кластер-анализа для поддержки принятия
решений: обзор: препринт WP7/2011/03. М.: Изд. дом ВШЭ, 2011.
7. Митихин. В.Г. Об одном контрпримере для метода анализа
иерархий // Проблемы управления. 2012. № 3.
8. Подиновский В.В., Подиновская О.В. О некорректности метода
анализа иерархий // Проблемы управления. 2011. № 1.
9. Хачумов М.В. Расстояния, метрики и кластерный анализ //
Искуственный интеллект и принятие решений. 2012. № 1.
10. Saaty T.L. The Analytic Hierarchy Process. New York: McGraw-Hill,
1980.
11. Winterfeldt D., Edwards W. Decision Analysis and Behavioral
Research. Cambridge: Cambridge University Press, 1986.
12. Zhao Q. Cluster validity in clustering methods, Ph.D. dissertation,
University of Eastern Finland, 2012.
43
Приложения
Приложение 1. Динамика показателей, 2006–2013 гг.
44
45
Download