КЛАСТЕРНЫЙ АНАЛИЗ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ДАННЫХ Н.Ю. Благовещенский, А.А. Рубчинский Аннотация доклада

advertisement
КЛАСТЕРНЫЙ АНАЛИЗ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ДАННЫХ
Н.Ю. Благовещенский, А.А. Рубчинский
Аннотация доклада
При исследовании систем, в которых человеческий фактор является определяющим, трудно надеяться на достаточно адекватное представление реальности в виде стандартных (или, как
теперь часто говорят, жёстких) математических моделей. Поэтому кластерный анализ, т.е. выделение из всей рассматриваемой совокупности нескольких групп в том или ином смысле похожих объектов, является одним из наиболее подходящих инструментов исследования в подобных плохо формализуемых ситуациях. Обычно для кластерного анализа требуется информация
о степени похожести (или непохожести) пар рассматриваемых объектах. При этом в некоторых
методах (в том числе и в используемом в данной работе) используется значительно более «мягкая» порядковая информация о похожести объектов. Точнее: для каждого объекта имеется список нескольких объектов, которые являются более похожими на данный объект, чем все остальные объекты. На основании этой информации строится так называемый граф соседства и все
дальнейшие операции осуществляются уже только с этим графом, без привлечения других данных.
Некоторое представление о характере возникающих при кластерном анализе трудностей
могут дать следующие условные изображения. На рис.1а представлены данные, которые выделяются почти любым методом. На рис.1б показано другое исходное множество, в котором выделение кластеров выглядит не столь очевидным. На рис.1в указаны кластеры для данных рис.
1б, которые в точности совпадают с кластерами рис.1а. Наконец, на рис.1г показаны те же самые кластеры в несколько более «смазанной» ситуации, когда нет столь чётких границ.
Приведённые рисунки носят иллюстративный характер. Как правильность, так и неправильность результатов кластеризации для множеств точек на плоскости усматривается непосредственно. Тем не менее, такие картинки позволяют «отсечь» многие методы, поскольку вряд
ли можно ожидать разумных результатов в сложных случаях, если они не справляются с гораздо более простыми множествами точек на плоскости.
В рассмотренных реальных ситуациях объектами были акции различных компаний (из
США, России и Швеции) и депутаты государственной Думы. В качестве расстояний между объектами использовались коэффициенты корреляции между курсами акций (с октября 2008 по ноябрь 2010) и обычное евклидово расстояние между результатами голосований любых двух депутатов. Данные по голосованиям рассматривались в каждом месяце по отдельности (200 – 400
голосований в месяц оказывается достаточным для содержательных выводов).
Присущая этим, как и многим другим социально-экономическим данным, нестабильность
и «размазанность» инициировали использование искусственной рандомизации и многократного
повторения процесса выделения кластеров. Это позволило дать точную характеристику устойчивости кластеров и, главное
1
а
б
в
г
Рис.1
повторения процесса выделения кластеров. Это позволило дать точную характеристику устойчивости кластеров и, главное
1) найти кластеры, которые не обнаруживаются другими известными методами;
2) дать обоснованный ответ о полном отсутствии кластеров там, где их нет.
На рис.2 условно показана часть использованного алгоритма кластеризации, относящаяся
Рис.2
к рандомизации и повторениям алгоритма. Кластер из семейства Q встречается при всех 4-ёх
2
реализациях, кластер из семейства Р – при трёх и кластер из семейства R – при двух реализациях. Для определения устойчивости кластера учитывается не только число их появлений, но и то,
насколько совпадают кластеры из разных реализаций. Используемый новый алгоритм построения кластеров подробно описан в работе [1].
Кратко опишем некоторые экспериментальные результаты.
1. При анализе акций 500 компаний США на основе матрицы корреляций было выявлено
8 кластеров. Почти все кластеры объединяли фирмы, занятые одним и тем же (или близким) видам деятельности: добыче золота, добыче нефти, газа и угля, страхованию, инвестициям и пр.
Коэффициенты корреляции внутри групп оказались порядка 0,65.
Для российской биржи (151 компания) было найдено два кластера. Оба состоят из компаний, занятых производством электроэнергии. Интересно, что коэффициенты корреляции внутри
кластеров, в отличие от данных по США, оказались низкими – порядка 0,2. Однако детальный
анализ показал, что коэффициенты корреляции с остальными акциями ещё ниже.
Наконец, для шведской биржи (266 компаний) кластеры не были выделены, что говорит
об отсутствии фирм, занятых какой-то особой от других деятельностью, которая в период кризиса приводит к заметно отличному от остальных характеру спроса на их акции.
2. Были проанализированы результаты голосований в 3-ей государственной думе в период
с 01.09.2001 по 31.01.2002. Период был выбран, поскольку 01.12.2001 произошло знаковое политическое событие – создание партии «Единая Россия» в результате объединения «Единства»
и ОВР. Разбиение думы на фракции было сопоставлено с найденными разбиениями по результатам голосований. В результате сопоставления для каждой фракции был определён коэффициент, названный «однородностью». Динамика этого коэффициента такова:
09.2001
10.2001
11.2001
12.2001
01.2002
«Единство»
0,71
0,90
0,68
0,92
0,84
ОВР
0,42
0,63
0,38
0,77
0,90
Можно сделать следующие грубые выводы. До объединения однородность у фракции
«Единство» была значительно выше, чем у фракции ОВР. Но после объединения однородность
заметно выросла у обеих фракций. Эти данные показывают, что ведущей силой (и, возможно,
инициатором) объединения была партия «Единство», а ОВР была ведомой. В то же время низкий уровень однородности у ОВР свидетельствует о реальной возможности раскола. Можно
предположить, что объединение с более сильным и устойчивым партнёром помогло этого избежать.
Литература
1. Rubchinsky A. Divisive-Agglomerative Classification Algorithm Based on the Minimax Modification of Frequency Approach: NRU HSE, Moscow. Working paper WP7/2010/07. – 48 p.
3
Download