факторов

advertisement
Метод главных компонент
Метод главных компонент (МГК) был предложен Пирсоном в 1901 году и
затем вновь открыт и детально разработан Хоттелингом /1933/.
Переменные, значения которых можно измерять в эксперименте,
имеют для исследуемого объекта или явления нередко достаточно условный
характер, лишь опосредовано отражая его внутреннюю структуру, движущие
силы (механизмы) или действующие на объект факторы. Здесь исследователь
ограничен набором физических явлений или другого типа показателей,
доступных для экспериментального измерения и ориентированной на их
регистрацию существующей измерительной аппаратурой или субъективными
мнениями опрашиваемых.
Когда неизвестный фактор проявляется в изменении нескольких
переменных, в процессе анализа можно наблюдать существенную корреляцию
или связь между этими переменными. Тем самым глубинных (скрытых)
факторов может быть существенно меньше, чем измеряемых переменных,
даже само число которых выбирается исследователем достаточно
субъективно.
Многомерные случайные величины изображают в многомерном признаковом
пространстве облаком точек.
Предполагается, что облако имеет
форму, близкую к многомерному
эллипсоиду.
Преобразование исходных данных сводится к переносу
и вращению системы координат в признаковом пространстве.
Начало координат переносится в
центр тяжести облака
Первая
главная ось
Осуществляется поворот таким образом,
чтобы оси многомерного эллипсоида
совпали с осями координат.
Вторая
главная ось
и т.д.
Оси эллипсоида ранжируются по длине, и та
координатная ось, которая совпадает с наиболее
длинной осью эллипсоида, называется первой,
следующая по длине – второй и т.д.
Рассчитываются координаты точек в новой системе.
F1  a1 x1  a2 x2
X1
F1
f2
F2  1 x1   2 x2
Эти новые координаты называются
главными компонентами.
Коэффициенты a и  - косинусы
углов между старыми и новыми осями.
f1
X1
Они равны собственным векторам матрицы
дисперсий и ковариаций исходных данных.
F2
О собственных векторах и собственных значениях матриц можно прочитать:
Дж. С. Дэвис «Статистический анализ данных в геологии», том1, стр. 147 [74],
Г.С. Поротов «Математические методы моделирования в геологии», стр. 127
В процессе вращения сумма дисперсий остается постоянной, т.е. является
инвариантом (она зависит только от взаимного расположения точек в облаке), но
происходит перераспределение дисперсий.
x1
x2
f1
f2
3
4
6
6
6
7
7
8
9
9
9
10
11
12
12
13
13
13
13
14
15
17
17
18
20
2
10
5
8
10
2
13
9
5
8
14
7
12
10
11
6
14
15
17
7
13
13
17
19
20
3.48
0.93
10.14
-3.6
7.71
1.2
9.96
-0.78
11.46
-2.1
6.12
3.93
14.37
-3.33
12.03
0.06
9.69
3.45
11.94
1.47
16.44
-2.49
11.85
2.88
16.26
0.33
15.42
2.4
16.17
1.74
13.08
5.79
19.08
0.51
19.83
-0.15
21.33
-1.47
14.49
5.88
19.65
2.67
20.97
4.17
23.97
1.53
26.13
0.96
28.2
1.8
Дисперсия
x1
x2
f1
f2
20.3
24,1
37,9
6,5
в процентах
46
54
86
14
Максимальная дисперсия оказывается сосредоточенной в первых
главных компонентах, которые и несут основную информацию.
Минимальной дисперсией обладают последние компоненты. Они
несут малую информацию, и ими можно пренебречь.
Можно говорить о выделении новых признаков (факторов), более
важных и существенных для изучаемого феномена по сравнению
с исходными переменными
Чем сильнее связь исходной переменной с факторной, тем больше её вклад в
значения «существенного» признака.
Эта связь характеризуется коэффициентом линейной корреляции между исходной
переменной и её проекцией на главную ось и называется нагрузкой этой переменной на
главную ось (или факторной нагрузкой).
Факторные нагрузки
f1
f2
x1
0.91
0.43
x2
0.94
-0.34
Чем больше абсолютная величина
факторной нагрузки, тем сильнее
зависимость переменной от фактора.
Факторные нагрузки часто имеют геологическое содержание.
Фактор 1 Фактор 2
Pb
0.841463
0.329768
Ag
0.938283
0.321813
Cd
0.286304
0.942061
Zn
0.346403
0.911484
Общ.дис.
1.790400
1.930593
Доля общ 0.447600
0.482648
Проекция факторных нагрузок
на плоскость факторных осей.
Задачами факторного анализа являются:
нахождение системы существенных или действенных факторов в
пространстве регистрируемых переменных;
сокращение числа переменных без существенной потери
информации;
Целесообразность выполнения факторного анализа определяется
наличием корреляций между переменными. На практике так обычно и бывает.
Если же корреляции между всеми переменными небольшие, то факторный
анализ бесполезен.
Пример
Исходные данные.
Исходным материалом для процедуры
факторного анализа является корреляционная
матрица mm, вычисленная между всеми парами
переменных в исходной матрице mn.
Если выбраны «Исходные данные», они будут преобразованы в матрицу корреляции.
Корреляции могут вычисляться различными методами.
Наиболее часто в практике используются:
1) параметрические коэффициенты корреляции Пирсона применяются в случае
метрических и нормально распределенных исходных данных;
2) ковариации представляют собой взаимные вариации между переменными, их
использование сравнительно менее употребительно, но позволяет в вычислениях
учитывать не только степень взаимосвязанности (коррелированности) переменных, но
и абсолютную величину ковариаций;
3) непараметрические коэффициенты корреляции Спирмана применимы в случае
ненормально распределенных числовых данных и ранговых переменных;
Исходные данные.
Выбор переменных.
Из статистических соображений желательно, чтобы число объектов или
измерений было бы не меньше числа переменных, еще предпочтительнее,
чтобы их было в 2—3 раза больше. Невыполнение этого условия может
привести к неадекватному завышению числа главных факторов, к искажениям
факторных нагрузок исходных переменных и распределения объектов в
факторном подпространстве.
Желательно предварительно удалить из данных сильные выбросы (более
трех стандартных отклонений), поскольку они могут существенно повлиять на
перераспределение дисперсии между переменными.
Желательно также найти все пары переменных, связанные между собой
сильными функциональными зависимостями, и оставить по одному
представителю из каждой такой пары. В противном случае такие зависимые
переменные будут существенно смещать дисперсию объектов, а следовательно
— и вектора факторов.
Выбор метода
Существует 2 модели факторного
анализа:
метод главных компонент
анализ главных факторов
(собственно факторный анализ).
Основное различие между ними состоит в том, что в анализе главных
компонент предполагается, что должна быть использована вся изменчивость
переменных, тогда как в анализе главных факторов используется только
изменчивость переменной, общая и для других переменных (так называемая,
«общность»).
С вычислительной точки зрения различие состоят в том, что в анализе
главных компонент используется матрица корреляции, у которой на главной
диагонали стоят единицы (коэффициент корреляции признака с самим собой), а
в факторном анализе – матрица, у которой на главной диагонали единицы
заменены общностями. Общность для каждой переменной, в большинстве
случаев, вычисляется как коэффициент множественной корреляции между этой
переменной и всеми остальными.
В большинстве случаев эти два метода приводят к весьма близким
результатам.
Количество факторов.
Вы можете
предположить (из геологической ситуации)
какое количество факторов (процессов)
обуславливает наблюдаемые значения
признаков;
использовать критерий Кайзера
выделить большое количество факторов, а
потом отобрать наиболее существенные,
используя график «каменистой осыпи».
отбросить компоненты, суммарно отражающие
менее 5—30% общей дисперсии
Критерий Кайзера: отбрасывание компонент, собственные значения которых
меньше единицы (если все корреляции между переменными равны нулю, то все
собственные значения равны 1, поэтому компоненты со значениями меньше 1
менее значимы, чем сами переменные)
Результаты и интерпретация.
Нагрузки.
Три выделенных фактора (главные компоненты) «объясняют» в сумме 66% общей
изменчивости переменных, выбранных для анализа. Первый фактор – 35,6%; второй – 17,5
и третий – 13%
Первый фактор обуславливает согласованное поведение Cr,Co,Ni и, отчасти, Sn.
Второй фактор - Zn, Ag и, отчасти, Pb (у Pb сравнимая нагрузка на третий фактор).
Третий фактор - «медный» + частично Sn и Pb
Вращение выделенных факторных осей.
Предложены различные методы вращения факторов. Целью этих методов
является получение понятной (интерпретируемой) матрицы нагрузок, то есть
факторов, которые ясно отмечены высокими нагрузками для некоторых
переменных и низкими - для других.
Типичными методами вращения являются варимакс, квартимакс и эквимакс.
В данном примере вращение факторов не изменяет факторной структуры.
Интерпретация факторов существенно упрощается при выполнении принципа простой
структуры переменных (Thurstone, 1931): каждая переменная имеет большие нагрузки
(более 0,7) на один фактор и малые (менее 0,2) по всем остальным.
Приблизиться к простой структуре можно путем пошагового сокращения числа
факторов и переменных:
а) исключение факторов, по которым ни одна из переменных не получила
максимальной нагрузки;
б) исключение переменных, получивших сравнимые и высокие нагрузки по двум и
более факторам.
Визуализация факторной структуры.
Выбор количества «существенных» факторов.
График «Каменистая осыпь»
Используется точка перегиба
к выполаживанию графика
(критерий Кеттелла).
Сохранение результатов для дальнейшего анализа
(кластеризация, регрессия, пространственный анализ)
Собственные значения факторов
Выбор важных (значимых) факторов.
График "каменистая осыпь"
Номера факторов
- Используется точка перегиба к выполаживанию графика (критерий Кеттелла).
- Критерий Кайзера: отбрасывание компонент, собственные значения которых
меньше единицы (если все корреляции между переменными равны нулю,
то все собственные значения равны 1, поэтому компоненты со
значениями меньше 1 менее значимы, чем сами переменные)
- Отбрасывание компонент, суммарно отражающих менее 5—30% общей
дисперсии
Интерпретация факторов.
Интерпретация факторов существенно упрощается при выполнении принципа простой
структуры переменных (Thurstone, 1931): каждая переменная имеет большие нагрузки
(более 0,7) на один фактор и малые (менее 0,2) по всем остальным.
Приблизиться к простой структуре путем пошагового сокращения числа факторов и
переменных:
а) исключение факторов, по которым ни одна из переменных не получила
максимальной нагрузки;
б) исключение переменных, получивших сравнимые и высокие нагрузки по двум и
более факторам.
Дальнейшие исследования. Новые координаты объектов в системе
главных факторов являются важным материалом для последующих
статистических исследований, а именно:
1) выделение основных группировок объектов средствами кластерного
анализа;
2) статистическая верификация наиболее оптимальной кластеризации
объектов методом дискриминантного анализа;
3) статистические оценки парных различий выделенных кластеров;
4) нахождение регрессионных зависимостей для распределений объектов
в пространстве главных факторов.
Многочисленные примеры подобного развития исследований из
различных областей приложения приведены в [7].
Дальнейшее продолжение анализа может состоять также в факторном
прогнозировании, во вращении факторов или в применении других методов
факторного анализа.
V1
V2
3
4
6
6
6
7
7
8
9
9
9
10
11
12
12
13
13
13
13
14
15
17
17
18
20
2
10
5
8
10
2
13
9
5
8
14
7
12
10
11
6
14
15
17
7
13
13
17
19
20
20,3 15,6
15,6 24,1
I
0,66
Первый собственный вектор
0,75
37,9 Первое собственное значение
II 
0,75
 0,66
6,5
Второй собственный вектор
Первое собственное значение
Сумма собственных значений 37,9+6,5=44,4
Доля первого вектора = 37,9/44,4=86%
Доля первого вектора = 6,5/44,4=14%
1 n
   (vi  v ) 2
n i 1
2
 v21
Covv1,v 2
Covv 2,v1
 v22
Covv1,v 2
1 n
  (vi1  v1 )(vi1  v1 )
n i 1
Общая дисперсия = 20,3+24,1=44,4
Доля первой переменной = 20,3/44,4=46%
Доля первой переменной = 24,1/44,4=54%
I
II
Y1
Y2
3.48
0.93
10.14
-3.6
7.71
1.2
9.96
-0.78
11.46
-2.1
6.12
3.93
14.37
-3.33
12.03
0.06
9.69
3.45
11.94
1.47
16.44
-2.49
11.85
2.88
16.26
0.33
15.42
2.4
16.17
1.74
13.08
5.79
19.08
0.51
19.83
-0.15
21.33
-1.47
14.49
5.88
19.65
2.67
20.97
4.17
23.97
1.53
26.13
0.96
28.2
1.8
Если сделать преобразование вида Y1  a1v1  a2v2 , где a1 и a2 координаты
первого собственного вектора (т.е. спроектировать точки на первую главную ось),
то получим новоё множество данных с дисперсией 37,9.
Аналогичное преобразование Y2  1v1   2v2 где 1 и  2 координаты второго
собственного вектора, приведёт к созданию новой переменной с дисперсией 6,5.
Download