Алгоритм расчета главных компонент (скачать MS Word)

advertisement
Алгоритм расчета главных компонент.
Суть метода главных компонент заключается в следующем [1,2,3,5]. Пусть
эффективность вскрытия продуктивного пласта зависит от множества факторов
i{x 1, x 2, ...,xm }. Требуется найти такое преобразование величин i в новый
набор величин Zi ={ z1, z2, ..., zp}, которые были бы независимыми и
располагались в порядке убывания дисперсий.
Каждая величина Zi представляет собой линейную комбинацию m
исходных величин, т.е. имеет вид:
(1) Z=b1x1+b2x2+...+bmxm
Эта величина и называется главной компонентой. Теоретически число главных
компонент равно числу исходных параметров, однако, первые две - четыре
главные компоненты описывают до 90 % изменчивости исходного массива. Для
двух случайных величин x1 и x2 первая главная компонента может быть
записана:
(2) Z1=1x1+2x2
где 1 и 2 - неизвестные параметры. Пусть имеется некоторое число n
наблюдений над x1 и x2. Для пары наблюдений с номером j ( j=1...n) можно
найти величину hj2 = x1j2 + x2j2 , которая может быть определена через главную
компоненту
(3) hj2=(b1x1j+b2x2j)2+dj2=z1j2+dj2,
где dj - случайная составляющая, соответствующая наблюдению с номером j, b1
и b2 - оценки 1 и 2, которые находят минимизацией выражения:
n
(4)

j 1
n
dj =  [hj2-(b1x1j+b2x2j)2].
2
j 1
Для того, чтобы избежать неоднозначных решений при определении b 1 и b2
вводится условие b12+b22=1. Это позволяет представить главную компоненту (2)
в виде:
(5) Z1=1(x1-1)+2(x2-2),
где 1 и 2 - неизвестные истинные средние значения случайных величин х 1 и
х 2.
С учетом (5) уравнение (4) может быть записано:
n
(6)

j 1
n
n
n
j 1
j 1
j 1
dj2=  {hj2-[b1(x1j- x1 )+b2(x2j- x 2 )]2}=  hj2-  [b1(x1j- x1 )+b2(x2j- x 2 ]2 ,
где х1 и х 2 - выборочные средние значения величин х1 и х2 , а
hj2=(x1j- х1 )2+(x2j- х 2 )2.
n

hj2 для одной и той же совокупности наблюдений величина постоянная. Из
j 1
уравнения (6) видно, что
минимизации выражения
n

j 1
минимизация
этой
величины
равносильна
n
[b1(x1j- х1 )+b2(x2j- х 2 )] =  Z1j2 ,
2
j 1
которое представляет собой сумму квадратов значений главной компоненты Z1j.
Вторая главная компонента имеет вид: Z2=1x1+2x2. На коэффициенты 
и  накладываются следующие ограничения:
12+22=1,
12+22=1, 11+22=0
Эти условия означают, что векторы (1,2) и (1,2) ортогональны. Для случая
m переменных (m>2) главная компонента равна
n
(7) Zi=  bijxi, i=1,2...m; j=1,2...n.
j 1
Уравнение (6) примет вид:
n
n

j 1
n
dj2= 
j 1
m

i 1
m
(xij-xi)2-[  bi(zij- x i )]2 ,
i 1
где x i =
x
j 1
n
ij
.
Свойства главных компонент таковы, что описание объектов в пространстве k
главных компонент имеет наименьшие искажения особенностей их взаимного
расположения по сравнению с описанием в любом другом подпространстве той
же размерности. Интерес представляет случай, когда k не велико. Тогда
расположение объектов в пространстве выбранных главных компонент легко
изучается визуально. При этом становится возможным делать выводы общего
характера, например, выделить скопления объектов. Другая возможность
использования главных компонент состоит в том, что при количественном
описании объектов при проведении в дальнейшем статистического анализа
ограничиваются только выделенными k компонентами (k<p). Например, в
множественном регрессионном анализе вместо большого набора независимых
переменных x1, x2, …, xm можно рассмотреть гораздо меньший набор главных
компонент, к тому же не коррелирующих друг с другом.
Download