ТМ к лекции 14 (Корреляционный анализ)

advertisement
ТМ к лекции № 14
Элементы корреляционного анализа
14.1. Приближенное уравнение линейной регрессии
Зависимость между величинами может быть двух видов: функциональная
и стохастическая. Если каждому значению одной величины соответствует
единственное значение другой, то такая зависимость называется функциональной. Однако возможна такая зависимость, когда в ответ на появление значения
одной величины, другая принимает некоторое случайное значение. Но вид закона распределения второй величины изменяется в зависимости от значения
первой. Такая зависимость называется стохастической.
Проведем n наблюдений над случайными величинами X и Y. В результате получим выборку объема n, состоящую из трех строк. В первой номер
наблюдения, во второй и третьей соответствующие значения случайных величин, полученных в данном наблюдении.
i
1
2
...
n
Xi
x1
x2
...
xn
Yi
y1
y2
...
yn
Попытаемся по результатам наблюдений найти приближенную зависимость между величинами X и Y. Указать точную зависимость очень сложно.
Поэтому естественно выдвинуть некоторое предположение о виде этой зависимости, включающему в себя некоторые параметры с тем, чтобы за счет варьирования этих параметров, подобрать уравнение зависимости лучшего вида. Ответ на вопрос о том, какую зависимость считать наилучшей сильно зависит от
того в каком классе функций ищется решение и по какому критерию оценивается отклонение от оптимального вида зависимости. Такое уравнение называется приближенным уравнением регрессии. Чаще всего ищется зависимость
вида Y=X+, т. е. линейное уравнение. Предположим, что имеется зависимость такого вида. Тогда отклонение для каждой пары значений найдем по
формуле i=Yi-Xi-. Выберем в качестве общей меры отклонения для всей
выборки в целом сумму квадратов отклонений. Обозначим ее
n
(, )   (Yi  X i  ) 2 .
(1)
i 1
Для исследования более удобно выбрать в качестве меры величину
(2)
(, )  M (Y  X  ) 2 .
Подберем  и  так, чтобы величина  была минимальной.
(, )  min
Этот метод называется методом наименьших квадратов. Необходимым
условием существования экстремума являются условия
(, )
 0,

(3)
(, )
 0.

Запишем условия (3)
(, )
(4)
 2M (Y  X  ) X  0.

(, )
(5)
 2M (Y  X  )  0.

Из уравнения (5) находим
=MY-MX
Из уравнения (4) получим
M(XY)-MX2-( MY-MX)MX=0.
Или
M(XY)- MY MX-(M(X2)-( MX)2)=0.
Откуда находим
Cov(X,Y)- DX=0.
Следовательно
rXYXY- X2=0.
Получаем

  rXY Y .
X
И приближенное линейное уравнение регрессии Y на X
Y  X    X  MY  MX .
Или

Y  MY  rXY Y ( X  MX ).
(6)
X
Аналогично, приближенное линейное уравнение регрессии X на Y

X  MX  rXY X (Y  MY ).
(7)
Y
Замечание. Уравнение (7) не равносильно уравнению (6). Они задают
разные линии.
При практических исследованиях для построения уравнения (6) используют статистические числовые характеристики.


 Y
(8)
Y  M Y  rXY
( X  M  X ).
 X
Причем в качестве статистической числовой оценки для ковариации используем
1 n
 (( X i  M  X )(Yi  M Y )).
n  1 i 1
Коэффициент корреляции показывает меру линейной зависимости между
случайными величинами X и Y.
Cov  ( X , Y ) 
14.2. Множественная регрессия
Пусть дана система случайных величин X1,X2,...,Xk,Y. Попытаемся отыскать зависимость вида
Y  1 X 1   2 X 2  ...   k X k  .
(9)
Найдем математическое ожидание от обеих частей уравнения (9)
MY  1 MX 1   2 MX 2  ...   k MX k  .
(10)
Вычтем
Y  MY  1 ( X 1  MX 1 )   2 ( X 2  MX 2 )  ...   k ( X k  MX k ). (11)
Введем меру отклонения
  M (1 ( X 1  MX1 )   2 ( X 2  MX 2 )  ...   k ( X k  MX k )  (Y  MY )) 2 . (12)
Предположим, что знак математического ожидания и дифференцирования можно менять местами. После дифференцирования получим систему
1M ( X 1  MX 1 ) 2   2 M ( X 2  MX 2 )( X 1  MX 1 )  ...   k M ( X k  MX k )( X 1  MX 1 ) 
 M (Y  MY )( X 1  MX 1 ).
1 M ( X 1  MX 1 )( X 2  MX 2 )   2 M ( X 2  MX 2 ) 2  ...   k M ( X k  MX k )( X 2  MX 2 ) 
 M (Y  MY )( X 2  MX 2 ).
.
.
.
.
.
.
.
.
.
.
.
(13)
1M ( X 1  MX1 )( X k  MX k )   2 M ( X 2  MX 2 )( X k  MX k )  ...   k M ( X k  MX k ) 2 
 M (Y  MY )( X k  MX k ).
Мы получили систему из k уравнений с k неизвестными. Матрица коэффициентов системы называется ковариционной матрицей. Если каждый коэффициент матрицы разделить на произведение соответствующих среднеквадратичных отклонений, то получим корреляционную матрицу. Решим систему (13)
и найдем коффициенты при неизвестных равенства (9). Подставим найденные
значения в (10) и найдем . А затем построим зависимость (9). Уравнение (9)
называется уравнением множественной регрессии, Для статистического исследования системы случайных величин X1,X2,...,Xk,Y. Проведем n наблюдений
над случайными величинами. В результате получим выборку объема n, которую удобно представить в виде таблицы
i
X1
X2
. . .
Xk
Y
1
X11
X12
. . .
X1k
Y1
2
X21
X22
. . .
X2k
Y2
. . .
. . .
. . .
. . .
. . .
. . .
n
Xn1
Xn2
. . .
Xnk
Yn
Построим по этой таблице ковариации величин системы (13) и найдем
уравнение множественной регрессии.
14.3. Приближенное полиномиальное уравнение регрессии
Часто требуется зависимость зависимости между случайными величинами X и Y в виде некоторого полинома (многочлена) вида
Y=a0+a1X+a2X2+... + anXn.
Этот случай сводится к рассмотренной схеме множественной регрессии с
помощью следующего приема. Вводится система величин
X0 =X0, X1 =X1, X2 =X2,..., Xn =Xn.
После этого проводим корреляционный анализ по схеме множественной
регрессии и находим коэффициенты многочлена.
Download