ТМ к лекции 14 (Корреляционный анализ)

ТМ к лекции № 14 Элементы корреляционного анализа 14.1. Приближенное уравнение линейной регрессии Зависимость между величинами может быть двух видов: функциональная и стохастическая. Если каждому значению одной величины соответствует единственное значение другой, то такая зависимость называется функциональной. Однако возможна такая зависимость, когда в ответ на появление значения одной величины, другая принимает некоторое случайное значение. Но вид закона распределения второй величины изменяется в зависимости от значения первой. Такая зависимость называется стохастической. Проведем n наблюдений над случайными величинами X и Y. В результате получим выборку объема n, состоящую из трех строк. В первой номер наблюдения, во второй и третьей соответствующие значения случайных величин, полученных в данном наблюдении. i 1 2 ... n Xi x1 x2 ... xn Yi y1 y2 ... yn Попытаемся по результатам наблюдений найти приближенную зависимость между величинами X и Y. Указать точную зависимость очень сложно. Поэтому естественно выдвинуть некоторое предположение о виде этой зависимости, включающему в себя некоторые параметры с тем, чтобы за счет варьирования этих параметров, подобрать уравнение зависимости лучшего вида. Ответ на вопрос о том, какую зависимость считать наилучшей сильно зависит от того в каком классе функций ищется решение и по какому критерию оценивается отклонение от оптимального вида зависимости. Такое уравнение называется приближенным уравнением регрессии. Чаще всего ищется зависимость вида Y=X+, т. е. линейное уравнение. Предположим, что имеется зависимость такого вида. Тогда отклонение для каждой пары значений найдем по формуле i=Yi-Xi-. Выберем в качестве общей меры отклонения для всей выборки в целом сумму квадратов отклонений. Обозначим ее n (, )   (Yi  X i  ) 2 . (1) i 1 Для исследования более удобно выбрать в качестве меры величину (2) (, )  M (Y  X  ) 2 . Подберем  и  так, чтобы величина  была минимальной. (, )  min Этот метод называется методом наименьших квадратов. Необходимым условием существования экстремума являются условия (, )  0,  (3) (, )  0.  Запишем условия (3) (, ) (4)  2M (Y  X  ) X  0.  (, ) (5)  2M (Y  X  )  0.  Из уравнения (5) находим =MY-MX Из уравнения (4) получим M(XY)-MX2-( MY-MX)MX=0. Или M(XY)- MY MX-(M(X2)-( MX)2)=0. Откуда находим Cov(X,Y)- DX=0. Следовательно rXYXY- X2=0. Получаем    rXY Y . X И приближенное линейное уравнение регрессии Y на X Y  X    X  MY  MX . Или  Y  MY  rXY Y ( X  MX ). (6) X Аналогично, приближенное линейное уравнение регрессии X на Y  X  MX  rXY X (Y  MY ). (7) Y Замечание. Уравнение (7) не равносильно уравнению (6). Они задают разные линии. При практических исследованиях для построения уравнения (6) используют статистические числовые характеристики.    Y (8) Y  M Y  rXY ( X  M  X ).  X Причем в качестве статистической числовой оценки для ковариации используем 1 n  (( X i  M  X )(Yi  M Y )). n  1 i 1 Коэффициент корреляции показывает меру линейной зависимости между случайными величинами X и Y. Cov  ( X , Y )  14.2. Множественная регрессия Пусть дана система случайных величин X1,X2,...,Xk,Y. Попытаемся отыскать зависимость вида Y  1 X 1   2 X 2  ...   k X k  . (9) Найдем математическое ожидание от обеих частей уравнения (9) MY  1 MX 1   2 MX 2  ...   k MX k  . (10) Вычтем Y  MY  1 ( X 1  MX 1 )   2 ( X 2  MX 2 )  ...   k ( X k  MX k ). (11) Введем меру отклонения   M (1 ( X 1  MX1 )   2 ( X 2  MX 2 )  ...   k ( X k  MX k )  (Y  MY )) 2 . (12) Предположим, что знак математического ожидания и дифференцирования можно менять местами. После дифференцирования получим систему 1M ( X 1  MX 1 ) 2   2 M ( X 2  MX 2 )( X 1  MX 1 )  ...   k M ( X k  MX k )( X 1  MX 1 )   M (Y  MY )( X 1  MX 1 ). 1 M ( X 1  MX 1 )( X 2  MX 2 )   2 M ( X 2  MX 2 ) 2  ...   k M ( X k  MX k )( X 2  MX 2 )   M (Y  MY )( X 2  MX 2 ). . . . . . . . . . . . (13) 1M ( X 1  MX1 )( X k  MX k )   2 M ( X 2  MX 2 )( X k  MX k )  ...   k M ( X k  MX k ) 2   M (Y  MY )( X k  MX k ). Мы получили систему из k уравнений с k неизвестными. Матрица коэффициентов системы называется ковариционной матрицей. Если каждый коэффициент матрицы разделить на произведение соответствующих среднеквадратичных отклонений, то получим корреляционную матрицу. Решим систему (13) и найдем коффициенты при неизвестных равенства (9). Подставим найденные значения в (10) и найдем . А затем построим зависимость (9). Уравнение (9) называется уравнением множественной регрессии, Для статистического исследования системы случайных величин X1,X2,...,Xk,Y. Проведем n наблюдений над случайными величинами. В результате получим выборку объема n, которую удобно представить в виде таблицы i X1 X2 . . . Xk Y 1 X11 X12 . . . X1k Y1 2 X21 X22 . . . X2k Y2 . . . . . . . . . . . . . . . . . . n Xn1 Xn2 . . . Xnk Yn Построим по этой таблице ковариации величин системы (13) и найдем уравнение множественной регрессии. 14.3. Приближенное полиномиальное уравнение регрессии Часто требуется зависимость зависимости между случайными величинами X и Y в виде некоторого полинома (многочлена) вида Y=a0+a1X+a2X2+... + anXn. Этот случай сводится к рассмотренной схеме множественной регрессии с помощью следующего приема. Вводится система величин X0 =X0, X1 =X1, X2 =X2,..., Xn =Xn. После этого проводим корреляционный анализ по схеме множественной регрессии и находим коэффициенты многочлена.

ТМ к лекции 14 (Корреляционный анализ)

Related documents

Products

Support

ТМ к лекции 14 (Корреляционный анализ)

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib