Uploaded by jafarsadixov

Элементы теории корреляции

advertisement
Лекция 4.
Элементы теории корреляции.
Во многих задачах требуется установить и оценить зависимость
изучаемой случайной величины Y от случайной величины X.
Статистической называют зависимость, при которой изменение одной из
величин
влечет
изменение
распределения
другой.
В
частности,
статистическая зависимость проявляется в том, что при изменении одной из
величин изменяется среднее значение другой. В этом случае статистическую
зависимость называют корреляционной.
Условным средним yx называют среднее арифметическое наблюдавшихся
значении Y , соответствующих X=x.
Пример.
Если при x1=2 величина Y приняла значения y1=5, y2=6, y3=10, то условное
среднее yx=(5+6+10)/3.
Выборочным уравнением регрессии Y на X называют уравнение вида
yx=f(x).
Случай 1.
Пусть в результате n независимых опытов получены n пар чисел (x1,y1),
(x2,y2),…, (xn,yn). Так как различные значения признака х и соответствующие
им значения признака у наблюдались по одному разу, то нет надобности
группировать данные и использовать понятие условной средней.
Представим одну из величин как функцию другой. Для простоты
ограничимся приближенным представлением величины Y как линейной
функции величины X.
Будем искать выборочное уравнение прямой линии регрессии Y на X вида:
y   yx x  b .
Угловой коэффициент ρyx прямой линии регрессии Y на X называют
выборочным коэффициентом регрессии.
Параметры ρxy и b подбираются так, чтобы точки (x1,y1), (x2,y2),…, (xn,yn),
построенные по данным наблюдений, на плоскости xOy лежали как можно
ближе к прямой y   yx x  b . То есть сумма квадратов отклонений (Yi – yi)
должна быть минимальной. Здесь Yi - вычисленная по уравнению ордината,
соответствующая xi, а yi – наблюдаемая ордината, соответствующая xi. В этом
состоит сущность метода наименьших квадратов.
 yx 
n  xy   x  y
n x 2  ( x) 2
,
 x  y   x xy .
b
n x  ( x)
2
2
2
Случай 2. (обобщенный)
При большом числе наблюдений одно и тоже значение x может
встретиться nx раз, одно и тоже значение y – ny раз, одна и та же пара чисел
(x,y) может наблюдаться nxy раз. Поэтому данные наблюдений группируют и
записывают в виде таблицы, которую называют корреляционной.
Пример
10 20 30 ny
0.4 5
-
7
12
0.6 -
2
6
8
0.8 3
10 -
nx
12 13 n=33
8
13
В данном случае выборочное уравнение прямой линии регрессии Y на X
имеет вид
y x  y  rв
y
( x  x ),
x
где x и
y
- выборочные средние, σx и σy – выборочные средние
квадратические отклонения, rв – выборочный коэффициент корреляции.
rв 
n
xy
xy  n x y
n x y
.
Пример
Найти выборочное уравнение прямой линии регрессии Y на X
по данным n=4 наблюдений
x 5 9 10 12
y 3 6
4
7
Решение:
Составим расчетную таблицу.
xi
yi
xi 2
xi yi
5
3
25
15
9
6
81
54
10
4
100
40
12
7
144
84
x
i
 36
y
i
 20
x
2
i
 350
x
i
yi  193
Вычислим параметры ρxy и b:
 yx 
 xy 
n  xy   x  y
n x 2  ( x) 2
4 193  36  20 52

 0.5
4  350  1296 104
 x  y   x xy
n x  ( x)
2
b
b
2
2
350  20  36  193 52

 0.5
4  350  1296
104
Искомое выборочное уравнение прямой линии регрессии будет иметь вид:
y  0.5 x  0.5 .
Download