Корреляционный анализ

реклама
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Линейная корреляция
Как показано выше, облако точек можно описать двумя
линиями регрессии – регрессией X на Y и Y на X. Чем меньше
угол между этими прямыми, тем сильнее зависимость между
параметрами.
Характер и сила связи определяются с помощью
коэффициента корреляции r.
По своему характеру корреляционная связь может быть
прямой и обратной, а по силе – сильной, средней, слабой. Кроме
того, связь может отсутствовать или быть полной.
1. Если |r|=1 , то Y,X – связаны линейной связью.
2. Если |r|=0 , то Y,X – не коррелируют.
3. Чем ближе |r| к 1, тем теснее прямолинейная корреляция
между величинами Y,X.
а кмвСкСявс влужс Стд икСп жз ехСрвс вп жус вп к
Сила связи
Полная
Сильная
Средняя
Слабая
Связь отсутствует
Характер связи
прямая (+)
обратная (-)
1
–1
от 0,7 до 1
от – 0,7 до –1
от 0,7 до 0,3
от –0,7 до –0,3
от 0,3 до 0
от –0,3 до 0
0
0
Корреляционный анализ экспериментальных данных для
двух случайных величин заключает в себе следующие основные
приемы:
1.Вычисление выборочных коэффициентов корреляции.
2.Составление корреляционной матрицы.
3.Проверка статистической гипотезы значимости связи.
167
Если имеется выборка объема n (x1,y1), (x2,y2),…,(xn,yn) с
совместным распределением, то величина
n
 ( x i  x )( y i  y )
i 1
r
,
n
n
2
2
 ( x  x ) *  ( yi  y )
i 1 i
i 1
называемая выборочным коэффициентом корреляции между X и
Y, оценивает теоретическую корреляцию и представляет собой
эмпирическую меру зависимости между X и Y.
а)
б)
в)
г)
Рис. 43. Зависимость между параметрами: а) зависимости нет;
б) полная ; в) слабая; г) сильная.
168
Коэффициент
корреляции
обладает
следующими
свойствами:
1. –1  r  +1,
2. при r = +1 имеется прямая функциональная зависимость,
3. при r = –1 имеется обратная функциональная зависимость,
4. если r = 0, то X и Y называют некоррелированными.
Независимые случайные переменные не коррелированы; две
случайные переменные тем сильнее коррелированны, чем ближе
значение |r| к 1.
Проверка гипотезы о значимости
коэффициента корреляции
О статистической взаимосвязи говорят, что она существует
или отсутствует, имеет направление (положительна или
отрицательна) и характеризуется силой (сильная, слабая). Если в
результате исследования нулевая гипотеза не отвергается, то
«взаимосвязи нет». В случае, когда нулевая гипотеза отклоняется,
говорят о существовании связи исследуемых случайных величин.
Сформулируем гипотезы Н0 и Н1:
Н0: r = 0 (т.е. корреляции нет),
H1: r  0.
Зададим уровень значимости α.
Статистикой критерия здесь является следующее выражение:
t 
r
1 r
2
 n 2
,
где t – статистика, имеющая распределение Стьюдента с (n–2)
степенями свободы.
При |t|  t(n–2),α гипотеза Н0: r = 0 отвергается с уровнем
значимости α. Это значит, что между параметрами существует
значимая корреляция. При |t|  t(n–2),α у нас нет оснований
отвергать Н0: r = 0, т.е. можно утверждать, что между
параметрами нет значимой корреляции.
169
е мр и П
Вычислим коэффициент корреляции между показателями
охвата населения прививками и заболеваемостью брюшным
тифом.
Сначала вычислим точечные оценки математических
ожиданий для каждого показателя:
X 7,7 и Y 5,6
Обозначим


dx  x i  x ,


d y  yi  y .
Р
а
й
о
н
ы
Заболеваемость
брюшным
тифом.
(в%)
Y
1.4
dx
dy
dx2
dy2
dxdy
A
охват
населения
прививками (в
%)
X
14.7
7.0
-4.2
49.0
17.64
-29.4
B
13.4
1.4
5.7
-4.2
32.49
17.64
-23.94
C
9.6
2.3
1.9
-3.3
3.61
10.89
-6.27
D
8.1
2.1
0.4
-3.5
0.16
12.25
-1.4
E
5.5
6.2
-2.2
0.6
4.84
0.36
-1.32
F
5.2
6.9
-2.5
1.3
6.25
1.69
-3.25
G
4.4
8.6
-3.3
3.0
10.89
9.0
-9.9
H
4.4
10.8
-3.3
5.2
10.89
27.04
-17.16
I
4.0
11.0
-3.7
5.4
13.69
29.16
-19.98
Тогда формула для подсчета коэффициента корреляции
примет следующий вид:
rxy 
Итак,
170
dx dy
2
 dx
2 .
 dy
rxy  0,87 .
Проверим значимость полученного результата
t
r
1  r2
 n 2 
Число степ свободы
7
 0,87
1  ( 0,87)2
9  2  4,68 .
Уровень значимости
0.10
0,05
0,01
1,89
2,36
3,5
Допустим мы задали α = 0,01 тогда при n–2=9–2=7
степенях свободы значение tкрит.=3,5.
Мы получили значение |t|=4,68, оно больше критического,
следовательно, мы отвергаем гипотезу о незначимости
коэффициента корреляции, следовательно, между показателями
охвата населения прививками и заболеваемостью брюшным
тифом существует значимая корреляционная связь. Причем
поскольку rxy  0,87 мы можем утверждать, что между этими
показателями существует сильная обратная корреляция, т.е., чем
больше население охвачено прививками, тем меньше показатель
заболеваемости брюшным тифом.
Ранговая корреляция
Ранговая корреляцияСприменяется для обработки данных
непараметрическими методами. Если нужно определить
взаимозависимость между рядами, распределенными не по
нормальному закону, а когда двумерная выборка (xi,yi) относится к
произвольному непрерывному распределению. В этом случае
можно установить зависимость между Y и X с помощью
коэффициента ранговой корреляции Спирмена.
Ранг наблюденияС– это тот номер, который получит
наблюдение в совокупности всех данных – после их
упорядочения по определенному правилу (например, от меньших
величин к большим).
Процедура перехода от совокупности наблюдений к
последовательности их рангов называется ранжированием.
Результат ранжирования называют ранжировкой.
171
Данные выстраиваются в порядке возрастания (или
убывания) и далее им присваивают ранги. Если отдельные
показатели ряда встречаются несколько раз, то каждому из них
присваивают одинаковый ранг, равный среднему рангу.
Порядковый.
номер.
Данные
Ранги
1
2
3
4
5
6
7
8
9
20
1
21
2
22
3,5
22
3,5
23
5
24
7
24
7
24
7
25
9
Итак, коэффициент ранговой
вычисляется по следующей формуле:
ρ s 1 
корреляции
Спирмена
6 d 2
,
n n2  1


где 6 – постоянный коэффициент, d – разность рангов, n –
число наблюдений (объем выборки).
Для проверки гипотезы о значимости коэффициента
корреляции применяют следующую статистику:
ts 
ρs
2
1  ρs
 n 2,
которая имеет распределение Стьюдента с (n–2) степенями
свободы.
При ts  t(n–2),α гипотеза Н0: r = 0 отвергается с уровнем
значимости α.
При ts  t(n-2),α нет оснований отвергать Н0: r = 0.
е мр и П
Вычислим величину и определим характер связи между
содержанием йода в пище и воде и пораженностью
населения зобом.
Воспользуемся формулой для коэффициента корреляции
Спирмена для рангов ρ = – 0,964.
172
Вычисленный
коэффициент
ранговой
корреляции
показывает, что связь между содержанием йода в пище и воде и
пораженностью населения зобом высокая и обратная, т.е. чем
больше содержится йода в продуктах питания и воде, тем меньше
среди населения доля пораженных зобом.
Кол-во
йода в
воде и
пище
(в γ)
Пораженность
населения
зобом (%)
1
X
201
178
155
154
126
81
71
n=7
2
Y
0,2
0,6
1,1
0,8
2,5
4,4
16,9
ρ= – 0,964
Порядковые номера
(ранги)
кол-во
Пораженйода
ности
населения
зобом
3
4
x
y
1
7
2
6
3
4
4
5
5
3
6
2
7
1
Разность
рангов
Квадрат
разности
рангов
5
d=x-y
–6
–4
–1
–1
2
4
6
6
d2
36
16
1
1
4
16
36
Σd2=110
Достоверность корреляций Спирмена оценивается по
таблице:
Число
пар
4
5
6
7
8
9
10
12
Уровень
значимости (α)
0,05
0,01
1,0
0,9
1
0,829
0,943
0,714
0,893
0,643
0,833
0,6
0,783
0,564
0,746
0,506
0,712
Число
пар
16
18
20
22
24
26
18
30
Уровень
значимости (α)
0,05
0,01
0,425
0,601
0,399
0,564
0,377
0,534
0,359
0,508
0,343
0,485
0,329
0,465
0,317
0,448
0,306
0,432
Если вычисленный коэффициент при данном числе
сравниваемых пар превышает табличное значение, то связь
между признаками признается достоверной. Нецелесообразно
173
вычислять коэффициент связи при числе коррелируемых пар
меньше 4-х.
В рассматриваемом примере вычисленный коэффициент
ранговой корреляции, равный –0,964, превышает табличное
значение при уровне значимости 0,01 и потому должен быть
признан значимым с вероятностью ошибки менее 0,01.
Следует добавить, что коэффициент корреляции можно
вычислять и тогда, когда данные носят полуколичественный
приближенный характер, отражая лишь общий порядок
следования величин.
В практических задачах наибольший интерес представляют
следующие вопросы:
1) существует значимая корреляционная зависимость Y от X или
нет, т.е. отлично ли генеральное корреляционное
отношение от нуля или равно нулю;
2) если корреляционная зависимость существут, то какой вид
имеет функция регрессии (линейный, нелинейный или
иной).
174
Скачать