Проверка гипотез о наличии линейной корреляционной связи

advertisement
Лабораторная работа №5. Корреляционный анализ
Моделирование систем в разных сферах науки и техники требует совместного
рассмотрения нескольких их свойств и характеристик. Иногда свойства объектов
проявляются независимо друг от друга, иногда между ними могут быть выявлены более или
менее четкие взаимосвязи.
В естественных науках часто речь идет о функциональной зависимости (связи),
когда каждому значению одной переменной соответствует вполне определенное
значение другой переменной. В экономике, социологии, технике в большинстве
случаев каждому значению одной переменной соответствует множество возможных
значений другой переменной.
Если с изменением значения одной из переменных вторая может в определенных
пределах принимать любые значения с некоторыми вероятностями, но ее среднее
значение или иные статистические (массовые) характеристики изменяются по
определенному закону - связь является статистической. Иными словами, при
статистической связи разным значениям одной переменной соответствуют разные
распределения значений другой переменной.
Корреляционной связью называют важнейший частный случай статистической
связи, состоящий в том, что разным значениям одной переменной соответствуют
различные средние значения другой.
Выявление корреляционных связей способствует решению широкого круга задач.
В некоторых случаях требуется подтвердить не наличие, а отсутствие корреляционной
связи.
Следует отметить, что наличие корреляционной связи не всегда означает наличие
причинно-следственной зависимости. Существуют три пути возникновения
корреляционной связи:
•
Причинная зависимость результативного признака (его вариации) от
вариации факторного признака.
•
Корреляционная связь между двумя следствиями общей причины
•
Взаимосвязь признаков, каждый из которых и причина, и следствие
Поэтому следует помнить, что результаты корреляционного анализа необходимо
проверять логикой, опираясь на теоретические и практические знания об исследуемых
свойствах. Иногда при этом требуется проследить длинную цепочку
взаимозависимостей. Так, в результате обработки многолетних статистических данных
о случаях тяжелого производственного травматизма на угольных шахтах было
установлено, что их частота определенным образом связана с фазами луны. Эта на
первый взгляд весьма странная связь объясняется влиянием положения луны на
приливные силы, которые проявляются не только в гидросфере, но и в литосфере, и
часто играют роль «спускового крючка» для таких явлений как горный удар, выбросы
газа и т.п.
Проверка гипотез о наличии линейной корреляционной связи
3
Основная задача корреляционного анализа состоит в выявлении связи между
случайными переменными путем точечной и интервальной оценки различных
(парных, множественных, частных) коэффициентов корреляции.
Для проверки гипотезы о наличии линейной корреляционной связи наибольшее
распространение имеет коэффициент линейной корреляции (Пирсона),
предполагающий нормальный закон распределения наблюдений. Для двумерной
нормально распределенной случайной величины XY при отсутствии линейной
корреляции между X и Y коэффициент корреляции равен нулю. Поэтому процедура
проверки заключается в расчете выборочной оценке коэффициента корреляции и
оценке значимости его отличия от нуля.
Коэффициент корреляции – параметр, характеризующий степень линейной
взаимосвязи между двумя выборками. Коэффициент корреляции изменяется от –1
(строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная
зависимость). При значении 0 линейной зависимости между двумя выборками нет.
Здесь под прямой зависимостью понимают зависимость, при которой увеличение или
уменьшение значения одного признака ведет, соответственно, к увеличению или
уменьшению второго. Например, при увеличении температуры возрастает давление
газа, а при уменьшении – снижается (при постоянном объеме). При обратной
зависимости увеличение одного признака приводит к уменьшению второго и
наоборот. Примером обратной корреляционной зависимости может служить связь
между температурой воздуха на улице и количеством топлива, расходуемого на
обогрев помещения.
На практике коэффициент корреляции принимает некоторые промежуточные
значения между 1 и –1. Для оценки степени взаимосвязи можно руководствоваться
следующей классификацией корреляционных связей по абсолютной величине
коэффициента корреляции:
- очень сильная, практически линейная зависимость между параметрами при r>0.95;
- сильная (тесная) при коэффициенте корреляции r>0.7;
- средняя при 0.50<r<0.69;
- умеренная при 0.30<r<0.49;
- слабая при 0.20<r<0.29;
очень слабая при r<0.19. В этих случаях обычно считают,
что линейную взаимосвязь между параметрами выявить не удалось.
Приближенная оценка коэффициента корреляции может быть получена
графическим способом с помощью корреляционного поля точек. Поле точек
разделяется на четыре квадранта линиями, соответствующими медианам величин Х и
Y. Для оценки коэффициента корреляции используется формула
r  (n1  n2 ) (n1  n2 ) , где n1 – число точек в квадрантах I, III а n2 – в квадрантах II, IV:
Рис.5.1. Корреляционные поля точек соотношений
прямо и обратно коррелирующих величин
4
В Excel для вычисления выборочных парных коэффициентов линейной корреляции
используется
специальная
функция
КОРРЕЛ(массив1;массив2)
или
PEARSON(массив1;массив2) где:
массив1 – это диапазон ячеек со значениями первой случайной величины - первого
параметра,
массив2 – это второй интервал ячеек со значениями второго параметра (измеренного у
тех же объектов, что и первый).
Также в Excel используют процедуру «Корреляция», которая позволяет получить
корреляционную матрицу, содержащую коэффициенты корреляции между
различными параметрами.
Вычислив выборочный коэффициент корреляции, необходимо оценить его
статистическую значимость. Не исключено, что ненулевое значение коэффициента
является не отражением действительной связи между признаками, а получено в
результате специфики данной выборки. Для того, чтобы понять, насколько значимо
отличие выборочного коэффициента корреляции от 0, строят доверительный интервал
(r  t r ; r  t r ) . Средняя ошибка коэффициента корреляции вычисляется по формуле:
1 r2
.
r 
n2
Напомним, что коэффициент доверия t для доверительной вероятности 0,95 равен 2,
для 0,999 – 3 (см. лаб.работу №2)
Если 0 не попадает в доверительный интервал, то коэффициент корреляции
статистически значим.
Теснота линейной связи одной переменной с совокупностью других,
рассматриваемой в целом, измеряется при помощи выборочного множественного
(совокупного) коэффициента корреляции. Например, для трех переменных:
Rz , xy 
rxz2  ryz2  2rxz ryz rxy
1  rxy 2
.
5
Этот коэффициент значим на уровне , если
R(n  3)
F
 F ;2;n3 .
2(1  R 2 )
В Excel значение F ;2;n3 вычисляется при помощи функции FРАСПОБР.
В случае, если выборочных данных недостаточно для проверки гипотезы о соответствии
выборочных данных нормальным законам распределения, или если распределения
существенно отличаются от нормальных, для проверки гипотезы о наличии корреляционной
связи используются ранговые коэффициенты корреляции, например Спирмена или Кендалла.
Коэффициент ранговой корреляции Спирмена вычисляют по формуле
r  1
6 ( Ri  Si ) 2
n(n 2  1)
(при отсутствии связанных рангов),
6 ( Ri  (n  1) / 2)( Si  ( n  1) / 2)
(при наличии связанных рангов),
1
2
n(n  1)  (TX  TY )
2
где Ri, Si – ранги сопряженных значений изучаемых величин xi и yi в выборках Х и Y;
n – количество пар в выборке,
T   (ti2  1) - при суммировании по элементам выборки,
r
ti – длина связки, в которую входит i-й элемент выборки.
Для проверки значимости рангового коэффициента корреляции можно использовать
величину
Z ( P)
,
rкр 
n 1
где Z(P) – значение обратной функции нормального распределения при доверительной
вероятности P, рассчитывается при помощи функции НОРМСТОБР(Р).
Если расчетное значение коэффициента Спирмена (r) больше критического (r кр), то
гипотеза о независимости исследуемых величин отвергается.
Задание. Определить наличие корреляционной связи между содержанием золота и свинца по
данным проб в таблице
Таблица 5.1. Содержание свинца и золота в рудах полиметаллического месторождения
№ проб
1
2
3
4
5
6
7
8
9
10
11
12
Pb
2,05
5,03
0,80
0,31
0,77
4,01
1,19
1,26
0,68
0,91
4,33
2,38
Au
3,76
2,09
1,98
0,20
3,10
1,67
2,59
1,70
0,23
1,21
0,91
1,68
№ проб
19
20
21
22
23
24
25
26
27
28
29
30
Pb
Au
1,21
2,92
0,74
1,53
3,70
2,71
1,90
1,51
0,21
4,81
1,38
3,96
0,61
0,40
0,27
2,57
0,90
1,69
4,32
2,30
1,22
1,05
2,09
2,54
6
№ проб
37
38
39
40
41
42
43
44
45
46
47
48
Pb
5,16
0,37
0,44
2,21
4,67
1,44
3,13
1,35
0,81
1,32
0,99
2,41
Au
0,87
1,15
0,91
4,25
2,03
4,31
0,25
0,39
1,35
3,51
1,62
3,98
13
14
15
16
17
18
0,98
0,42
1,71
3,51
1,11
2,10
2,44
0,50
1,21
1,15
2,30
3,48
31
32
33
34
35
36
1,96
0,52
2,95
1,10
0,93
1,78
1,58
0,82
0,20
1,44
3,15
1,21
49
50
51
52
53
54
1,03
1,55
3,39
1,23
1,48
4,03
0,35
2,80
0,41
1,58
4,22
1,19
Решение. Скопируем данные из таблицы на лист Excel: в столбец В – данные по содержанию
свинца, в столбец С – по содержанию золота. Вычислить коэффициент корреляции Пирсона
легко:
Полученное значение -0,049 показывает отсутствие линейной корреляционной связи
показателей.
Однако для обоснованного применения коэффициента корреляции Пирсона надо быть
уверенными в соответствии (или хотя бы непротиворечии) данных обеих выборок
нормальному распределению. Проведем проверку для первой выборки (Pb) (объем выборки
n=54 это формально позволяет):
7
Заметим, что число интервалов 7 не позволяет получить размер интервалов в виде
конечной десятичной дроби, поэтому полученная верхняя граница седьмого интервала
несколько меньше максимального значения в выборке. Поэтому при заполнении столбца
частот необходимо недоопределить массив интервалов, введя формулу
=ЧАСТОТА(B2:B55;E2:E7),
а при вычислении теоретической частоты для последнего интервала используем не значение
в ячейке Е8, а функцию МАКС(В2:В55)
Полученное значение критерия 2 указывает на противоречие данных нормальному
закону распределения, поэтому полностью доверять коэффициенту корреляции Пирсона
нельзя.
Вычислим коэффициент ранговой корреляции Спирмена. Для этого вычислим значения
функции РАНГ для данных обеих выборок и длины связок:
8
Поскольку в выборке данных содержания золота есть совпадающие значения
(неединичные связки), следует вычислить согласованные ранги Ri и Si, а также, для
применения формулы коэффициента Спирмена в случае совпадающих значений, величины
Ri-(n+1)/2 и Si-(n+1)/2:
Далее, вычислим значения поправочных коэффициентов Т для обеих выборок, введя в
ячейке К56 формулу
=СУММКВ(K2:K55)-54
и скопировав ее в ячейку L56.
В ячейке Р56 вычислим значение
 ( R  (n  1) / 2)(S  (n  1) / 2) , введя формулу
i
i
=СУММПРОИЗВ(O2:O55;P2:P55).
Значение коэффициента корреляции Спирмена вычислим в ячейке О58, введя формулу:
=6*P56/(54^3-54-0,5*(К56+L56)).
9
Полученное значение коэффициента 0,046 близко к 0 и не требует проверки
статистической значимости, тем не менее, определим критическое значение коэффициента
Спирмена – оно равно 0,226 и превышает вычисленное значение коэффициента корреляции.
Таким образом, можно сделать вывод об отсутствии линейной корреляционной связи
между содержанием золота и свинца в пробах.
Здесь следует подчеркнуть, что пока мы рассматривали только гипотезу о наличии
линейной корреляции, когда зависимость математического ожидания одной величины от
значения другой выражается линейным уравнением, и поле точек соотношений величин
представляет собой «облако», более или менее вытянутое около некоторой прямой. Но
возможны и другие формы зависимости. Отсутствие линейной корреляции не означает
отсутствия корреляционной связи вообще. Проверка гипотезы о наличии криволинейной
корреляционной связи основывается на вычислении корреляционного отношения, о котором
мы поговорим немного позже.
10
Download