Случайные величины

advertisement
Кафедра медицинской и биологической физики
Тема: Основы
корреляционного анализа.
лекция № 11 для студентов 1 курса,
обучающихся по специальности 030401–
Клиническая психология
к.п.н., доцент Шилина Н.Г.
Красноярск, 2015
План лекции:
Виды зависимостей и способы их
представления
Задачи корреляционного анализа
Корреляция рангов
Коэффициент ассоциации
(тетрахорический показатель связи)
Актуальность темы
До сегодняшнего дня мы изучали характеристики
некоторых генеральных совокупностей и выборок
из этих совокупностей. Каждую изучаемую
генеральную совокупность или выборку из нее
можно
описать
с
помощью
функций
распределения или таких характеристик, как
математическое
ожидание
(среднее)
и
дисперсия.
Как описать связи между
величинами
из
различных
совокупностей или выборок?
случайными
генеральных
Виды зависимостей
ВИДЫ ЗАВИСИМОСТЕЙ
Функциональная
Корреляционная
При функциональных зависимостях каждому
значению одной переменной величины соответствует
одно вполне
определенное
значение другой
переменной (функции).
Корреляционные
(статистические) связи
характеризуются
тем,
что
численному
значению одной переменной соответствует много
значений (распределение) другой переменной.
Изучение корреляционных
зависимостей
 Табличный метод
а) для небольшого количества измерений, не
сгруппированных в классы
№
1
2
3
4
5
6
7
8
9
Х
(рост)
158
161
166
170
174
178
166
174
170
у(вес)
59
60
61
65
70
69
63
65
67
 Табличный метод
б) для большого количества измерений
х(АД)
60-70
70-80
80-90
30-40
1
2
1
40-50
3
5
50-60
7
7
1
60-70
3
2
7
6
1
70-80
1
3
2
4
1
2
3
1
1
1
у
(ЧСС)
80-90
90-100
mx
100110
110120
120130
2
6
1
1
17
19
1
14
12
14
6
1
19
my
8
1
16
90100
2
4
6
1
72
 Графический метод
У
У
r=+0,5
r=0
Х
 Аналитический
метод
математической формулы)
Х
(в
виде
ЗАДАЧИ КОРРЕЛЯЦИОННОГО
АНАЛИЗА
 Определение тесноты (степени
сопряженности) между
варьируемыми признаками
 Определение формы и направления
связи
КОРРЕЛЯЦИЯ бывает:
положительной (прямой) и
отрицательной (обратной)
По форме – линейной и нелинейной.
Процедура оценки связи (корреляции)
между переменными двух типов
1. Находим среднее значение для
каждого типа переменных и формируем
новые переменные. Каждая новая
переменная есть старая переменная
минус среднее значений для переменных
данного типа.
Нахождение коэффициента
корреляции
n
 xi
n
y
y
i
i 1
n
x
i 1
n
n
n
Sy 
2
(
y

y
)
 i
i 1
n 1
Sx 
2
(
x

x
)
 i
i 1
n 1
2. Вычисляем ковариацию переменных
двух типов x и y:
cov(x, y )  M [( x  M [ x ])  ( y  M [ y ])]
1
cov(x, y )   ( xi  x )( yi  y )
n
ковариация
для выборки из
n опытов
Ковариация для независимых
переменных
0,6
0,4
0,2
0
-0,6
-0,4
-0,2
0
0,2
-0,2
-0,4
-0,6
cov(x,y)=-0,3185
r(x,y)=-0,1125
0,4
0,6
Связь между ростом (в метрах)
и весом человека (в кг)
140
120
Вес, кг
100
80
60
40
20
0
0
0,5
1
1,5
Рост, м
2
2,5
Нормированная связь «рост-вес»
40
вес - среднее, кг
30
20
10
0
-0,6
-0,4
-0,2
-10
0
0,2
-20
-30
-40
рост - среднее, м
Ковариация
сov (x, y)=199,31
0,4
0,6
Можно видеть, что величина ковариации зависит от того,
в каких единицах измеряются переменные.
Связь между ростом (в см)
и весом человека (в г)
140000
cov(x,y) = 19931916
120000
80000
60000
40000
20000
0
0
50
100
150
200
250
40000
Рост, см
30000
Вес - среднее, г
Вес, г
100000
20000
10000
0
-60
-40
-20 -10000 0
-20000
-30000
-40000
Рост - среднее, см
20
40
60
Связь между ростом (в километрах)
и весом человека (в тоннах)
0,14
0,12
0,08
0,06
0,04
cov(x,y)=0,000199319
0,02
0
0
0,0005
0,001
0,0015
0,002
0,0025
Рост, км
0,04
0,03
Вес - среднее, т
Вес, т
0,1
0,02
0,01
-0,0006
-0,0004
0
-0,0002 -0,01 0
0,0002
-0,02
-0,03
-0,04
Рост - среднее, км
0,0004
0,0006
3. Вычисляем коэффициент связи между
переменными, не зависящий от выбора шкал, в
которых измеряют изучаемые переменные. Для
этого делим величину ковариации на
произведение стандартных отклонений для
каждой из переменных.
r
cov( x, y )
 x y
r - коэффициент корреляции
cov(x, y )
r
sx s y
так как
коэффициент корреляции для выборки
то
( yi  y )
( xi  x )
tx 
и ty 
sx
sy
t t

r
x y
n
(x


i
 x )( yi  y )
ns x s y
На практике коэффициент корреляции рассчитывают
по формуле:
r
n  x i yi   x i  yi
(n  x i2  ( x i ) 2 )(n  y i2  ( y i ) 2 )
Ковариации
и
корреляции
между
переменными при различном выборе единиц
измерения
Единицы
cov(x,y)
s(x)
s(y)
r(x,y)
м/кг
199,3192
0,211682
21,84657
0,979
см/г
19931916
21,168
21846,57
0,979
км/т
0,000199
0,000212
0,021847
0,979
Если
 r < 0,3 – связь слабая;
 0,3 ≤ r ≤ 0,5 – связь умеренная;
 0,5 ≤ r ≤ 0,7 – связь значительная;
 0,7 ≤ r ≤ 0,9 – связь сильная;
 r = 0 – связь отсутствует;
 r = 1 – связь функциональная.
Пример: Определить наличие связи между
величиной годовой прибыли (Y) и затратами
на функционирование (Х) аптеки за 5 лет.
Оценить достоверность полученных
результатов.
X
6
3
7
5
10
Y
33
22
32
28
42
График зависимости годовой
прибыли от затрат аптеки
45
Y
40
35
30
25
20
15
10
5
0
0
2
4
6
X
8
10
12
5 1048  31157
r
 0,98
5  219  9615  5145  24649
r > 0,9 – связь сильная
r2=96%
Условие однородности связи
140
120
Вес, кг
100
80
60
40
20
0
0
0,5
1
1,5
Рост, м
r(x,y)=0,71
2
2,5
Оценки значимости коэффициента
корреляции
Полученный коэффициент корреляции является
выборочным, поэтому он имеет свою ошибку –
“ошибку” выборочности. Эта ошибка является мерой
расхождения между коэффициентом корреляции
выборки (r) и коэффициентом корреляции
генеральной совокупности (обозначим его ).
Согласно нулевой гипотезе предполагается, что в
генеральной совокупности нет связи между
варьирующими признаками (=0). Тогда критерий
нормированного отклонения:
tэкс
r  r 0 r



sr
sr
sr
Для малых выборок (n<30) ошибку
коэффициента корреляции sr можно
определить по формуле:
sr 
1 r 2
n2
где n-число пар
измерений
r n2
n2
tэм п 
r
2
2
1

r
1 r
0,98 3
tэм п 
 8,53
2
1  0,98
t0.95;3=3,18
tэмп > tкрит нулевая гипотеза отвергается, связь
достоверна, т.е. с увеличением затрат
увеличивается и годовая прибыль аптеки.
КОРРЕЛЯЦИЯ РАНГОВ
r  1 
6 d 2
n(n  1)
2
rp коэффициент Спирмена для
непараметрических показателей.
d=xρ- yρ ; n – объем выборки.
Коэффициент достоверности (для числа
пар рангов больше 9):
t   r
n2
1 r 2
Пример: Оценить связь между окрасом и
агрессивностью лис.
Лисы
ранги
d
d2
агрес-сть
окрас
А
1
3
-2
4
Б
2
1
1
1
В
3
2
1
1
Г
4
5
-1
1
Д
5
4
1
1
Е
6
8
-2
4
Ж
7
6
1
1
З
8
7
1
1
Агрессивность: 1 – слабая; 8 – сильная.
Окрас: 1 – худший; 8 – лучший.
6 d 2
6  14
r  1 
1
 0,83
2
n(n  1)
8  63
Р
n=5
n=6
n=7
n=8
0,95
1
0,89
0,75
0,71
1
0,84
0,86
0,99
0,999
n≥9
t   r
n2
1 r 2
Вывод: с вероятностью большей 0,95 можно сказать,
что между окрасом лис и их агрессивностью
существует прямая положительная связь
КОЭФФИЦИЕНТ АССОЦИАЦИИ
(тетрахорический показатель связи)
 Используется, когда связь устанавливается
только по наличию или отсутствию признака.
ad bc
r  
(a  b)(c  d )(а  c)(b  d )
a – особи, имеющие оба признака (++);
b – особи, имеющие первый признак, но не
имеющие второго (+-);
c – особи, имеющие второй признак, но не
имеющие первого (-+);
d – особи, не имеющие обоих признаков (--).
ПРИМЕР: При проверке действия прививки против
сыпного тифа получены первичные материалы
о числе заболевших (-) и не заболевших (+) из
числа получивших (+) и не получивших (-)
прививку. Оценить достоверность связи
Получили
прививку
Не
получили
прививку
Не заболели
++ а=54
-+ с=106
а+с=160
Заболели
+- b=6
-- d=44
b + d=50
Σ
а+ b=60
с+ d=150
ad bc
r  

(a  b)(c  d )( а  c)(b  d )
54  44  6 106

 0,205
60 150 160  50
Σ
n=210
Достоверность определяется по
критерию χ2++=n·r2++=210·0,2052=8,83
Для числа степеней свободы
ν=2-1 =1и Р=0,95
табличное значение χ2++=3,8.
Т.е. связь между прививкой и не
заболеванием брюшным тифом
прямая и достоверная.
Заключение
Нами рассмотрены:
 Корреляционный анализ
несгруппированных данных из
нормально распределенных
выборок.
 Непараметрические методы
корреляционного анализа.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА:
Основная литература:
 Попов А.М. Теория вероятней и
математическая статистика /А.М. Попов, В.Н.
Сотников. – М.: ЮРАЙТ, 2011. – 440 с.
 Герасимов А. Н. Медицинская статистика:
учебное пособие / А. Н. Герасимов. – М. : Мед.
информ. агентство, 2007. – с.
 Балдин К. В. Основы теории вероятностей и
математической статистики : учебник / К. В.
Балдин. – М. : Флинта, 2010. – с.
Учебно–методические пособия:
 Шапиро Л.А., Шилина Н.Г. Руководство к
практическим занятиям по медицинской и
биологической статистике Красноярск: ООО
«Поликом». – 2003.
БЛАГОДАРЮ ЗА ВНИМАНИЕ
Download