Статистика – 2.

advertisement
Статистика – 2.
Есть три вида лжи:
ложь, наглая ложь
и статистика.
Марк Твен
1. Сравнения групп
2. Связи
Полозов Г.Ю., к.б.н., МДЭБЦ
1. Сравнения количественных признаков:
o По распределению
o С использованием тестов сравнения (параметрические и непараметрические)
23
22
25
28
15
13
15
21
9
11
14
29
21
24
22
19,5
6,2
1,6
8
10
7
5
7
5
7
8
8
6
4
6
5
10
7
6,9
1,8
0,5
76
55
54
74
13
29
34
20
46
41
29
18
12
31
9
36,1
21,4
5,5
9
14
12
4
6
41
26
7
11
5
22
9
10
12
7
13,0 среднее
9,8 вар-са
2,5 ошибка
По виду распределения отличаются.
Можно сказать, чем??
Статистические ошибки:
Первого рода -
вероятность найти то, чего нет;
Второго рода -
не найти то, что есть (мощность теста).
Во всех тестах сравнений используют ошибки 1 рода, именуются
P-value
В статистических пакетах определяется автоматически путем сравнений рассчетной
величины критерия сравнения с табличной для данного количества степеней свободы
Df и уровня достоверности confidence level, величину которого можно принять
условно равной 95% (при этом р сравнивают с 0,05).
При расчетах вручную все величины сравниваются с табличными
Применение
параметрических
тестов
сравнения
Summary Statistics Col_1 Col_2
----------------------------------------------------Count 15 15
Average 19,4667 6,86667
Variance 38,4095 3,12381
Standard deviation 6,19754 1,76743
Minimum 9,0 4,0
Maximum 29,0 10,0
Stnd. skewness -0,290879 0,508142
Stnd. kurtosis -0,874651 -0,283942
Sum 292,0 103,0
td=|M1-M2| : [s12+s22] ;
=N1+N2 - 2.
Comparison of Standard Deviations
Standard deviation 6,19754
1,76743
Variance
38,4095
3,12381
Df
14
14
Null hypothesis: sigma1 = sigma2
(1) Alt. hypothesis: sigma1 NE sigma2
F = 12,2957 P-value = 0,0000310951
(2) Alt. hypothesis: sigma1 > sigma2
F = 12,2957 P-value = 0,0000155476
(3) Alt. hypothesis: sigma1 < sigma2
F = 12,2957 P-value = 0,999984
Comparison of Means
------------------95,0% ур.зн. Для Col_1: 19,4667 +/- 3,43209
95,0% ур.зн. Для Col_2: 6,86667 +/- 0,978772
Null hypothesis: mean1 = mean2
(1) Alt. hypothesis: mean1 NE mean2
t = 7,57213 P-value = 3,00814E-8
t = 7,57213 P-value = 0,00000101355
(2) Alt. hypothesis: mean1 > mean2
assuming equal variances: t = 7,57213
P-value = 1,50407E-8
not assuming equal variances: t = 7,57213
P-value = 5,06776E-7
(3) Alt. hypothesis: mean1 < mean2
assuming equal variances: t = 7,57213 P-value = 1,0
not assuming equal variances: t = 7,57213 P-value =
0,999999
Применение
непараметрических
тестов
сравнения
Данные тесты не привязаны к
параметрам нормального
распределения, но имеют более
низкую мощность, чем
параметрические
Comparison of Medians
Mann-Whitney (Wilcoxon) W tests to
compare medians
Median of sample 1: 21,0
Median of sample 2:
7,0
Null hypothesis: median1 = median2
(1) Alt. hypothesis: median1 NE median2
W = 2,0 P-value = 0,00000478282
(2) Alt. hypothesis: median1 > median2
W = 2,0 P-value = 0,00000239141
(3) Alt. hypothesis: median1 < median2
W = 2,0 P-value = 0,999998
Если распределение далеко
От нормального,
Применение
Непараметрических
Методов обязательно
Kolmogorov-Smirnov Test
----------------------Estimated overall statistic DN =
0,933333
Two-sided large sample K-S statistic =
2,55604
Approximate P value = 0,00000422911
Т.е. их применение
увеличивает вероятность ошибки
второго рода.
Выводы по примеру 1……….
1. Данные распределены не нормально, поэтому более адекватно применение
непараметрических тестов сравнения.
2. Размах вариабельности признака в первой группе выше, максимальное значение
признака в первой группе выше.
3. Значение признака в первой группе выше, чем во второй.
4. Отличия статистически значимы, что означает:


эти отличия можно экстраполировать на более широкие группы, их характер
сохранится;
выборки взяты из разных статистических совокупностей
Необходимо биологическое обоснование найденному явлению, в данном случае отличию
в количестве листьев на кустах одуванчика.
Пример 2. Качественные признаки
Сравним количества деревьев разных пород на изучаемых площадках 11 и 22.
p=n/N, p=1, n=N,
sp=[p(1-p)/N]
t=|p1-p2|:[p1(1- p1)/N1 +
p2(1- p2)/N2]
Дерево /
Место
С
Б
О
Я
Д
Сумма
11
229
172
22
4
75
502
22
38
27
19
6
9
99
Сумма
267
199
41
10
84
601
Дерево /
Место
С
Б
О
Я
Д
Сумма
11
0.46
0.02
0.34
0.02
0.04
0.01
0.01 0.15
0.004
0.02
1
22
0.38
0.05
0.27
0.05
0.192
0.04
0.06 0.09
0.02
0.03
1
Сумма
Далее можно проводить сравнение по t.
1
Вывод: отличия по частоте встречаемости пород статистически
значимы и отражают отличия между рассматриваемыми
площадками
pi=Ni*Nj/
Дерево /
Место
С
Б
О
Я
Д
Сумма
11
224
166
34
8
70
502
22
43
33
7
2
14
99
Сумма
267
199
41
10
84
601
Проводим сравнения, используя
метод 2
Верхняя таблица – ожидаемые
количества;
Нижняя – величины отклонений, их
сумма – величина расчетного 2
Df=4*1=4
2=[(pi - pi)2 / pi]
confidence level=95%
Дерево /
Место
С
Б
О
Я
Д
11
0.11
0.22
4.24
2
0.36
22
0.58
1.1
20.57
8
1.79
Сумма
Сумма
38,97
2 табл= 9,49
38,97>9,49 откуда
следует, что различия не
случайны и
статистически значимы!
Связи между массивами переменных величин описываются
показателями связи, или корреляциями.
Самая тесная связь – функция
Реализуемые на практике модели: линейная и нелинейная корреляции
На графике согласованное варьирование двух
переменных по годам. Это немного другое…
Расчет показателей связи между
переменными
2
3
4
5
6
7
8
9
2
3
4
6
5
6
7
8
9
1
2
3
4
5
6
6
6
2
1
2
3
4
5
5
6
6
Total (Corr.) 84,2353 16
Correlation Coefficient = 0,933854
P-Value=0,0000
The output shows the results of
fitting a linear model to describe
the relationship between Col_3 and
Col_4. The equation of the fitted
model is
Col_3 = 0,972163 + 1,15632*Col_4
Since the P-value in the ANOVA
table is less than 0.01, there is a
statistically significant relationship
between Col_3 and Col_4 at the
99% confidence level.
Вывод: показана
сильная
положительная
корреляция С=0,93
Между проявлением
двух признаков.
Требуется дать
биологическое
обоснование.
Предложена модель
линейной регрессии.
Величина связи между качественными признаками рассчитывается по таблице 2
зд
б
сумма
Лес
50
10
60
город
20
30
50
сумма
70
40
110
pi=Ni*Nj/
R= [ 2 /n]= [22.8/110]=0.45
Показана связь средней силы
между местом произрастания
дерева и его состоянием, но
статистическую достоверность
нужно проверить!!
2=[(pi - pi)2 / pi]
зд
б
сумма
зд
б
Лес
38
22
60
Лес
3,8
6,5
город
32
18
50
город
4,5
8
сумма
70
40
110
сумма
сумма
22,8
Download