Статистика – 2. Есть три вида лжи: ложь, наглая ложь и статистика. Марк Твен 1. Сравнения групп 2. Связи Полозов Г.Ю., к.б.н., МДЭБЦ 1. Сравнения количественных признаков: o По распределению o С использованием тестов сравнения (параметрические и непараметрические) 23 22 25 28 15 13 15 21 9 11 14 29 21 24 22 19,5 6,2 1,6 8 10 7 5 7 5 7 8 8 6 4 6 5 10 7 6,9 1,8 0,5 76 55 54 74 13 29 34 20 46 41 29 18 12 31 9 36,1 21,4 5,5 9 14 12 4 6 41 26 7 11 5 22 9 10 12 7 13,0 среднее 9,8 вар-са 2,5 ошибка По виду распределения отличаются. Можно сказать, чем?? Статистические ошибки: Первого рода - вероятность найти то, чего нет; Второго рода - не найти то, что есть (мощность теста). Во всех тестах сравнений используют ошибки 1 рода, именуются P-value В статистических пакетах определяется автоматически путем сравнений рассчетной величины критерия сравнения с табличной для данного количества степеней свободы Df и уровня достоверности confidence level, величину которого можно принять условно равной 95% (при этом р сравнивают с 0,05). При расчетах вручную все величины сравниваются с табличными Применение параметрических тестов сравнения Summary Statistics Col_1 Col_2 ----------------------------------------------------Count 15 15 Average 19,4667 6,86667 Variance 38,4095 3,12381 Standard deviation 6,19754 1,76743 Minimum 9,0 4,0 Maximum 29,0 10,0 Stnd. skewness -0,290879 0,508142 Stnd. kurtosis -0,874651 -0,283942 Sum 292,0 103,0 td=|M1-M2| : [s12+s22] ; =N1+N2 - 2. Comparison of Standard Deviations Standard deviation 6,19754 1,76743 Variance 38,4095 3,12381 Df 14 14 Null hypothesis: sigma1 = sigma2 (1) Alt. hypothesis: sigma1 NE sigma2 F = 12,2957 P-value = 0,0000310951 (2) Alt. hypothesis: sigma1 > sigma2 F = 12,2957 P-value = 0,0000155476 (3) Alt. hypothesis: sigma1 < sigma2 F = 12,2957 P-value = 0,999984 Comparison of Means ------------------95,0% ур.зн. Для Col_1: 19,4667 +/- 3,43209 95,0% ур.зн. Для Col_2: 6,86667 +/- 0,978772 Null hypothesis: mean1 = mean2 (1) Alt. hypothesis: mean1 NE mean2 t = 7,57213 P-value = 3,00814E-8 t = 7,57213 P-value = 0,00000101355 (2) Alt. hypothesis: mean1 > mean2 assuming equal variances: t = 7,57213 P-value = 1,50407E-8 not assuming equal variances: t = 7,57213 P-value = 5,06776E-7 (3) Alt. hypothesis: mean1 < mean2 assuming equal variances: t = 7,57213 P-value = 1,0 not assuming equal variances: t = 7,57213 P-value = 0,999999 Применение непараметрических тестов сравнения Данные тесты не привязаны к параметрам нормального распределения, но имеют более низкую мощность, чем параметрические Comparison of Medians Mann-Whitney (Wilcoxon) W tests to compare medians Median of sample 1: 21,0 Median of sample 2: 7,0 Null hypothesis: median1 = median2 (1) Alt. hypothesis: median1 NE median2 W = 2,0 P-value = 0,00000478282 (2) Alt. hypothesis: median1 > median2 W = 2,0 P-value = 0,00000239141 (3) Alt. hypothesis: median1 < median2 W = 2,0 P-value = 0,999998 Если распределение далеко От нормального, Применение Непараметрических Методов обязательно Kolmogorov-Smirnov Test ----------------------Estimated overall statistic DN = 0,933333 Two-sided large sample K-S statistic = 2,55604 Approximate P value = 0,00000422911 Т.е. их применение увеличивает вероятность ошибки второго рода. Выводы по примеру 1………. 1. Данные распределены не нормально, поэтому более адекватно применение непараметрических тестов сравнения. 2. Размах вариабельности признака в первой группе выше, максимальное значение признака в первой группе выше. 3. Значение признака в первой группе выше, чем во второй. 4. Отличия статистически значимы, что означает: эти отличия можно экстраполировать на более широкие группы, их характер сохранится; выборки взяты из разных статистических совокупностей Необходимо биологическое обоснование найденному явлению, в данном случае отличию в количестве листьев на кустах одуванчика. Пример 2. Качественные признаки Сравним количества деревьев разных пород на изучаемых площадках 11 и 22. p=n/N, p=1, n=N, sp=[p(1-p)/N] t=|p1-p2|:[p1(1- p1)/N1 + p2(1- p2)/N2] Дерево / Место С Б О Я Д Сумма 11 229 172 22 4 75 502 22 38 27 19 6 9 99 Сумма 267 199 41 10 84 601 Дерево / Место С Б О Я Д Сумма 11 0.46 0.02 0.34 0.02 0.04 0.01 0.01 0.15 0.004 0.02 1 22 0.38 0.05 0.27 0.05 0.192 0.04 0.06 0.09 0.02 0.03 1 Сумма Далее можно проводить сравнение по t. 1 Вывод: отличия по частоте встречаемости пород статистически значимы и отражают отличия между рассматриваемыми площадками pi=Ni*Nj/ Дерево / Место С Б О Я Д Сумма 11 224 166 34 8 70 502 22 43 33 7 2 14 99 Сумма 267 199 41 10 84 601 Проводим сравнения, используя метод 2 Верхняя таблица – ожидаемые количества; Нижняя – величины отклонений, их сумма – величина расчетного 2 Df=4*1=4 2=[(pi - pi)2 / pi] confidence level=95% Дерево / Место С Б О Я Д 11 0.11 0.22 4.24 2 0.36 22 0.58 1.1 20.57 8 1.79 Сумма Сумма 38,97 2 табл= 9,49 38,97>9,49 откуда следует, что различия не случайны и статистически значимы! Связи между массивами переменных величин описываются показателями связи, или корреляциями. Самая тесная связь – функция Реализуемые на практике модели: линейная и нелинейная корреляции На графике согласованное варьирование двух переменных по годам. Это немного другое… Расчет показателей связи между переменными 2 3 4 5 6 7 8 9 2 3 4 6 5 6 7 8 9 1 2 3 4 5 6 6 6 2 1 2 3 4 5 5 6 6 Total (Corr.) 84,2353 16 Correlation Coefficient = 0,933854 P-Value=0,0000 The output shows the results of fitting a linear model to describe the relationship between Col_3 and Col_4. The equation of the fitted model is Col_3 = 0,972163 + 1,15632*Col_4 Since the P-value in the ANOVA table is less than 0.01, there is a statistically significant relationship between Col_3 and Col_4 at the 99% confidence level. Вывод: показана сильная положительная корреляция С=0,93 Между проявлением двух признаков. Требуется дать биологическое обоснование. Предложена модель линейной регрессии. Величина связи между качественными признаками рассчитывается по таблице 2 зд б сумма Лес 50 10 60 город 20 30 50 сумма 70 40 110 pi=Ni*Nj/ R= [ 2 /n]= [22.8/110]=0.45 Показана связь средней силы между местом произрастания дерева и его состоянием, но статистическую достоверность нужно проверить!! 2=[(pi - pi)2 / pi] зд б сумма зд б Лес 38 22 60 Лес 3,8 6,5 город 32 18 50 город 4,5 8 сумма 70 40 110 сумма сумма 22,8