Параметрические тесты

advertisement
Занятие 7
Трансформация данных.
Непараметрические
критерии.
1
Трансформация данных
Повторение из предыдущих занятий
Требования к выборке для
проведения
параметрических тестов
1. Случайность измерений (randomness)
2. Независимость измерений (independence)
3. Гомогенность дисперсии (homogeneity =
homoscedasticity)
4. Соответствие нормальному распределению
5. Для факторной ANOVA – аддитивность (пояснить с
табличкой)
2
Трансформация данных
Параметрические тесты:
нулевая гипотеза формулируется о конкретных
ПАРАМЕТРАХ РАСПРЕДЕЛЕНИЯ и/или эти параметры
входят в формулу статистики критерия.
Параметры: среднее значение, стандартное отклонение,
дисперсия…
Почему при проведении параметрических тестов важно
соблюдать условия?
Нарушим условие соответствия выборки нормальному
распределению и проведём одновыборочный t-тест
(односторонний)!
3
Трансформация данных
H0: μ ≤ 90 г;
H1 : μ > 90 г
Пусть σ известна.
Распределение статистики критерия
не будет нормальным, если в выборке не
нормальное распределение.
Пусть наше распределение скошено. Zраспределение тоже будет скошено!
р>0.05
р=0.05
-2
-1 0 1 2
критическое
значение
Вероятность, что среднее в
выборке попадёт в
критическую область
(рассчитанную для
нормального распределения),
будет выше, чем 0.05 –
увеличится ошибка 1-го рода
z
4
Трансформация данных
Основной вывод:
пренебрежения условиями использования
параметрических тестов может увеличивать ошибку 1-го
рода.
(Неизвестно, насколько)
Примечание: слабые отклонения от нормального
распределения не очень страшны (в силу Центральной
предельной теоремы), а для больших выборок ими
можно пренебречь (кроме регрессионного анализа).
ANOVA устойчива к отклонениям от нормального
распределения, особенно если выборки одинаковы по
размеру.
5
Трансформация данных
Какие бывают распределения:
Равномерное (uniform)
Может быть и дискретным, и непрерывным
6
Трансформация данных
Биномиальное распределение
Пример: рассмотрим выводки из 6
детёнышей каждый.
Возможное соотношение самцов и
самок в выводке:
6:0; 5:1; 4:2; 3:3; 2:4; 1:5; 0:6
7
Трансформация данных
Биномиальное распределение
распределение количества самцов в N выводков
(независимых случайных экспериментов) из n = 6 зверьков, таких
что вероятность рождения самца постоянна и равна p, а
Вероятность такого
выводка
вер-ть рождения самки q = 1 - p.
Isaac Newton
Количество самцов в
выводке из 6 зверьков
Если р мало, ситуация
лучше описывается
распределением Пуассона
Биномиальному распределению обычно соответствуют
доли, частоты, пропорции
8
Трансформация данных
Распределение Пуассона
Показывает вероятность того или иного количества
независимых друг от друга редких и случайных событий
(особей, контактов, мутаций и пр.) на заданном интервале
времени (участке пространства, объёме...).
λ=μ
 
2
Siméon Denis
Poisson
Распределению Пуассона соответствуют частоты,
количества случайно распределённых объектов
9
Трансформация данных
Распределение Пуассона
Сравнение распределения объектов во времени и
пространстве со случайным распределением (testing for
randomness)
2 
2 
2 
Важно: следует задавать размер элементарной единицы
пространства (времени и пр.), напр., квадрата, так, чтобы μ ≈ 1
10
Трансформация данных
Экспоненциальное распределение
Хорошо описывает распределение промежутков времени
(расстояний) между случайными событиями с заданной
средней частотой событий.
11
Другие распределения
Логнормальное, Гамма, геометрическое, отрицательное
биномиальное, гипергеометрическое и др.
12
Трансформация данных
частота
частота
Если распределение отлично от нормального, выборки не
гомогенны, факторы мультипликативны, можно
ТРАНСФОРМИРОВАТЬ данные
значение признака
значение признака
Прекрасное свойство: часто трансформация данных
приводит одновременно к нормальному распределению,
гомогенности и аддитивности
13
Трансформация данных
1. Логарифмическая трансформация (logarithmic
transformation):
•Делает симметричным скошенное вправо (positively
skewed) распределение.
•Используется в случае, когда среднее значение в
группе прямо пропорционально стандартному
отклонению.
X i  lg X i
X i  lg  X i  1
Если в результате логарифмирования получилось
нормальное распределение, исходное распределение было
логнормальным.
14
Трансформация данных
2. Извлечение квадратного корня (square root
transformation)
• Используется, когда среднее значение в группе
прямо пропорционально дисперсии.
• обычно такое явление свойственно выборкам из
распределения Пуассона (т.е., данные представляют собой
количества случайных событий, объектов…)
X i 
Xi
X i  X i  0,5
Например, количество социальных контактов в час.
15
Трансформация данных
3. Арксинусная трансформация (arcsine transformation)
• применяется для процентов и долей (Xi ≤ 1),
которые обычно формируют биномиальное
распределение.
X i  arcsin
Xi
Например, мы исследуем
долю самцов или долю
переживших зиму детёнышей
в выводках сурков.
Прочие трансформации см. Zar, 2010 (1999)
16
Трансформация данных
4. Box-Cox transformation
Универсальная трансформация данных, в которой
программа методом проб подбирает наилучшие
параметры и способ трансформации для конкретных
данных (ищется особый параметр λ)
17
Box-Cox
transformation
18
Непараметрические методы
Обычно параметрические методы не годятся, если
данные РАНГОВЫЕ: неизвестно, насколько одно
значение отличается от другого.
НО:
Zar, 2010
19
Если наше распределение не удовлетворяет условиям
параметрических тестов и трансформация не помогает или
невозможна, наш выбор -
Непараметрические методы (nonparametric methods)
= “distribution-free” tests
Свойства распределения неизвестны, и параметры
распределения (среднее, дисперсию и т. п.) мы использовать не
можем
Основной подход – ранжирование (ranking) наблюдений
(выстраиваем их по порядку от самого маленького значения к
наибольшему).
 подразумевается, что сравниваемые распределения
имеют одинаковую форму и дисперсию.
20
Непараметрические методы
Сравнение 2-х независимых групп
Мы исследуем два редких вида сумчатых. Хотим
сравнить размеры выводков у этих зверей.
Фактор – вид. Группы: 1. длинноухие; 2. пятнистые
Зависимая переменная – размер выводка
длинноухий
пятнистый 21
Непараметрические методы
Сравнение 2-х независимых групп:
Манн-Уитни тест (Mann-Whitney U-test)
Н0: размер выводка у длинноухих сумчатых такой же, как
и у пятнистых.
Н1: размер выводка не одинаков у этих видов.
Мы ничего не говорим про параметры
распределений!
Тест Манна-Уитни можно использовать и
для ранговых, и для непрерывных
переменных.
22
Непараметрические критерии
длинноухие
пятнистые
размер
ранг
размер
ранг
8
15.5
4
5
7
13
7
13
4
5
5
8.5
7
13
8
15.5
9
17.5
3
2
3
2
3
2
5
8.5
5
8.5
6
11
4
5
9
17.5
5
8.5
111.5
Это непараметрический аналог
двухвыборочного t-теста.
Ранжируем данные от меньшего
к большему (игнорируя деление
на группы).
Число 3 встретилось трижды (это
называется связанные ранги, tied ranks):
ранги у них будут одинаковы =
(1+2+3)/3=2
59.5
23
Непараметрические методы
Статистика
критерия:
n1 (n1  1)
U1  n1n2 
 R1
2
n2 (n2  1)
U 2  n1n2 
 R2
2
n1 и n2 – размер выборок,
R1 и R2 – суммы рангов в выборках.
Статистикой критерия Uobs будет меньшее из этих двух
значений. Причём Н0 мы отвергнем в случае, если оно
будет МЕНЬШЕ критического значения Ucv. (т.е., это
исключение среди прочих критериев).
24
Непараметрические критерии
Если выборки удовлетворяют требованиям для
параметрических тестов, мощность теста Манна-Уитни =
95% от мощности t-теста.
М-У тест один из самых мощных среди
непараметрических тестов!
Альтернативная процедура – применить ранговую
трансформацию к исходным данным (т.е.,
проранжировать измерения как для М-У теста) и
провести двухвыборочный t-тест уже над рангами (Zar,
2010).
Только М-У тест (но не t-тест) пригоден для проверки необычной
гипотезы о том, что значения в одной группе отличаются от значений в
другой группе в a раз (достаточно умножить значения в соответствующей
группе на a и дальше провести стандартный М-У тест).
25
Непараметрические критерии
Если размеры выборок больше 20, распределение
статистики U приближается к нормальному со средним
n1n2
U 
2
Поэтому считается значение
zobs 
U obs  U
U
И сравнивается с критическим значением для нормального
распределения Z (наблюдаемое z должно быть по модулю больше
критического).
Поэтому для маленьких выборок в статье можно приводить
только U, а для больших выборок нужно приводить и U, и z.
Тест может быть односторонним и двусторонним
26
Непараметрические критерии
Сравнение 2-х независимых групп:
Тест Колмогорова-Смирнова (Kolmogorov-Smirnov
two-sample test): отличается от М-У теста тем, что М-У
более чувствителен к различиям средних значений,
медианы и т.п., а К-С тест более чувствителен к
различиям распределений по форме.
Тест Вальда-Вольфовица (Wald-Wolfowitz Runs Test)
– данные сортируются по зависимой переменной и
оцениваются последовательности элементов из
разных групп. Как и К-С тест, чувствителен к
различиям распределений по форме.
Манн-Уитни тест более мощный, чем эти тесты.
27
Mann-Whitney U-test
Kolmogorov-Smirnov two-sample test
Wald-Wolfowitz Runs Test
28
Отвергаем Н0: М-У тест показал, что размеры
выводков у разных видов неодинаковые
Просто результаты
М-У теста
Результаты М-У
теста с поправкой на
наличие tied ranks
Точное значение р для
небольших выборок
без tied ranks
В отличие от К-С и В-В тестов.
29
Непараметрические методы
Сравнение 2-х связанных групп
Критерий Вилкоксона (Wilcoxon matched pair test)
Изучаем утконосов, и хотим знать – различается ли
отношение самки к самцу и самца к самке в парах
Мы считаем частоту дружелюбных контактов со
стороны самки к самцу и наоборот. У каждого
самца есть по жене, а у каждой самки – по мужу.
30
Непараметрические методы
Н0: количество контактов в популяции, из
которой мы получили выборку самцов, такое же,
как и в популяции, из которой выборка самок.
Н1: количество контактов не одинаково.
Фактор – пол. (1. самцы; 2. самки)
Зависимая переменная – частота инициирования
дружелюбных контактов.
31
Непараметрические методы
1.Считают разности между
самец самка
значениями в парах;
1 пара 356 363
2 пара
3 пара
4 пара
5 пара
6 пара
351
353
355
354
355
361
358
356
359
355
Di  X i1  X i 2
2. исключают нулевые разности;
3.присуждают абсолютным значениям
(по модулю) разностей ранги;
4. суммируют отдельно ранги
положительных и отрицательных
разностей;
5.Наименьшая из этих сумм статистика Т.
6. Отвергаем Н0, если Т меньше Tcv.
Аналог t-теста для двух связанных выборок, мощность –
около 95% мощности t-теста . При числе пар >100 Т
апроксимируется нормальным распределением.
32
Wilcoxon matched pair test
Число дружелюбных контактов
у самцов и самок в парах было
неодинаковым
33
Непараметрические критерии
Сравнение 2-х связанных групп: Знаковый тест (Sign test)
Считают разности в парах, но не ранжируют их, а просто
определяют число положительных и отрицательных
разностей (нули исключают). Сравнивают их соотношение с
1:1. (биномиальным тестом)
Подходит для случаев, когда точные значения
переменной не известны.
Имеет низкую мощность, поэтому применяется только
в больших выборках (больше 20 пар).
34
Непараметрические критерии
Сравнение ≥3-х независимых групп
Тест Крускала-Уоллиса (Kruskal-Wallis test)
Мы получили возможность включить в работу третий,
особенно редкий вид сумчатого. Теперь нас интересует,
различается ли количество пищи, которую съедают за день
особи этих видов.
Фактор – вид. Группы: 1. длинноухие; 2. пятнистые;
3. хвостатые
35
Непараметрические критерии
Критерий Крускал-Уоллиса (Kruskal-Wallis test)
 Непараметрический аналог One-way ANOVA
 на 95% настолько же мощный, как и ANOVA;
 для 2-х групп идентичен Манн-Уитни тесту;
 подразумевает сходство форм распределений и
равенство дисперсий в группах (хотя бы на глаз)
36
Непараметрические критерии
1. все значения ранжируются от меньшего к
большему (игнорируя деление на группы);
2. Считается сумма рангов в каждой группе;
3. считается статистика H(df, N).
Н0: распределение в популяциях, из которых мы получили
выборки, одинаковое.
сумма рангов в
Н1: распределения не одинаковые.
каждой группе
R 2j
12
H
 3( N  1)

N ( N  1)
nj
общий размер
выборки
размер группы
37
Непараметрические критерии
Критерий Крускал-Уоллиса (Kruskal-Wallis test)
При маленьких выборок и 3-5-и групп считается Нстатистика.
Для больших выборок (или >5-и групп) Н
апроксимируется распределением χ2.
38
Непараметрические критерии
Сравнение ≥2-х независимых групп
Медианный тест (Median test)
Считается общая медиана для всех групп (получается, что
это не непараметрический тест, а distribution-free).
Затем критерием χ2 (см. Частотные критерии) сравнивают
числа значений, которые больше и которые меньше
общей медианы в каждой из групп (табличка 2 х k).
Подходит для выборок, в которых часть наблюдений
выходит за пределы шкалы (или их точные значения
неизвестны).
Но имеет очень низкую мощность – лишь 67% мощности
Манн-Уитни теста или теста Крускалла-Уоллеса.
Рекомендуется для групп с n ≥ 20.
39
Kruskal-Wallis test
Median test
40
Доля
растительной
пищи
отличалась
между разными
видами
41
Непараметрические критерии
Критерий Крускал-Уоллиса (Kruskal-Wallis test)
Как и в ANOVA, после сравнения нескольких групп имеет
смысл провести пост-хок тест (апостериорное
сравнение), по аналогии с тестом Тьюки, чтобы выяснить
какие же группы различаются.
Такие тесты существуют – Nemenyi test, Dunn’s test (Zar,
1999 или 2010).
И они есть в Statistica начиная с 8-й версии!
42
Пост-хок тест для
непараметрической
ANOVA
43
Непараметрические критерии
Сравнение ≥3 связанных групп
Критерий Фридмана (Friedman ANOVA)
У утконосов родились детёныши, и мы хотим знать,
изменилась ли упитанность самок после беременности и
после выкармливания потомства (мы оценивали её в
баллах).
1. состояние до беременности;
2. после рождения детей;
3. после выкармливания детёнышей
44
Непараметрические критерии
Критерий Фридмана (Friedman ANOVA)
 для двух групп эквивалентен Знаковому тесту (sign
test);
 по сравнению с аналогичными параметрическими
тестами, для 2-х групп имеет всего 64% мощности, для
3-х – 72%, для 100 стремится к 95%.
Основан на том, что значения ранжируются
меньшего к большему внутри каждой строки.
Потом суммируют ранги для каждого столбца и
считают статистику χ2r, которая имеет распределение
χ2 .
Нулевая и альтернативная гипотезы - по аналогии с
предыдущими тестами, о сходстве выборок.
45
Friedman ANOVA
46
Отвергаем Н0 –
состояние
самок
изменялось
47
Непараметрические критерии
Ранговые корреляции
частота
Требование к выборке для тестирования гипотезы о
коэффициенте корреляции Пирсона:
Для каждого X значения Y должны быть распределены
нормально, и для каждого Y все X должны иметь
нормальное распределение -
двумерное нормальное
распределение (bivariate
normal distribution)
значение признака
48
Непараметрические критерии
Трансформация данных в регрессионном
анализе и корреляциях
Применяется таким же образом, как и для других
критериев, НО основанием для применения должны
служить несоответствие нормальному распределению
и гетерогенность дисперсий, а не нелинейность связи!
Если распределения нормальны и дисперсии
гомогенны, нельзя использовать трансформацию
данных для получения линейной регрессии из
нелинейной.
49
Непараметрические критерии
Коэффициент корреляции Спирмана
(Spearman rank order correlation)
Связана ли дистанция расселения с индексом
упитанности у мышей?
Переменные – 1. дистанция расселения;
2. индекс упитанности
50
Непараметрические критерии
Коэффициент корреляции Спирмана:
1. Ранжируем данные для каждой переменной от
меньшего к большему;
2. Если встретились одинаковые значения (tied ranks),
присваиваем им средние ранги;
3. Считаем разности рангов в каждой паре данных;
4. Считаем коэффициент rs
rs  1 
6 D
2
i
n(n 2  1)
разности рангов
число строк
(размер выборки)
51
Непараметрические критерии
H0 : ρs=0
H1: ρs≠0
Статистика критерия – сам коэффициент корреляции
Спирмана (имеет t-распределение)
Коэффициент Спирмана – аналог коэффициента
корреляции Пирсона, стремится к нему в больших
выборках. Мощность – около 91% коэффициента
Пирсона.
Лучший для дробных количественных признаков. Размер
выборки ≥ 10.
52
Spearman Rank Order Correlations
53
Spearman Rank Order Correlations
Отвергаем Н0:
Оказалось, что дистанция
расселения положительно
связана с упитанностью у
мыши.
54
Непараметрические критерии
Коэффициент корреляции Кендалла (Kendall’s
coefficient of rank correlation, Kendall-τ)
Он оценивает разность между вероятностью того, что
порядок данных в обеих переменных одинаков, и
вероятностью того, что порядки разные.
Считается совсем не так, как коэффициент Спирмана.
Связана ли дистанция расселения с
упитанностью у экзотических зелёных
мышей?
Только для ранговых переменных! Для количественных лучше
коэффициент Спирмана, особенно для больших выборок
55
Непараметрические критерии
Гамма-статистика (Gamma)
Почти как коэффициент корреляции Кендалла, её лучше
использовать, если в выборке много совпадающих
значений (tied ranks) - она их учтёт.
Ближе к коэффициенту Кендалла (тоже оценивает
вероятность совпадений).
56
Kendall’s coefficient of rank correlation, Kendall-τ
Отвергаем Н0: дистанция расселения у зелёных мышей
отрицательно связана с упитанностью.
57
Непараметрические критерии
Коэффициент конкордантности Кендалла (Kendall’s
coefficient of concordance): ≥2 переменных
Переменных может быть 3 и более. Значения ранжируются
внутри каждой переменной, и считается общая статистика
W, она примерно соответствует среднему коэффициенту
корреляции Спирмана для всех пар переменных.
Петя
Гриша
Гурвинек
Одна из задач – оценка согласия экспертов, например,
детей, оценивающих вкус 6 типов пирожных.
58
Коэффициент конкордантности Кендалла
Нестандартная организация таблицы!
59
Гипотезу о
0≤W≤1
Чем ближе коэффициент к
1, тем выше корреляция.
Чем ближе к нулю, тем
меньше связь переменных
(например, согласие экспертов).
60
Итак, при выборе теста важно, что:
1.Параметрические тесты более мощные, чем
непараметрические;
2.Непараметрические безопаснее в плане ошибки 1-го
рода;
3.Чем больше размер выборки, тем менее критичны
требования к распределению (по Центральной предельной
теореме); для выборок N ≥ 100 используют параметрические
тесты даже при больших отклонениях от нормального
распределения (кроме регрессий).
4.АНОВА не очень чувствительна к отклонениям от
нормального распределения (для одинаковых по размеру групп).
61
Дополнение на всякий случай
Сравнение 2-х индексов Шеннона
Считают t-статистику (Zar, 2010, p. 174)
Где
И сравнивают с табличным tcv
df=
62
Задания.
1. Издатели хотят узнать, насколько наличие цветных картинок в статье
помогает воспринимать текст. Выбрали 13 студентов, и каждому дали
два текста одинаковой сложности - с цветными и чёрно-белыми
картинками. Потом попросили оценить сложность текста по 10-бальной
шкале. Влияют ли цветные картинки на восприятие текста? Н0?
Статистический критерий?
2. Доктор Ворнер изучает, какие ярлычки с предупреждением об
опасности лучше действуют (опасность оценивают по 20-бальной
шкале). Он выбрал 40 добровольцев, разбил их на 4 группы, и показал
им 4 типа ярлычков – красные (обычный шрифт), красные (жирный
шрифт), чёрные (курсив), чёрные (заглавные буквы). Предыдущее
исследование показало, что цвет ярлыка важнее, чем шрифт. Так ли
это?
3. исследователь хочет узнать, насколько мнения мужчин сходны, когда
они оценивают привлекательность женщин. Он выбрал двух
добровольцев и показал им по 20 фотографий с девушками, попросив
оценить их привлекательность от 1 до 10. Статистический критерий?
Изменится ли выбор критерия, если добровольцев будет четверо?
63
64
Download