Дисперсионный анализ ANOVA

реклама
Занятие 4
Дисперсионный анализ
ANOVA
1
ANOVA
Сравнение ДВУХ И БОЛЕЕ групп
Дисперсионный анализ
ANOVA (analysis of variance)
Sir Ronald Aylmer
FISHER
2
ANOVA
Мы тестировали гипотезы о среднем значении для
одной и двух выборок.
Как быть, если выборок три или больше?
Предположим, у нас 4 группы тигров, которых кормят поразному. Различается ли средняя масса тигра в этих
группах?
3
ANOVA
Одна зависимая переменная (variable): масса;
Одна независимая (группирующая, factor) – тип еды.
One-way
ANOVA
Формулируем гипотезу Н0:
Тигров кормили:
1.
2.
3.
4.
овощами;
фруктами;
рыбой;
мясом.
H 01 : 1  2
H 02 : 1  4
H 03 : 1  3
H 04 : 2  3
H 05 :  2   4
H 06 :  3   4
H 0 : 1  2  3  4
Это сложная гипотеза (omnibus hypothesis).
Она включает в себя много маленьких
гипотез (для 3-х групп – 3, для 4-х – 12 …):
H 07 :
Парные
(pairwise)
нулевые
гипотезы
1   2
2

3   4
2
  3   4
H 08 : 1  2
3
...
Комплексные
(complex)
нулевые
гипотезы
4
ANOVA
Формулируем альтернативную гипотезу:
H1 : 1  2  3  4 ?
НЕВЕРНО!
Н1: 1  2
или
1  3
или
1  4 ...
Мы отвергаем общую Н0 гипотезу если верна хотя бы
одна из маленьких частных альтернативных гипотез
(парных или комплексных)!
Какая именно – ANOVA не говорит.
5
ANOVA
Почему бы не сравнить группы попарно t-критерием?
(Ошибка использования критерия Стьюдента)
1. мы таким образом проверяем не все гипотезы,
которые содержатся в сложной гипотезе;
2. резко увеличивается вероятность найти различия, где
их нет!! (общая вероятность ошибки 1-го рода).
Эффект МНОЖЕСТВЕННЫХ СРАВНЕНИЙ
(при сравнении нескольких групп попарно).
6
ANOVA
В случае, если все H0 верны,
суммарная вероятность ошибки
1-го рода в эксперименте из С
сравнений -
p  1  (1   )
C
В случае 4-х групп ≈ 26,5% (на
самом деле, чуть меньше)
Zar, 2010
7
ANOVA
Общая логика ANOVA
H 0 : 1  2  3  4
(т.е., средние в 4-х популяциях
равны)
Формируем 4 независимых случайных выборки и считаем
выборочные средние для каждой из них (они оценивают
популяционные средние).
Если Н0 верна, выборочные средние должны быть примерно
(насколько примерно?) одинаковы.
Чем дальше друг от друга отстоят средние значения в
группах, тем меньше вероятность, что верна Н0
В t-тесте сходство выборочных средних оценить легко – просто
посчитать разность. Но с 3-мя (4, 5...) группами так не получится!
8
ANOVA
Пусть все группы будут одинакового размера (для простоты
объяснения).
Если Н0 верна, то 4 наших группы получены из ОДНОЙ
популяции с конкретными средним μ и дисперсией σ2.
Получим 2 независимые точечные оценки σ2 и сравним их!
На этой идее основана АНОВА.
1. Оценим σ2 на основе дисперсии групповых средних (как
будто это выборочные средние)
k
s X2 
2
(
X

X
)
 j G
j 1
k 1
число групп
2. Оценим σ2 на основе дисперсий внутри групп
9
овощи
фрукты
мясо
рыба
151
108
147
130
135
94
138
128
137
84
143
140
118
87
135
142
132
82
153
139
135
79
137
145
131
74
148
144
137
73
140
140
121
67
144
141
140
78
146
140
152
63
151
142
133
90
145
137
151
81
146
148
132
96
147
142
139
83
150
143
96
89
144
140
133,7
83
144,6
140,1
1. Оценка общей дисперсии по
разбросу МЕЖДУ группами
средние в
каждой группе
MS B  s
2
X
общее среднее

X

n
 XG 
2
j
k 1
dfB = k-1
число групп -1 (4 - 1 = 3)
n
размер
группы
MSB – mean square between groups,
оценка расстояния между средними
в группах. (сокращение от mean
squared deviation from the mean)
различия большие - Н0 не верна
MSB = groups MS
10
ANOVA
ANOVAфрукты
овощи
мясо
рыба
151
108
147
130
135
94
138
128
137
84
143
140
118
87
135
142
132
82
153
139
135
79
137
145
131
74
148
144
137
73
140
140
121
67
144
141
140
78
146
140
152
63
151
142
133
90
145
137
151
81
146
148
132
96
147
142
139
83
150
143
96
89
144
140
133,7
83
144,6
140,1
2. Оценка общей дисперсии по
разбросу ВНУТРИ групп
сумма квадратов стандартных
отклонений внутри групп
s12  s 22  s32  ...  s k2
MSW 
k
число групп
dfW = nG - k
Это в случае групп, одинаковых по
размеру; если они различаются,
считается «взвешенное по размеру групп
среднее» дисперсий.
статистика:
MS B
F
MS W
MSw = error MS
11
ANOVA
Статистика критерия: F
оценка дисперсии между группами
F = оценка дисперсии внутри групп
MS B
F
MS W
Не соответствует общей формуле
параметр выборки – параметр популяции
Статистика =
стандартная ошибка параметра выборки
Приводится как Fdf B , dfW , т.е., например, F3,60
12
ANOVA
Статистика критерия: F
Принципиально ненаправленный («двусторонний») тест
13
ANOVA
ANOVA table
источник
SS
изменчивости
df
между
SSB
dfB
MSB
внутри
SSW
dfW
MSW
общее
SST
dfT
MS
F
F
SST  SSW  SS B
dfT  dfW  df B
dfW = nG - k
dfB = k-1
SS это суммы квадратов отклонений (sum of squared deviations):
SSB - средних в группах от общего среднего = Effect;
SSW – измерений от средних в группах = Error.
SST   ( X ij  X G ) 2   ( X ij  X j ) 2   ( X j  X G ) 2  SSW  SS B
SSW
MSW 
dfW
MS B
F
MS W
SS B
MS B 
df B
14
ANOVA
связь с двухвыборочным t-критерием Стьюдента
В случае числа групп k=2 однофакторный
дисперсионный анализ ANOVA эквивалентен t-критерию
Стьюдента, причём
F = t2
MSw идентично spooled
Т.е., условия применения и выводы одинаковы, за
исключением того, что ANOVA – всегда двусторонний
тест.
15
ANOVA
ANOVA effect size
«Практическая значимость» результата:
1.
SS B
 
SST
2.
sX
2
f 
MSW
η = 0.0099 – маленький эффект,
η = 0.0588 – средний эффект,
η = 0.1379 – большой эффект.
f = 0.1 – маленький эффект
f = 0.25 – средний эффект
f = 0.4 – большой эффект
Нет однозначных рекомендаций как считать размер эффекта для ANOVA
16
ANOVA
В каком случае значение F-статистики будет больше?
17
ANOVA
В каком случае значение F-статистики будет больше?
18
ANOVA
В каком случае значение F-статистики будет больше?
19
ANOVA
Две модели ANOVA
Модель 1(fixed-effect model) Модель 2 (random-effect model)
Исследователя интересуют
конкретные значения фактора.
Пример: влияние типа корма
на вес тигров.
Значения фактора задаются
случайно, исследователю важен
сам факт того, что данный фактор
влияет на изменчивость
исследуемой переменной. Такая
задача встречается редко.
Пример: влияние случайно
выбранных наблюдателей на
длительность груминга животного в
сводной таблице наблюдений.
Важен сам факт влияния разных
наблюдателей, а не конкретных людей.
Для Модели 2 другая H0 ; отличия между
моделями имеют значения для
многофакторного анализа.
20
ANOVA
One-way ANOVA: assumptions
(рекомендации и требования к выборкам)
1. Выборки должны быть случайными
2. Размеры выборок должны различаться как можно
меньше (с увеличением разницы в размерах между выборками
мощность теста резко падает);
3. Соответствие нормальному распределению
4. Равенство дисперсий в выборках
5. В выборках не должно быть очевидных аутлаеров
(они сильно влияют на дисперсии)
6. Желательно, чтобы размер выборок был ≥ 10
Небольшое отклонение от какогонибудь из требований компенсируется
соблюдением остальных.
21
ANOVA
Как повысить мощность ANOVA:
1. Увеличить размер выборок;
2. Уменьшить число групп;
3. Уменьшить внутригрупповую изменчивость.
Как и для двухвыборочного t-критерия, для ANOVA можно
перед проведением эксперимента рассчитать:
размеры выборок для заданных мощности и размера
эффекта;
мощность для выборок данного размера с конкретным
размером эффекта.
22
One-way ANOVA
23
assumptions: нормальность, гомогенность
Лучше использовать тест Левена, тест Барлетта – нежелательно (Zar, 2010) 24
One-way ANOVA
25
между
группами
внутри групп
мы отвергаем Н0.
тип еды влиял на
массу тигров
Intercept term is computed as the grand
sum of all the count data, squared, then
divided by N, the number of observations.
26
One-way ANOVA: effect size
27
Расчёт мощности для
1-Way ANOVA
28
29
Расчёт размера выборки (для каждой группы) при
планировании исследования для 1-Way ANOVA
30
31
ANOVA
На всякий случай:
Возможно провести one-way ANOVA в случае, если у
нас в руках есть только средние значения, показатели
разброса (SD, SE, s2) и размер выборок (например, из
какой-нибудь статьи)
Поскольку для каждой группы
s 2  SD 2  n(SE ) 2 , для k групп
k
SS w   (ni  1) si2
MSW 
i 1
SSW
dfW
dfW = nG - k
k
k
SS B   ni X i2 
i 1
( ni X i ) 2
i 1
k
n
i 1
i
MS B
F
MS W
SS B
MS B 
df B
dfB = k-1
32
ANOVA post hoc tests
Сложная «омнибусная» гипотеза АНОВЫ:
H 0 : 1  2  3  4  ...  k
Похожа на стрельбу из дробовика: не
нужно особенно точно целиться, НО
непонятно, какая дробинка попала в
какую мишень!
Какая же из отдельных гипотез не верна?
Ответить поможет апостериорный (post hoc) тест!
33
ANOVA post hoc tests
Если у нас 3 и более групп:
1. Сначала сравнить ВСЕ группы между собой с
помощью ANOVA
2. Если различия есть, использовать методы
множественного сравнения (группы сравнивают
попарно, но вводят поправки)
3. Если различий нет, мы НЕ ИМЕЕМ ПРАВА
ПРЕДПРИНИМАТЬ ДАЛЬНЕЙШИЙ АНАЛИЗ!
Двухвыборочный t-критерий для сравнения групп попарно
после проведения ANOVA тоже не годится!
Например, если мы сравним две крайние группы, это уже будут не
случайные выборки из генеральной совокупности, и  уже будет не
0.05!
34
ANOVA post hoc tests
Поправка Бонферрони (Bonferroni correction для
небольших k)
если мы хотим обеспечить уровень значимости α, то в
каждом из k сравнений (т-тестов) нужно принять
уровень значимости α/k
Простейшая поправка, но очень грубая!
Не работает при большом числе групп – с увеличением их числа
очень сильно падает мощность теста.
Сегодня почти не используется, её даже не включают в
современные учебники.
35
ANOVA post hoc tests
Тест Тьюки (Tukey HSD test)
Наиболее распространённый и рекомендуемый в
литературе тест (Hurlburt, 2006; Zar, 2010).
Рекомендуется для близких по размеру групп.
Проверяет только ПАРНЫЕ (но не комплексные) гипотезы.
H 01 : 1  2
H 02 : 1  4
H 03 : 1  3
…
?
36
ANOVA post hoc tests
Другие апостериорные тесты
1. Критерий Ньюмена-Кейлса (Newman-Keuls test) наименее строгий. Все средние упорядочивают по
возрастанию и вычисляют критерий; начинают от
сравнения наибольшего с наименьшим.
2. Критерий Шеффе (Scheffe test) – поверяет не только
парные гипотезы, но и комплексные.
3. Критерий Даннетта (Dunnett test) – используется для
сравнения нескольких групп с контрольной группой.
Размер контрольной группы рекомендуется делать
больше, чем размеры остальных групп в k  1 раз.
Бывает так, что в ANOVA нулевая гипотеза отвергается, а пост-хок
тесты не обнаруживают различий, так как их мощность ниже. В
37
этом случае необходимо увеличивать размер выборки.
Поправки для
множественных
сравнений и
сравнений с
контрольной
группой
38
1. Исследователь хочет сравнить размеры индивидуальных
участков разных особей в популяции в зависимости от
социальных условий: молодых особей, не отселившихся от
самки, периферийных молодых особей без пары, особей,
образовавших постоянные пары и старых одиноких особей
без пары. У него получилось 4 группы по 20 особей в
каждой. Н0? Тип статистического анализа? Статистика
критерия?
2. Производитель кукурузных хлопьев хочет узнать, хорошо
ли работает его новая машина для насыпания хлопьев в
пачки (рассчитанные на 300 г хлопьев). Он выбрал
случайным образом 25 пачек и взвесил их. Н0?
Статистический критерий?
3. Тот же производитель решил сравнить две машины для
насыпания хлопьев: старую и новую. Он выбрал случайным
образом 25 пачек, насыпанных каждой из машин, и взвесил
39
их. Н0? Статистический критерий?
4. Молочный завод подозревает, что какая-то из ферм,
которая поставляет ему молоко, снимает с него сливки.
Сотрудники взяли по 10 образцов молока с каждой из 4-х
ферм, измерили жирность в молоке, и статистика F
оказалась достоверна. Как узнать, какая из ферм
жульничает?
5. Специалист по маркетингу решил провести
исследование, чтобы выяснить, какую марку шоколада
предпочитают студенты. Он взял шоколад «Алёнка»,
«Альпен гольд», «Бабаевский» и «Вдохновение», лишил
их опознавательных знаков и предложил попробовать
каждую плитку 10 людям, которые должны были дать
оценку шоколаду по 15-бальной шкале. Н0?
Статистический критерий?
40
Скачать