Что же такое взаимодействие факторов?

реклама
Занятие 5
Дисперсионный анализ ANOVA
(продолжение)
1
ANOVA post hoc tests
Сложная «омнибусная» гипотеза АНОВЫ:
H 0 : 1  2  3  4  ...  k
Похожа на стрельбу из дробовика:
непонятно, какая дробинка попала
в какую мишень!
Если мы отвергли Н0,
Какая же из отдельных гипотез не верна?
Ответить поможет апостериорный (post hoc) тест!
2
ANOVA post hoc tests
Если у нас 3 и более групп:
1. Сначала сравнить ВСЕ группы между собой с
помощью ANOVA
2. Если различия есть, использовать методы
множественного сравнения (группы сравнивают
попарно, но вводят поправки)
3. Если различий нет, мы НЕ ИМЕЕМ ПРАВА
ПРЕДПРИНИМАТЬ ДАЛЬНЕЙШИЙ АНАЛИЗ!
Двухвыборочный t-критерий для сравнения групп попарно
после проведения ANOVA тоже не годится!
Например, если мы сравним две крайние группы, это уже будут не
случайные выборки из генеральной совокупности, и  уже будет не
0.05!
3
ANOVA post hoc tests
Поправка Бонферрони (Bonferroni correction для
небольших k)
если мы хотим обеспечить уровень значимости α, то в
каждом из k сравнений (т-тестов) нужно принять
уровень значимости α/k
Простейшая поправка, но очень грубая!
Не работает при большом числе групп – с увеличением их числа
очень сильно падает мощность теста.
Сегодня почти не используется, её даже не включают в
современные учебники.
4
ANOVA post hoc tests
Тест Тьюки (Tukey HSD test)
Наиболее распространённый и рекомендуемый в
литературе тест (Hurlburt, 2006; Zar, 2010).
Рекомендуется для близких по размеру групп.
Проверяет только ПАРНЫЕ (но не комплексные) гипотезы.
H 01 : 1  2
H 02 : 1  4
H 03 : 1  3
…
?
Статистика (Q) похожа на t–статистику.
5
ANOVA post hoc tests
Другие апостериорные тесты
1. Критерий Ньюмена-Кейлса (Newman-Keuls test) наименее строгий. Все средние упорядочивают по
возрастанию и вычисляют критерий; начинают от
сравнения наибольшего с наименьшим.
2. Критерий Шеффе (Scheffe test) – поверяет не только
парные гипотезы, но и комплексные.
3. Критерий Даннетта (Dunnett test) – используется для
сравнения нескольких групп с контрольной группой.
Размер контрольной группы рекомендуется делать
больше, чем размеры остальных групп в k  1 раз.
Бывает так, что в ANOVA нулевая гипотеза отвергается, а пост-хок
тесты не обнаруживают различий, так как их мощность ниже. В
6
этом случае необходимо увеличивать размер выборки.
Поправки для
множественных
сравнений и
сравнений с
контрольной
группой
7
Для публикаций
В результатах указывают:
Обязательно – сначала достоверные результаты
ANOVA, т.е., F, df, p;
Для теста Тьюки – p значение (например, … Tukey post
hoc test, p=0.0001 …).
8
Анализ контрастов
Сложная «омнибусная» гипотеза АНОВЫ:
H 0 : 1  2  3  4  ...  k
Что делать, если мы изначально
хотим проверить не все эти
гипотезы? Хотим выстрелить из
винтовки в строго определённую
мишень?
Если нас просто интересует сравнение
2-х групп, можно предпринять т-тест. А
вот как проверить одну комплексную
гипотезу?
9
a priori Tests =
Planned comparisons = анализ
контрастов (вместо ANOVA)
Вся мощность теста направляется на одну
гипотезу, остальные игнорируются.
Важно: то, какую гипотезу тестировать, выбирают
ЗАРАНЕЕ, до проведения какого-либо анализа! В идеале
– ещё при постановке исследования.
Частный случай а priori теста – двухвыборочный tкритерий Стьюдента.
Процедура тестирования у а priori тестов – почти как у tкритерия Стьюдента.
10
анализ контрастов
Обычно используются для тестирования КОМПЛЕКСНЫХ
(а не парных) гипотез.
Dr. J разработал новую диету и собирается протестировать
её эффективность. Из 20 добровольцев
группа 1 (n=5) соблюдает новую диету;
группа 2 (n=5) занимается на тренажёре;
группа 3 (n=5) занимается аэробикой;
группа 4 (n=5) бегает по утрам.
Сравнение антибиотиков разных групп
11
анализ контрастов
Зависимая переменная – число грамм, на которое
изменилась масса тела добровольцев за 3 месяца.
Можно было бы провести ANOVA затем апостериорный
тест, но нас интересует лишь сравнение диеты Dr. J с
разными видами физических упражнений.
12
анализ контрастов
H 0 : 1 
 2  3   4
3
1
1
1
H 0 : 1   2  3   4  0
3
3
3
«Контраст» = «сравнение» (contrast, comparison) –
линейная комбинация средних значений.
Коэффициенты сравнения – константы, на которые
умножены средние. В сумме = нулю:  C j  0
в данном случае
Другая формулировка Н0: «популяционное сравнение» = 013
Примеры коэффициентов
для анализа контрастов
при разных нулевых
гипотезах
14
анализ контрастов
1
1
1
H 0 : 1   2  3   4  0
3
3
3
1
1
1
H1 : 1   2  3   4  0
3
3
3
параметр выборки – параметр популяции
Статистика = стандартная ошибка параметра выборки
выборочное сравнение - 0
Статистика = стандартная ошибка выборочного сравнения
C1 X 1  C2 X 2  C3 X 3  C4 X 4
t
scontrast
Она имеет t-распределение
15
анализ контрастов
Ещё один пример:
У нас 4 группы тигров, их кормят: овощами; фруктами;
рыбой; мясом.
Вопрос: отличается ли масса тигров, питающихся
животной и растительной едой?
H0 :
1   2
2

3   4
2
16
анализ контрастов
17
мы отвергаем Н0.
Масса тигров, питавшихся растительной и животной едой,
достоверно различалась.
18
анализ контрастов
Planned comparisons (анализ контрастов):
МОЩНОСТЬ такого теста существенно ВЫШЕ, чем
последовательное использование АНОВЫ и методов
множественного сравнения!
Поэтому, если исследователя интересует конкретное
сравнение, лучше использовать анализ контрастов.
(и это лучше, чем просто объединить выборки и сравнить т-тестом,
так как учитываются различия между группами по одну сторону знака
«=»)
Большинство исследователей игнорируют этот метод, и зря.
19
Repeated measures ANOVA
Сравнение связанных групп
Преподаватель решил узнать, как у его студентов
продолжительность занятий зависит от дня недели (он
поделил время на 15-минутные блоки).
Всегда одинаковое число наблюдений в столбцах!
20
Repeated measures ANOVA
Представим, что эти группы независимы и проведём ANOVA.
Различия между ними недостоверны. Почему?
Из-за большой внутригрупповой изменчивости!
Студенты по усердию сильно различаются между собой!
Как элиминировать межиндивидуальные различия
(between-subjects effect)?
21
Repeated measures ANOVA
Вычесть из каждого измерения среднее значение для
каждого студента!
Измерения стали независимы от личности ученика
(«исправленные»), и дальше можно сравнить их ANOVA.
Внутригрупповая изменчивость уменьшилась в разы!
(от обычной ANOVA отличается число степеней свободы
внутри измерений – df w  (k  1)( n  1) )
22
Repeated measures ANOVA
H 0 : 1  2  3  4
Н1: нулевая гипотеза не верна
Обычная ANOVA:
оценка дисперсии между группами
F = оценка дисперсии внутри групп
MS B
F
MS W
Repeated measures ANOVA:
MS B
оценка дисперсии между измерениями
F
F=
MS err
«ошибка» внутри исправленных измерений
В отличие от обычной ANOVA, 3 источника изменчивости:
1. Между измерениями;
2. Между особями (получается из средних значений для особей);
23
3. «ошибка» (внутри «исправленных» измерений) – error, residual
Repeated measures ANOVA
= SSbetween groups
SSwithin groups
Рассчитываем F, сравниваем с критическим уровнем.
24
Repeated measures ANOVA
Теперь Н0 будет отвергнута, т.е., преподаватель сможет
утверждать, что усердие его учеников зависит от дня
недели.
Мощность дисперсионного анализа для повторных
измерений выше, чем обыкновенного дисперсионного
анализа (в случае связанных выборок).
25
Repeated measures ANOVA
Другой пример: к тиграм-самцам пришёл новый
служитель, а потом – новая уборщица. И возможно, они
стали по-другому питаться. Мы хотим узнать, менялась ли
их масса.
Мы анализируем влияние служителя на массу тигров-самцов.
Зависимая переменная – масса.
Для каждой особи по 3 измерения (3 столбика в таблице).
26
Каждый тигр ТРИ раза участвует в наблюдениях.
ДО СЛУЖ УБОР
1 тигр
2 тигр
3 тигр
4 тигр
5 тигр
6 тигр
356
351
353
355
354
355
363
361
358
356
359
355
200
182
193
194
184
173
H 0 : 1  2  3
оценка дисперсии между измерениями
F=
residual
27
В Statistica каждый
столбик измерений
называется
dependent variable
28
изменчивость между особями
между наблюдениями
«ошибка» - внутри «исправленных»
наблюдений
Отвергаем Н0:
Масса тигров в среднем достоверно изменялась после прихода
29
нового служителя и новой уборщицы.
Repeated measures ANOVA
Отвергаем Н0:
Масса тигров в среднем достоверно изменилась после
прихода нового служителя и новой уборщицы.
А теперь можно провести апостериорный (post-hoc) тест.
И выяснить, кто и как повлиял на массу тигров.
30
Factorial ANOVA
One-way ANOVA:
Одна зависимая переменная, variable (масса тела);
Одна группирующая = фактор (тип пищи).
Одна нулевая гипотеза
Что делать, если нужно проанализировать влияние двух
(трёх и т.д.) факторов на одну зависимую переменную?
Можно было бы протестировать факторы по отдельности, но:
1. увеличится общая вероятность ошибки 1-го рода;
2. не будет учтено возможное взаимное влияние факторов
3. мощность двухфакторной модели выше.
31
Factorial ANOVA
Например,
Мы изучаем влияние размножения на массу тела у
самок африканских земляных белок разного возраста.
Зависимая переменная – масса тела.
Фактор A – наличие выводка (1. есть; 2. нет)
Фактор B – возраст (1 год, 2 года, 3 года и старше).
Фактора ДВА, наш выбор - two-way ANOVA
32
Factorial ANOVA
1 год
2 года
≥3 года
без
выводка
440
438
429
502
602
892
868
855
866
932
1575
849
759
1602
1327
с
выводком
308
328
326
326
325
737
798,5
876
810
861
1000,5
901
958
1032
883
Получилось a x b = 2 х 3 = 6 групп белок – 6 ячеек (cells) в
таблице.
Заметим, что во ВСЕХ ячейках должны выполняться
условия соответствия нормальному распределению и
равенства дисперсий.
Пусть в каждой ячейке по n наблюдений.
33
Factorial ANOVA
1 год
2 года
≥3 года
без
выводка
440
438
429
502
602
892
868
855
866
932
1575
849
759
1602
1327
с
выводком
308
328
326
326
325
737
798,5
876
810
861
1000,5
901
958
1032
883
Формулируем 3 нулевые гипотезы (и 3 альтернативные):
Н0: наличие выводка не влияет на массу самки
(μб/выводка =μс выводком)
Н0: возраст самки не влияет на массу самки ( 1   2  3)
Н0: нет взаимодействия между факторами.
34
Factorial ANOVA
Первые две гипотезы понятны – они такие же, как в
однофакторной ANOVA.
Что же такое взаимодействие факторов?
Если нет взаимодействия, каждый фактор должен давать
отклонение от общего среднего в каждой ячейке на строго
определённое число, для каждого уровня фактора, своё.
Например, 2-хлетние самки тяжелее годовалых на 200 г в
среднем, и это справедливо для всех самок – и с выводком, и
без выводка.
Если это условие не соблюдается, взаимодействие
факторов есть!
35
Factorial ANOVA
a
MS factorA 
SS factorA
df factorA
bn ( X i  X G ) 2

i 1
a 1
F factorA 
MS factorA
F factorB 
MS factorB
MS error
b
MS factorB 
SS factorB
df factorB
MS error
j 1
b 1
MS error
n
2

 ( X ijl  X ij ) 
i 1 j 1  l 1


N  ab
a
SS error

df error

an ( X j  X G ) 2
b
Для ячеек одного размера
36
Factorial ANOVA
Дисперсия между ячейками не равна сумме изменчивостей
между уровнями фактора А и уровнями фактора В. Эта
разница определяется взаимодействием факторов:
MS AB int
SS AB int SSbetweencells  SS factorA  SS factorB


df AB int
df betweencells  df factorA  df factorB
dfinteraction= dffactorA x dffactorB
FAB int
a
MS AB int

MS error
b
SSbetweencells   n( X ij  X G ) 2
i 1 j 1
df betweencells  ab  1
37
Factorial ANOVA
То есть, для каждой гипотезы мы рассчитываем своё Fзначение и сравниваем его со своим критическим уровнем.
Изменчивость между строками
MSerror, cредняя по ячейкам
внутригрупповая изменчивость
Изменчивость между столбцами
«взаимодействие» факторов
Достоверное взаимодействие факторов говорит о том, что
различия между уровнями одного из факторов неодинаковы для
всех уровней другого фактора.
38
Factorial ANOVA
ANOVA table
39
Factorial ANOVA
Масса тела
Масса тела
Примерный вид графического представления:
1
2 ≥3
возраст
с выводком без
выводка
40
масса
масса
Factorial ANOVA
без выводка
с выводком
1
2
3
возраст
и размножение, и возраст влияют
на массу;
взаимодействия факторов НЕТ
без выводка
с выводком
1
2
3
возраст
возраст влияет на массу,
размножение – нет;
взаимодействие ЕСТЬ
если линии на рисунке ПАРАЛЛЕЛЬНЫ, взаимодействия
факторов НЕТ.
если НЕ ПАРАЛЛЕЛЬНЫ, взаимодействие ЕСТЬ.
(насколько они параллельны, решает ANOVA)
41
Factorial ANOVA
Возможные варианты графиков для таблицы 2х3
(пример про 3 типа лечения у опытных и неопытных врачей):
Оба эффекта недостоверны, но есть взаимодействие факторов 42
эффекты не
достоверны,
взаимодействия нет
1 эффект достоверен,
взаимодействия нет
1 эффект достоверен,
взаимодействие есть
2 эффекта достоверны,
взаимодействия нет
43
Factorial ANOVA
1 эффект достоверен,
взаимодействие есть
1 эффект достоверен,
взаимодействия нет
44
Factorial ANOVA
Как определить на глаз влияние каждого из факторов
45
Factorial ANOVA
Взаимодействие между факторами ≠ корреляция между
факторами!!!
1 год 2 года ≥3 года
без выводка 900
с 1-м
выводком
600
1200
900
с 2-мя
выводками
300
600
1500
1200
900
1 год 2 года ≥3 года
без выводка 900
с 1-м
выводком
600
1200
900
с 2-мя
выводками
300
600
600
1200
1200
Взаимодействия
факторов НЕТ
Взаимодействие
факторов ЕСТЬ
У старых самок участие в
размножении по-другому
сказывается на физическом
состоянии, чем у молодых
46
Factorial ANOVA
Для разных моделей АНОВы по-разному рассчитываются
статистики F.
47
Factorial ANOVA
Апостериорные (post hoc) тесты для двухфакторной АНОВы
1. Не используются для Модели 2 (а именно, для random
factors);
2. Если взаимодействие между факторами достоверно,
бессмысленно проводить пост хок тесты для каждого из
факторов по отдельности, нужно сравнивать между
собой ячейки.
48
Factorial ANOVA
Частный случай Factorial ANOVA - Main effect ANOVA
1. Мы исследуем действие на выборку ДВУХ (трёх,
четырёх) категориальных факторов (independent
variables).
2. Зависимая переменная ОДНА.
3. Факторы НЕЗАВИСИМЫ (то есть, мы откуда-то
заранее это уже знаем).
Мощность такого теста выше, чем у Factorial ANOVA, но в
независимости факторов надо как-то убедиться.
49
Main effect ANOVA
Здесь тигры разного пола едят разную пищу
50
Тип еды оказывал достоверное влияние на массу тигров;
пол – не оказывал достоверного влияния на массу.
51
Factorial ANOVA
суслики
даже здесь линии
пересекаются
52
53
первые две гипотезы мы отвергаем: и пол, и возраст
влияют на массу белок.
третью не отвергаем: взаимодействия факторов НЕТ
54
Factorial ANOVA
Если факторов не 2 а много, а зависимая переменная
ОДНА, анализ называется
Multiway ANOVA
В этом случае становится много гипотез о
взаимодействии факторов (для 3-х факторов 4
гипотезы об их взаимодействии).
Не рекомендуется исследовать действие более 4-х
факторов, так как затрудняется интерпретация
результатов.
Расчёт статистик в таких сложных случаях
производится с использованием принципов
регрессионного анализа.
55
Nested ANOVA
Factorial ANOVA: в таблице были представлены все
возможные комбинации факторов.
Но существуют варианты исследований, которые
этого не предполагают.
Nested ANOVA:
1. Два и больше факторов;
2. Каждое значение одного фактора существует в
комбинации только с одним значением другого фактора
(подгруппы внутри групп)
3. Фактор, образующий подгруппы – random factor
(Model II)
Nested = hierarchical design
http://www.biostathandbook.com/nestedanova.html
56
Nested ANOVA
Например, мы хотим сравнить содержание свинца в
шерсти крыс из двух разных линий.
Крысы дороги, и у нас есть только по 6 крыс из линии.
Зато мы взяли по 5 образцов шерсти с каждой крысы.
5 образцов
меха с каждого
зверька
(возможно и дальнейшее деление подгрупп на «под-подгруппы» и т.д.,
т.е., иерархическая классификация)
57
Nested ANOVA
В модели 2 фактора:
1) линия (2 группы крыс) fixed factor;
2) личность крысы – random factor. Каждая крыса принадлежит
только к одной линии, так что это не factorial ANOVA.
Тестируются две гипотезы – по числу уровней = факторов
(взаимодействие факторов обычно не проверяется):
MSsubgroups within groups
F=
MSerror within subgroups
Проверка действия
случайного фактора
MSbetween groups
F=
MSsubgroups witin groups
Проверка действия
основного фактора
58
Nested ANOVA
Если различия между подгруппами (крысами) нас не очень
интересует, и число измерений в подгруппах одинаково
("balanced" design), можно просто посчитать средние для
подгрупп и провести однофакторную АНОВУ.
Но:
чем больше различия в размерах подгрупп, тем это
менее корректно;
мы перестаём учитывать изменчивость внутри подгрупп,
которая может интересовать исследователя сама по себе.
59
Nested ANOVA
Фактор В – фиксированный,
фактор С - случайный
60
Nested ANOVA
Фактор В – фиксированный,
фактор С - случайный
61
Multivariate factorial ANOVA = MANOVA
Всё это время мы работали с ОДНОЙ зависимой
переменной.
что делать в случае, если ЗАВИСИМЫХ переменных две
или больше?
Например, нам интересно, как вид пищи (фактор) влияет
на массу тигров и длину тела тигров (две зависимые
переменные).
62
MANOVA
Multivariate ANOVA = MANOVA
многомерный дисперсионный
анализ
Multiway ANOVA
Многофакторный
дисперсионный анализ
Предполагается многомерное нормальное распределение.
63
MANOVA
Почему бы не провести отдельные дисперсионные
анализы для каждой из переменных?
1. Вероятность ошибки 1-го рода превысит 5%;
2. Не будет учтена возможная корреляция между
переменными;
3. Средние различия групп по каждой переменной могут
быть малы, но по всем переменным совместно
различия могут быть очевидными.
64
MANOVA
Нулевая гипотеза одна: о равенстве средних значений
между группами по каждой из переменных.
Существует несколько вариантов статистики критерия
для MANOVA.
Все они считаются на основе:
SStotal, SSbetween groups, SSwithin groups
( X i  X )(Y j  Y )
и сумм «векторных произведений» 
i
j
(это понятие уже из регрессионного анализа).
В Statistica –
Wilks’ lambda λ. Чем она меньше, тем вероятнее
отвергнуть Н0. Это мера изменчивости, которая не
объясняется действием факторов.
Рассказ о MANOVA – в лекции 10!
65
MANOVA
66
MANOVA
67
MANOVA
Требования и рекомендации:
1. Для MANOVA особенно важно, чтобы измерения
были случайными и не зависели друг от друга.
2. Многомерное нормальное распределение
3. Гомогенность дисперсий в группах
4. Корреляции между зависимыми переменными
должны быть одинаковыми между группами
5. Чем больше число переменных, тем меньше
мощность теста, т.е., для большого числа
переменных необходимы большие выборки
6. После проведения MANOVA допустимо проводить
просто ANOVA с последующими пост-хок тестами.
68
Задания
1. крыс обучают ставить лесенку и доставать корм. В разных
группах крыс используют разный корм: сыр, морковь и мясо.
Затем часть крыс из каждой группы помещают в знакомую среду, а
часть – в новые условия. Исследователь хочет узнать, как зависит
время добычи корма в разных группах и условиях. Н0? Тип
статистического анализа? Статистика критерия?
2. мы хотим изучить, как уровень глюкозы в крови у кошек зависит
от времени суток. У нас есть 10 особей, мы взяли у каждой кровь
утром, днём и вечером. Н0? Тип статистического анализа?
Статистика критерия?
3. телефонная компания поставила новые телефоны в аэропорты
и размышляет, стоит ли оборудовать места для разговоров
креслом – не увеличит ли это продолжительность разговоров. В 15
местах она поставила кресла, в 15-и местах говорить можно
только стоя. Как проверить влияет ли наличие кресла на
длительность разговора? Н0? Тип статистического анализа?
Статистика критерия?
69
4. Молочный завод подозревает, что какая-то из ферм,
которая поставляет ему молоко, снимает с него сливки.
Сотрудники взяли по 10 образцов молока с каждой из 4-х
ферм, измерили жирность в молоке, и статистика F
оказалась достоверна. Как узнать, какая из ферм
жульничает?
5. Производитель кукурузных хлопьев хочет узнать,
хорошо ли работает его новая машина для насыпания
хлопьев в пачки (рассчитанные на 300 г хлопьев). Он
выбрал случайным образом 25 пачек и взвесил их. Н0?
Статистический критерий?
6. Тот же производитель решил сравнить две машины
для насыпания хлопьев: старую и новую. Он выбрал
случайным образом 25 пачек, насыпанных каждой из
машин, и взвесил их. Н0? Статистический критерий?
70
Скачать