Занятие 5 Дисперсионный анализ ANOVA (продолжение) 1 ANOVA post hoc tests Сложная «омнибусная» гипотеза АНОВЫ: H 0 : 1 2 3 4 ... k Похожа на стрельбу из дробовика: непонятно, какая дробинка попала в какую мишень! Если мы отвергли Н0, Какая же из отдельных гипотез не верна? Ответить поможет апостериорный (post hoc) тест! 2 ANOVA post hoc tests Если у нас 3 и более групп: 1. Сначала сравнить ВСЕ группы между собой с помощью ANOVA 2. Если различия есть, использовать методы множественного сравнения (группы сравнивают попарно, но вводят поправки) 3. Если различий нет, мы НЕ ИМЕЕМ ПРАВА ПРЕДПРИНИМАТЬ ДАЛЬНЕЙШИЙ АНАЛИЗ! Двухвыборочный t-критерий для сравнения групп попарно после проведения ANOVA тоже не годится! Например, если мы сравним две крайние группы, это уже будут не случайные выборки из генеральной совокупности, и уже будет не 0.05! 3 ANOVA post hoc tests Поправка Бонферрони (Bonferroni correction для небольших k) если мы хотим обеспечить уровень значимости α, то в каждом из k сравнений (т-тестов) нужно принять уровень значимости α/k Простейшая поправка, но очень грубая! Не работает при большом числе групп – с увеличением их числа очень сильно падает мощность теста. Сегодня почти не используется, её даже не включают в современные учебники. 4 ANOVA post hoc tests Тест Тьюки (Tukey HSD test) Наиболее распространённый и рекомендуемый в литературе тест (Hurlburt, 2006; Zar, 2010). Рекомендуется для близких по размеру групп. Проверяет только ПАРНЫЕ (но не комплексные) гипотезы. H 01 : 1 2 H 02 : 1 4 H 03 : 1 3 … ? Статистика (Q) похожа на t–статистику. 5 ANOVA post hoc tests Другие апостериорные тесты 1. Критерий Ньюмена-Кейлса (Newman-Keuls test) наименее строгий. Все средние упорядочивают по возрастанию и вычисляют критерий; начинают от сравнения наибольшего с наименьшим. 2. Критерий Шеффе (Scheffe test) – поверяет не только парные гипотезы, но и комплексные. 3. Критерий Даннетта (Dunnett test) – используется для сравнения нескольких групп с контрольной группой. Размер контрольной группы рекомендуется делать больше, чем размеры остальных групп в k 1 раз. Бывает так, что в ANOVA нулевая гипотеза отвергается, а пост-хок тесты не обнаруживают различий, так как их мощность ниже. В 6 этом случае необходимо увеличивать размер выборки. Поправки для множественных сравнений и сравнений с контрольной группой 7 Для публикаций В результатах указывают: Обязательно – сначала достоверные результаты ANOVA, т.е., F, df, p; Для теста Тьюки – p значение (например, … Tukey post hoc test, p=0.0001 …). 8 Анализ контрастов Сложная «омнибусная» гипотеза АНОВЫ: H 0 : 1 2 3 4 ... k Что делать, если мы изначально хотим проверить не все эти гипотезы? Хотим выстрелить из винтовки в строго определённую мишень? Если нас просто интересует сравнение 2-х групп, можно предпринять т-тест. А вот как проверить одну комплексную гипотезу? 9 a priori Tests = Planned comparisons = анализ контрастов (вместо ANOVA) Вся мощность теста направляется на одну гипотезу, остальные игнорируются. Важно: то, какую гипотезу тестировать, выбирают ЗАРАНЕЕ, до проведения какого-либо анализа! В идеале – ещё при постановке исследования. Частный случай а priori теста – двухвыборочный tкритерий Стьюдента. Процедура тестирования у а priori тестов – почти как у tкритерия Стьюдента. 10 анализ контрастов Обычно используются для тестирования КОМПЛЕКСНЫХ (а не парных) гипотез. Dr. J разработал новую диету и собирается протестировать её эффективность. Из 20 добровольцев группа 1 (n=5) соблюдает новую диету; группа 2 (n=5) занимается на тренажёре; группа 3 (n=5) занимается аэробикой; группа 4 (n=5) бегает по утрам. Сравнение антибиотиков разных групп 11 анализ контрастов Зависимая переменная – число грамм, на которое изменилась масса тела добровольцев за 3 месяца. Можно было бы провести ANOVA затем апостериорный тест, но нас интересует лишь сравнение диеты Dr. J с разными видами физических упражнений. 12 анализ контрастов H 0 : 1 2 3 4 3 1 1 1 H 0 : 1 2 3 4 0 3 3 3 «Контраст» = «сравнение» (contrast, comparison) – линейная комбинация средних значений. Коэффициенты сравнения – константы, на которые умножены средние. В сумме = нулю: C j 0 в данном случае Другая формулировка Н0: «популяционное сравнение» = 013 Примеры коэффициентов для анализа контрастов при разных нулевых гипотезах 14 анализ контрастов 1 1 1 H 0 : 1 2 3 4 0 3 3 3 1 1 1 H1 : 1 2 3 4 0 3 3 3 параметр выборки – параметр популяции Статистика = стандартная ошибка параметра выборки выборочное сравнение - 0 Статистика = стандартная ошибка выборочного сравнения C1 X 1 C2 X 2 C3 X 3 C4 X 4 t scontrast Она имеет t-распределение 15 анализ контрастов Ещё один пример: У нас 4 группы тигров, их кормят: овощами; фруктами; рыбой; мясом. Вопрос: отличается ли масса тигров, питающихся животной и растительной едой? H0 : 1 2 2 3 4 2 16 анализ контрастов 17 мы отвергаем Н0. Масса тигров, питавшихся растительной и животной едой, достоверно различалась. 18 анализ контрастов Planned comparisons (анализ контрастов): МОЩНОСТЬ такого теста существенно ВЫШЕ, чем последовательное использование АНОВЫ и методов множественного сравнения! Поэтому, если исследователя интересует конкретное сравнение, лучше использовать анализ контрастов. (и это лучше, чем просто объединить выборки и сравнить т-тестом, так как учитываются различия между группами по одну сторону знака «=») Большинство исследователей игнорируют этот метод, и зря. 19 Repeated measures ANOVA Сравнение связанных групп Преподаватель решил узнать, как у его студентов продолжительность занятий зависит от дня недели (он поделил время на 15-минутные блоки). Всегда одинаковое число наблюдений в столбцах! 20 Repeated measures ANOVA Представим, что эти группы независимы и проведём ANOVA. Различия между ними недостоверны. Почему? Из-за большой внутригрупповой изменчивости! Студенты по усердию сильно различаются между собой! Как элиминировать межиндивидуальные различия (between-subjects effect)? 21 Repeated measures ANOVA Вычесть из каждого измерения среднее значение для каждого студента! Измерения стали независимы от личности ученика («исправленные»), и дальше можно сравнить их ANOVA. Внутригрупповая изменчивость уменьшилась в разы! (от обычной ANOVA отличается число степеней свободы внутри измерений – df w (k 1)( n 1) ) 22 Repeated measures ANOVA H 0 : 1 2 3 4 Н1: нулевая гипотеза не верна Обычная ANOVA: оценка дисперсии между группами F = оценка дисперсии внутри групп MS B F MS W Repeated measures ANOVA: MS B оценка дисперсии между измерениями F F= MS err «ошибка» внутри исправленных измерений В отличие от обычной ANOVA, 3 источника изменчивости: 1. Между измерениями; 2. Между особями (получается из средних значений для особей); 23 3. «ошибка» (внутри «исправленных» измерений) – error, residual Repeated measures ANOVA = SSbetween groups SSwithin groups Рассчитываем F, сравниваем с критическим уровнем. 24 Repeated measures ANOVA Теперь Н0 будет отвергнута, т.е., преподаватель сможет утверждать, что усердие его учеников зависит от дня недели. Мощность дисперсионного анализа для повторных измерений выше, чем обыкновенного дисперсионного анализа (в случае связанных выборок). 25 Repeated measures ANOVA Другой пример: к тиграм-самцам пришёл новый служитель, а потом – новая уборщица. И возможно, они стали по-другому питаться. Мы хотим узнать, менялась ли их масса. Мы анализируем влияние служителя на массу тигров-самцов. Зависимая переменная – масса. Для каждой особи по 3 измерения (3 столбика в таблице). 26 Каждый тигр ТРИ раза участвует в наблюдениях. ДО СЛУЖ УБОР 1 тигр 2 тигр 3 тигр 4 тигр 5 тигр 6 тигр 356 351 353 355 354 355 363 361 358 356 359 355 200 182 193 194 184 173 H 0 : 1 2 3 оценка дисперсии между измерениями F= residual 27 В Statistica каждый столбик измерений называется dependent variable 28 изменчивость между особями между наблюдениями «ошибка» - внутри «исправленных» наблюдений Отвергаем Н0: Масса тигров в среднем достоверно изменялась после прихода 29 нового служителя и новой уборщицы. Repeated measures ANOVA Отвергаем Н0: Масса тигров в среднем достоверно изменилась после прихода нового служителя и новой уборщицы. А теперь можно провести апостериорный (post-hoc) тест. И выяснить, кто и как повлиял на массу тигров. 30 Factorial ANOVA One-way ANOVA: Одна зависимая переменная, variable (масса тела); Одна группирующая = фактор (тип пищи). Одна нулевая гипотеза Что делать, если нужно проанализировать влияние двух (трёх и т.д.) факторов на одну зависимую переменную? Можно было бы протестировать факторы по отдельности, но: 1. увеличится общая вероятность ошибки 1-го рода; 2. не будет учтено возможное взаимное влияние факторов 3. мощность двухфакторной модели выше. 31 Factorial ANOVA Например, Мы изучаем влияние размножения на массу тела у самок африканских земляных белок разного возраста. Зависимая переменная – масса тела. Фактор A – наличие выводка (1. есть; 2. нет) Фактор B – возраст (1 год, 2 года, 3 года и старше). Фактора ДВА, наш выбор - two-way ANOVA 32 Factorial ANOVA 1 год 2 года ≥3 года без выводка 440 438 429 502 602 892 868 855 866 932 1575 849 759 1602 1327 с выводком 308 328 326 326 325 737 798,5 876 810 861 1000,5 901 958 1032 883 Получилось a x b = 2 х 3 = 6 групп белок – 6 ячеек (cells) в таблице. Заметим, что во ВСЕХ ячейках должны выполняться условия соответствия нормальному распределению и равенства дисперсий. Пусть в каждой ячейке по n наблюдений. 33 Factorial ANOVA 1 год 2 года ≥3 года без выводка 440 438 429 502 602 892 868 855 866 932 1575 849 759 1602 1327 с выводком 308 328 326 326 325 737 798,5 876 810 861 1000,5 901 958 1032 883 Формулируем 3 нулевые гипотезы (и 3 альтернативные): Н0: наличие выводка не влияет на массу самки (μб/выводка =μс выводком) Н0: возраст самки не влияет на массу самки ( 1 2 3) Н0: нет взаимодействия между факторами. 34 Factorial ANOVA Первые две гипотезы понятны – они такие же, как в однофакторной ANOVA. Что же такое взаимодействие факторов? Если нет взаимодействия, каждый фактор должен давать отклонение от общего среднего в каждой ячейке на строго определённое число, для каждого уровня фактора, своё. Например, 2-хлетние самки тяжелее годовалых на 200 г в среднем, и это справедливо для всех самок – и с выводком, и без выводка. Если это условие не соблюдается, взаимодействие факторов есть! 35 Factorial ANOVA a MS factorA SS factorA df factorA bn ( X i X G ) 2 i 1 a 1 F factorA MS factorA F factorB MS factorB MS error b MS factorB SS factorB df factorB MS error j 1 b 1 MS error n 2 ( X ijl X ij ) i 1 j 1 l 1 N ab a SS error df error an ( X j X G ) 2 b Для ячеек одного размера 36 Factorial ANOVA Дисперсия между ячейками не равна сумме изменчивостей между уровнями фактора А и уровнями фактора В. Эта разница определяется взаимодействием факторов: MS AB int SS AB int SSbetweencells SS factorA SS factorB df AB int df betweencells df factorA df factorB dfinteraction= dffactorA x dffactorB FAB int a MS AB int MS error b SSbetweencells n( X ij X G ) 2 i 1 j 1 df betweencells ab 1 37 Factorial ANOVA То есть, для каждой гипотезы мы рассчитываем своё Fзначение и сравниваем его со своим критическим уровнем. Изменчивость между строками MSerror, cредняя по ячейкам внутригрупповая изменчивость Изменчивость между столбцами «взаимодействие» факторов Достоверное взаимодействие факторов говорит о том, что различия между уровнями одного из факторов неодинаковы для всех уровней другого фактора. 38 Factorial ANOVA ANOVA table 39 Factorial ANOVA Масса тела Масса тела Примерный вид графического представления: 1 2 ≥3 возраст с выводком без выводка 40 масса масса Factorial ANOVA без выводка с выводком 1 2 3 возраст и размножение, и возраст влияют на массу; взаимодействия факторов НЕТ без выводка с выводком 1 2 3 возраст возраст влияет на массу, размножение – нет; взаимодействие ЕСТЬ если линии на рисунке ПАРАЛЛЕЛЬНЫ, взаимодействия факторов НЕТ. если НЕ ПАРАЛЛЕЛЬНЫ, взаимодействие ЕСТЬ. (насколько они параллельны, решает ANOVA) 41 Factorial ANOVA Возможные варианты графиков для таблицы 2х3 (пример про 3 типа лечения у опытных и неопытных врачей): Оба эффекта недостоверны, но есть взаимодействие факторов 42 эффекты не достоверны, взаимодействия нет 1 эффект достоверен, взаимодействия нет 1 эффект достоверен, взаимодействие есть 2 эффекта достоверны, взаимодействия нет 43 Factorial ANOVA 1 эффект достоверен, взаимодействие есть 1 эффект достоверен, взаимодействия нет 44 Factorial ANOVA Как определить на глаз влияние каждого из факторов 45 Factorial ANOVA Взаимодействие между факторами ≠ корреляция между факторами!!! 1 год 2 года ≥3 года без выводка 900 с 1-м выводком 600 1200 900 с 2-мя выводками 300 600 1500 1200 900 1 год 2 года ≥3 года без выводка 900 с 1-м выводком 600 1200 900 с 2-мя выводками 300 600 600 1200 1200 Взаимодействия факторов НЕТ Взаимодействие факторов ЕСТЬ У старых самок участие в размножении по-другому сказывается на физическом состоянии, чем у молодых 46 Factorial ANOVA Для разных моделей АНОВы по-разному рассчитываются статистики F. 47 Factorial ANOVA Апостериорные (post hoc) тесты для двухфакторной АНОВы 1. Не используются для Модели 2 (а именно, для random factors); 2. Если взаимодействие между факторами достоверно, бессмысленно проводить пост хок тесты для каждого из факторов по отдельности, нужно сравнивать между собой ячейки. 48 Factorial ANOVA Частный случай Factorial ANOVA - Main effect ANOVA 1. Мы исследуем действие на выборку ДВУХ (трёх, четырёх) категориальных факторов (independent variables). 2. Зависимая переменная ОДНА. 3. Факторы НЕЗАВИСИМЫ (то есть, мы откуда-то заранее это уже знаем). Мощность такого теста выше, чем у Factorial ANOVA, но в независимости факторов надо как-то убедиться. 49 Main effect ANOVA Здесь тигры разного пола едят разную пищу 50 Тип еды оказывал достоверное влияние на массу тигров; пол – не оказывал достоверного влияния на массу. 51 Factorial ANOVA суслики даже здесь линии пересекаются 52 53 первые две гипотезы мы отвергаем: и пол, и возраст влияют на массу белок. третью не отвергаем: взаимодействия факторов НЕТ 54 Factorial ANOVA Если факторов не 2 а много, а зависимая переменная ОДНА, анализ называется Multiway ANOVA В этом случае становится много гипотез о взаимодействии факторов (для 3-х факторов 4 гипотезы об их взаимодействии). Не рекомендуется исследовать действие более 4-х факторов, так как затрудняется интерпретация результатов. Расчёт статистик в таких сложных случаях производится с использованием принципов регрессионного анализа. 55 Nested ANOVA Factorial ANOVA: в таблице были представлены все возможные комбинации факторов. Но существуют варианты исследований, которые этого не предполагают. Nested ANOVA: 1. Два и больше факторов; 2. Каждое значение одного фактора существует в комбинации только с одним значением другого фактора (подгруппы внутри групп) 3. Фактор, образующий подгруппы – random factor (Model II) Nested = hierarchical design http://www.biostathandbook.com/nestedanova.html 56 Nested ANOVA Например, мы хотим сравнить содержание свинца в шерсти крыс из двух разных линий. Крысы дороги, и у нас есть только по 6 крыс из линии. Зато мы взяли по 5 образцов шерсти с каждой крысы. 5 образцов меха с каждого зверька (возможно и дальнейшее деление подгрупп на «под-подгруппы» и т.д., т.е., иерархическая классификация) 57 Nested ANOVA В модели 2 фактора: 1) линия (2 группы крыс) fixed factor; 2) личность крысы – random factor. Каждая крыса принадлежит только к одной линии, так что это не factorial ANOVA. Тестируются две гипотезы – по числу уровней = факторов (взаимодействие факторов обычно не проверяется): MSsubgroups within groups F= MSerror within subgroups Проверка действия случайного фактора MSbetween groups F= MSsubgroups witin groups Проверка действия основного фактора 58 Nested ANOVA Если различия между подгруппами (крысами) нас не очень интересует, и число измерений в подгруппах одинаково ("balanced" design), можно просто посчитать средние для подгрупп и провести однофакторную АНОВУ. Но: чем больше различия в размерах подгрупп, тем это менее корректно; мы перестаём учитывать изменчивость внутри подгрупп, которая может интересовать исследователя сама по себе. 59 Nested ANOVA Фактор В – фиксированный, фактор С - случайный 60 Nested ANOVA Фактор В – фиксированный, фактор С - случайный 61 Multivariate factorial ANOVA = MANOVA Всё это время мы работали с ОДНОЙ зависимой переменной. что делать в случае, если ЗАВИСИМЫХ переменных две или больше? Например, нам интересно, как вид пищи (фактор) влияет на массу тигров и длину тела тигров (две зависимые переменные). 62 MANOVA Multivariate ANOVA = MANOVA многомерный дисперсионный анализ Multiway ANOVA Многофакторный дисперсионный анализ Предполагается многомерное нормальное распределение. 63 MANOVA Почему бы не провести отдельные дисперсионные анализы для каждой из переменных? 1. Вероятность ошибки 1-го рода превысит 5%; 2. Не будет учтена возможная корреляция между переменными; 3. Средние различия групп по каждой переменной могут быть малы, но по всем переменным совместно различия могут быть очевидными. 64 MANOVA Нулевая гипотеза одна: о равенстве средних значений между группами по каждой из переменных. Существует несколько вариантов статистики критерия для MANOVA. Все они считаются на основе: SStotal, SSbetween groups, SSwithin groups ( X i X )(Y j Y ) и сумм «векторных произведений» i j (это понятие уже из регрессионного анализа). В Statistica – Wilks’ lambda λ. Чем она меньше, тем вероятнее отвергнуть Н0. Это мера изменчивости, которая не объясняется действием факторов. Рассказ о MANOVA – в лекции 10! 65 MANOVA 66 MANOVA 67 MANOVA Требования и рекомендации: 1. Для MANOVA особенно важно, чтобы измерения были случайными и не зависели друг от друга. 2. Многомерное нормальное распределение 3. Гомогенность дисперсий в группах 4. Корреляции между зависимыми переменными должны быть одинаковыми между группами 5. Чем больше число переменных, тем меньше мощность теста, т.е., для большого числа переменных необходимы большие выборки 6. После проведения MANOVA допустимо проводить просто ANOVA с последующими пост-хок тестами. 68 Задания 1. крыс обучают ставить лесенку и доставать корм. В разных группах крыс используют разный корм: сыр, морковь и мясо. Затем часть крыс из каждой группы помещают в знакомую среду, а часть – в новые условия. Исследователь хочет узнать, как зависит время добычи корма в разных группах и условиях. Н0? Тип статистического анализа? Статистика критерия? 2. мы хотим изучить, как уровень глюкозы в крови у кошек зависит от времени суток. У нас есть 10 особей, мы взяли у каждой кровь утром, днём и вечером. Н0? Тип статистического анализа? Статистика критерия? 3. телефонная компания поставила новые телефоны в аэропорты и размышляет, стоит ли оборудовать места для разговоров креслом – не увеличит ли это продолжительность разговоров. В 15 местах она поставила кресла, в 15-и местах говорить можно только стоя. Как проверить влияет ли наличие кресла на длительность разговора? Н0? Тип статистического анализа? Статистика критерия? 69 4. Молочный завод подозревает, что какая-то из ферм, которая поставляет ему молоко, снимает с него сливки. Сотрудники взяли по 10 образцов молока с каждой из 4-х ферм, измерили жирность в молоке, и статистика F оказалась достоверна. Как узнать, какая из ферм жульничает? 5. Производитель кукурузных хлопьев хочет узнать, хорошо ли работает его новая машина для насыпания хлопьев в пачки (рассчитанные на 300 г хлопьев). Он выбрал случайным образом 25 пачек и взвесил их. Н0? Статистический критерий? 6. Тот же производитель решил сравнить две машины для насыпания хлопьев: старую и новую. Он выбрал случайным образом 25 пачек, насыпанных каждой из машин, и взвесил их. Н0? Статистический критерий? 70