Кошмар Бонферрони - Институт общей генетики

advertisement
Биостатистика
8. Множественные
сравнения
Кошмар
Бонферрони
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН
Опыты по выявлению людей с
паранормальными способностями:
Joseph Rhine (1950)
1000 человек угадывали последовательность
Вывод
Д. Райна:
из 10 карт:
красная
или черная?
«нельзя сообщать подопытным людям
об их паранормальных способностях»
12 человек угадали 9 из 10 карт, двое все 10 карт
Все выявленные «экстрасенсы» в последующих опытах не
подтвердили свои способности
Что произошло?
1- Р(100 раз не найти)
Шансы найти «экстрасенса»
среди 100 человек =
Шансы найти «экстрасенса»
среди 1000 человек =
Точный тест Фишера с помощью монеты
Контроль:
1 дицентрик на 1000 клеток
против
Облучение:
9 дицентриков на 1000 клеток
Эти различия значимы
(в единичном тесте ),
Control:
1 мутация на 100 здоровых
против
Case:
9 мутаций на 100 больных
Значимость
различий
Если объемы
выборок равны, значимость различий
9 против
1 зависит
равна
от числа
событий
…и не
зависиттолько
от самих
объемов
выборок!!!
вероятности выпадения
(числа мутаций в выборках)
9 или 10 «орлов»
в 10 бросаниях монеты
но при проведении 100 тестов
вероятность появления
фальшивых отличий равна
Почему в середине 90-ых заговорили о
проблеме «multiple comparisons» ?
Проведение
большого
количества
тестов
 В ассоциативных
исследованиях
полиморфизма
ДНК, как(множественных
правило, фигурируютсравнений)
3-5 (или 5-20)
полиморфных
локусов (это фальшивых
число еще нужнооткрытий
умножить
связано
с опасностью
на число заболеваний или сравниваемых признаков)
 Genome-wide association study (GWAS):
генотипирование по > 500 000 SNP.
При уровне значимости 0.01 можно ожидать 5000
ложных ассоциаций
 Мета-исследования (исследования исследований):
как объединять и сравнивать данные, полученные
разными авторами
Как это распределенные
бывает?
Генерируем две одинаково
выборки
Odd Ratioгенотипами
– отношение шансов,
по 100 особей
с 20-локусными
Наблюдаем
появление
фальшивых
ассоциаций
популярная мера сопряженности.
При отсутствии связи OR=1
Частоты минорых
аллелей (в среднем 0.1)
Ген
111
222
333
444
555
666
777
888
999
10
10
10
11
11
11
12
12
12
13
13
13
14
14
14
15
15
15
16
16
16
17
17
17
18
18
18
19
19
19
20
20
20
Больные 1
Выборка
gen case
case
gen
gen
case
6
14
710
12
12
10
12
8
15
17
12
9
8
13
10
9
5
12
11
9
9
713
10
7
12
10
8
10
12
14
8
12
13
14
7
10
914
12
12
17
13
14
998
15
812
10
10
7
815
7
6
11
14
912
9
17
10
10
11
11
11
8
10
13
10
15
16
7
11
11
12
Должно быть
OR=1
Здоровые2
Выборка
gen control
control
gen
gen
control
7
897
9
5
210
7
14
513
9
12
16
9
8
11
13
11
10
13
6
410
12
12
9811
9
9
812
14
12
11
9
12
910
9
510
14
7
910
13
9
8910
6
96
12
11
10
716
9
14
7
13
9
7
810
10
10
13
10
6
865
23
41
OR
OR real
real
OR
OR
real
0.85
2.2
0.87
1.1
1.4
2.6
5.4
1.2
1.2
1.1
3.9
0.91
1.0
0.64
1.1
0.58
1.0
0.61
1.1
0.83
0.80
0.89
1.0
0.68
1.0
1.2
3.3
0.81
0.70
0.81
1.6
1.6
0.88
1.4
1.1
1.9
0.46
0.81
1.3
0.73
1.4
1.0
1.8
1.5
0.78
1.6
1.9
0.61
1.2
2.3
0.88
0.74
1.0
0.76
1.8
1.0
1.2
1.0
1.2
1.2
1.1
0.52
0.89
2.7
1.1
0.68
1.6
0.83
1.2
1.1
1.2
1.3
1.3
1.0
1.2
1.7
1.4
1.9
1.9
1.6
p
ppp
0.782
0.127
0.796
0.819
0.513
0.0896
0.0209
0.670
0.796
0.853
0.0105
0.841
1.00
0.371
0.841
0.239
1.00
0.405
0.835
0.683
0.655
0.819
1.00
0.467
1.00
0.782
0.0455
0.670
0.491
0.670
0.371
0.297
0.808
0.513
0.841
0.201
0.127
0.670
0.549
0.513
0.513
1.00
0.178
0.394
0.637
0.297
0.285
0.670
0.0881
0.808
0.532
1.00
0.617
0.221
1.00
0.782
1.00
0.655
0.695
0.835
0.162
0.819
0.0412
0.819
0.414
0.346
0.683
0.655
0.827
0.796
0.637
0.532
1.00
0.705
0.239
0.564
0.225
0.225
0.371
Значимо!
Сразу 3 локуса
«ассоциированы»
с заболеваемостью!
Как же избежать фальшивых открытий?
Чудес не бывает – надо снижать критический уровень
«маловероятности» (5%)
При проведении m независимых статистических тестов на уровне
значимости  , вероятность хотя бы одного фальшивого результата
должна быть
1-(1-)m < 0.05
Правило Карло Бонферрони (1935):
При проведение m независимых статистических тестов
значимы только те результаты, для которых
Правило Бонферрони ликвидирует значимость
вполне определенных результатов:
Две мутации, ассоциированные с заболеванием
Контроль
(100)
Больные
(100)
OR
p
Мутация 1
1
8
8,6
0,039
Мутация 2
5
15
3,6
0,032
Однако правило Бонферрони требует:
p < 0,05/2=0,025
1 против 7 при равных по объему выборках:
Правило Бонферрони ликвидирует значимость
вполне определенных результатов:
Одна мутация + любой, не относящийся к делу признак
Контроль
(100)
Больные
(100)
OR
p
Мутация 1
1
8
8,6
0,039
Фамилия
начинается
с гласной
буквы
36
40
1,19
0,646
Правило Бонферрони требует:
p < 0,05/2=0,025
Увы, это не шутка!!!
Assessment of individual sensitivity to ionizing radiation and
DNA repair efficiency in a healthy population
F. Marcona, C. Andreoli, et al. Mut. Res., 541 (2003)
Незначимо!
Поправка Бонферрони требует:
Генотипы
High-Throughput Detection of GST Polymorphic Alleles in a Pediatric Cancer Population
P. Barnette, R. Scholl, et al. Cancer Epidemiology, Biomarkers & PreventionVol. 13, 304–313, 2004
Контроль
13 генотипов
OR=6,4
P=0,007
8 видов
заболеваний
Гомозиготность по делециям GST защищает от рака!
OR=2,3
P=0,018
Незначимо!
Поправка Бонферрони требует:
Implication of Xenobiotic Metabolizing Enzyme gene (CYP2E1, CYP2C19,
CYP2D6, mEH and NAT2) Polymorphisms in Breast Carcinoma
A. Khedhaier, E. Hassen, et. al. BMC Cancer, 2008
Все стройно,
но Бонферрони требует:
При этом среднее время выживания
microsomal Epoxide Hydrolase: гомозигот СС выше, чем у больных с
другими генотипами
Минорный аллель (С)
обуславливает пониженную(повышенная эффективность химиотерапии?)
У больных 12%
активность фермента
гомозигот СС
против 6% в контроле
Bonferroni method creates more problems than it solves
Аргументы Томаса Пернежера (Thomas Perneger, 1998):
 Интерпретация данных зависит от числа тестов. Это
противно нашей интуиции. Данные не могут терять значимость
от того, что их кто-то подтвердил!
 При большом количестве тестов гипотеза о том, что все
наблюдаемые различия неслучайны, никому не нужна
 При коррекции Бонферрони вероятность упустить
существенные различия столь велика, что
 …лучше просто перечислить какие тесты дали
значимые результаты и, главное, почему
“Bonferroni adjustments are, at best, unnecessary and,
at worst, deleterious to sound statistical inference…”
Из разговоров на форуме molbiol.ru:
 …мы не будем гробить свои результаты из-за какого-то там
Бонферрони
 …спрашивать диссертанта о Бонферрони – это дурной тон
 …«бонферронофобия» набирает обороты
 …разработчики программ не желают вводить кнопочку
«Bonferroni»
 …хуже Бонферрони ничего нет, не считая отсутствия всякой
коррекции
Без коррекции на множественность не обойтись!
Пусть 2 выборки (здоровые и больные) сравниваются по m независимым
бинарным признакам (тестам), которые никак не связаны с заболеванием
Выберем из них рекордный тест, который в данном раскладе показал
максимальное различие частот, и посчитаем p-value
m
p-value для рекордного
эффекта (в среднем)
Порог
Бонферрони
<
1
0.2124
0,05
Это означает,
что сравнивая 2 выборки
по
2
0.1019
0,025
любым 100 SNPs, вы обязательно
5
обнаружите0.0396
снип, для которого p0,01
 0,002
10
0.0196
0,005
100
0.0019
0,0005
500
0.0004
0,0001
1000
0.0002
5.010-5
10 000
1.810-5
5.010-6
500 000
3.710-7
1.010-7
Еще раз об ошибках статистических тестов
биологпредположение
ориентирован наобконтроль
Нулевая Традиционно
гипотеза – обычно
отсутствии
I рода
значимости),
различий =ошибки
2 выборки
из(через
однойуровень
генеральной
совокупности
т.е. на гарантии отсутствия ложных открытий,
Ошибка I рода ()
Вероятность отвергнуть правильную нулевую гипотезу =
Вероятность
обнаружить
различия
их нет =
«Сначала
я говорил,
о чемтам,
будугде
говорить,
Вероятность
совершить
затем
говорю, фальшивое открытие
потом буду говорить, о чем сказал»
Ошибка II рода ()
Правило английского проповедника
Вероятность принять неправильную нулевую гипотезу =
Вероятность не обнаружить существующие различия =
Вероятность упустить открытие
Мощность
1- Ошибка
II рода о= возможности
… теста
и при =этом
мало заботится
Вероятность правильно
нулевуюIIгипотезу
упустить отвергнуть
открытие (ошибка
рода)
Вероятность не упустить открытие
Мощность статистических тестов
 Мощность 80% считается приемлемой
(мощность обычных тестов в реальных ситуациях)
 Консервативный тест - это тест с низкой мощностью
(напр., критерий Колмогорова-Смирнова)
 Метод Бонферрони – архиконсервативен
(особенно при сравнении частот)
 Во многих случаях коррекция Бонферрони делает
выявление значимых результатов попросту невозможным
От чего зависят ошибки статистических тестов?
 От размаха реально существующих отличий и разброса
данных
 От объемов выборок
С увеличением
объема выборки
мощность
теста
Ошибка
I рода (вероятность
фальшивого
открытия)
(вероятность
неотупустить
открытие)
слабо
объемов
выборок,
 Ошибки
I и IIзависит
рода однозначно
не связаны.
В целом
всегда
возрастает
они
сравнимы
по величине
ошибкаесли
II рода
растет
при
уменьшении
ошибки I рода
(главная причина маломощности метода Бонферрони )
Зависимость ошибки II рода от числа тестов при
использовании поправки Бонферрони
При 100 сравнениях ради того, чтобы гарантировать
Вероятность
пропустить
с OR=2.7
отсутствие
хотя быгенодного
на выборках 100 (case) и 100 (control)
ложного результата, мы упускаем 88% открытий!
Ошибка II рода
0,8
При m=100 ошибка равна 0.88
0,6
При 5тесте
сравнениях
упускаем 50%
В отдельном
вероятность
упустить открытиеоткрытий
равна 0.2
0,4
0,2
0
0 1
5
10
15
Число тестов
20
Новый принцип проверки статистических гипотез:
FDR-контроль
False Discovery Rate control: Benjamini, Hochberg (1995)
Вероятность фальшивого открытия < Уровня значимости
Ошибка I рода < 0.05
Традиционный принцип
заменяется на
105 статей в базе
Средняя доля фальшивых открытий < Выбранный уровень
Bonferroni, FWER, FDR и все такое

Bonferroni контролирует FWER
(family-wise error rate), т.е., вероятность
хотя бы одного фальшивого открытия
ассоциации гена с заболеваемостью

FDR – это контроль средней доли
фальш-ассоциированных генов среди всех
генов, для которых отвергнута нулевая
гипотеза.
Алгоритм контроля FDR
(Benjamini, Hochberg, 1995)
 Упорядочиваем тесты по уровню p-величин:
p 1  p 2  …  p m.
 Для контроля FDR на уровне α
Величина p для j-ого
находимтеста (гена)
Порядковый номер
гена
(например
0.05),
Желательный
уровень значимости
j 

j*  max  j : p j   
m 

Общее число тестов
при j =(генов)
1, …, j*.

Считаем различия значимыми

При j > j* различия считаются незначимыми
Пример: множественные сравнения по 10 тестам
Располагаем тесты в
Коррекция Коррекция по
порядке увелечения p
Bonferroni
FDR
Значимые различия
после коррекции по
0,005
0,005
FDR
0,005
0,010
Тест
pi
1
0,001
2
0,0055
3
0,005
0,01
В первой клетке
0,005
0,015
как
у Бонферрони,
во второй
клетке
0,005
0,02
вдвое
втрое больше,
больше
0,04и т.д ….0,005
0,005
0,3
4
5
6
7
8
9
10
0,015
Поправка Бонферрони
0,020
оставляет
значимым лишь
первое сравнение
0,025
0,030
0,035
И это
все!!!
0,005
0,040
0,5
Значимые
различия
без
Для 6-ого теста p больше
на
0,005 поправок0,045
0,6этого значения
множественность
0,005
0,050
0,8
То же самое в общем случае:
m – число сравнений,  =0.05 (например)
Bonferroni (1939) FDR (1995)
p1 <
/m
/m
p2 Бонферрони
/m
2/m
торжествует!
Контроль
FDR приносит
ощутимые
p3
/m
3/mрезультаты,
если хотя бы
…
…
/mодин тест удовлетворяет
правилу p < /m
pi
/m
i/m
…
…
/m
pm
/m

Коррекция на множественность тестов в
WinPepi
ETCETERA
Adjusted P values
Достаточно ввести
3 топовых
Значим только
первый тест
Общее число тестов
Пример: экспрессия 3051 генов при острой лейкемии
Golub T.R. Molecular classification of cancer: class discovery and class
prediction by gene expression monitoring. // Science. 2001, v.286.
Число генов с данным
уровнем t-статистики
t-статистика при сравнении
экспрессии гена у больных и
здоровых



t-тест: 1045 генов, для которых p < 0.05
Коррекция Бонферрони : 98 генов для p’<0.000016
FDR: 681 генов, для которых FDR < 0.05
Что делать, если FDR не помогает?
Permutation tests:
случайные перестановки пометок «case-control»
в компьютерных симуляциях по алгоритму:
 В исходной базе данных делаем случайную перестановку
лейблов case-control
Тем самым
мыp-уровни
отказываемся
от попыток
 Вычисляем
заново
для каждого
гена (pperm)
Точный тест Фишера – это тоже permutation test,
вычислить значимость различий.
только
реализованный
аналитически
(р
вычисляется

Повторяем
N раз (минимум
10000), фиксируя
Вместо
этогопроцедуру
мы ее «измеряем»
экспериментально,
по случаи,
формулам
комбинаторной
теориизначения
вероятностей)
когда
p
меньше
исходного
разыгрывая
perm ситуацию на компьютереp
 Вычисляем откорректированное p как
p' 

Число случаев p perm  p
N

Permutation test применительно к данным об
ассоциации заболеваемости с 10 SNP
Переставляем отметки «case-control» 10000 раз. В результате получаем коррекцию p
SNP
Частота минорного
аллеля
Case (100)
Control (100)
1
62
26
2
19
3
31
4
20
5
OR
Но так
p бывает неp`всегда
Indulgentia
4,6
0,0001
0,000
3,7
0,009
0,010
2,8
0,011
0,007
2,9
0,023
0,025
3,0
0,071
0,109
2,0
0,096
0,098
7
11 Значимо
по4без
FDR
Значимо
коррекции
23 множественность
13 на
44
30
1,8
0,103
0,058
8
54
39
1,8
0,120
0,067
9
59
53
1,3
0,571
0,476
10
40
41
1,0
0,911
1,000
6
6
Значимо по
Бонферрони
14
8
Почему Permutation test так либерален?
 Поправки Бонферрони и FDR предполагают, что все тесты
независимы
 Перестановка лейблов «case-control» сохраняет
корреляционные связи между данными
(в случае полиморфных генов можно сказать: «учитывает
неравновесие по сцеплению»)
 Учитывает совместные распределения тестовых
статистик
 В результате Permutation test значительно менее
консервативен, чем Bonferroni и FDR
Как реализовать permutation tests?
Не предусмотрен в стандартных статпакетах.
На сегодняшний день доступно:

free 30-day demo version
https://www.dynacom.co.jp/e/products/package/snpalyze
И все же всегда проще
simNum

sumDif
10000;
Table 0,
tot
genCase1
;
Take l, volSample
;
one.ill;
genControl1
xiSq
;
RandomPermutation 2 volSample ;
health

Length frCase
FREE!!!
tot Join ill, health ;
http://statgen.ncsu.edu/powermarker/index.html
ill tot Take l, volSample
Do l
самому!
one.health;
genCase1
genControl1
2
genCase1
genControl1
1 CDF
ChiSquareDistribution
1 , xiSq ;
Free software environmentp1 for
statistical
computing:
sumDif sumDif UnitStep p p1 , simNum ;
встроенные функции +simp
HaploStats,
SNPassoc,
PLINK и др.
sumDif simNum
N;
http://www.r-project.org/index.html
N;
Борьба с кошмаром Бонферрони продолжается!

Нейронные сети, случайные деревья,
генетические алгоритмы, гибсовские поля
и еще Бог знает что

Переход
от генотипов
к гаплотипам:
Типичная
ситуация
для 3 локусов:
реальное
уменьшение
числа сравнений.
27 возможных
генотипов,
но лишь
Информация
о межлокусных
сохраняется!
5-7 гаплотипов
встречаются корреляциях
с частотой >1%

Если число локусов ≥3, то обычно
число наблюдаемых гаплотипов << числа генотипов
Soft для работы с гаплотипами

http://www.bios.unc.edu/~lin/hapstat/

X. Sole, E. Guino, J. Valls, R. Iniesta1, V. Moreno (2006)
http://bioinfo.iconcologia.net/index.php?module=Snpstats
И это все, о чем хотел рассказать
Напоследок хочу напомнить, почему не следует пренебрегать
коррекцией на множественность сравнений?
 Чтобы не уподобиться старому Джозефу
 Чтобы преодолеть соблазн раздувать отчет о
проделанной работе
 Чтобы предупредить выпады недоброжелателей
 Это просто и делается вручную.
Если хотя бы одно сравнение проходит через сито
Бонферрони, то с Вас хватит FDR. В противном случае
Вам не обойтись без перестановочного компьютерного
теста.
Download