Gene Risk Score, эпистаз, гаплотипы и другие верные способы сделать случайные генетические ассоциации статистически значимыми А.В. Рубанович Институт общей генетики им. Н.И. Вавилова РАН [email protected] Богатство как заболевание (case – control) Бинарные признаки (маркеры) Знак зодиака телец Фамилия с гласной буквы Богатые Контроль (100) (100) p-value «Рисковый» фактор > 0.153 Телец 18 10 Так26будет всегда! 0.095 < 38 «Значимость» гарантирована, Курение если число 0.505 21 <признаков 26 5 Согласная буква Все незначимо! Не курит Высокий рост Высокий Очки 0.241 Не носит < и встречаемости 19 (независимо от объемов 12 выборок вариантов признаков) 29 > 24 0.522 Число «рисковых» 0.038 факторов наПредрасполагающий 3.2 2.5 «гаплотип»: 10001 человека «Парадокс сложения рисков» ! При увеличении числа признаков «значимость» различий групп по среднему числу рисковых факторов на человека может быть сколь угодно велика (т.е. р-value 0). Кажущаяся значимость отличий по Число изученных признаков, заведомо сумме рисковых факторов не связанных с заболеванием m Контроль 40 Больные Частота, % 30 20 10 AUC = 0.724 0 15 - 17,5 17,5 - 20 20 - 22,5 22,5 - 25 25 - 27,5 27,5 - 30 30 - 32,5 32,5 - 35 Сумма рисковых факторов 1 2 3 4 5 10 20 30 40 50 100 p-value 0.2125 0.1296 Начиная с 5 признаков, 0.0835 различия всегда будут «значимы» 0.0553 0.0372 0.0058 0.0002 6.210-6 2.310-7 8.410-9 7.810-16 Отчего это происходит? Все дело в том, что выявление рисковых факторов и оценка их совместного действия проводились для одной и той же выборки Пусть X0 и X1 – число обладателей определенного статуса по некому бинарному признаку в двух выборках (0 –контроль, 1 - больные). Если заболевание не связано с При увеличении признаком, то распределения для для X1иt-статистика X0 одинаковы числа изученных признаков (m) различий по сумме «рисковых» факторов растет как m Распределение для разности X1-X0 Дальше самое важное: Даже2 если эти признаки никак рискового фактора мы берем то не связаны Взначение с качестве заболеванием! признака, которое чаще встречается у больных. Тем самым мы переопределяем значения признака так, чтобы в данной выборке X1 > X0, т.е. от разности переходим к разности по модулю Для m признаков: Распределение для разности по модулю. Среднее равно 2 E | X1 X0 | 1.13 Средняя разность ~ 1.13m = ~ m 2 SD разности ~ 2m В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Вычисление Genetic Risk Score (GRS) GRS - число рисковых аллелей на человека, т.е. сумма аллелей предрасполагающих к заболеванию или повышающих значение признака Оценка совместных эффектов «топовых» сайтов Часто приходится видеть как комбинированный генотип (или гаплотип) объявляется сопряженным с заболеванием, в то время как все индивидуальные эффекты снипов статистически незначимы. При этом рассматривается совместный эффект «топовых» SNP из числа незначимых. Анализ результатов GWAS В современных ассоциативных исследования число генетических предикторов стремительно растет и часто на порядки превышает объемы выборок. При этом кажущаяся значимость эффектов по GRS может достигать невероятного уровня, например, p-value = 10-100 Проблема «missing heritability» Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов той наследуемости, которая наблюдается в родословных. Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия «парадокса сложения рисков» В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Вычисление Genetic Risk Score (GRS) GRS - число рисковых аллелей на человека, т.е. сумма аллелей предрасполагающих к заболеванию или повышающих значение признака Другие названия: combined effects, epistatic effects, joined effect, multilocus genetic risk, combined analysis of multiple genetic variants, …. GRS = G1 + G2 +…+Gk , где Gi = Сумма по k сайтам, обнаружившим тенденцию к сопряженности с заболеванием 0, гомозигота по протективному аллелю 1, гетерозигота 2, гомозигота по рисковому аллелю т.е. Gi – это число рисковых аллелей в i-ом сайте Обычно берут k топовых по эффекту сайтов из числа генотипированных, либо, все сайты, для которых р-value меньше фиксированного уровня, например р < 0.05 В результате научные журналы заполонили подозрительно красивые картинки, которых не может быть в экспериментальной биологии. Частота Подобные картинки всегда отражают некую математическую, а не биологическую закономерность Эффект (OR) Nature Genetics 42, 132–136 (2010) Число рисковых аллелей В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Вычисление Genetic Risk Score (GRS) GRS - число рисковых аллелей на человека, т.е. сумма аллелей предрасполагающих к заболеванию или повышающих значение признака Оценка совместных эффектов «топовых» сайтов Часто приходится видеть как комбинированный генотип (или гаплотип) объявляется сопряженным с заболеванием, в то время как все индивидуальные эффекты снипов статистически незначимы. При этом рассматривается совместный эффект «топовых» SNP из числа незначимых. Анализ результатов GWAS В современных ассоциативных исследования число генетических предикторов стремительно растет и часто на порядки превышает объемы выборок. При этом кажущаяся значимость эффектов по GRS может достигать невероятного уровня, например, p-value = 10-100 Проблема «missing heritability» Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов той наследуемости, которая наблюдается в родословных. Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия «парадокса сложения рисков» В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Распределения топовых значений случайных величин изучается в теории порядковых статистик (Order Statistics) Оценка совместных эффектов «топовых» сайтов Часто приходится видеть как комбинированный генотип (или гаплотип) объявляется сопряженным с заболеванием, в то время как все индивидуальные эффекты снипов статистически незначимы. При этом рассматривается совместный эффект «топовых» SNP из числа изученных. Ранее мы говорили, что различия по сумме рисковых аллелей, которые подсчитаны для m снипов, пропорциональны m . Как будет обстоять дело, если мы вычисляем GRS не для всех m снипов, а лишь для k топовых из них (рекордных, максимальных по эффекту) GRS по k топовым SNP из m изученных x Пусть X0 и X1 – GRS для здоровых и больных,1.2Gсоответственно (n0 = n1). Если топовые SNP и GRS определены для одной и Используем самую простую статистику: той же выборки Основной результат: __ Z X1 X 0 1.0 ~ N(0,1) ? Z 0.8 =НОРМСТОБР X X 1 0 2m k 1 G , где 0.4 G( x ) e m x 0.6 1 x 1 1 2 2 2 0.2 Все вычисляется в Excel 0.0 0.0 Следствия: 0.2 0.4 0.6 0.8 x 1.0 При нулевой гипотезе Z-статистика для различий по GRS, а значит и кажущееся p-value, не зависят от объемов выборок и частот аллельных вариантов генов, но существенно зависят от общего числа изученных снипов (m) и числа топовых по эффекту сайтов (k), которые использованы при определении GRS. Если k = m, т.е. при вычислении GRS используются все изученные сайты, то Z 2m ( , если k/m > 0.1) Пример использования формулы для Z 1200 случаев воспалительного заболевания кишечника (IBD - inflammatory bowel disease) против 849 здоровых NADPH oxidase complex genes: RAC2, CYBA , NCF2, NCF4 – всего 58 SNP Даже если все эти 58 SNP не связны с IBD: GRS по 58 изученным SNP Z 2.110-7 (жен.) p-value = 4.610-11 (муж.) Контроль IBD 2m 2 58 6.1 В таблицах такого Z нет, но можно через Excel: =1- НОРМСТРАСП(6,1) p-value =5.310-10 ! Результаты работы незначимы! Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score and inflammatory bowel disease // Bioinform Biol Insights. 2013 May 19;7:143-52. Пример исследования «заболевание - кандидатные гены» 492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко) 26 SNPs в 6 генах иммунной системы: CD209, DDX58, MBL2, TLR2, TLR3, TLR9 У них были все шансы получить и 5 топовых SNP с 0.005 < p <«значимый» 0.05 (не преодолевают более результат порог Бонферрони = 0.002) p-value = 8.210-4 ! Любые 26 SNP для 5 топовых в среднем дадут: p5,26 3.7 105 Число рисковых аллелей для 5 топовых SNP Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor genes and the risk of nasopharyngeal carcinoma in North Africa // G3 (Bethesda). 2013 Jun 21;3(6):971-7. Пример исследования «количественный признак - кандидатные гены» Концентрация витамина D Ген rs Хр Генотипы ~ GC, VDR, CYP2R1, CYP24A1, CYP27B1 Витамин D p-value Всего 94 SNP > 0.05/94 0.0005 Бонферрони не пропускает! + 91 SNP c p-value > 0.05 GRS = Сумма «понижающих» аллелей #rs2298849*A + #rs2282679*G + #rs10877012*G Случайная корреляция с GRS по 3 топовым сайтам из 94 изученных: r3,94 0.217, p3,94 7.4 106 ! ptrend < 0.001 Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating 25-hydroxyvitamin D Levels among African Americans // PLoS One. 2011; 6(12) Как избежать проявлений «парадокса сложения рисков»? Использовать формулу Z 2m G k m для оценки ситуации, которая возникает при нулевой гипотезе (что-то вроде поправки Бонферрони) Но все-таки лучше: Проводить оценку индивидуальных эффектов снипов (OR) и последующую оценку их совместного действия (GRS, h2) на разных выборках 2 этапа – стандарт современных ассоциативных генетических исследований Валидизация результатов - не просто проверка воспроизводимости Discovery sample Направленность и уровень индивидуальных эффектов SNP (OR, p-value) Validation (target) sample Оценка любых совместных, в том числе эпистатических эффектов для топовых SNP, а также оценка наследуемости и доли объясненной вариансы (GRS, h2) Контроль Больные Альтернатива: cross-validation кросс-валидация на большой выборке OR, p-value GRS, h2 В противном случае вы неизбежно столкнетесь с «парадоксом сложения рисков» ! В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Вычисление Genetic Risk Score (GRS) GRS - число рисковых аллелей на человека, т.е. сумма аллелей предрасполагающих к заболеванию или повышающих значение признака Оценка совместных эффектов «топовых» сайтов Часто приходится видеть как комбинированный генотип (или гаплотип) объявляется сопряженным с заболеванием, в то время как все индивидуальные эффекты снипов статистически незначимы. При этом рассматривается совместный эффект «топовых» SNP из числа незначимых. Анализ результатов GWAS В современных ассоциативных исследования число генетических предикторов стремительно растет и часто на порядки превышает объемы выборок. При этом кажущаяся значимость эффектов по GRS может достигать невероятного уровня, например, p-value = 10-100 Проблема «missing heritability» Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов той наследуемости, которая наблюдается в родословных. Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия «парадокса сложения рисков» В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Анализ результатов GWAS В современных ассоциативных исследования число генетических предикторов стремительно растет и часто на порядки превышает объемы выборок. При этом кажущаяся значимость различий по GRS может достигать невероятного уровня, например, p-value = 10-100 Типичный GWAS Объемы выборок:совместные n0 = n1 = 1000 Оценивать эффекты снипов в рамках единичного GWAS сайтов: совершенно бессмысленно Число генотипированных m = 500 000 Пусть все SNP не связаны с заболеванием, и тем не менее больные и здоровые сравниваются по GRS, который вычисляется для k топовых сайтов (k = 1100) Число топовых SNP из 500 000 изученных, которые использованы при вычислении GRS Любые манипуляции с 2 или 3 топовыми SNP (эпистаз, гаплотипы) покажут значимость 10-16 - 10-12 Кажущаяся значимость отличий по GRS k p-value 1 2 3 4 5 10 50 100 3.710-7 5.210-12 1.110-16 5.510-21 2.310-25 1.210-45 2.110-186 4.310-242 Рекордный SNP из 500 000 изученных. Для него p-value всегда выше порога Бонферрони (0.05/500 000 = 10-7) Только после GWAS и на независимой выборке Discovery sample: GWAS1 GWAS2 GWAS3 … Target sample: 20 – 50 топовых SNP Мета-анализ Оценки совместного действия SNP: GRS, r, h2, AUC, PPV, NPV Сегодня так проводят исследования большинства широко распространенных заболеваний: рак, атеросклероз, диабет 2-го рода, астма, шизофрения Однако, во многих случаях возникают сомнения: Первый GWAS (редкие или малоизученные заболевания и признаки) Частичное совпадение Discovery sample и Target sample Часто авторы добавляют в список кандидатных снипов из предшествующих GWAS несколько десятков новых SNP, которые выявлены для Target sample Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные ранее другими исследователями Часто бывает трудно понять: рисковые аллели выявлены в данном исследовании или взяты из более ранних GWAS? Чем сложнее это понять, тем красивей картинки Пример исследования «качественный признак - GWAS» GWAS 600 000 SNP 1054 случаев облысения 139 ассоциированных SNP на уровне p-value < 510-7 GRS для 16 топовых SNP в генах иммунного ответа ptrend < 10-107 Случайные различия по GRS по 16 топовым сайтам из 600 000 изученных: p16,600000 7.5 1070 ! Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both innate and adaptive immunity // Nature (2010), 466, 113–117 В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Вычисление Genetic Risk Score (GRS) GRS - число рисковых аллелей на человека, т.е. сумма аллелей предрасполагающих к заболеванию или повышающих значение признака Оценка совместных эффектов «топовых» сайтов Часто приходится видеть как комбинированный генотип (или гаплотип) объявляется сопряженным с заболеванием, в то время как все индивидуальные эффекты снипов статистически незначимы. При этом рассматривается совместный эффект «топовых» SNP из числа незначимых. Анализ результатов GWAS В современных ассоциативных исследования число генетических предикторов стремительно растет и часто на порядки превышает объемы выборок. При этом кажущаяся значимость эффектов по GRS может достигать невероятного уровня, например, p-value = 10-100 Проблема «missing heritability» Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов той наследуемости, которая наблюдается в родословных. Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия «парадокса сложения рисков» В каких ситуациях мы можем столкнуться с «парадоксом сложения рисков»? Проблема «missing heritability» Мы научились считывать всю возможную изменчивость нуклеотидов, но это не помогает нам объяснить даже несколько процентов той наследуемости, которая наблюдается в родословных. Работы, в которых анонсированы высокие корреляции «признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия «парадокса сложения рисков» Случайные выборочные корреляции между несвязанными признаками Корреляция между двумя независимыми признакми 1 , где n – объем выборки |Cor(Y , G )|~ n Корреляция между бинарным признаком и GRS для m сайтов в случае, если эффекты сайтов и GRS посчитаны для одной и той же выборки, а все сайты не связаны с признаком m Cor(Y , GRSG1 ,G2 ,..., Gm ) m n Ясно, что Cor(Y , GRS ) 1, если m >> n, т.е., если число SNP существенно больше объема выборки Например, при m n случайная корреляция с GRS (1+)-1/2 0.5 «Объясненная наследуемость» или доля «объясненной» вариансы: h2 0.52 = 25% Ловушки, с предсказанием сложных признаков снипам Pitfallsсвязанные of predicting complex traits fromпоSNPs Wray NR, Yang J,…, Visscher PM. Nat Rev Genet. 2013 Jul;14(7) «Do not re-estimate effect sizes of selected SNPs in the validation sample» Если Discovery = Validation, то и при H0 корреляция признака с GRS по топовыми снипами может быть очень высока Cor (Y , GRS ' ) m = 100 000 Prof. Peter Visscher, Univ. of Queensland, Australia k = 10 k = 100 k = 1000 1000 больных, 1000 здоровых и 100 000 SNP, несвязанных с заболеванием. Из них 100 топовых SNP совместно обеспечат корреляцию с заболеванием 0.56 или наследуемость порядка 0.562 30% 0.56 По нашим оценкам r2 36% при р = 10-276 1000 Объем выборки (n) Выводы – их только два! Определение направленности индивидуального действия снипов (OR) и оценка их совместного действия (GRS, h2) должны проводиться на разных выборках В противном случае показатели типа GRS обнаружат мнимую сопряженность с заболеванием, «значимость» которой пропорциональна числу снипов, входящих в GRS Спасибо организаторам Конференции и всем присутствующим! Слайды доступны! [email protected]