GRS - Институт общей генетики

реклама
Gene Risk Score, эпистаз, гаплотипы
и другие верные способы сделать
случайные генетические ассоциации
статистически значимыми
А.В. Рубанович
Институт общей генетики им. Н.И. Вавилова РАН
[email protected]
Богатство как заболевание (case – control)
Бинарные
признаки
(маркеры)

Знак зодиака телец
Фамилия с
гласной буквы
Богатые Контроль
(100)
(100)
p-value
«Рисковый»
фактор
>
0.153
Телец
18
10
Так26будет
всегда!
0.095
< 38
«Значимость» гарантирована,
Курение если число
0.505
21 <признаков
26
5
Согласная
буква
Все незначимо!
Не курит
Высокий
рост
Высокий
Очки
0.241
Не носит
< и встречаемости
19
 (независимо
от объемов 12
выборок
вариантов признаков)
29
>
24
0.522
Число «рисковых»
0.038
факторов наПредрасполагающий
3.2
2.5
«гаплотип»:
10001
человека
«Парадокс сложения рисков»
!
При увеличении числа признаков «значимость» различий
групп по среднему числу рисковых факторов на человека
может быть сколь угодно велика (т.е. р-value
 0).
Кажущаяся значимость отличий по
Число изученных признаков, заведомо
сумме рисковых факторов
не связанных с заболеванием
m
Контроль
40
Больные
Частота, %
30
20
10
AUC = 0.724
0
15 - 17,5 17,5 - 20 20 - 22,5 22,5 - 25 25 - 27,5 27,5 - 30 30 - 32,5 32,5 - 35
Сумма рисковых факторов
1
2
3
4
5
10
20
30
40
50
100
p-value
0.2125
0.1296 Начиная с 5 признаков,
0.0835 различия всегда будут
«значимы»
0.0553
0.0372
0.0058
0.0002
6.210-6
2.310-7
8.410-9
7.810-16
Отчего это происходит?
Все дело в том, что выявление рисковых факторов и оценка их
совместного действия проводились для одной и той же выборки
Пусть X0 и X1 – число обладателей определенного статуса по некому бинарному
признаку в двух выборках (0 –контроль, 1 - больные).
Если заболевание
не связано с
При увеличении
признаком, то распределения
для
для X1иt-статистика
X0 одинаковы
числа изученных признаков (m)

различий
по сумме «рисковых»
факторов растет как m
Распределение для
разности X1-X0
Дальше самое
важное:
Даже2 если эти признаки
никак
рискового фактора мы берем то
не связаны Взначение
с качестве
заболеванием!
признака, которое чаще
встречается у больных. Тем самым мы
переопределяем значения признака так,
чтобы в данной выборке X1 > X0, т.е. от
разности переходим к разности по модулю
Для m признаков:
Распределение для
разности по модулю.
Среднее равно
2
E | X1  X0 |

1.13
Средняя разность ~ 1.13m
=
~ m
2
SD разности ~ 2m
В каких ситуациях мы можем столкнуться с
«парадоксом сложения рисков»?
 Вычисление Genetic Risk Score (GRS)
GRS - число рисковых аллелей на человека, т.е. сумма аллелей
предрасполагающих к заболеванию или повышающих значение признака
 Оценка совместных эффектов «топовых» сайтов
Часто приходится видеть как комбинированный генотип (или гаплотип)
объявляется сопряженным с заболеванием, в то время как все индивидуальные
эффекты снипов статистически незначимы. При этом рассматривается совместный
эффект «топовых» SNP из числа незначимых.
 Анализ результатов GWAS
В современных ассоциативных исследования число генетических предикторов
стремительно растет и часто на порядки превышает объемы выборок. При этом
кажущаяся значимость эффектов по GRS может достигать невероятного уровня,
например, p-value = 10-100
 Проблема «missing heritability»
Мы научились считывать всю возможную изменчивость нуклеотидов, но это не
помогает нам объяснить даже несколько процентов той наследуемости, которая
наблюдается в родословных. Работы, в которых анонсированы высокие корреляции
«признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия
«парадокса сложения рисков»
В каких ситуациях мы можем столкнуться с
«парадоксом сложения рисков»?
 Вычисление Genetic Risk Score (GRS)
GRS - число рисковых аллелей на человека, т.е. сумма аллелей
предрасполагающих к заболеванию или повышающих значение признака
Другие названия: combined effects, epistatic effects, joined effect, multilocus genetic risk, combined analysis of multiple genetic variants, ….
GRS = G1 + G2 +…+Gk , где Gi =
Сумма по k сайтам,
обнаружившим тенденцию к
сопряженности с заболеванием
0, гомозигота по протективному аллелю
1, гетерозигота
2, гомозигота по рисковому аллелю
т.е. Gi – это число рисковых
аллелей в i-ом сайте
Обычно берут k топовых по эффекту сайтов из числа генотипированных,
либо, все сайты, для которых р-value меньше фиксированного уровня,
например р < 0.05
В результате научные журналы заполонили подозрительно красивые
картинки, которых не может быть в экспериментальной биологии.
Частота
Подобные картинки всегда отражают некую
математическую, а не биологическую закономерность
Эффект (OR)
Nature Genetics 42, 132–136 (2010)
Число рисковых аллелей
В каких ситуациях мы можем столкнуться с
«парадоксом сложения рисков»?
 Вычисление Genetic Risk Score (GRS)
GRS - число рисковых аллелей на человека, т.е. сумма аллелей
предрасполагающих к заболеванию или повышающих значение признака
 Оценка совместных эффектов «топовых» сайтов
Часто приходится видеть как комбинированный генотип (или гаплотип)
объявляется сопряженным с заболеванием, в то время как все индивидуальные
эффекты снипов статистически незначимы. При этом рассматривается совместный
эффект «топовых» SNP из числа незначимых.
 Анализ результатов GWAS
В современных ассоциативных исследования число генетических предикторов
стремительно растет и часто на порядки превышает объемы выборок. При этом
кажущаяся значимость эффектов по GRS может достигать невероятного уровня,
например, p-value = 10-100
 Проблема «missing heritability»
Мы научились считывать всю возможную изменчивость нуклеотидов, но это не
помогает нам объяснить даже несколько процентов той наследуемости, которая
наблюдается в родословных. Работы, в которых анонсированы высокие корреляции
«признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия
«парадокса сложения рисков»
В каких ситуациях мы можем столкнуться с
«парадоксом сложения рисков»?
Распределения топовых значений случайных величин изучается
в теории порядковых статистик (Order Statistics)
 Оценка совместных эффектов «топовых» сайтов
Часто приходится видеть как комбинированный генотип (или гаплотип)
объявляется сопряженным с заболеванием, в то время как все индивидуальные
эффекты снипов статистически незначимы. При этом рассматривается совместный
эффект «топовых» SNP из числа изученных.
Ранее мы говорили, что различия по сумме рисковых аллелей, которые
подсчитаны для m снипов, пропорциональны m .
Как будет обстоять дело, если мы вычисляем GRS не для всех m снипов, а
лишь для k топовых из них (рекордных, максимальных по эффекту)
GRS по k топовым SNP из m изученных
x
Пусть X0 и X1 – GRS для здоровых и больных,1.2Gсоответственно
(n0 = n1).
Если топовые SNP и GRS
определены для
одной
и
Используем
самую
простую
статистику:
той же выборки
Основной результат:
__
Z
X1  X 0
1.0
~ N(0,1) ?
Z  0.8 =НОРМСТОБР
 X X
1
0
2m  k 
1
G   , где 0.4 G( x ) 
e
 m
x
0.6
1
 x
  1  1 
2
 2
2
0.2
Все вычисляется в Excel
0.0
0.0
Следствия:
0.2
0.4
0.6
0.8
x
1.0
 При нулевой гипотезе Z-статистика для различий по GRS,
а значит и кажущееся p-value, не зависят от объемов выборок и частот
аллельных вариантов генов,
 но существенно зависят от общего числа изученных снипов (m) и числа
топовых по эффекту сайтов (k), которые использованы при определении GRS.
 Если k = m, т.е. при вычислении GRS используются все изученные сайты, то
Z
2m

( , если k/m > 0.1)
Пример использования формулы для Z
1200 случаев воспалительного заболевания кишечника
(IBD - inflammatory bowel disease) против 849 здоровых
NADPH oxidase complex genes: RAC2, CYBA , NCF2, NCF4 – всего 58 SNP
Даже если все эти 58 SNP
не связны с IBD:
GRS по 58 изученным SNP
Z
2.110-7 (жен.)
p-value =
4.610-11 (муж.)
Контроль
IBD
2m


2  58

 6.1
В таблицах такого Z нет,
но можно через Excel:
=1- НОРМСТРАСП(6,1)
p-value =5.310-10
!
Результаты работы
незначимы!
Hu P, Muise AM, Xing X et al. Association between a multi-locus genetic risk score
and inflammatory bowel disease // Bioinform Biol Insights. 2013 May 19;7:143-52.
Пример исследования
«заболевание - кандидатные гены»
492 случая носоглоточной карциномы против 373 в контроле (Тунис + Марокко)
26 SNPs в 6 генах иммунной системы: CD209, DDX58, MBL2, TLR2, TLR3, TLR9
У них были все шансы получить и
5 топовых SNP с 0.005
< p <«значимый»
0.05 (не преодолевают
более
результат порог Бонферрони = 0.002)
p-value = 8.210-4
!
Любые 26 SNP
для 5 топовых в
среднем дадут:
p5,26  3.7  105
Число рисковых аллелей для 5 топовых SNP
Moumad K, Lascorz J, Bevier M et al. Genetic polymorphisms in host innate immune sensor
genes and the risk of nasopharyngeal carcinoma in North Africa // G3 (Bethesda). 2013 Jun
21;3(6):971-7.
Пример исследования
«количественный признак - кандидатные гены»
Концентрация витамина D
Ген
rs
Хр
Генотипы
~
GC, VDR, CYP2R1, CYP24A1, CYP27B1
Витамин D
p-value
Всего 94 SNP
> 0.05/94  0.0005
Бонферрони
не пропускает!
+ 91 SNP c p-value > 0.05
GRS = Сумма «понижающих» аллелей
#rs2298849*A + #rs2282679*G + #rs10877012*G
Случайная корреляция с GRS по
3 топовым сайтам из 94 изученных:
r3,94  0.217, p3,94  7.4  106 !
ptrend < 0.001
Signorello LB, Shi J et al. Common variation in vitamin D pathway genes predicts circulating
25-hydroxyvitamin D Levels among African Americans // PLoS One. 2011; 6(12)
Как избежать проявлений
«парадокса сложения рисков»?
 Использовать формулу Z  2m G  k 
 m
для оценки ситуации, которая возникает при нулевой гипотезе
(что-то вроде поправки Бонферрони)
Но все-таки лучше:
 Проводить оценку индивидуальных эффектов снипов (OR) и
последующую оценку их совместного действия (GRS, h2) на
разных выборках
2 этапа – стандарт современных ассоциативных
генетических исследований
Валидизация результатов - не просто проверка воспроизводимости
Discovery
sample
Направленность и уровень
индивидуальных эффектов SNP
(OR, p-value)
Validation
(target) sample
Оценка любых совместных, в том числе
эпистатических эффектов для топовых SNP, а
также оценка наследуемости и доли объясненной
вариансы (GRS, h2)
Контроль Больные
Альтернатива: cross-validation
кросс-валидация на большой
выборке
OR, p-value
GRS, h2
В противном случае вы неизбежно столкнетесь
с «парадоксом сложения рисков» !
В каких ситуациях мы можем столкнуться с
«парадоксом сложения рисков»?
 Вычисление Genetic Risk Score (GRS)
GRS - число рисковых аллелей на человека, т.е. сумма аллелей
предрасполагающих к заболеванию или повышающих значение признака
 Оценка совместных эффектов «топовых» сайтов
Часто приходится видеть как комбинированный генотип (или гаплотип)
объявляется сопряженным с заболеванием, в то время как все индивидуальные
эффекты снипов статистически незначимы. При этом рассматривается совместный
эффект «топовых» SNP из числа незначимых.
 Анализ результатов GWAS
В современных ассоциативных исследования число генетических предикторов
стремительно растет и часто на порядки превышает объемы выборок. При этом
кажущаяся значимость эффектов по GRS может достигать невероятного уровня,
например, p-value = 10-100
 Проблема «missing heritability»
Мы научились считывать всю возможную изменчивость нуклеотидов, но это не
помогает нам объяснить даже несколько процентов той наследуемости, которая
наблюдается в родословных. Работы, в которых анонсированы высокие корреляции
«признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия
«парадокса сложения рисков»
В каких ситуациях мы можем столкнуться с
«парадоксом сложения рисков»?
 Анализ результатов GWAS
В современных ассоциативных исследования число генетических предикторов
стремительно растет и часто на порядки превышает объемы выборок. При этом
кажущаяся значимость различий по GRS может достигать невероятного уровня,
например, p-value = 10-100
Типичный GWAS
Объемы
выборок:совместные
n0 = n1 = 1000
Оценивать
эффекты снипов в рамках
единичного GWAS сайтов:
совершенно
бессмысленно
Число генотипированных
m = 500
000
Пусть все SNP не связаны с заболеванием, и тем не менее
больные и здоровые сравниваются по GRS, который
вычисляется для k топовых сайтов (k = 1100)
Число топовых SNP из 500 000
изученных, которые использованы
при вычислении GRS
Любые манипуляции с 2
или 3 топовыми SNP
(эпистаз, гаплотипы)
покажут значимость
10-16 - 10-12
Кажущаяся значимость
отличий по GRS
k
p-value
1
2
3
4
5
10
50
100
3.710-7
5.210-12
1.110-16
5.510-21
2.310-25
1.210-45
2.110-186
4.310-242
Рекордный SNP из
500 000 изученных.
Для него p-value всегда
выше порога Бонферрони
(0.05/500 000 = 10-7)
Только после GWAS и на независимой выборке
Discovery sample:
GWAS1 GWAS2 GWAS3
…
Target sample:
20 – 50 топовых SNP
Мета-анализ
Оценки совместного действия SNP:
GRS, r, h2, AUC, PPV, NPV
Сегодня так проводят исследования большинства широко распространенных
заболеваний: рак, атеросклероз, диабет 2-го рода, астма, шизофрения
Однако, во многих случаях возникают сомнения:
 Первый GWAS (редкие или малоизученные заболевания и признаки)
 Частичное совпадение Discovery sample и Target sample
 Часто авторы добавляют в список кандидатных снипов из предшествующих
GWAS несколько десятков новых SNP, которые выявлены для Target sample
 Ссылки не на снипы, а на кандидатные гены или участки, обнаруженные
ранее другими исследователями
 Часто бывает трудно понять: рисковые аллели выявлены в данном
исследовании или взяты из более ранних GWAS?
 Чем сложнее это понять, тем красивей картинки
Пример исследования
«качественный признак - GWAS»
GWAS 600 000 SNP 1054 случаев облысения
139 ассоциированных SNP на уровне p-value < 510-7
GRS для 16 топовых SNP в генах иммунного ответа
ptrend < 10-107
Случайные различия по GRS по 16 топовым сайтам из 600 000 изученных:
p16,600000  7.5 1070
!
Petukhova, M. Duvic et al. Genome-wide association study in alopecia areata implicates both
innate and adaptive immunity // Nature (2010), 466, 113–117
В каких ситуациях мы можем столкнуться с
«парадоксом сложения рисков»?
 Вычисление Genetic Risk Score (GRS)
GRS - число рисковых аллелей на человека, т.е. сумма аллелей
предрасполагающих к заболеванию или повышающих значение признака
 Оценка совместных эффектов «топовых» сайтов
Часто приходится видеть как комбинированный генотип (или гаплотип)
объявляется сопряженным с заболеванием, в то время как все индивидуальные
эффекты снипов статистически незначимы. При этом рассматривается совместный
эффект «топовых» SNP из числа незначимых.
 Анализ результатов GWAS
В современных ассоциативных исследования число генетических предикторов
стремительно растет и часто на порядки превышает объемы выборок. При этом
кажущаяся значимость эффектов по GRS может достигать невероятного уровня,
например, p-value = 10-100
 Проблема «missing heritability»
Мы научились считывать всю возможную изменчивость нуклеотидов, но это не
помогает нам объяснить даже несколько процентов той наследуемости, которая
наблюдается в родословных. Работы, в которых анонсированы высокие корреляции
«признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия
«парадокса сложения рисков»
В каких ситуациях мы можем столкнуться с
«парадоксом сложения рисков»?
 Проблема «missing heritability»
Мы научились считывать всю возможную изменчивость нуклеотидов, но это не
помогает нам объяснить даже несколько процентов той наследуемости, которая
наблюдается в родословных. Работы, в которых анонсированы высокие корреляции
«признак - SNPs» (0.3 – 0.7), требуют тщательного разбора на предмет присутствия
«парадокса сложения рисков»
Случайные выборочные корреляции
между несвязанными признаками
 Корреляция между двумя независимыми признакми
1 , где n – объем выборки
|Cor(Y , G )|~
n
 Корреляция между бинарным признаком и GRS для m сайтов
в случае, если эффекты сайтов и GRS посчитаны для
одной и той же выборки, а все сайты не связаны с признаком
m
Cor(Y , GRSG1 ,G2 ,..., Gm ) 
m  n
Ясно, что Cor(Y , GRS )  1, если m >> n, т.е., если число SNP
существенно больше объема выборки
Например, при m  n случайная корреляция с GRS  (1+)-1/2  0.5
«Объясненная наследуемость» или
доля «объясненной» вариансы:
h2  0.52 = 25%
Ловушки,
с предсказанием
сложных
признаков
снипам
Pitfallsсвязанные
of predicting
complex
traits
fromпоSNPs
Wray NR, Yang J,…, Visscher PM. Nat Rev Genet. 2013 Jul;14(7)
«Do not re-estimate effect sizes of
selected SNPs in the validation sample»
Если Discovery = Validation, то и при H0 корреляция
признака с GRS по топовыми снипами может быть
очень высока
Cor (Y , GRS ' )
m = 100 000
Prof. Peter Visscher,
Univ. of Queensland, Australia
k = 10
k = 100
k = 1000
1000 больных, 1000 здоровых и 100 000 SNP,
несвязанных с заболеванием. Из них 100 топовых SNP
совместно обеспечат корреляцию с заболеванием 0.56
или наследуемость порядка 0.562  30%
0.56
По нашим оценкам r2  36% при р = 10-276
1000
Объем выборки (n)
Выводы – их только два!
 Определение направленности индивидуального действия
снипов (OR) и оценка их совместного действия (GRS, h2)
должны проводиться на разных выборках
 В противном случае показатели типа GRS обнаружат мнимую
сопряженность с заболеванием, «значимость» которой
пропорциональна числу снипов, входящих в GRS
Спасибо организаторам Конференции
и всем присутствующим!
Слайды доступны!
[email protected]
Скачать