Скрытая наследуемость (Missing Heritability Problem) Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН [email protected] 6 ноября 2008 Brendan Maher вводит термин «missing heritability» В чем(2002) проблема и откуда она взялась? GWAS - GenomeWide Association Studies Ведьвека мы просмотрели (или почти все?) В начале мы научилисьвсе генотипировать одновременно изменчивые в генах по всем наиболеесильно изменчивым генамсайты (GWAS или широкогеномное сканирование) Оказалось: Мы отличаемся друг от друга примерно каждым тысячным нуклеотидом (1-2 SNP на 1000 п.н.), 99.9% нуклеотидов но эффекты этих различий слишком малы, чтобы объяснить у нас большинства одинаковы! признаков изменчивость и наследуемость 1,1 vs. 15 ! значит «слишком малы»: Где Что остальная наследуемость? Если (не дай Бог!) у Ваших родителей диабет I типа, то для Вас вероятность заболеть диабетом в 15 раз выше, чем для всех прочих. Т.е. признак наследуется, и должны быть генетические различия между здоровыми и диабетиками. GWAS находит эти различия - аллельные варианты для ~ 20-40 SNP , -8, но эффект мизерный! p < 10 но при этом среди носителей «генотипов предрасположенности» доля больных диабетом лишь в 1,1 раз больше Still missing! Публикации 2010 -2011 (Nature, PNAS, PloS) Красивая аналогия с астрофизикой: «dark matter» - 83% вселенной Замкнутая картина вселенной невозможна без постулата о существовании скрытой от нас «темной материи» «Missing mass» - Fritz Zwicky (1933) «Серебряная» Пуля Темная материя вокруг галактик Гало из «темной материи», вокруг нашей Milky Way (компьютерная реконструкция) Припомним некоторые понятия, чтобы говорить на одном языке Виды генетической изменчивости: Структурная изменчивость: делеции, инсерции, дупликации (CNV), тандемные повторы (STR, VNTR) Изменчивость отдельных нуклетидов: SNP – их более 10 млн. …GATCAGGCGATTACACGCAATG… …GATCATGCGATTACCCGCAATG… …GATCAGGCGATTACACGCAATG… …GATCAGGCGATTACCCGCAATG… …GATCAGGCGATTACCCGCAATG… …GATCATGCGATTACACGCAATG… …GATCAGGCGATTACCCGCAATG… SNP1 G>T SNP2 C>A Для 2 SNP возможны 4 гаплотипа GC GA TC TA Если SNP1 и SNP2 не сцеплены, то PGC = PG PC D = PGC – PG PC , D` = D/Dmax Неравновесие по сцеплению: D` = 1, если не все возможные гаплотипы встречаются в популяции (например, только GC, GA, TC) При D` ~ 1 в данных по SNP1 содержится информация о SNP2 (и наоборот) Генотипы и предрасположенности Анализ родословных (linkage study) lod log P( родословная | rec 0) P( родословная | rec 1 / 2) 3/5 2/6 3/2 5/2 4/3 При сцеплении маркера с заболеванием lod > 3 3/5 3/2 4/5 Успешно: редкие менделирующие заболевания Безуспешно: распространенные мультифакториальные заболевания Ассоциативные исследования (association study): статистическая сопряженность фенотипа и маркера ( ) Контроль Больные Case - control Количественный признак Показатели степени сопряженности признаков Количественные признаки: r - коэффициент корреляции Качественные признаки: OR - отношение шансов (Odd Ratio) Случаи, когда Больные Здоровые маркер сработал Носители маркера Свободны от маркера D D M a b M c d ad OR bc Случаи, OR когда=маркер 1 - нет эффекта не сработал OR >> 1 - сильный эффект FAQ: почему OR, а не r ? ANS: r ~ 1, если табл. сопряженности диагональна: Бывает, что r ~ 0, но при этом OR >> 1: Маркер - необходимое условие заболевания Маркер - достаточное условие заболевания D D M M D D * 0 0 * * * 0 * * 0 * * Как характеризуют наследуемость? В широком смысле: V Доляr изменчивости (вариансы,корреляция, дисперсии) признака, 2 думаете, Если = 0.7 – это «хорошая» вспомните, что при HВы G что обусловленная генетической изменчивостью этом изменчивость Y лишь на 50% обусловлена изменчивостью X (0.72 = 0.49) V P Это определение восходит к регрессионному анализу:нужны Y ~ X числа. Пока это все только слова – для вычисления корреляций Коэффициент Cor(Y,X)2 = Каким Y, обусловленная X = Доля изменчивости числом характеризовать генотип? детерминации Наследуемость = (Корреляция «генотип - фенотип»)2 Простейшая модель –аддитивность действия генов. Например, в случае, когда Р - предрасположенность к заболеванию Общее число «рисковых» аллелей G = во всех генах предрасположенности = GA В узком смысле: h 2 VG A VP «аддитивно объясненной» = Cor(P,GA)2 = Доляизменчивости фенотипа Всегда h2 H 2 Как оценивали наследуемость, не зная генотипы? В предположении, что вся генетическая изменчивость аддитивна Рпотомок = (Рмать + Ротец)/2 Сопоставляя фенотипы родственников Степень родства Корреляция фенотипов Родительское среднее – потомки, монозиготные близнецы Родители – потомки, сибсы Дедушки – внуки, Полусибсы h2/2 …. …. Кошмар Дженкина: Vпот = Vрод/2 h2 h2/4 Sir Francis Galton (1822-1911) Оценивая результаты искусственного отбора P потом ки P родители h P отбор P родители 2 Sir Ronald Aylmer Fisher (1890-1962) Родители Отбор Потомки Как оценивали наследуемость, не зная генотипы? В предположении, что вся генетическая изменчивость аддитивна Сопоставляя фенотипы родственников Степень родства Корреляция фенотипов Родительское среднее – потомки, монозиготные близнецы Родители – потомки, сибсы Дедушки – внуки, Полусибсы h2/2 …. …. h2 Самое удивительное, что это работает! rMZ = 2rDZ Для 86 признаков rMZ отличается в среднем от h2/4 2rDZGen., не 2008 более, чем на 0,5% Hill et. al, PloS Оценивая результаты искусственного отбора P потом ки P родители h P отбор P родители 2 rMZ - 2rDZ Неоднозначная роль математических моделей в развитии биологии «Оценки» числа генов, ответственных за количественный признак (50-60 г.г.) Математической биологии не бывает! Математики и математизированные Тысячи работ с «оценками» наследуемости и числа биологи любят выстраивать новые генов по результатам селекционных экспериментов миры, не имеющие отношение к Израиль Гельфанд (1913-2009) «Оценки» числа мишеней и числа ударовреальной в радиобиологии (40-70 г.г.) биологии «Моцарт» математики P потом ки P родители h2 P отбор P родители Выживаемость, % Сотни работ с «оценками» числа и объемов мишеней по кривым выживаемости Внук, Михаил Гельфанд, Доза облучения лидер отечественной 1/объем Современныебиоинформатики биоинформатики 0.1 мишени полагают, что все эти 0.01 математические построения лишь от реальных задач Математическая генетика популяций (30-80отвлекали г.г) Число мишеней 1 Тысячи статей и сотни монографий, посвященных формальным нюансам взаимоотношений отбора, рекомбинаций, дрейфа, мутаций и т.д. Sergey Gavrilets, Prof. Math., Ecol. and Evol. Biol., University of Tennessee (USA): От всего этого остался лишь Харди – Вайнберг! Вернемся к «missing heritability»: суть и масштабы проблемы (по Рeter Visccher, AJHG 2011) Cor(P,GA)2 << h2 Фенотип GWAS: корреляции между фенотипом и Диабет 1 типа аллелями #SNP 41 % объясненной h2, %Эпидемиология: наследуемости корреляции между 90 родственниками 30 Диабет 2 типа 18 30-60 6 Шизофрения 17 70-80 1,3 Рассеянный склероз 33 30-80 20 Рак груди 300 30 27 Болезнь Крона 32 60-80 14 Анкилозный спондилит 8 > 90 22 Биполярное расстройство (МДС) Инфаркт миокарда с зубцом Q 42 60-70 2 25 37-60 14 Минеральная плотность костей 30 60-80 7 Рост 40 80 5 Индекс массы тела (BMI) 35 40-60 2-4 Вернемся к «missing heritability»: суть и масштабы Генетика – не самая молодая наука. Почему только сейчас? Генотипы и предрасположенности Хроники по Walter Bodmer (Nat. Genet., 2008) Группы крови (1910-1960) ~20 loci Иммуногенетика ~20 loci (1965-…) HLA (Хр 6) Форез белков (1960-1980) ~100 loci Ford (1945) – полиморфизм АВ0 AB0 и рак желудка (Aird, OR =1953) 1.3 4с и болезнь Ходжкина (Amiel, OR = 1967) 2.8 Анкилозный OR = 100! спондилит, псориаз, … Механизм доОсознание сих пор тотального характера неясен! генетической изменчивости loci Маркеры приианализе Убедительных регулярных родословных,с судебная взаимосвязей фенотипами медицина не обнаружено loci Гипервариабельны: эволюционные древа, идентификация личности RFLP (1975-…) >105 ATCATCATC… ATCATCATC…A TCATCATC… VNTR, STR (1985-…) >105 GATCAGGCGA GATCCTGCGA GATCAGGCGA SNP (1998-…) >108 loci PCR-генотипирование кандидидатных локусов, GWAS Генотипы и предрасположенности в XXI веке. После открытия PCR (1983) 2000 2002 Сиквенс единичных геномов 2004 2006 2008 2010 2012 2000-2005: идентификация 10 млн. SNP Популяционная изменчивость по SNP (4 популяции по ~100 человек) Выявление блочной структуры генома. Описание гаплотипов. 2007-2008-…: нашествие GWAS Каталог GWAS Популяционная изменчивость по сиквенсу: 180 человек – полный сиквенс 700 человек – сиквенс экзонов 900 генов Единый каталог гаплотипов по SNP www.hapmap.org Цель проекта: характеризация изменчивости нуклеотидов, которая встречается во всех популяциях человека - т.н. «common SNP». Для них, как правило, Minor Allele Frequency (MAF)Представлены > 0.1 только SNP! Между соседними буквами сотни База первичных данных доступна всем и выглядит так: консервативных нуклеотидов Популяция YRI, CEU, CHB либо JPT + 7 популяций (2007) # Гаплотипы по всем хромсомам GCCCAAATGCC…GCTTAGCACA ~ 60-100 4.7 млн. SNP (2010) «Горячая точка» Основная неожиданность: гаплотипы всех хромосомрекомбинации имеют блочную структуру, (их ~330 000) т.е. распадаются на независимые блоки, состоящие из скоррелированных SNP Единый каталог гаплотипов по SNP www.hapmap.org Для этого блока возможны 27 =128 гаплотипов SNP3 и SNP7 сопряжены D’ = 1 D’ = 0.5 D’ = 0 SNP3 и SNP11 независимы Но SNP в блоке статистически зависимы. Это означает, что в популяции встречаются лишь 3-4 гаплотипа, например, так: CGCAATG (40%) AACAATG (35%) CGGGATG (15%) CGCAGAA (9%) Остальные (1%) Вывод: нет необходимости генотипировать все 7 SNP. Можно выбрать один, т.н. tagSNP (например, SNP3) и по нему приблизительно судить об остальных 6 SNP Прямые и непрямые ассоциации SNP с фенотипом Прямые ассоциации – их ищут, когда полагают, что кандидатный ген является причинным, или тесно сцеплен с ним. GWAS основан на непрямых ассоциациях – генотипируют по 300 000 –600 000 tagSNP, которые захватывают все основные блоки гаплотипов (т.е. все 10 млн. SNP, среди которых возможно есть причинный ген)исследованиях часто В отечественных просто ген, на который есть чип Кандидатный ген Причинный ген GWAS Причинный ген © Francis Collins, 2008 Ассоциации, индуцированные сцеплением генов Нейтральный наблюдаемый маркерный ген: аллели M > m MAF = pm > 0.1 ORm - индуцированный эффект = ? ORm 1 pc D ORc 1 pm Неравновесие по D =нетривиально, pc,m – pc pчто Здесь m сцеплению: Приведенное неравновесие индуцированные ассоциации редких Dдля D / Dмаркеров по сцеплению: больше max Причинный невидимый ген с редкой мутацией: аллели С > c MAF = pc < 0.01 ORc >> 1 – эффект редкой невидимой мутации D D зависит от расстояния (частоты рекомбинаций) и числа поколений с момента возникновения мутации Поколения Ассоциации, индуцированные сцеплением генов Нейтральный наблюдаемый маркерный ген: аллели: M > m MAF = pm > 0.1 ORm - индуцированный эффект = ? ORm 1 pc D ORc 1 pm Неравновесие по сцеплению: Приведенное неравновесие по сцеплению: Причинный невидимый ген с редкой мутацией: аллели С > c MAF = pc < 0.01 D = pc,m – pc pm D D / Dmax ORc >> 1 – эффект невидимый редкой мутации Скорей всего, почти всегда из 4 бывают лишь 3 гаплотипа: М C m C М c m c Тогда D 1 и ORm 1 (ORc 1) pc / pm Как выглядят результаты GWAS? ATGGATTCTGGTATGTTCTAGCGCTTGCACCATCCCATTTAACTGTAAGAAGAATTG CACGGTCCCAATTGCTCGAGAGATTTCTCTTTTACCTTTTTTTACTATTTTTCACTCT CCCATAACCTCCTATATTGACTGATCTGTAATAACCACGATATTATTGGAATAAATAG GGGCTTGAATTTGGAAAAAAAAAAAAACTGAAATATTTTCGTGATAAGTGATAGT GATATTCTTCTTTTATTTGCTACTGTTACTAAGTCTCATGTACTAACATCGATTGCTT CATTCTTTTTGTTGCTATATTATATGTTTAGAGGTTGCTGCTTTGGTTATTGATAACG GTTCTGGTATGTGTAAAGCCGGTTTTGCCGGTGACGACGCTCCTCGTGCTGTCTTC CCATCTATCGTCGGTAGACAAGACACCAAGGTATCATGGTCGGTATGGGTCAAAA AGACTCCTACGTTGGTGATGAACTCAATCCAAGAGAGGTATCTTGACTTTACGTTA CCCAATTGAACACGGTATTGTCACCAACTGGGACGATATGGAAAAGATCTGGCAT Последовательности длиной 500 000 – 1 000 000 CATACCTTCTACAACGAATTGAGAGTTGCCCCAGAAGAACACCCTGTTCTTTTGA нуклеотидов для огромных выборок: CTGAAGCTCCAATGAACCCTAAATCAAACAGAGAAAAGATGACTCAAATTATGTT несколько тысяч больных и столько же здоровых! TGAAACTTTCAACGTTCCAGCCTTCTACGTTTCCATCCAAG CCGTTTTGTCCTTGTACTCTTCCGGTAGAACTACTGGTATTGTTTTGGATTCCGGTG ATGGTGTTACTCACGTCGTTCCAATTTACGCTGGTTTCTCTCTACCTCACGCCATTT TGAGAATCGATTTGGCCGGTAGAGATTTGACTGACTACTTGATGAAGATCTTGAGT GAACGTGGTTACTCTTTCTCCACCACTGCTGAAAGAGAAATTGTCCGTGACATCA При меньших выборках эффекты будут заведомо AGGAAAAACTATGTTACGTCGCCTTGGACTTCGAACAAGAAATGCAAACCGCTGC TCAATCTTCTTCAATTGAAAAATCCTACGAACTTCCAGATGGTCAAGTCATCACTA статистически незначимы (105-106 сравнений ) TTGGTAACGAAAGATTCAGAGCCCCAGAAGCTTTGTTCCATCCTTCTGTTTTGGGT TTGGAATCTGCCGGTATTGACCAAACTACTTACAACTCCATCATGAAGTGTGATGT CGATGTCCGTAAGGAATTATACGGTAACATCGTTATGTCCGGTGGTACCACCATGTT CCCAGGTATTGCCGAAAGAATGCAAAAGGAAATCACCGCTTTGGCTCCATCTTCC ATGAAGGTCAAGATCATTGCTCCTCCAGAAAGAAAGTACTCCGTC Как выглядят результаты GWAS: Manhattan Plot – достоверность вдоль хромосом Логарифм P-value 8 SNP, ассоциированных с шизофренией p = 10-7 p = 10-5 При GWAS необходим уровень значимости эффектов SNP ~ 10-8 - 10-7. По Бонферрони: 0.05/5105 = 10-7 22 хромосомы почечная карцинома identifies two susceptibility loci GWAS of renal cell carcinoma on 2p21 and 11q13.3 M. Purdue, …(97 авторов)…, P. Brennan. Nature Genetics, 2011, 43,1 Пики частоты рекомбинации Только для 2 SNP значимость ассоциаций подтвердилась в 2 независимых исследованиях (OR = 1.18, p = 10-7, MAF = 0.9) Единый каталог GWAS Признак Болезнь Ген Уровень эффекта Сюрпризы GWAS Результаты GWAS устойчиво демонстрируют: Плохую воспроизводимость В различных GWAS находят непересекающиеся группы ассоциированных SNP Эффекты отдельных SNP крайне малы: При этом в чипах стараются tagSNP Предрасположенность к заболеваниям - OR = 1.1 – 1.3 особенно плотно расположить Количественные признаки – менее 1% объясненной вариансы именно в кодирующих экзонах Ассоциированные SNP в основном расположены в некодирующих районах (40%), либо в интронах (40%) и… не сцеплены с несинонимичными заменами, которые могли бы повлиять на функционирование генного продукта Ассоциированные SNP находят совсем не в тех генах или участках хромосом, в которых их рассчитывают найти Распределение значений OR для рисковых аллелей ассоциированных с одним из 16 широко распространенных заболеваний (92 SNP, подтвержденные в нескольких GWAS) Prof. Peter Visscher, Univ. of Queensland, Australia N. Wray, M. Goddard, P. Visscher. Prediction of individual genetic risk of complex disease. Current Opinion in Genetics & Development 2008, 18 Сюрпризы GWAS Результаты GWAS устойчиво демонстрируют: Плохую воспроизводимость В различных GWAS находят непересекающиеся группы ассоциированных SNP Эффекты отдельных SNP крайне малы: Предрасположенность к заболеваниям - OR = 1.1 – 1.3 Количественные признаки – менее 1% объясненной вариансы Ассоциированные SNP часто расположены в некодирующих районах, либо … не сцеплены с несинонимичными заменами, которые могли бы повлиять на функционирование генного продукта Ассоциированные SNP находят совсем не в тех генах или участках хромосом, в которых их рассчитывают найти The Genome in the Form of GWAS as a “Teacher” of Unexpected Lessons and Connections Неожиданное участие генов Teri Manolio, Director of office for Population Genomics, NHGRI Неожиданные сочетания заболеваний T. Manolio. N Engl J Med 2010; 363 Очевидные недостатки GWAS Требует огромных выборок (из-за множественности сравнений критический уровень значимости < 10-7) Статистические артефакты: сомнения всегда остаются! GWAS основан на чипах, а не на секвенировании! Он видит только уже известные общие варианты, на которые можно изготовить чипы. GWAS не видит: - неизвестные ранее SNP - редкие мутации (MAF < 0.01) - тандемные повторы (STR, VNTR) - структурную изменчивость (CNV) При этом GWAS не регистрирует: - эффекты генов вблизи горячих точек рекомбинации - слабые эффекты (из-за требования pvalue < 10-7) Основной вариант GWAS - это «case - control». Отсюда: - плохая воспроизводимость для различных популяций - крайняя чувствительность к стратификации выборок (этнос, пол, возраст, среда и т.д.) Возможные объяснения парадокса «missing heritability» (по Peter Visccher, 2011) В порядке роста правдоподобия и не исключая друг друга Оценки наследования по родословным ошибочны Неаддитивность действия генов (эпистаз) Взаимодействия генотип – среда (GxE) Эпигенетические эффекты Низкая мощность обнаружения малых эффектов «общих полиморфизмов» Гетерогенность заболеваний – много различных заболеваний сходны по фенотипу Общие варианты в проблемных участках генома, напр., в горячих точках рекомбинации Мутации, не относящиеся к SNP (напр., CNV, STR) Редкие мутации с большим эффектом Выявить взаимодействия GxG и GxE в рамках GWAS можно лишь при огромных выборках Число пар из 1 млн SNP = 1012 критическое Pvalue < 10-14 Редкий пример: взаимодействие генов HLA-C и ERAP1 в предрасположенности к псориазу (0,59 Mb, выборки 2622/5667) Значимость взаимодействия Pval = 710−6 который усугубляется при Сильный эффект ERAP1*A наличии алллеля алллеля HLA-C*A Nat. Gen. (2010) 42 Взаимодействия GxG могут быть причиной более высоких оценок наследуемости по родословным, чем по GWAS Тесно сцепленные несинонимичные SNP, MAF = 0.5 SNP1 A>G SNP2 C>T Предположим, что для гаплотипов AC, GT – признак (в равной степени) AT, GC – признак Тогда эффект аллеля А в среднем = AC + AT = 0, и все «однолокусые» эффекты = 0 Наследуемость по родословным и по GWAS Анализ родословных: 1 локус – 4 аллеля h2 = Cor (родители, потомки) = 0,71 0,5 0,25 Признак GWAS: 2 биаллельных нейтральных локуса h2 = 0 Возможные объяснения парадокса «missing heritability» (по Peter Visccher, 2011) В порядке роста правдоподобия и не исключая друг друга Оценки наследования по родословным ошибочны Неаддитивность действия генов (эпистаз) Взаимодействия генотип – среда (GxE) Эпигенетические эффекты Низкая мощность обнаружения малых эффектов «общих полиморфизмов» Гетерогенность заболеваний – много различных заболеваний сходны по фенотипу Общие варианты в проблемных участках генома, напр., в горячих точках рекомбинации Мутации, не относящиеся к SNP (напр., CNV, STR) Редкие мутации с большим эффектом Уровень метилирования Часто является эффективным биомаркером, D. Fradin et al. PLoS ONE, 2012, 2 но его наследуемость сильно зависит от популяции и эффектов GxE Fraser et al. Population-specificity of human DNA methylation. Genome Biology, 2012, 13 Возможные объяснения парадокса «missing heritability» (по Peter Visccher, 2011) В порядке роста правдоподобия и не исключая друг друга Оценки наследования по родословным ошибочны Неаддитивность действия генов (эпистаз) Взаимодействия генотип – среда (GxE) Эпигенетические эффекты Низкая мощность обнаружения малых эффектов «общих полиморфизмов» Гетерогенность заболеваний – много различных заболеваний сходны по фенотипу Общие варианты в проблемных участках генома, напр., в горячих точках рекомбинации Мутации, не относящиеся к SNP (напр., CNV, STR) Редкие мутации с большим эффектом Гетерогенность заболеваний: слепота Complex genetic diseases: controversy over the Croesus code A. Wright, N. Hastie. Genome Biology. 2001, 2(8) Гетерогенность эффектов (разнонаправленная плейотропия) Высокая частота во всех популяциях человека и приматов A. Wright, N. Hastie. Genome Biology. 2001, 2(8) Возможные объяснения парадокса «missing heritability» (по Peter Visccher, 2011) В порядке роста правдоподобия и не исключая друг друга Оценки наследования по родословным ошибочны Неаддитивность действия генов (эпистаз) Взаимодействия генотип – среда (GxE) Эпигенетические эффекты Низкая мощность обнаружения малых эффектов «общих полиморфизмов» Гетерогенность заболеваний – много различных заболеваний Наиболее вероятное сходны по фенотипу объяснение парадокса Общие варианты в проблемных участках«missing генома,heritability» напр., в горячих точках рекомбинации Мутации, не относящиеся к SNP (напр., CNV, STR) Редкие мутации с большим эффектом Крупные CNV часто ассоциированы с психогенными заболеваниями Редкие CNV OR = 15, но частота в популяции ~ 0.0002 Доля объясненной заболеваемости ~ 0. 28% T. Manolio et al. Finding the missing heritability «Общие» CNVof complex diseases Частота в популяции ~ 0.55 Genome differedOR from theДоля reference = 1,3. объясненной заболеваемости 15% in only 0.1% of SNPs, but in 1.2% of ~CNVs. Nature, 2009, 461 Возможные объяснения парадокса «missing heritability» (по Peter Visccher, 2011) В порядке роста правдоподобия и не исключая друг друга Оценки наследования по родословным ошибочны Неаддитивность действия генов (эпистаз) Взаимодействия генотип – среда (GxE) Эпигенетические эффекты Низкая мощность обнаружения малых эффектов «общих полиморфизмов» Гетерогенность заболеваний – много различных заболеваний сходны по фенотипу Общие варианты в проблемных участках генома, напр., в горячих точках рекомбинации Мутации, не относящиеся к SNP (напр., CNV, STR) Редкие мутации с большим эффектом Проблема «Missing Heritability» возродила дискуссию «Rare vs. Common» Гипотеза «common disease - rare variants». Предрасположенность к широко распространенным заболеваниям определяется редкими аллелями (мутациями, MAF < 0.01) с высокой пенетратностью (Pritchard, 2001; Prixhard & Cox, 2002) Гипотеза «common disease - common variants». Предрасположенность к широко распространенным заболеваниям определяется аллелями высоко полиморфных генов (Reich & Lander, 2001) GWAS фактически целиком основан на этой гипотезе 10 лет, 500 000 000$, 700 GWAS для 300 заболеваний, и вечные дебаты о природе фенотипической изменчивости Проблема «Missing Heritability» возродила дискуссию «Rare vs. Common» Менделисты (1900-1940) Биометрики У. Бейтсон К. Пирсон Г. де Фриз R. Fisher Классическая (1960-1980) гипотеза Балансовая гипотеза A1B1C1D1E1G1F1 A2B2C2D2E2G2F2 +++++++++ ++++m++++ Г. Дж. Меллер Ф.Г. Добржанский Rare Jonathan Pritchard, Prof. of Howard Hughes Medical Institute (2000-…) Common Eric Lander, Director of the Broad Inst. of Massachusetts, Harvard Univ. Проблема «Missing Heritability» возродила дискуссию «Rare vs. Common» Хорхе Луис Борхес (1899 - 1986) «Быть может, всемирная история – это история различных интонаций при произнесении нескольких метафор» Аргументы в пользу гипотезы «common disease - rare variants» (по Greg Gibson) Rare and common variants: twenty arguments Nature Rev. Genetics, Feb. 2012, 13 Вредные мутации в "генах предрасположенности" находятся под действием отбора и не могут стать «common variants» Ассоциации заболеваний с «общими» вариантами почти никогда не удается объяснить с функциональных позиций Многие семейные формы заболеваний обусловлены редкими аллелями с высокой пенетрантностью Редкие CNV часто ассоциированы с психогенными заболеваниями Массовое секвенирование экзомов показывает, что несинонимичные замены имеют низкую MAF, а «общие» варианты преобладают в межгенных областях Проект 1000 геномов - генетическая изменчивость, выявляемая при массовом секвенировании (с 2008) http://www.1000genomes.org Этап 1 2 тройки «мать-отец-ребенок» Глубокое секвенирование Полные гаплотипы 179 человек из 4 популяций Полногеномное секвенирование Статистические гаплотипы Т 697 человек из 7 популяций Секвенирование 8140 экзонов 906 генов Без гаплотипов Неизвестно АТ А или ТА Проект 1000 геномов - генетическая изменчивость, выявляемая при массовом секвенировании Обнаружено # Из них новых, % SNP 15 млн. 55 Короткие Indel 1 млн. Крупные CNV 20 000 57 61 (делеции) 89 (дупликации) В среднем каждый человек является носителем 250-300 аллелей типа «loss-of-function variants» и … носителем 50-100 аллелей, ранее зарегистрированных как варианты, вовлеченные в наследственные заболевания (NHGRI) de novo по 2 тройкам : в половых клетках зарегистрировано 1028 нуклеотидных замен (10-8 на нуклеотид за поколение) Nature, 2010,467 Проект 1000 геномов - генетическая изменчивость, выявляемая при массовом секвенировании Доля SNP Среди уникальных SNP преобладают стоп-кодоны Среди «общих» вариантов преобладают SNP в межгенных областях Частота аллеля (MAF) Уникальные SNP Nature, 2010,467 Проект 1000 геномов - генетическая изменчивость, выявляемая при массовом секвенировании Несинонимичные SNP: Condel score Среди уникальных SNP преобладают ущербные Ущербные Доля SNP Мягкие Consensus Deleteriousness score of missense SNPs Частота аллеля (MAF) Уникальные SNP Среди «общих» SNP преобладают мягкие замены Nature, 2010,467 Что могут противопоставить сторонники гипотезы «common disease - common variants»? Что могут противопоставить сторонники гипотезы «common disease - common variants»? Для ряда заболеваний ассоциации с «общими» аллельными вариантами реально существуют и уверенно воспроизводятся Для ряда заболеваний ассоциации с «общими» аллельными вариантами реально существуют Заболевание «Общий» полиморфизм Язва 12-перстной кишки AB0*В Тромбоз вен F5*Leiden Болезнь Альцгеймера APOE*Е4 ВИЧ CCR5*Δ32 Колоректальный рак Диабет I типа APC*3920A PTPN22 Диабет II типа PPARG, KCJN11 © Gibson & Muse, A Primer of Genome Science, 2002 Что могут противопоставить сторонники гипотезы «common disease - common variants»? Для ряда заболеваний ассоциации с «общими» аллельными вариантами реально существуют и уверенно воспроизводятся Для модельных объектов (мухи, мыши) проблемы с «missing heritability» не возникают Распределение частот рисковых аллелей не соответствует гипотезе «common disease - rare variants» Распределение частот рисковых аллелей не соответствует гипотезе «common disease - rare variants» Распределение частот рисковых аллелей для наиболее значимых результатов GWAS (genome.gov ) 417 SNP – 17 заболеваний Теоретическое распределение частот рисковых аллелей для ассоциаций, индуцированных сцеплением с редкими вариантами ORm 1 pc ORc 1 pm Мода ~ 0.4! N.Wray, S. Purcell, P.Visscher. Synthetic Associations Created by Rare Variants Do Not Explain Most GWAS Results. PLoS Biology, 2011, 9, 1 Что могут противопоставить сторонники гипотезы «common disease - common variants»? Для ряда заболеваний ассоциации с «общими» аллельными вариантами реально существуют и уверенно воспроизводятся Для модельных объектов (мухи, мыши) проблемы с «missing heritability» не возникают Количественные признаки, которые «валлелей 2 шагах от Распределение частот рисковых незаболевания» соответствует давление при диабете) гипотезе «common disease -(напр., rare variants» Изменчивость «эндофентипов» удается удовлетворительно объяснить «общими» полиморфизмами Редкие варианты не объясняют «эпидемиологические сдвиги», напр., рост диабета и заболеваний сердца в Индии и Китае за последние 10 лет В недавних работах показано, что GWAS (common SNP) в состоянии объяснить 45% изменчивости роста человека («главный модельный признак» со времен Гальтона) «Общие» SNP объясняют большую долю изменчивости роста человека J. Yang, …, P. Visscher. Nature Genetics, 2010, 42, 7 Common SNPs explain a large proportion of the heritability for human height #SNP % объясненной P-value вариансы роста Выборка Источник 50 < 10-7 5 30 000 4 GWAS (2008) 294 831 - 45 3 925 P. Visscher (2010) Т.е. все SNP c MAF > 0.1 независимо от P-value Genome-partitioning of genetic variation for complex traits using common SNPs Jian Yang, Teri A. Manolio, …, Peter M. Visscher. Nat. Genetics 2011 Вклад в долю объясненной вариансы пропорционален длине хромосомы Аналогичный подход в отношении предрасположенностей 2900 SNP объясняют 100% наследуемости диабета II типа Bayesian inference analyses of the polygenic architecture of rheumatoid arthritis E. Stahl, D. Wegmann et al. Nature Genetics, March 2012 Как преодолеть кризис, связанный с «missing heritability» (из частных бесед): Евгений Рогаев, Univ. of Massachusetts Medical School, ИОГен РАН Идея GWAS порочна по своей сути. Только «глубокое секвенирование» позволит разобраться с генетикой предрасположенности. Юрий Дуброва, Dep. of Genetics Univ. of Leicester На практике биоинформатика обходится дороже чипов. И остается при этом самым слабым местом ассоциативных исследований. Никита Хромов-Борисов, СПбГМУ Прежде чем заниматься геномикой, следовало бы поначалу внедрить в клиническую практику регистрацию родословных. Это и дешевле и эффективнее. Джон Крейг Вентер: ветеран войн - генетик - бизнесмен - организатор науки Der Spiegel Interview with Craig Venter http://www.spiegel.de/international/world/0,1518,709174-2,00.html SPIEGEL: “Why is it taking so long for the results of genome research to be applied in medicine?” VENTER: “Because we have, in truth, learned nothing from the genome other than probabilities. How does a 1 or 3 percent increased risk for something translate into the clinic? It is useless information.” 07/29/2010 Всем спасибо, выводов не будет – «still missing»! Но напоследок несколько советов: Никогда не упускайте возможность полистать Nature Почаще заглядывайте в «HapMap», «NHGRI» и «1000 Genomes». Даже если Вы непосредственно не занимаетесь генотипированием. Все новости – там! Каталог GWAS Попробуйте определить свой психотип: сделайте свой выбор между «rare» и «common». Даже не пытайтесь занять промежуточную позицию! Слайды доступны всем!