АЛГОРИТМ ДЛЯ ИДЕНТИФИКАЦИИ АЛЛЕЛЬНЫХ ПАТТЕРНОВ

advertisement
АЛГОРИТМ ДЛЯ
ИДЕНТИФИКАЦИИ
АЛЛЕЛЬНЫХ ПАТТЕРНОВ
Полигенные заболевания
Восприимчивость к полигенным заболеваниям
определяется вкладом нескольких генов.
• Гены могут влиять аддитивно (независимо) или
взаимодействовать между собой или по
отношению к заболеванию.
• Гетерогенность: различные наборы мутаций
приводят к одному и тому же заболеванию.
Уровень заболевания коррелирован с
генетической картиной, а не определяется ей.
Всё сказанное может быть отнесено к любому
полигенному фенотипическому признаку.
Пример паттернa:
распознавание образов
(1,0)
(1,1)
(1,1/2)
(1/2,1/2)
(1/2,1)
(0,1)
Аллельный (генетический) паттерн
Мы знаем уровни некоторого фенотипического
признака у некоторой группы особей и аллели
генов-кандидатов для этих особей.
Паттерн – это непустое множество аллелей этих
генов, присутствие которого в геноме
ассоциировано с признаком.
Любое подмножество паттерна ассоциировано с
признаком слабее, чем сам паттерн. То есть,
паттерн – это локально минимальный набор
аллелей, ассоциированный с признаком.
• Паттерн может состоять только из одного аллеля.
Пример генетического паттерна для полигенного заболевания
Доля больных РС и здоровых среди
носителей и не-носителей аллеля
DR4 гена DRB1 из комплекса HLA и
делеции Δ32 гена хемокинового
рецептора CCR5.
Линия показывает на произведение
долей аллелей (независимое влияние)
100%
75%
50%
25%
0%
DR4
non - DR4
controls
48
183
patients
49
163
CCR5 Del
non - (CCR5 Del)
100%
100%
75%
75%
50%
OR 20.1
50%
25%
p<0.0001
25%
0%
0%
DR4 + CCR5 Del
non - (DR4 + CCR5 Del)
controls
1
230
controls
40
191
patients
17
195
patients
52
160
Favorova OO, Andreewski TV, Boiko AN, Sudomoina MA, Alekseenkov AD, Kulakova OG,
Slanova AV, Gusev EI. 2002. The chemokine receptor CCR5 deletion mutation is associated
with MS in HLA-DR4-positive Russians. Neurology 59(10):1652-5.
Независимость
• Несколько паттернов, одновременно
ассоциированных с заболеванием, могут
“прятать” друг друга.


При ненулевом пересечении появление паттернов
в геноме не независимо.
Более сильный паттерн может “затенять” более
слабый.
• Мы не можем использовать разделение
компонент, поскольку паттерны не образуют
линейного пространства, например, не всегда
определено сложение.
Наборы паттернов
Поскольку мы не можем искать паттерны по
отдельности, приходится искать их
одновременно.
Изоляция от влияния других
паттернов
Мы рассматриваем влияние носительства
паттерна изолированно, то есть устранив из
рассмотрения влияние остальных паттернов из
набора.
Задача
• Нам известны генотипы и уровень
фенотипического признака для набора особей.
• Уровни признака – сравнительные
характеристики. Смысл имеет только их
относительные величины, а не абсолютные.
• Мы хотим получить набор аллельных
паттернов, который наилучшим образом
характеризует связь генотипа и фенотипа.
Мы ищем набор паттернов, такой, чтобы
максимизировать вероятность того, что каждый
из них изолированно ассоциирован с
фенотипическим признаком.
Структуры
данных
Соответствие двух
матриц- мера качества
набора паттернов.
Уровень
признака
0.1
0.4
0.7
0.9
0.2
…
Матрица
включения
1 0 0
0 1 1
0 0 0
0 0 1
1 1 1
.......
Набор паттернов –
параметр оптимизации
Набор паттернов
0 0 | d 0 | 0
0 0 | a 0 | 0
0 f | 0 0 | b
0 |....
0 |....
0 |....
Аллели генов
a c | d d | f s |....
c f | a b | b a |....
a a | c b | a c |....
c f | f b | b s |....
a f | a d | b c |....
........................
Классификация по включению
Матрица
включения
1 0 0
0 1 1
0 0 0
0 0 1
1 1 1
1 0 1
0 1 0
1 0 1
0 0 1
.......
110
Все геномы клас100
сифицируются в
2n классов по
содержимому
010
строки в матрице
000
включения.
111
101
011
001
Классы можно представить себе
вершинами гиперкуба, при этом
каждое направление рёбер
соответствует одному паттерну.
Сравнение пары классов
Два класса, находящиеся на одном ребре гиперкуба, отличаются носительством только одного паттерна и различие
уровней заболевания в них определяется изолированным
влиянием этого паттерна. Поэтому характеристику набора
паттернов мы будем строить из таких атомарных сравнений
двух классов.
110
100
x
010
000
Мы можем сравнивать только
y 111 уровни заболевания (признака), и
для характеристики сравнения
101
пары классов нам подходит
статистика числа инверсий.
Инверсией называется ситуация,
011 когда уровень болезни (признака)
особи из класса х ниже, чем особи
001
из класса y.
Пара классов:
альтернативные гипотезы
Для каждой пары классов, сформулируем 3
альтернативные гипотезы.



нулевая: два класса – это исходы розыгрышей из
распределений с одинаковыми медианами;
“положительная” – вторая медиана больше
(положительный паттерн)
“отрицательная” – первая медиана больше
(отрицательный паттерн)
Мы сравниваем эти гипотезы с помощью
формулы условной вероятности Баейса.
Распределение Вилкоксона
Распределение Вилкоксона (Wilcoxon) для g=2 и h=4.
Последовательность
xxyyyy
xyxyyy
yxxyyy
xyyxyy
yxyxyy
xyyyxy
yyxxyy
yxyyxy
xyyyyx
yxyyyx
yyxyxy
yyyxxy
yyxyyx
yyyxyx
yyyyxx
число
инверсий
0
1
2
2
3
3
4
4
4
5
5
6
6
7
8
вес по Mann Whitney
1/15
1/15
Число различных
последовательностей
2/15
6
C     15
 2
2
6
2/15
P
3/15
2/15
2/15
1/15
1/15
1/15
N
Апостериорная вероятность
нулевой гипотезы для паттерна
P  H 0 for a pattern | data  
P  data | H 0  P  H 0 

P  data | H 0  P  H 0   P  data | H   P  H    P  data | H   P  H  
Если паттерн содержится во всех геномах или ни
в одном (неинформативный паттерн), то
априорная вероятность нулевой гипотезы для
этого паттерна равна 1.
Правдоподобие данных для паттерна – это
произведение правдоподобий результатов
сравнений во всех его парах классов.
Качество набора паттернов
• Все попарные сравнения
110
классов, отличающихся на один
паттерн, вместе определяют
100
качество паттерна.
• Все паттерны вместе
определяют качество набора
010
паттернов.
 Хороший набор паттернов не
000
содержит плохих паттернов.
p

P  H 0    1  P  H 0 i  | data 
i 1

111
101
011
001
P  H 0  - это качество
набора паттернов.
Поиск наилучшего набора
паттернов
• Полное перечисление неэффективно.
• Градиентные алгоритмы не отличают
локального максимума от глобального.
Использовался метод Монте-Карло
Марковскими цепями (MCMC).
Монте-Карло Марковскими цепями
Мы не можем напрямую
решить задачу, мы можем
только оценить
относительную вероятность
различных возможных
решений.
МСМС используется для
исследования возможных решений.
Шаг MCMC
f (x)
Серия последовательно разыгрываемых
точек, таких, что распределение каждой
их них зависит только от предыдущей,
составляет Марковскую цепь первого
порядка.
x
• Шаг цепи MCMC, улучшающий f (x), всегда принимается.
• Шаг, ухудшающий f (x), принимается с вероятностью
f (start)/f (finish).
 Множество исходов такой цепи распределено по f(x)
Приложения метода к реальным
медицинским исследованиям
Была разработана программа APSampler.
Favorov AV, Andreewski TV, Sudomoina MA, Favorova OO, Parmigiani G, Ochs
MF. 2005. A Markov Chain Monte Carlo Technique for Identification of
Combinations of Allelic Variants Underlying Complex Diseases. Genetics
171(4):2113-21
Примеры приложений:
•Исследование по методу “случай-контроль” генетической
картины рассеянного склероза (РС) в русской популяции.
•Анализ генетических причин гипертензии у перенесших
ишемический инсульт (ИИ) пациентов якутского
происхождения.
•Анализ аллелей и псевдоаллелей, влияющих на рак
молочной железы (РМЖ) в русской популяции.
При анализе 15 локусов для 237
больных РС и 358 здоровых контролей
APSampler нашёл паттерны:
• DRB1*15(2)
• TNFa9
• CCR532 + DRB1*04
 TGF1-509*C + DRB1*18 + +49CTLA4*G (trio 1)
 -238 TNF*B1 + -308 TNF*A2 + +49CTLA4*G (trio 2)
4-х польный тест Фишера для троек и входящих в
них двоек
Combinations
–509TGFβ1*C,DRB1*18(3),CTLA4*G
(trio 1)
–509TGFβ1*C,DRB1*18(3)
–509TGFβ1*C,CTLA4*G
DRB1*18(3),CTLA4*G
–238TNF*B1,–308TNF*A2,CTLA4*G
(trio 2)
–238TNF*B1,–308TNF*A2
–238TNF*B1,CTLA4*G
–308TNF*A2,CTLA4*G
Patients, Controls,
N (%)
N (%)
p Value
5 (5)
0 (0)
0.009
5 (5)
60 (61)
5 (5)
2 (1)
88 (57)
1 (1)
0.114
0.603
0.035
11 (9)
0 (0)
0.003
13 (10)
38 (30)
23 (18)
4 (5)
15 (17)
13 (15)
0.198
0.037
0.580
Трёхаллельный паттерн был найден как
ассоциированый с гипертонией у перенесших
ИИ якутов (анализ по 7 локусам).
Частота носительства
сочетания трёх аллелей
в группе с нормальным
давлением, (0), со
слабой (1), умеренной
(2) и сильной (3)
гипертонией.
Анализ ассоциации генотипов SULT1A1 и UGT1A1
с риском и фенотипом РМЖ методом MCMC,
использующим непараметрическое многомерное
сравнение фенотипического признака,
с применением алгоритма APSampler
«на входе»
«на выходе»
аллели и генотипы:
риск РМЖ
SULT1A1
UGT1A1
«псевдоаллели»:
возраст дебюта
семейная история РМЖ
фенотип:
размер опухоли
состояние лимфатических узлов
клиническая стадия заболевания
Русские больные РМЖ: достоверные различия в
ассоциации генотипов SULT1A1 и UGT1A1 с риском и
фенотипом, выявленные алгоритмом APSampler
- У больных РМЖ, по сравнению с контролями, чаще встречаются носители аллеля
UGT1A1*28 (р*=0.003; ОР=2.31), особенно в сочетании c возрастом начала
заболевания <52 лет (р*=0.0005; ОР=2.78).
- Риск РМЖ еще увеличивается, если добавляется третий фактор - носительство
аллеля SULT1A1*1 (р*=0.0008; ОР=5.56).
- Среди больных РМЖ реже встречаются носители генотипа UGT1A1*1/*1 (р*=0.0038;
ОР=0.44), особенно в сочетании c возрастом начала заболевания >52 лет (р*=0.0002;
ОР=0.37).
- Выявлена позитивная связь с размером опухоли >2 см носительства аллеля
UGT1A1*28 (р=0.026; ОР=2.71) и генотипа UGT1A1*1/*28 (р*=0.0006; ОР=4.17).
- Негативная связь с размером опухоли >2 см выявлена у носителей генотипа
UGT1A1*1/*1 (р*=0.0038; ОР=0.36), причем она более выражена у тех больных, для
которых не известны случаи РМЖ в семье (р*=0.0018; ОР=0.23).
* - по критерию Фишера
Authors
Acknowledgements






Alexander Favorov 1
Timofey Andreewski 2
Marina Sudomoina 2
Olga Favorova 2
Giovanni Parmigiani 3
Michael Ochs 4
1.
2.
3.
4.
5.
State Scientific Centre “GosNIIGenetica”, Moscow, Russia.
Russian State Medical University, Moscow, Russia.
Johns Hopkins University, Baltimore, MD, USA
Fox Chase Cancer Center, Philadelphia, PA, USA.
Yakut Research Center, Russian Academy of Medical Sciences and Government of the
Sakha Republic (Yakutia), Yakutsk
Institute of Information Transmission Problems RAS, Moscow, Russia
6.








Alexey Alexeenkov 2
Alexey Boiko 2
Evgeniy Gusev 2
Alexey Boiko 2
Mikhail Parfenov 2
Tatiana Nikolaeva 5
Mikhail Gelfand 6
Vsevolod Makeev 1
Thank your for your attention.
Правдоподобия гипотез. Пример.
p 0.25
+
-
null
const
0
inv#
8
Чем населёнее меньший из двух классов, тем сильнее
зависимости от числа инверсий. Когда он равен 0 или 1,
все 4 линии совпадают.
Шаги изменения набора
паттернов
Мутация:
Рекомбинация:
0
0
0
0 | d
0 | a
f | 0
0 | 0
0 | 0
0 | b
0
0
0
0
0
0
0 | d
0 | a
f | 0
0 | 0
0 | 0
0 | b
0
0
0
0
0
0
0 | d
0 | a
f | c
0 | 0
0 | 0
0 | b
0
0
0
0
0
0
0 | d
0 | a
f | 0
0 | 0
0 | b
0 | 0
0
0
0
Analysis of genetic background of
hypertension in ishemic stroke (IS)
patients of Yakut descent
• 116 IS patients were classified into 4 groups:
with normal blood pressure, with mild,
moderate and severe hypertension
• 7 loci were analyzed
Download