Задачи анализа данных ДНК-микрочипов

advertisement
Введение
ДНК-микрочип
Методы оценивания экспрессии
Задачи анализа данных ДНК-микрочипов
чл.-корр. РАН, д.б.н. Тоневицкий Александр Григорьевич
чл.-корр. РАН, д.ф.-м.н. Рудаков Константин Владимирович
д.ф.-м.н. Воронцов Константин Вячеславович
Семинар «Время, хаос и математические проблемы»
МГУ • 19 октября 2011 г.
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Содержание
1
Введение
Базовые понятия молекулярной биологии
ДНК, РНК и гибридизация
Метаболические пути
2
ДНК-микрочип
Ход эксперимента и устройство ДНК-микрочипа
Сканирование ДНК-микрочипа
Стандартная методика оценивания экспрессии
3
Методы оценивания экспрессии
Простейшая модель данных ДНК-микрочипа
Модель, учитывающая эффект насыщения
Модель, учитывающая эффект кросс-гибридизации
Задача выявления активных метаболических путей
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Центральная догма молекулярной биологии
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Базовые понятия
ДНК — молекула, содержащая информацию, необходимую для
функционирования клетки.
Ген — участок ДНК, несущий какую-либо целостную
функциональную информацию.
РНК — молекула-посредник, передающий информацию о гене
структурам клетки, отвечающим за синтез белка.
Количество молекул РНК в клетке служит мерой активности гена
(оценкой экспрессии).
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
Методы оценивания экспрессии
ДНК-микрочипы
Введение
ДНК-микрочип
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
Методы оценивания экспрессии
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
ДНК и РНК
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Сети в клетке
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Ход эксперимента
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
ДНК-микрочип
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Гибридизация
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Сканирование
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Результат сканирования
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Стандартная методика получения оценок экспрессии
1
Изображение со сканера оцифровывается,
получается вектор значений интенсивности флуоресценции
проб.
2
Проводится предобработка интенсивностей:
фоновая поправка;
нормализация.
3
Значения предобработанных интенсивностей всех проб каждого
гена усредняются (median polish), давая оценку экспрессии.
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Пример получения оценки экспрессии
Интенсивности свечения проб одного гена для разных чипов:
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Модель №1, учитывающая степени сродства проб с геном
Известные данные:
Ipk — интенсивность свечения пробы p на микрочипе k;
g(p) — номер гена, для которого проба p специфична
(определён конструкцией микрочипа).
Неизвестные параметры:
Cgk — концентрация РНК гена g на микрочипе k;
ap — коэффициент сродства (affinity) пробы p гену g(p);
N k , B k — нормировочные константы.
k
Ipk = N k ap Cg(p)
+ Bk .
ограничений = проб × чипов.
861 493
неизвестных = проб + генов + 2 × чипов.
861 493
28 869
Необходимо иметь хотя бы два микрочипа.
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Две стадии анализа данных ДНК-микрочипов
1
Калибровка параметров модели ap по базе микрочипов
XX
2
k
Ipk − N k ap Cg(p)
− B k → min ,
k
{ap },{Cgk }
p
при ограничениях ap > 0, Cgk > 0 и нормировке
2
P
g
Cgk = 1.
Данная задача декомпозируется по пробам.
Восстановление концентраций Cgk для нового микрочипа
X
Ip − N ap Cg(p) − B
p
2
→ min ,
при известных {ap } и ограничениях Cgk > 0,
{Cgk }
P
g
Cgk = 1.
ˆ 2 могут использоваться
Замечание. Вместо функции потерь (I − I)
ˆ
ˆ
ˆ
|I − I|, | log I − log I|, в общем случае — L (I, I).
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Модель №2 — уточнение
Одна проба может быть специфична нескольким генам.
S(p) — множество генов, для которых проба p специфична.
X
Ipk = N k ap
Cgk + B k .
g∈S(p)
|S(p)|
1
2
3
4
5
6
7
8
9
10
проб
721605
15352
1783
14416
222
2310
44
634
5171
240
|S(p)|
11
12
13
14
15
16
17
18
20
21
проб
14
872
17
83
206
1170
1
143
459
53
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
|S(p)|
22
23
24
25
26
27
28
30
31
32
проб
8
2
124
569
3
6
66
134
1
55
ДНК-микрочипы
|S(p)|
33
34
35
36
38
39
40
42
...
2220
проб
6
1
43
423
3
8
53
176
...
1
Введение
ДНК-микрочип
Методы оценивания экспрессии
Модель №3, учитывающая эффект насыщения
Одна из простейших моделей насыщения — кривая Ленгмюра:
σ(C; a, b) =
aC
.
1 + bC
Модель с учётом насыщения:
X
k
k
k
Cg ; ap , bp + B k ,
Ip = N σ
g∈S(p)
ap > 0 — коэффициенты сродства,
a
p
, где Imax — уровень гориbp = Imax
зонтальной асимптоты.
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Эффект кросс-гибридизации
Свечение пробы p может быть вызвано не только генами g ∈ S(p),
но и другими генами, для которых проба p НЕ специфична.
Распределение среднего числа комплементарных генов:
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Модель №4, учитывающая эффект кросс-гибридизации
Гипотеза 1. Свечение пробы p вызвано не только генами g ∈ S(p),
но и другими генами, для которых проба p НЕ специфична.
Γ(p) — множество генов, которые могут гибридизироваться
на пробе p, Γ(p) ∩ S(p) = ∅, |Γ(p)| . 150.
X
apg Cgk + B k ,
Ipk = N k
g∈Γ(p)
apg — неизвестные коэффициенты сродства,
матрица kapg k сильно разрежена.
Гипотеза 2. При неспецифической гибридизации насыщения нет:
X
X
k
k
k
k
Ip = N σ
Cg ; ap , bp +
apg Cg + B k .
g∈S(p)
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
g∈Γ(p)
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Открытая проблема
Оптимизационная задача на стадии калибровки:
X
X
XX apg Cgk +B k →
Cgk ; ap , bp +
L Ipk , N k σ
k
p
g∈S(p)
g∈Γ(p)
min
ограничений = проб × чипов.
861 493
неизвестных = проб |Γ(p)| + 2 + генов + 2 × чипов.
861 493
28 869
С чем связаны надежды:
Достаточно нескольких сотен микрочипов (в базе более 3000).
Задача «почти декомпозируется» по пробам.
Стандартные методы, не учитывающие кросс-гибридизацию,
дают неплохое начальное приближение.
Технологии параллельных вычислений.
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
,
{ap ,bp ,apg }
{Cgk }
Введение
ДНК-микрочип
Методы оценивания экспрессии
Эксперимент по идентификации параметров apg
При уменьшении числа совпадающих нуклеотидов уменьшается
невязка модели, увеличивается число ненулевых коэффициентов apg :
Планируемый следующий шаг — контроль переобучения по большой
выборке чипов.
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Сети в клетке
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Задача следующего уровня
Выявление активных метаболических путей.
Дано:
1. Граф hV, Ei,
V — множество генов (⇔ белков), V ≈ 3 · 104 ,
(x, y) ∈ E — белки x и y выполняют совместную функцию.
2. Множество
метаболических путей P = P = (x1 , . . . , xn ) : (xi , xi+1 ) ∈ E ,
Найти по данным микрочипа ДНК:
Подмножество путей P = (x1 , . . . , xn ), в которых все гены xi ∈ P
экспрессированы.
Основная проблема:
Граф hV, Ei и множество путей P известны неполно и неточно.
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Введение
ДНК-микрочип
Методы оценивания экспрессии
Спасибо за внимание!
чл.-корр. РАН, д.б.н. Тоневицкий Александр Григорьевич
д.ф.-м.н. Воронцов Константин Вячеславович
voron@forecsys.ru
Презентация доступна на вики www.MachineLearning.ru, страница
http://www.MachineLearning.ru/wiki/index.php?title=Участник:Vokov
Тоневицкий А.Г., Рудаков К.В., Воронцов К.В.
ДНК-микрочипы
Download