Введение ДНК-микрочип Методы оценивания экспрессии Задачи анализа данных ДНК-микрочипов чл.-корр. РАН, д.б.н. Тоневицкий Александр Григорьевич чл.-корр. РАН, д.ф.-м.н. Рудаков Константин Владимирович д.ф.-м.н. Воронцов Константин Вячеславович Семинар «Время, хаос и математические проблемы» МГУ • 19 октября 2011 г. Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Содержание 1 Введение Базовые понятия молекулярной биологии ДНК, РНК и гибридизация Метаболические пути 2 ДНК-микрочип Ход эксперимента и устройство ДНК-микрочипа Сканирование ДНК-микрочипа Стандартная методика оценивания экспрессии 3 Методы оценивания экспрессии Простейшая модель данных ДНК-микрочипа Модель, учитывающая эффект насыщения Модель, учитывающая эффект кросс-гибридизации Задача выявления активных метаболических путей Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Центральная догма молекулярной биологии Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Базовые понятия ДНК — молекула, содержащая информацию, необходимую для функционирования клетки. Ген — участок ДНК, несущий какую-либо целостную функциональную информацию. РНК — молекула-посредник, передающий информацию о гене структурам клетки, отвечающим за синтез белка. Количество молекул РНК в клетке служит мерой активности гена (оценкой экспрессии). Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. Методы оценивания экспрессии ДНК-микрочипы Введение ДНК-микрочип Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. Методы оценивания экспрессии ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии ДНК и РНК Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Сети в клетке Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Ход эксперимента Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии ДНК-микрочип Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Гибридизация Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Сканирование Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Результат сканирования Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Стандартная методика получения оценок экспрессии 1 Изображение со сканера оцифровывается, получается вектор значений интенсивности флуоресценции проб. 2 Проводится предобработка интенсивностей: фоновая поправка; нормализация. 3 Значения предобработанных интенсивностей всех проб каждого гена усредняются (median polish), давая оценку экспрессии. Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Пример получения оценки экспрессии Интенсивности свечения проб одного гена для разных чипов: Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Модель №1, учитывающая степени сродства проб с геном Известные данные: Ipk — интенсивность свечения пробы p на микрочипе k; g(p) — номер гена, для которого проба p специфична (определён конструкцией микрочипа). Неизвестные параметры: Cgk — концентрация РНК гена g на микрочипе k; ap — коэффициент сродства (affinity) пробы p гену g(p); N k , B k — нормировочные константы. k Ipk = N k ap Cg(p) + Bk . ограничений = проб × чипов. 861 493 неизвестных = проб + генов + 2 × чипов. 861 493 28 869 Необходимо иметь хотя бы два микрочипа. Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Две стадии анализа данных ДНК-микрочипов 1 Калибровка параметров модели ap по базе микрочипов XX 2 k Ipk − N k ap Cg(p) − B k → min , k {ap },{Cgk } p при ограничениях ap > 0, Cgk > 0 и нормировке 2 P g Cgk = 1. Данная задача декомпозируется по пробам. Восстановление концентраций Cgk для нового микрочипа X Ip − N ap Cg(p) − B p 2 → min , при известных {ap } и ограничениях Cgk > 0, {Cgk } P g Cgk = 1. ˆ 2 могут использоваться Замечание. Вместо функции потерь (I − I) ˆ ˆ ˆ |I − I|, | log I − log I|, в общем случае — L (I, I). Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Модель №2 — уточнение Одна проба может быть специфична нескольким генам. S(p) — множество генов, для которых проба p специфична. X Ipk = N k ap Cgk + B k . g∈S(p) |S(p)| 1 2 3 4 5 6 7 8 9 10 проб 721605 15352 1783 14416 222 2310 44 634 5171 240 |S(p)| 11 12 13 14 15 16 17 18 20 21 проб 14 872 17 83 206 1170 1 143 459 53 Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. |S(p)| 22 23 24 25 26 27 28 30 31 32 проб 8 2 124 569 3 6 66 134 1 55 ДНК-микрочипы |S(p)| 33 34 35 36 38 39 40 42 ... 2220 проб 6 1 43 423 3 8 53 176 ... 1 Введение ДНК-микрочип Методы оценивания экспрессии Модель №3, учитывающая эффект насыщения Одна из простейших моделей насыщения — кривая Ленгмюра: σ(C; a, b) = aC . 1 + bC Модель с учётом насыщения: X k k k Cg ; ap , bp + B k , Ip = N σ g∈S(p) ap > 0 — коэффициенты сродства, a p , где Imax — уровень гориbp = Imax зонтальной асимптоты. Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Эффект кросс-гибридизации Свечение пробы p может быть вызвано не только генами g ∈ S(p), но и другими генами, для которых проба p НЕ специфична. Распределение среднего числа комплементарных генов: Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Модель №4, учитывающая эффект кросс-гибридизации Гипотеза 1. Свечение пробы p вызвано не только генами g ∈ S(p), но и другими генами, для которых проба p НЕ специфична. Γ(p) — множество генов, которые могут гибридизироваться на пробе p, Γ(p) ∩ S(p) = ∅, |Γ(p)| . 150. X apg Cgk + B k , Ipk = N k g∈Γ(p) apg — неизвестные коэффициенты сродства, матрица kapg k сильно разрежена. Гипотеза 2. При неспецифической гибридизации насыщения нет: X X k k k k Ip = N σ Cg ; ap , bp + apg Cg + B k . g∈S(p) Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. g∈Γ(p) ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Открытая проблема Оптимизационная задача на стадии калибровки: X X XX apg Cgk +B k → Cgk ; ap , bp + L Ipk , N k σ k p g∈S(p) g∈Γ(p) min ограничений = проб × чипов. 861 493 неизвестных = проб |Γ(p)| + 2 + генов + 2 × чипов. 861 493 28 869 С чем связаны надежды: Достаточно нескольких сотен микрочипов (в базе более 3000). Задача «почти декомпозируется» по пробам. Стандартные методы, не учитывающие кросс-гибридизацию, дают неплохое начальное приближение. Технологии параллельных вычислений. Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы , {ap ,bp ,apg } {Cgk } Введение ДНК-микрочип Методы оценивания экспрессии Эксперимент по идентификации параметров apg При уменьшении числа совпадающих нуклеотидов уменьшается невязка модели, увеличивается число ненулевых коэффициентов apg : Планируемый следующий шаг — контроль переобучения по большой выборке чипов. Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Сети в клетке Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Задача следующего уровня Выявление активных метаболических путей. Дано: 1. Граф hV, Ei, V — множество генов (⇔ белков), V ≈ 3 · 104 , (x, y) ∈ E — белки x и y выполняют совместную функцию. 2. Множество метаболических путей P = P = (x1 , . . . , xn ) : (xi , xi+1 ) ∈ E , Найти по данным микрочипа ДНК: Подмножество путей P = (x1 , . . . , xn ), в которых все гены xi ∈ P экспрессированы. Основная проблема: Граф hV, Ei и множество путей P известны неполно и неточно. Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы Введение ДНК-микрочип Методы оценивания экспрессии Спасибо за внимание! чл.-корр. РАН, д.б.н. Тоневицкий Александр Григорьевич д.ф.-м.н. Воронцов Константин Вячеславович [email protected] Презентация доступна на вики www.MachineLearning.ru, страница http://www.MachineLearning.ru/wiki/index.php?title=Участник:Vokov Тоневицкий А.Г., Рудаков К.В., Воронцов К.В. ДНК-микрочипы