Моделирование MDA Корчемкин Дмитрий Александрович, гр. 422 Санкт-Петербургский государственный университет Математико-механический факультет Кафедра статистического моделирования научный руководитель: к.ф.-м.н., доцент А. И. Коробейников рецензент: м.н.с. С. Ю. Нурк Санкт-Петербург 2015 г. 1/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Мотивация: ДНК ДНК – полимер состоящий из нуклеотидов В клетке большую часть времени находится в виде двойной спирали из нуклеотидов Для многих приложений достаточно рассматривать как последовательность символов из алфавита {𝐴, 𝑇, 𝐺, 𝐶} Нити двойной спирали комплементарны ДНК хранит информацию о синтезе белков 2/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Мотивация: проблемы секвенирования Для многих задач нужно знать исходную последовательность целиком «Прочтение» ДНК целиком невозможно, необходимо большое количество перекрывающихся кусков Увеличение количества ДНК обычным путём (делением клеток) не всегда возможно без дополнительных условий Процедура MDA позволяет добиться многократного увеличения количества ДНК, но разные участки увеличиваются в разной мере 3/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Мотивация: проблемы секвенирования Процедура MDA позволяет добиться многократного увеличения количества ДНК, но разные участки увеличиваются в разной мере Рис.: Результат применения MDA 104 102 100 0 500 1,000 1,500 2,000 2,500 3,000 3,500 4,000 4,500 KBases Рис.: Пример увеличения количества ДНК в зависимости от позиции 3/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Постановка задачи Моделирование MDA с учётом возникающих ошибок и параметров эксперимента Изучение влияния параметров на «качество» увеличения количества ДНК 4/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Свойства процесса Важные свойства MDA: Вероятность ошибки в каждом копировании отдельного нуклеотида < 10−3 Strand displacement: разрыв части связей со старыми цепочками при образовании новых Покрытие Цель применения MDA — увеличение количества «копий» исходной ДНК для её «прочтения» Разумная характеристика «качества» увеличения ДНК — количество пар связанных вхождений нуклеотида исходной цепочки в результат 5/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Формализация и моделирование Предлагается рассматривать процесс применения MDA как марковскую цепь; процесс одного этапа наращивания цепочек также рассматривается как марковская цепь. Исходная ДНК длиной порядка 106 увеличивается в 106 раз (т.е. ∼ 1012 нуклеотидов) Распределения покрытия не достаточно для идентификации полного состояния Позиции гибридизации праймеров присутствуют не только на цепочках, появившихся на предыдущем этапе Проблема: Необходимость хранения описания полной структуры цепочек и связей. 6/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Формализация и моделирование Проблема: Необходимость хранения описания полной структуры цепочек и связей. В работе предлагается алгоритм моделирования и структуры данных решающие проблему: Моделирования многократных успешных исходов Использования графоподобных структур для хранения «похожих» фрагментов Параллелизация за счёт уменьшения «зависимости» моделирования цепочек 7/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Параметры моделирования Цель: изучить зависимость результата применения MDA от параметров. Параметры, варьируемые в экспериментах: Последовательность ДНК:Escherichia coli, Rhodobacter sphaeroides, Staphylococcus aureus Средняя продолжительность жизни полимераз: {104 , 2 · 104 , 4 · 104 } 1 1 1 «Плотность» праймеров: { 2000 , 1000 , 500 } (праймеров на общую длину ДНК на начало этапа) Наборы вероятностей событий: Моделирование с ошибками Моделирование без ошибок (54 набора параметров) 8/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Результаты NC_S_10K_20_3 NC_S_10K_20_4 NC_S_10K_20_5 2.0 p 1.5 1.0 0.5 0.0 6 8 10 12 log(coverage) Рис.: «Плотность» распределения логарифма покрытия (на разных итерациях) 9/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Сравнение с «классическими» распределениями Сравним распределения покрытия, полученные путём моделирования, с несколькими распределениями: Гамма Лог-нормальное EVD-семейство Распределение Вейбулла Распределение Фреше Параметры распределений получены из численных MLE оценок. 10/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA Сравнение с «классическими» распределениями EVD -Weibull Frechet Log-norm Gamma 6e-04 EVD -Weibull Frechet Log-norm Gamma 5000 Empirical density 4000 4e-04 2e-04 3000 2000 1000 0e+00 1000 2000 3000 4000 5000 1000 2000 data (a) Сравнение плотностей 3000 4000 Theoretical (b) QQ-plot Рис.: Сравнение с «классическими» распределениями 11/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA 5000 Сравнение с «классическими» распределениями EVD -Weibull Frechet Log-norm Gamma 0.002 1000 0.001 500 0.000 0 0 500 1000 1500 EVD -Weibull Frechet Log-norm Gamma 1500 Empirical density 0.003 0 500 data (a) Сравнение плотностей 1000 Theoretical (b) QQ-plot Рис.: Сравнение с «классическими» распределениями 12/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA 1500 Заключение В работе рассмотрено моделирование процесса MDA, в частности: Предложен эффективный алгоритм моделирования и сопутствующие структуры данных, позволяющие моделировать MDA в достаточно общей модели Путём моделирования показано, что распределение покрытия можно рассматривать как распределение из EVD семейства В то же время, существуют задачи, решение которых продолжит начатую работу: Формальное доказательство принадлежности предельного распределения к какому-либо семейству Изучение различия между распределениями при отсутствии и наличии ошибок Исследование влияния параметров на хвосты распределения 13/13 Корчемкин Дмитрий Александрович, гр. 422 Моделирование MDA