***** 1 - Kodomo

advertisement
Распознавание генов эукариот
2015, ААл
с использованием презентации МГ и ЕЕ
План
• Особенности генов эукариот
– Сплайсинг
• Длины экзонов и интронов
– Сигналы сплайсинга
– Альтернативный сплайсинг
– Сложная регуляция и сложные сигналы
• Как учитывать сплайсинг
• Программы
– AUGUSTUS
• Массовые экспериментальные методы
– EST
– Транскриптом
– Chip-seq
2
1. Особенности генов эукариот:
сплайсинг
3
Процессирование мРНК: экзоны и интроны
Рис. из перзентации МГ
4
Рис. из перзентации МГ
5
Рис. из перзентации МГ
6
Take home message:
чем сложнее организм, тем меньше длинных
экзонов (обычно)
7
Рис. из перзентации МГ
8
Take home message:
чем сложнее организм, тем больше длинных
экзонов (обычно)
9
Сравнение экзон-интронной структуры у
разных организмов
Средн. длина
экзона
Средняя длина
интрона
человек
162.7
5848.7
рыба D.rerio
156.2
2276.4
муха D.melanogaster
370.0
1530.7
растение A. thaliana
223.7
163.7
Zhu et al. Patterns of exon-intron architecture
variation of genes in eukaryotic genomes, BMC
Genomics 2009
10
Экстремальные экзоны и интроны в геноме
человека
• Максимальное число экзонов в гене – 148
• Максимальная длина гена - 2 217 347 п.н. (!)
(DMD- Dystrophin Dp140bc isoform на хр. X)
• Минимальная длина экзона – 2 п.н. (!)
• Максимальная длина экзона – 11 923 п.н.
• Минимальная длина интрона – 30 п.н. (не считая
сдвигов рамки в 1 п.н.)
• Максимальная длина интрона – 497816
Sakharkar et al., Distributions of exons and introns in the
human genome, In Silico Biology, 2004
http://www.bioinfo.de/isb/2004040032/main.html
11
Сигналы сплайсинга – донорный и
акцепторный
• Сигналы способствуют нахождению генов
• Они слабые – т.е. похожие сигналы встречаются в геноме
очень часто, лишь малая доля их сайты сплайсинга
Рис. из перзентации МГ
12
… и точка ветвления
13
Сплайсинг присходит примерно так
14
2. Особенности генов эукариот:
сложность регуляции и трудность
детектирования сигналов
15
Сигнал
• Прокариоты:
– сайт посадки рибосомы – Шайн-Дальгарно
– Полицистронная мРНК
• Эукариоты:
– Моноцистронная мРНК
– Кэпирование мРНК, кэп узнается субъединицей
рибосомы или IRES – специальныя вторичная
структура мРНК, узнаваемая субъединицей
рибосомы
– Сигналы старта транскрипции – TATA бокс и др.
– Поли-А сайт на 3’конце мРНК
16
Из презентации Скоблова
17
3. На чем основан поиск генов
эукариот
18
Что учитывать
• Открытая рамка считывания – НЕТ! (Вернее, только в зрелой РНК, если
таковая известна)
• Интрон-экзонная структура (взамен ORF)
– Донорный и акцепторный сайты сплайсинга – ДА
• Инициаторный и стоп кодон – ДА
• Сигналы на границе кодирующей последовательности – сложно:
– Сигналы старта трансляции – есть
– Кэп и IRES
– Сплайсинг ДО посадки рибосомы
• Кодирующий потенциал - статистика встречаемости кодонов – ДА
• Сравнение с генами из родственных организмов - ДА
• Независимые экспериментальные данные об мРНК – ДА
–
–
–
–
EST
RNA-seq
ChiP-seq – для регуляторных сигналов
….
19
Рис. из перзентации МГ
20
4. Идея алгоритма поиск генов
эукариот
21
22
23
Вариант алгоритм поиска
1) Найдем все потенциальные сайты
сплайсинга, донорные и акцепторные,
инициаторные и стоп-кодоны
2) Построим график потенциала кодирования
вдоль генома
3) Применим динамическое
программирование, вес участка
вычисляется по кодирующему потенциалу
24
25
26
Веса
• Для каждого потенциального экзона
вычислим число – кодирующий потенциал,
чем больше, тем лучше
• Для каждого потенциального интрона
вычислим число – чем меньше
кодирующий потенциал, тем лучше
27
28
5. AUGUSTUS
Stanke et al., AUGUSTUS: ab initio prediction of
alternative transcripts, NAR 2006
29
Алгоритм
• Скрытая марковская модель (HMM) (а не
динамическое программирование)
• После обучения алгоритма каждому
разбиению F последовательности S на
экзоны, интроны, межгенные промежутки
ставится в соответствие вероятность P(F|S)
• Задача состоит в том, чтобы найти
разбиение F последовательности S с
наибольшей вероятностью.
30
В алгоритме учитываются
•
•
•
•
•
Окрестности донорного и акцепторного сайтов
Окрестность точи ветвления
Старт трансляции
Участок перед стартом трансляции
Кодирующая последовательность
– Первый кодирующий экзон
– Внутренний экзон
– Последний кодирующий экзон
•
•
•
•
•
•
Некодирующая последовательность
Межгенный участок
Распределение длин экзонов
Распределение числа экзонов в гене
Распределение длин интронов
….. Всего 23 параметра на каждую из цепочек ДНК
31
• Обучение
Этапы AUGUSTUS
– Вход:
• Геном
• Набор генов
– Найденных пользователем или
– Найденных по транскриптому
– Результат – файл с
• параметрами детекторов сигналов
• Статистическими параметрами последовательностей в
экзонах, интронах и межгенных промежутках
• Поиск генов
– Вход:
• Геном или его часть
• Файл с параметрами
– Либо результат обучения
– Либо рассчитанный по аннотированному геному ближайшего
организма
– Результат: предсказанные гены
32
КОНЕЦ
33
Download