Распознавание генов прокариот 2014, ААл с использованием презентации МГ и ЕЕ План • • • • • Постановка задачи Примитивный способ решения - ORFs Дополнительные свойства генов Алгоритмы и программы Методы проверки ответа – Транскриптом – Протеом – Ресеквенирование и реаннотация 2 Задача • Дана последовательность генома бактерии или археи • Найти в ней все последовательности, кодирующие белки (гены белков) • Получить последовательности белков 3 Свойства кодирующих последовательности белков (CDS) у прокариот • не имеют интронов • начинаются с инициаторного кодона и заканчиваются стоп-кодоном • нет сдвигов рамки считывания или преждевременных стоп-кодонов • длина белка не менее … 60-и а.к.о. • кодируются с равной вероятностью на любой цепи ДНК • не пересекаются с другими CDS ? ? ? ? ? ? 4 Экзоны и интроны (которых у бактерий нет) Рис. из перзентации МГ 5 Стандартный генетический код он же инициаторный кодон 6 Решение задачи почти тривиально ? 1. Найдем открытые рамки от СТОП до СТОП кодона длиной более 180 п.н. 2. Выберем самую длинную – – – Найдем инициаторные кодоны ATG в рамке считывания, начиная от 1-го кодона Выберем тот кодон ATG, который по каким-то соображениям более похож на инициаторный; возможно, им является первый ATG. Удалим найденную кодирующую последовательность из ДНК 3. Повторим п.2 пока не исчерпаем всю ДНК 4. Транслируем CDS согласно генетическому коду Нетривиальным остается только выбор ATG в рамке 7 При длине 190 пн P = 0,0001 т.е одна на 10 000 ORFов Рис. из перзентации МГ 8 Сравнение трех разных аннотаций генов в одном и том же геноме бактерии (Joint Genome Institute, RAST, Prokaryotic Annotation Pipeline in Craig Venter Institute Совпадение генов по стоп-кодонам: 90% генов Совпадают в трех аннотациях Совпадение генов по старт- и стоп-кодонам: 48% генов совпадают в трех аннотациях Bakke et al., Evaluation of Three Automated Genome Annotations for Halorhabdus utahensis, 2009 9 Аннотации генома H.utahensis, полученные популярными программами RAST (Rapid Annotations using Subsystems Technology) , PGAAP (NCBI Prokaryotic Genome Automatic Annotation Pipeline ) , AAMG (Automatic Annotation of Microbial Genomes ) Совпадение генов по старт- и стоп-кодонам: 66% генов совпадают в трех аннотациях Прогресс за 6 лет на лицо! Kalkatawi et al., BEACON: automated tool for Bacterial 10 GEnome Annotation ComparisON, 2015 11 12 Почему “тривиальная” задача решается так плохо? 13 14 Уточнения свойств CDS • Сплайсинг бактериальных генов – в ОЧЕНЬ специальных генах • Нестандартный генетический код – да • Перекрытие CDS (“gene overlapping”) – да • Программируемый сдвиг рамки в гене – да • Проскок стоп-кодона – да • Ошибки секвенирования – да • Статистическая модель длины ORF не соответствует действительности – да • Не транслируемые длинные ORF – да • Псевдогены – да 15 Интроны • У вирусов, фагов и бактерий встречаются интроны • См. статью Woodson, 1998 (на диске P) • Интроны сами катализируют свое вырезание из РНК – автокатализ (у эукариот большинство интронов вырезается большой молекулярной машиной – сплайсосомой) • Они - эгоистичные элементы 16 Таблицы кодонов (18 обобщенных на сайте NCBI) Табл.1: стандартный код: эукариоты Табл.11: бактерии, археи, пластиды растений Табл.4: стандартный код: плесень, простейшие, митохондрии кишечнополостных и бактерии - микоплазмы и спироплазмы 17 Перекрытие генов 1) Tunka et al., Two overlapping antiparallel genes encoding the iron regulator DmdR1 and the Adm proteins control sidephore and antibiotic biosynthesis in Streptomyces coelicolor A3(2), 2009 (см. на диске P) 2) dnaK и GDH - аналогично. Артефакт? 3) Короткие перекрытия генов встречаются часто 18 Программируемый сдвиг рамки и преждевременный стоп-кодон • Редко, но встречается и то, и другое явление • Следует различать – природное явление и – ошибки секвенирования • Пример см. в статье Deshayes et al, 2009 (см. на диске P): – из 73 исследованных случаев в Mycobacterium smegmatis 28 ошибок секвенирования, 45 – природные явления 19 Дополнительные свойства, используемые при аннотации генов • Сигналы на границах генов – Шайн – Дальгарно (у > половины генов) – инициаторный и стоп-кодон • Сравнение с генами из родственных прокариот – Есть экспериментально доказанный ген – Специфический паттерн нуклеотидных замен • Статистика встречаемости кодонов 20 Последовательность Шайн-Дальгарно – сайт посадки рибосомы. Короткий – около 5 п.н., например, GGAGG Отличается в разных бактериях Расположен на расстоянии 5-10 п.н. Перед инициаторным кодоном John Shine “Growth-dependent changes in terminal heterogeneity involving 3'-adenylate of bacterial 16S ribosomal RNA” Nature, 1975 Премиальный балл в ведомости за портрет Линна Дальгарно с доказательством, что он тот самый! ? Lynn Dalgarno, m. 21 22 23 Рис. из перзентации МГ 24 Рис. из перзентации МГ 25 Рис. из перзентации МГ 26 Рис. из перзентации МГ 27 Рис. из перзентации МГ 28 Рис. из перзентации МГ 29 30 Рис. из перзентации МГ 31 Рис. из перзентации МГ 32 Рис. из перзентации МГ 33 34 Проверка аннотаций • Blast – Внедрен в пакеты для автоматического предсказания генов прокариот, такие как RAST • Транскриптом – RNA-seq • Протеом – масс-спектрометрия 35 Сервисы, используемые в задании • RAST - один из ведущих сервисов для аннотации и реаннотации геномов прокариот • Gene_mark – более простая программа Марка Бородовского – Ее предсказания лежат в директориях бактерий на ftp (см. адрес на страницах 1го семестра) 36 КОНЕЦ 37 38