Распознавание генов Факультет биоинженерии и биоинформатики МГУ, второй набор, второй курс. Апрель 2005 М. Гельфанд (лекции) А. Неверов (задания) Е. Ермакова, Р.Нуртдинов (занятия) А. Казаков (примеры) Распознавание генов • Поиск открытых рамок считывания • Использование статистики (отличия белок-кодирующих и некодирующих областей) • Идентификация начал генов – участки связывания рибосом (прокариоты) • Экзон-интронная структура (эукариоты) • Сравнения с известными генами • Геномные сравнения Вероятность открытой рамки считывания длины не меньше данной 0,0008 0,0007 0,0006 0,0005 0,0004 0,0003 0,0002 0,0001 0 150 200 250 300 ORFы в геноме K. pneumoniae Перепредсказание (E. coli) Сильное перепредсказание (Aeropyrum pernix) Поиск открытых рамок в заданной последовательности Генетический код TTT TTC TTA TTG CTT CTC CTA CTG ATT ATC ATA ATG GTT GTC GTA GTG F F L L L L L L I I I M/ start V V V V TCT TCC TCA TCG CCT CCC CCA CCG ACT ACC ACA ACG GCT GCC GCA GCG S S S S P P P P T T T T A A A A TAT TAC TAA TAG CAT CAC CAA CAG AAT AAC AAA AAG GАT GАC GАA GАG Y Y stop stop H H Q Q N N K K D D E E TGT TGC TGA TGG CGT CGC CGA CGG AGT AGC AGA AGG GGT GGC GGA GGG C C stop W R R R R S S R R G G G G Codon usage (статистика употребления кодонов) • частоты кодонов отличаются от частот триплетов в некодирующих областях – различия в частотах аминокислот в белках – различия в частотах синонимичных кодонов • частоты синонимичных кодонов – специфичны для генома – коррелируют с концентрациями тРНК Ещё про codon usage • различается у высоко- и низкоэкспрессируемых генов (у высокоэкспрессируемых генов больше доля «оптимальных» кодонов) – прокариоты, дрожжи • нестандартный у горизонтально перенесенных генов • у фага T4 – близок к хозяйскому (E. coli) у ранних генов, специфический (соответствует своему набору тРНК) – у поздних Кодирующий потенциал Функция, измеряющая, насколько участок генома похож на белок-кодирующий (и отличается от некодирующего) с точки зрения статистики Можно вычислять кодирующий потенциал – скользящего окна (не слишком маленького!) – открытой рамки считывания Нужна обучающая выборка генов (и межгенных промежутков) из данного организма E. coli. Окно 48 нт E. coli. Окно 96 нт Сравнение предсказаний при разной длине окон GeneMark Сигналы на границах генов dnaN gyrA serS bofA csfB xpaC metS gcaD spoVC ftsH pabB rplJ tufA rpsJ rpoA rplM ACATTATCCGTTAGGAGGATAAAAATG GTGATACTTCAGGGAGGTTTTTTAATG TCAATAAAAAAAGGAGTGTTTCGCATG CAAGCGAAGGAGATGAGAAGATTCATG GCTAACTGTACGGAGGTGGAGAAGATG ATAGACACAGGAGTCGATTATCTCATG ACATTCTGATTAGGAGGTTTCAAGATG AAAAGGGATATTGGAGGCCAATAAATG TATGTGACTAAGGGAGGATTCGCCATG GCTTACTGTGGGAGGAGGTAAGGAATG AAAGAAAATAGAGGAATGATACAAATG CAAGAATCTACAGGAGGTGTAACCATG AAAGCTCTTAAGGAGGATTTTAGAATG TGTAGGCGAAAAGGAGGGAAAATAATG CGTTTTGAAGGAGGGTTTTAAGTAATG AGATCATTTAGGAGGGGAAATTCAATG … после выравнивания dnaN gyrA serS bofA csfB xpaC metS gcaD spoVC ftsH pabB rplJ tufA rpsJ rpoA rplM cons. num. ACATTATCCGTTAGGAGGATAAAAATG GTGATACTTCAGGGAGGTTTTTTAATG TCAATAAAAAAAGGAGTGTTTCGCATG CAAGCGAAGGAGATGAGAAGATTCATG GCTAACTGTACGGAGGTGGAGAAGATG ATAGACACAGGAGTCGATTATCTCATG ACATTCTGATTAGGAGGTTTCAAGATG AAAAGGGATATTGGAGGCCAATAAATG TATGTGACTAAGGGAGGATTCGCCATG GCTTACTGTGGGAGGAGGTAAGGAATG AAAGAAAATAGAGGAATGATACAAATG CAAGAATCTACAGGAGGTGTAACCATG AAAGCTCTTAAGGAGGATTTTAGAATG TGTAGGCGAAAAGGAGGGAAAATAATG CGTTTTGAAGGAGGGTTTTAAGTAATG AGATCATTTAGGAGGGGAAATTCAATG tacataaaggaggtttaaaaat 0000000111111000000001 5755779156663678679890 Участки связывания рибосом rbsD в E. coli Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAAAAAAATGAAAAAAGGC Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG rbsD в энтеробактериях Sty Sen Stm Eco Ype AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty Sen Stm Eco Ype ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** * rbsD в энтеробактериях: ответ Sty Sen Stm Eco Ype AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty Sen Stm Eco Ype ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** * Паттерн нуклеотидных замен в белок-кодирующих областях: pdxB в энтеробактериях Sty Stm Sen Eco Kpn Ype TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATT ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATG TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * * Sty Stm Sen Eco Kpn Ype AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGG AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG ACGTATCCTTATAC----------CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGG ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAG ATGTTTCAGCAAATAT--------CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** ** Sty Stm Sen Eco Kpn Ype TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** 123123123123123123123123123123123123123 Белковое выравнивание (ribD) Eco V_____QDEYYMARALKLAQRGRFTTHPNPNVGCVIVKDGEIVGEGYHQRAGEPHAEVHA QD +M RAL LA +G +TT PNP VGCV VK+GEIVGEG+H +AG+PHAE A Hin MLEFSSQDCVFMQRALDLAAKGQYTTTPNPSVGCVLVKNGEIVGEGFHFKAGQPHAERVA Eco Hin GCGCGCCTGGAGGACTAA----G----------CCGTGCAGGAC-GAGTATTACATGGCGCGGGCGCTAA * * **** *** * ** ** ** * ***** *** ** ** ** GAAAAATTAAAGGATTAATTATGCTTGAATTTTCCTCACAAGATTGCGTATTT-ATGCAACGTGCCTTAG Множественное выравнивание REC06584 RECO04717 RECS04752 RTY01088 RSY05814 REO01497 RYPK00397 RYP04048 RYE04903 RVFI01204 REC06584 RECO04717 RECS04752 RTY01088 RSY05814 REO01497 RYPK00397 RYP04048 RYE04903 RVFI01204 109 109 109 51 51 66 45 45 44 0 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaat tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaat tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaat tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaat tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaat atagcgcctgtttgatttcattgaattggggaaggcgtgtctacggcggaagtattgaat gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaac gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaac aaccggcctgtgcagatctcatagttggggaatagtgtgtcaaccgcagcagtgataaat ........tattattgatgagttttttatgtccagcatgatcgcagagcaaccaatggaa f l f q a i g v n = = = V A Q A E V L N f l f q a i g v n = = = V A Q A E V L N f l f q a i g v n = = = V A Q A E V L N * r l f * f m v n g v n V A Q A E V L N * r l f * f m v n g v n V A Q A E V L N i a p v * f h * i g e g V S T A E V L N a g l c r s n s w g k s V S T A A V I N a g l c r s n s w g k s V S T A A V I N n r p v q i s * l g n s V S T A A V I N . . . i i d e f f m s s M I A E Q P M E Распознавание генов в отсутствие обучающей выборки «псевдообучающая выборка»: • протяженные рамки считывания • гены, предсказанные по сходству Репликация и статистика ДНК • GC-сдвиг (G-C)/(G+C) • Направление транскрипции • DnaA сайты Эукариоты (человек) • В среднем 9-10 экзонов (кодирующих) на ген • Средняя длина (внутреннего) экзона 120130 нуклеотидов • Часто очень длинные интроны Длины экзонов: человек, нематода C. elegans, дрозофила Длины интронов Бета-глобин человека Хемотрипсин крысы … ничего … (28S рРНК человека) Статистические методы • Скользящее окно не работает! (~ 1990) • Статистика кодирующих и некодирующих областей + сайты сплайсинга – ещё одна вариация на тему динамического программирования Сайты сплайсинга Donor sites gtgggatgatgtaagtattggggcggcccg tcaaaacaaggtaagaaatgaggtatgcct agctcccaaggtaggaggttgagtgttgtg agtggccaaggtatggtggatggaaattgc tggaaaaagcgtaagtcactctaattttat ctctcaaaaagtaagctttgtgagcatttc atcttcaagggtgagcatgtgtgttatgct tttcagaattgtaagagtacacattttaag gccagaaaaggtcagtactttctttcacac tacctcacaggtatgaattttctagttctt atctttcaaggtagagtatatgaatgttac atgtggattcgtaagtattcaacacattca aaaatatccagtaagcagttctgatgtttg ccaggagccggtgaggggctggtgggctct aatggatgaggtgggtacttagggcttctg atttcaaaaagtaagttttccctggagaaa aatttgtagagtatccttgatttgacgaat cagacaatgggtaagtacatgcttgttccc gtctgttaaggtaggtataccccatcacaa gttcaaaaaggttggtcacatgttcttgat attcggccaggtatgggtagtgtgctgaga acatatgcaggtaaacaacttaactcaaat aaagaaagaggtgagagggtgttttaattt ccagctccaggtaagccatctggaaagagc gtcttaacaggtaaatgccaccctttcccc Acceptor sites gtttcttcttacatttctaggactcaacta ttcacgtttttgccttccaggagacagagc tttcaatatttattacccaggaccccaaat gtgttatttacatttttcaggaatggacaa tttttctgcttctccaacagctatactaaa ttgttgtgttcacttcacagcatatatcgc tccgttgttttatttcccagaatgattcaa tggtttttcattgtttttagtggtgcaaaa tctaacttcatttcctccaggacaaatatc gttttgttggtgttttatagctggccaact acatgtgttctcatttttaggaagtgatag ctgttcttgttctcccttagcccaaagcag atgcctttcatttctattagctggaatctg ctgttattaaaatttgacaggagaagctga ttttttattcctacttccaggggactgctg tttgttgttgcttaactcagaaagaaataa tacttaacatgatggtccagatataacaaa cttgtgtttttgatactcagacctggctat ttgatttattgattttctagattatttcag gtccttaatgtcctttgtaggtggttcttc gcattattctcaccttccaggctatcacta aatatctcttccctatttagatgtcatcga aaggatatttataattttaggctgatcctg ttttatcttttatattacaggttctgtaaa ttcatattcatttgttgcagaagtggaagc Распознавание сайтов сплайсинга Список потенциальных экзонов Граф динамического программирования Путь = экзон-интронная структура GenScan Сравнительные методы • BLASTN: ESTs и альтернативный сплайсинг • BLASTX • BLASTX+статистика • Сравнение с известными белками • Геномные сравнения – выравнивание ДНК – выравнивание белков • All of the above and more… Семейство программ BLAST ESTs: короткие фрагменты (клонированной) мРНК • Характерная длина ~300 нт • Ошибки секвенирования • Ошибки клонирования – несплайсированный транскрипты – геномная ДНК • Обогащение к 3’-концу (PolyA-праймеры) • Альтернативный сплайсинг: 30-50% генов Human Genome Browser – поиск по имени гена Результат MAGE-C1 Ещё о сравнении предсказаний Альтернативный сплайсинг генов человека 5% 35% 38% 22% 55% 42% ~33% 59% Sharp, 1994 (Nobel lecture) Mironov-Fickett-Gelfand, 1999 (BGRS’98) Brett-…-Bork, 2000 (ESTs/mRNA) Croft et al., 2000 (ISIS database) Kan et al., 2001 (11% AS patterns conserved in mouse ESTs) Modrek et al., 2001 (HASDB) CELERA, 2001 Human Genome Consortium, 2001 28% Clark and Thanaraj, 2002 more? MAGEA2 GenomeScan=GenScan+BLASTX Сплайсированное выравнивание Сравнение (формально транслированной) ДНК с аминокислотной последовательностью родственного белка. • Динамическое программирование, дополнительная операция – интрон – Только на потенциальных сайтах сплайсинга – Небольшой штраф – Учёт особенностей экзон-интронной структуры – минимальная длина интрона (зависит от генома) VISTA (human-dog-mouse) Сплайсированое выравнивание геномных последовательностей Другие возможности Человекмышь (мультигенное семейство) Тканеспецифичная экспрессия