Институт проблем передачи информации им. А.А.Харкевича РАН Биоинформатика, или молекулярная биология in silico М.С.Гельфанд 15 января 2008 Расшифрован геном! Перехватить зашифрованное сообщение – еще не значит его понять Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 тысяч генов (примерно 90% генома кодирует белки) На этом слайде – 0,1% генома Escherichia coli Экспоненциальный рост объема данных 100000000000 10000000000 1000000000 100000000 10000000 1000000 100000 10000 1000 100 1982 1987 1992 красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank) 1997 2002 2007 из 18 миллионов ссылок, ~675 тыс. отвечают на “bioinformat* OR comput*” 16 тыс. “bioinformat*” 65 тыс. “bioinformat* OR computat*” Цель (локальная): аннотировать гены / белки in silico • Что? – (биохимическая) функция – клеточная роль • Когда? – Регуляция • Экспрессия • Время жизни (мРНК, белка) • Где? – Локализация • Внутри/снаружи • Органеллы и компартменты • Как? – Механизм • Специфичность, регуляция Наиболее важные предсказания затем проверяются экспериментально 622 полных генома (прокариот) 186 200 180 142 160 140 120 100 80 60 40 81 66 48 3 3 6 6 7 30 25 19 20 0 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Цель (глобальная) Предсказать свойства организма путем (компьютерного) анализа его генома (возможно, с использованием дополнительной информации: эпигенетика, белок-белковые взаимодействия и т.п.) сейчас: метаболическая реконструкция, транспортные системы, ответ на стресс и т.д. “Понять” эволюцию геномов/организмов Сравнительная геномика Базовые постулаты: • Сходство => гомология (общность происхождения) • Гомология => сходная функция • Консервативно то, что важно – структурные и функциональные мотивы в белках – регуляторные сайты в ДНК Математические и алгоритмические проблемы • Формализация понятия сходства – теория вероятностей: значимость наблюдаемого уровня сходства – вычислительная геометрия: сходство структур • Алгоритмические проблемы: – быстрый поиск сходных последовательностей • большой объем базы данных (растет быстрее, чем быстродействие процессоров) – множественное выравнивание • оптимальный алгоритм имеет полиномиальное время работы, но степень равна числу последовательностей – построение эволюционных деревьев • баланс между биологическими соображениями и вычислительными возможностями • Идентификация функциональных и регуляторных мотивов в последовательностях – теория предсказания образов: нейронные сети, поддерживающие вектора и т.п. Первый российский бактериальный геном Acholeplasma laidlawii Секвенирование: ИФХМ МЗ РФ, аннотация: ИППИ РАН Трансляция Транскрипция Репликация и репарация Деление Сигнальные пути Внешняя мембрана Движение Оборот белков Ионы Защита Секреция Энергия Сахара Аминокислоты Нуклеотиды Коферменты Липиды Вторичный метаболизм Слабо определено Не определено ~1,5 Mb; ~1400 генов. Установлены функции ~80% генов; проведена метаболическая реконструкция Сравнение с родственными геномами Acholeplasma laidlawii 1199 4 5 208 283 aster yellows Phytoplasma 161 334 onion yellows Phytoplasma Сравнительная геномика - 2 • Не обязательно последовательности: – – – – структура белка и РНК расположение генов на хромосоме (ко-локализация) ко-регуляция и ко-экспрессия генов филогенетические образцы (совместное появление в геномах) • Предсказав структурные особенности белка, можно определить его функциональный класс • Изучение геномного контекста позволяет отнести ген (белок) к функциональной подсистеме • Задача: формализация этих подходов – Полногеномные сравнения – Статистическая значимость – Распознавание образов и экспертные системы РНК-переключатели: от биоинформатического анализа к экспериментальной проверке • Новый универсальный механизм регуляции экспрессии генов за счет формирования альтернативных структур РНК и прямого связывания малых молекул • Структуры и механизм предсказаны биоинформатически и затем подтверждены экспериментально Регуляция экспрессии генов за счет формирования альтернативных структур РНК • Transcription attenuation Структура предсказана на основе сравнительного анализа выравненных последовательностей • Translation attenuation Механизм предсказан на основе литературных данных и анализа структурных особенностей 5’-нетранслируемые области бактериальных генов биосинтеза рибофлавина BS BQ BE HD Bam CA DF SA LLX PN TM DR TQ AO DU CAU FN TFU SX BU BPS REU RSO EC TY KP HI VK VC YP AB BP AC Spu PP AU PU PY PA MLO SM BME BS BQ BE CA DF EF LLX LO PN ST MN SA AMI DHA FN GLU 1 2 2’ 3 =========> ==> <== ===> TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT -AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT ---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT Add. 3’ -><<=== 21 AGCCCGTGAC-19 AGTCCGTGAC-20 AGCCCGCGA--19 AGTCCGTGAC-23 AGCCCGTGAC-2 AGCCCGCAA--2 AGCCCGCG---6 AGCCTGCGAC-2 AGCCCGCGA--2 AGCCCACGA--3 AGCCCGCGAG-15 AGCCCGCGAA-3 AGCCCGCGAA-2 AGTCCGCGA--2 AGTCCGCGA--20 AGCCCGCGA--2 AGTCCACG---3 AGTCCGCGAC-3 AGTCCGCGAC-30 AGCCCGCGAGCG 21 AGCCCGCGAGCG 31 AGCCCGCGAGCG 21 AGCCCGCGAGCG 17 AGCCCGCGAGCG 67 AGCCCGCGAGCG 20 AGCCCGCGAGCG 2 AGCCCACGAGCG 14 AGCCCACGAGCG 13 AGCCCACGAGCG 40 AGCCCGCGAGCG 25 AGCCCACGAGCG 18 AGCCCGCGAGCG 16 AGCCCGCGAGCA 34 AGCCCGCGAGCG 13 AGCCCGCGAGCG 17 AGCCCGCGAGCG 19 AGCCCGCGAGCG 19 AGCCCGCGAGCG 19 AGCCCGCGAGCG 16 AGCCCGCGAGCG 34 AGCCCGCGAGCG 17 AGCCCGCGAGCG 18 AGCCCGCGA--27 AGCCCGCGA—-20 AGCCCGCGA--2 AGCCCGCGAG-2 AGCCCGCG---3 AGTCCACGAC-21 ACTCCGCGAT-3 AGTCCACGAT-125 AGTCCGTG---14 AGTCCGCG---104 AGTCCGCG---6 AGCCTGCGAC-14 AGCCCGCGC--20 AGCCCGCAAC-2 AGTCCACG---28 AGCCCGCGAGCG Variable 4 4’ 5 5’ 1’ -> <====> <==== ==> <== <========= 8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT 8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG 3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC 10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG 8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG 3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG 7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT 4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA 3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA 5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA 8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG 5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC 7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA 13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA 3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC 5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG 8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG 8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG 137 GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC 8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC 7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC 11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC 8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG 8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG 8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG 26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA 11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC 5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA 16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG 16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA 10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC 10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG 6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA 7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA 7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG 19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA 15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA 14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA 8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA 8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC 10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT 5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG 3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG 3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG 3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT 6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT 5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG 4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC 3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG 3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA 3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG 3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG 5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC 11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA 4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA 10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC--- Аттенюация транскрипции Antiterminator The RFN element Bam BS BQ BE HD CA DF LLX PN* PN* TM AO DU FN SA DHA FN CA DF BS BQ BE PN ST MN SA EF LLX LO GACAAAAAAATATTGATTGTATCCTTCGGGGCTGGGTG GGACAAATGAATAAAGATTGTATCTTCGGGGCAGGGTG CTATAATTTGAGCAAACAGCATCCTTCGGGGTCGGGTG ACATAACGATATAGTGATGCATCCTTCGGGGCAGGGTG AAATTGAATAATTAATTTTTATCCTTCGGGGCTGGGTG TAATGGTAATTTAATAGGATGTTCTTCAGGGATGGGTG TAAATATAAATTTAATACTTAATCTTCGGGGTAGGGTG ACTTTAGCTACAATTGAATAAATCTTCAGGGCAGGGTG ATCATCTGTAATTGAATAACTATCTTCAGGGCAGGGTG ATCATCTGTAATTGAATAACTATCTTCAGGGCAGGGTG AAAACTGAATACAAAAGAAACGCTCTCGGGGCAGGGTG ATTTGCAACAATTTTTTAATAATCTTCAGGGCAGGGTG AATTTTTTTAATACTATTTTAATCTTCAGGGCAGGGTG TAATCGAATATGTAAAATAAAGTCTTCAGGGCAGGGTG TATAACAATTTCATATATAATTCTTTCGGGGCAGGGTG ACTCTTTTTAGATGAATACGAACCTTCGAGGTAGGGTG GAAAAATAAATATTAAAAATAATCTTCGGGGCAGGGTG AATATAAAAAAATAAAGAATGATCTTCAGGGCAGGGTG AAAATTAAAAAATCAAAGAAGATCTTCGGGGCAGGGTG TAATTAAATTTCATATGATCAATCTTCGGGGCAGGGTG GGGAAAATAGAATATCGGTCTATCTTCGGGGCAGGGTG ATAAAAATGTATAAGCGATTCATCTTCGGGGCAGGGTG GTTTTTTGTTATGATAAAAGAGTCTTCAGGGCAGGGTG TAAATCTGCTATGCTAGAAGTGTCTTCAGGGCAGGGTG ATTTTTTGATATGCTATAAGTGTCTTCAGGGCAGGGTG AAATTTAATAATGTAAAATTCATCTTCGGGGTCGGGTG AAAAAATATAATACAAGGTTCGTCTTCAGGGGCAGGGT TTTTTGTGCTATAATAAAAATATCTTCAGGGCACCGTG ATTGTAAGAAAATATTCGTTCATCTTCGGGGCAGGGTG ----------------------------------------------------------- TCTGGATGGGAGAAGGATGA 59 TCTGGATGGGAGAAGGATGA 59 TCTGGATGGGAGAAGGATAT 250 TCTGGATGGGAGAAGGATGC 155 TCTGGATGGGAGAAGGAAAC 148 TCTGGATGAAAGAAGAAATA 34 TCTGGATGGAAGAAGATATT 63 TCTGGATGAAAGAAGATAAT 127 TCTGGATGAAAGAAGATAAA 81 TCTGGATGAAAGAAGATAAA 19 TCCGGATGGGAGAGAGCGTG 13 TCTGGATGGAAGAAGATGAA 33 TCTGGATGGAAGAAGAAGAG 47 TCTGGATGGGAGAAGAATTA 18 TCTGGATGGGAGAAAGAATG 74 TCCGGATGGGAGAAGGTACA 43 TCTGGATGAGAGAAGAAAAG 40 TCTGGATGAAAGAAGATATA 19 TCTGGATGAGAGAAGATATT 45 TCTGGATGGGAGAAGATGGA 103 TCTGGATGGGAGAAGATGGA 54 TCTGGATGGGAGAAGATGAA 114 TCTGGATGGGAGAAGACGAA 137 TCTGGATGAGAGAAGACCGG 130 TCTGGATGGGAGAAGACTGA 138 TCTGGATGGGAGAAGATGGA 17 GTCTGGATAAAGAAGATAGG 33 TCTGGATGGAAGAAGATGAA 66 TCTGGATGGGAGAAGATGTTG 79 Terminator ----------GTAAAGCCCCGAATGTGTAA---ACATTCGGGGCTTTTTGACGCCAAAT ----------CTAAAGCCCCGAATTTTTTA--TAAATTCGGGGCTTTTTTGACGGTAAA -----------CCAAACCCCAAGGATATTAAA--ATCCTTGGGGTTTTTTGTTTTTTTT ------------TGAGCCCCCGGGGACAT--------CCCGGGGGTTTCATTTTTATTG -------------ATGCCCCGTGAGAACAAAA-----TCTCTGGGGCTTTTTTGCGCGC -------------AATCTCCGAAGGATTACC----TTTCTTTGGAGATTTTTTTATTTG ------------TAAACCCTGAGTTAATT--------CTCAGGGTTTTTTGTTTAAAAA ----------AAAAGACCCTGAAATTTT------ATTTTAGGGTCTTATTTTTTATTAG ----------TGTATGCCTTGAGTAGTCCCC---TATTCAAGGTATATTTTTTTGGAGG ------------CGTGCTCTGAAATGATTACTTGTCATTTCAGAGCATTTTTGTTAATC -----------ATGGGACCCGAGA----------------GGGTCCCTTTTCTTTTACA --------TTTACAAGCCTTGAGATCGAAAG----ATTTCAAGGCTTTTTTCATCATTA --------TGCATAAGCCTTGAGATCTTAG----GATTTCAAGGCTTTTTCATTAGTTA ----------ATATTGCTCAGACTTT------------GTTTGAGCATTTTTTTATTAA ------TTTTCTCCTTGCATCTTAATT----------GATGTGAGGATTTTTGTTTATA -----------GTTTATGCCTCGAGGAACACCATTTCCTCGAGGCATTTTTGTTCTTTC ------------CTTACCCGAATTCTAT------------AATTCGGTTTTTTTATTTT ----------–-TATGCCCTGACGTTTTT---------CGTTGGGGCTTTTTTAATGCT ----------ATAAAAACTCGAAGATAGGG----TCTTCGAGTTTTTTGTTTTTCCTAA --AAAGAACCTTTCCGTTTTCGAGTAAGATGTGATCGAAAAGGAGAGAATGAAGTGAAA -------ATTCTCCCTTTGTGTAAA------------ACACAAAGGGTTTTTTCGTTCTATG --------GGCAGCCTTCTTCTTGTGAGGATGAATCACGAGAAGGGGAGGAGAACAAGCATG -–AACTTCTTCTGATTTTATAG------------AAAATTGGAGGAACCTGTTATGACA ---GGAACTTCTTTCAATTTGAAA-----------AAATTGGAGGAATTTTTTAATGTC ---–GGCCTTCTTTCGATTTGTAA-----------AAATTGGAGGAATTTTTTTATGAA --------TCCTCCTATTCTTACG--------AGATGAATGGAAGGAGAAAATTGAATATG ---CTACTCTATTTTTCCCTGCAGA------------AAAATAGGGTTTTTTTGTATGA -–TCAACTTCCTCGAAATTTGAAGAAT-TATTTTCTCATATTTGGAGGTTTTTTTATGT ---ATGCACAAACTCTCCCTCAACTTTTTTTA--------GTTGAGGTTTTTTATTTGC Antiterminator Другие РНК-переключатели, найденные методами сравнительной геномики RFN-element Var B12-element THI-element Add I Add Ag Y CC N r UG G P3 A a N NU P4 RY G N YG CCc N N GA y G C c A G G g Nc GY P2 xG G g R P1 C U Y Y y N N N N BY K N R A x K YC u RG g Add P5 U R R C P4 G GG P3 P2 G M P2 UN UCU P3 A C N A UA U R P1 C U U A Y G R C 3' 5' base stem NUN R U R c P2 r gg N CCCD P3 Gr a c G C P4 h a C K G T r a N g k c tG y G h C C d a g 3' 5' base stem 5' 3' base stem r Cc N y GgN g P2 A Ga Nc U A P1 Uu C u a H g G P4 U G C YAA N u c c N g car Ga A U R A G a N r guy 3' 5' base stem P5 Var P6 g c C A P7 Add II CTG c gG GGY AG A C G M B12 k G C g A C P1 c yG A C r A G Y S-box c AG G G A G A G C c y G d RC P1 D c C a A C G R G G CY U A CC A GG G A U G-box C GU C A AA cg N N N P3 N A A G G G a N a a t Gg VR Rr C C G P5 UxN A CRG N G G Y CU Ax G A u x g RR A G A R R r N N N N 3' 5' base stem AU GG U A R aN t C box Add III LYS-element a A aN P6 r y Yu G G g R a A G C y yGC P5 aa g a GG r k P5 P4 P3 a ug a y a r r CG P2 y G GA G a u R P1 r C u a Y y a gN c U P7 G u CaY a G g GuR 3' 5' base stem • Есть во всех трех основных царствах (бактерии, археи, эукариоты) • Древнейшие регуляторные элементы: реликт «РНКового мира»? nZUR- Регуляторы гомеостаза цинка GATATGTTATAACATATC nZUR- GAAATGTTATANTATAACATTTC GTAATGTAATAACATTAC TTAACYRGTTAA pZUR TAAATCGTAATNATTACGATTTA AdcR AdcR pZUR nZUR Регуляция гомологов рибосомальных белков L36 L33 L31 S14 E. coli, S.typhi (–) – (–) + – K. pneumoniae (–) – (–) – – Y. pestis,V. cholerae (–) – (–) + – B subtilis (–) (–) + – (–) + (–) + S. aureus (–) (–) – – – (–) + Listeria spp. (–) (–) – – (–) + E. faecalis (–) (–) – – – (–) + – S. pne., S. mutans (–) (–) – – – (–) S. pyo., L. lactis (–) – – – (–) + (–) Плохой сценарий достаточно цинка недостаточно цинка: весь цинк использован рибосомами, не хватает цинка для ферментов Регуляторный механизм Достаточно Zn рибосомы репрессор R Zn-зависимые ферменты Голодание по Zn R Предсказание … (Proc Natl Acad Sci U S A. 2003 Aug 19;100(17):9912-7.) … и подтверждение (Mol Microbiol. 2004 Apr;52(1):273-83.) (+ еще пять статей в последующие годы): другие гены, другие бактерии • Сводка подтвердившихся предсказаний • Регуляторы • – РНК-переключатели • витамины: рибофлавин, тиамин, кобаламин • аминокислоты: лизин, метионин – Факторы транскрипции • NrdR: рибонуклеотид-редуктазы • MtaR, CmbR: метионин и цистеин • NiaR, NrtR: метаболизм NAD • NsrR, NnrA: нитрозативный стресс • Регуляторные взаимодействия – регуляторные мотивы в ДНК (>10) – отдельные сайты связывания (>20) Ферменты – – – – – ThiN и TenA (биосинтез тиамина) CobX, CobZ (биосинтез кобаламина) FadE (синтез жирных кислот) AbnA, Xca (катаболизм арабинозы) NagK, NagBII (катаболизм Nацетилглюкозамина) Транспортеры – витамины и кофакторы • • • • • YpaA и RibM: рибофлавин BioMNY: биотин ThiXYZ: тиамин NiaP: ниацин Vng1369-71: корриноиды – сахара и полисахариды • OgtABCD: продукты деградации пектина • NagP: N-ацетилглюкозамин – аминокислоты • MetD: метионин • SteT: треонин – ионы металлов • CbiMNQO, HoxN: кобальт • NikMNQO: никель – нуклеотиды: • YicE: ксантин Не только тексты Другие типы массовых экспериментов: • Транскриптомика – «выстилающие массивы»: полная карта транскриптов – уровень экспрессии и время жизни мРНК – ДНК-белковые взаимодействия • Протеомика – концентрации белков – белок-белковые взаимодействия, белковые комплексы – структуры белков • Эпигенетика – метилирование ДНК – положение и модификации нуклеосом • Генетика – летальность мутаций – фенотипы – синтетические летали «Неприкладная» биоинформатика • Молекулярная эволюция – – – – филогения генов таксономия организмов горизонтальные переносы и т.п. положительный и отрицательный отбор • что сделало нас людьми? • лекарственная устойчивость – эволюция геномов • Системная биология – строение геномов – сети взаимодействий • белок-белковые • регуляция транскрипции • сигнальные пути Перспективы • Индивидуальные геномы – персональные человеческие геномы – геномы штаммов • Метагеномы – некультивируемые бактерии – метагеномы экологических ниш • бактериальный метагеном человека • Другие виды данных – интеграция • Моделирование (пока рано) – построение полных карт Биоинформатика в России • Сильные устойчивые школы – Москва+Пущино: содружество лабораторий в разных учреждениях – Новосибирск: вертикальная структура • Высокий уровень – конкурентоспособный в мире • Интеграция с образованием – Факультет биоинженерии и биоинформатики МГУ – Кафедра информационной биологии ФЕН НГУ • Перспективная область: – относительно дешево – общедоступная информация – можно использовать чужие данные – связь с экспериментальными исследованиями, ведущимися на современном уровне • Как развивать: – технические разработки (базы данных, пакеты программ») – контракты, наличие потребителя – интегрированные компоненты в медицинских и молекулярнобиологических проектах (крупные проекты должны иметь биоинформатическую поддержку) – самостоятельные исследовательские работы – гранты • Российский фонд фундаментальных исследований • РАН, программа «Молекулярная и клеточная биология» • INTAS • Howard Hughes Medical Institute