Биоинформатика, или молекулярная биология in silico М.Гельфанд Конференция ИППИ сентябрь 2007, Звенигород Расшифрован геном! Расшифрован ли геном? Перехватить зашифрованное сообщение – еще не значит его понять Фрагмент генома (0.1% генома E. coli) Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 тысяч генов (примерно 90% генома кодирует белки) Фрагмент генома (0.0001% генома человека) Геном человека: 3 000 000 000 нуклеотидов Примерно 25 тысяч генов, < 5% генома кодирует белки Пропаганда 10000000 1000000 100000 10000 1000 последовательности статьи 100 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 год Цель (локальная):описать гены • Что – функция • Когда – Регуляция • Экспрессии • Время жизни (мРНК, белка) • Где – Локализация • Внутри/снаружи • Органеллы и компартменты • Как – Механизм • Специфичность, регуляция Пропаганда-2: полные геномы 90 84 80 70 2006: > 1000 геномов бактерий (~400 полных) 60 55 50 40 30 30 20 10 19 18 14 9 2 0 1995 4 1 2 1 3 2 1996 1997 1998 4 2 10 7 4 1999 2000 15 8 2001 2002 Цель (глобальная): предсказать свойства организма по его геному (с использованием кое-какой дополнительной информации – эпигенетика и т.п.) и “понять” эволюцию геномов/организмов Цель (недостижимая?) откуда оно все взялось? первое приближение – реконструкция генома/свойств LUCA реально ли заглянуть глубже? реально ли смоделировать? (времена) реально ли смоделировать «по частям»? Задачи биоинформатики • С проверяемым ответом – предсказание функции, регуляции, структуры и т.п.: • ставим эксперимент • С непроверяемым ответом – эволюционные деревья • но если бы знать все геномы всех (в том числе очень давно умерших) существ, то задача станет тривиальной • С принципиально непроверяемым ответом (который зависит от операциональных определений) – идентификация повторов, консервативных областей, островов метилирования и т.п. • (так ли он непроверяем?) • Без ответа (общеописательные) – статистика геномов (изохоры и т.п.) – описание регуляторных и пр. сетей (hubs, мотивы и т.п.) Идеология • Сходство => гомология (общность происхождения) • Гомология => сходная функция • Принцип Пирсона: консервативно то, что важно – функциональные мотивы в белках – регуляторные сайты в ДНК – не обязательно последовательности • структура белка и РНК • расположение генов на хромосоме • ко-экспрессия генов Не все так хорошо • Сходство ≠ гомология – области малой сложности, неструктурированные домены, трансмембранные сегменты и т.п. области с нестандартным аминокислотным составом • надо правильно измерять сходство последовательностей – всегда ли гомология следует из сходства структур? • что такое сходство структур? как его измерять? • сколько раз возникала каждая белковая укладка? (>1?) можем ли мы это узнать и доказать ответ? • бывает ли конвергентная эволюция структур? • Гомология ≠ та же функция. – Что такое «та же функция»? • биохимические детали и функциональная роль (к вопросу о «проверяемости») Забавные функциональные аннотации • C75604: Probable head morphogenesis protein, Deinococcus radiodurans • O05360: Automembrane protein H, Yersinia enterocolitica • Q8TID9: Benzodiazepine (valium) receptor TspO, Methanosarcina acetivorans • NP_069403: DR-beta chain MHC class II, Archaeoglobus fulgidus © М.Galperin, А.Миронов Ошибки в экспериментальных работах SwissProt: DEFINITION Hypothetical 43.6 kDa protein. ACCESSION ... KEYWORDS SOURCE ORGANISM P48012 Hypothetical protein. Debaryomyces occidentalis Debaryomyces occidentalis Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Debaryomyces. [CAUTION] Was originally (Ref.1) thought to be 3-isopropylmalate dehydrogenase (LEU2). PIR: DEFINITION 3-isopropylmalate dehydrogenase ACCESSION KEYWORDS - yeast(Schwanniomyces occidentalis). S55845 oxidoreductase. (EC 1.1.1.85) © Koonin-Galperin (?) Iyer L.M., Aravind L., Bork P., Hofmann K., Mushegian A.R., Zhulin I.B., Koonin E.V. Quod erat demonstrandum? The mystery of experimental validation of apparently erroneous computational analyses of protein sequences. Genome Biology. 2001. 2: research0051 SwissProt, запись DSDX_ECOLI -!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to the wrong DNA strand and thought to be a D-serine deaminase activator, it was then resequenced by Ref.2 and still thought to be "dsdC", but this time to function as a D-serine permease. It is Ref.1 that showed that dsdC is another gene and that this sequence should be called dsdX. It should also be noted that the C-terminal part of dsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) and was thought to be a separate ORF (don't worry, we also had difficulties understanding what happened!). © АБР Случай из жизни • Принцип Ферми-Финкельштейна – переносить функции по гомологии: скучно (ничего нового) • Оказывается, можно описывать нечто совсем новое Консервативный мотив перед генами рибонуклеотид-редуктаз (nrd) в бактериальных геномах Идентификация фактора транскрипции • Филогенетический паттерн: список геномов, в которых присутствует/отсутствует обнаруженный мотив => единственный ген с таким паттерном – ybaD (COG1327) – “макроуровень” – большие таксоны – “микроуровень” – в «смешанных» таксонах: • отсутствует в геномах паразитов в группах альфа- и гаммапротеобактерий • отсутствует в Desulfovibrio spp. среди дельта-протеобактерий • отсутствует в Nostoc sp. среди цианобактерий • отсутствует в Oenococcus и Leuconostoc среди Firmicutes • присутствует только в Treponema denticola среди четырех спирохет • COG1327: Гипотетический регулятор транскрипции, содержащий домены цинковая лента (ДНК- и РНКсвязывающий) и АТФ-конус Bork, Koonin: YbaD=RibX, регулятор биосинтеза рибофлавина? Дополнительные соображения: Ко-локализация ген nrdR иногда образует опероны с генами nrd genes или с генами репликаци и dnaB, dnaI, polA Еще дополнительные соображения: Состав регулона dN потенциальные сайты связывания NrdR обнаружены перед другими генами, связанными с репликацией: – топоизомераза I – инициатор репликации dnaA – разделение (partitioning) хромосом – ДНК-хеликаза II PnuC-like transporter dN N dN kinase dNMP NMP NMP/dNMP kinase dNDP NDP NDP/dNDP kinase dNTP RNR NTP – ре-утилизация (salvage) dNTP DNA RNA Множественные сайты (гены nrd): FNR, DnaA, NrdR Механизм регуляции • репрессор (сайты перекрываются с промоторами) • кооперативное связывание: – >90% генов имеет парные сайты – расстояние между сайтами (центрами палиндромов) равно целому числу витков спирали ДНК • как правило (94%) 30-33 пн, в 84% случаев 31-32 пн – 3 витка • в Vibrio spp. 21 пн (2 витка) • в некоторых фирмикутах 41-42 пн (4 витка) Экспериментальное подтверждение Опять философия: «С трудом проверяемые ответы» TGTCGGCnnGCCGACA • филогенетические деревья (и реконструкция предковых последовательностей) – правила гигиены: самосогласованность (bootstrap) – что, если бы мы знали все современные геномы? • не поможет – ср. пра-цезский и пра-индоевропейский – а вообще все когда-либо существовавшие геномы? • тогда тривиально • горизонтальный перенос • «правильное» выравнивание CooA Desulfovibrio TTGTGAnnnnnnTCACAA FNR Gamma TTGATnnnnATCAA HcpR Desulfovibrio TTGTgAnnnnnnTcACAA «В принципе не проверяемые ответы» (зависящие от определений) Так ли они непроверяемы? • Повторы – если иметь все геномы, то можно описывать вставки/замены фрагментов генома и их последующее расхождение • Консервативные области – если иметь все геномы, то можно просто оценивать локальную скорость эволюции (но это будет функцией времени) • Статистика ДНК (локальный нуклеотидный состав) – это следствие локального паттерна замен, так и надо описывать • Микросателлиты – можно ли «функционально» (а не операционально) определить микросателлит, исходя из динамики вставок/замен/дупликаций? • CpG-острова – можно ли «функционально» (а не операционально) определить CpG-остров, исходя из паттерна мутаций, состояния метилирования и т.п.? (тут уже эволюция + эксперимент) «Безответные задачи» • Общие свойства геномов – количество факторов транскрипции как функция размера генома • квадратично: «бюрократическая катастрофа» • опять: интересна эволюция • Общие свойства сетей – распределения степеней вершин и т.п. – перепредставленные мотивы