Сравнительная геномика и функциональная аннотация генов Михаил Гельфанд ИППИ РАН Конференция «Синтетическая биология и проектирование биоинженерных устройств» Synbio2012.ru МФТИ, 11 VII 2012 Fig. 1 A doubling of sequencing output every 9 months has outpaced and overtaken performance improvements within the disk storage and high-performance computation fields. S D Kahn Science 2011;331:728-729 Published by AAAS Вот они, эти чудовища 1464 расшифрованных геномов прокариот (на самом деле, уже много больше) 250 геномы в KEGG 200 150 база данных не успевает 100 50 0 1995 2000 2005 годы 2010 Расшифрованых ли? Перехватить зашифрованное сообщение – еще не значит его понять 0.1% генома E. coli Геном бактерии: несколько миллионов нуклеотидов От 600 до 9 тысяч генов (примерно 90% генома кодирует белки) (бывает существенно меньше – у эндосимбионтов) Может быть, хватит? Нет, потому что: • новые геномы – это часто новая биология • сравнение геномов само по себе дает новые результаты – про эволюцию бактерий и их геномов – про эволюцию регуляторных и метаболических сетей и семейств генов – про регуляцию конкретных генов и функцию белков – про новые белки с ранее не описанными свойствами Метод Ферми-Финкельштейна Если белок похож на уже изученный, он делает примерно то же самое Doolittle R.F. et al. Science. 1983. • GenBank • BLAST Проблемы • часто можно предсказать только общую функцию (тип фермента, транспортер), но не специфичность • ничего нового! Принцип Пирсона консервативно то, что несет функциональную нагрузку • не только последовательности: – ко-локализация генов на хромосоме – появление «большой компанией» (филетические паттерны) – одинаковая регуляция Другие соображения: трансмембранные сегменты, сигнальные пептиды и т.п. STRING: trpB – позиционные кластеры Биологические причины • опероны – совместная регуляция • горизонтальный перенос локусов STRING: trpB – филетические паттерны Phyletic profiles in the Phe/Tyr pathway Шикимат-киназа Шикимат-киназа архей путь синтеза хоризмата (E. coli) Арифметика филетических паттернов 3-dehydroquinate dehydratase (EC 4.2.1.10): Class I (AroD) COG0710 aompkzyq---lb-e----n---i-Class II (AroQ) COG0757 ------y-vdr-bcefghs-uj---+ aompkzyqvdrlbcefghsnuj-i-Two forms combined Shikimate dehydrogenase (EC 1.1.1.25): AroE COG0169 aompkzyqvdrlbcefghsnuj-i-Shikimate kinase (EC 2.7.1.71): Typical (AroK) COG0703 ------yqvdrlbcefghsnuj-i-Archaeal-type COG1685 aompkz-------------------+ aompkzyqvdrlbcefghsnuj-i-Two forms combined 5-enolpyruvylshikimate 3-phosphate synthase (EC 2.5.1.19) AroA COG0128 aompkzyqvdrlbcefghsnuj-i-Chorismate synthase (EC 2.5.1.19) AroC COG0082 aompkzyqvdrlbcefghsnuj-i-- Филогенетический футпринтинг оперон rbs в Enterobacteriaceae Start codon of rbsD Филогенетический футпринтинг оперон rbs в Enterobacteriaceae регуляруется CRP и RbsR CRP binding site RbsR binding site Start codon of rbsD Много сайтов (nrd): FNR, DnaA, NrdR Сохранение регуляции на больших эволюционных расстояниях Set of known sites Genome 1 Genome 2 PWM Genome N Two major roles of zinc in bacteria • Structural role in DNA polymerases, primases, ribosomal proteins, etc. • Catalytic role in metal proteases and other enzymes Genomes and regulators ??? nZUR FUR family pZUR AdcR ? FUR family MarR family nZUR- Regulators and motifs GATATGTTATAACATATC nZUR- GAAATGTTATANTATAACATTTC GTAATGTAATAACATTAC TTAACYRGTTAA pZUR TAAATCGTAATNATTACGATTTA AdcR Transporters • Orthologs of the AdcABC and YciC transport systems • Paralogs of the components of the AdcABC and YciC transport systems • Candidate transporters with previously unknown specificity zinT: regulation zinT is isolated zinT is regulated by zinc repressors (nZUR-, nZUR-, pZUR) E. coli, S. typhi, K. pneumoniae Gamma-proteobacteria A. tumefaciens, R. sphaeroides Alpha-proteobacteria B. subtilis, S. aureus Bacillus group S. pneumoniae, S. mutans, S. pyogenes, L. lactis, E. faecalis Streptococcus group fusion: adcA-zinT adcA-zinT is regulated by zinc repressors (pZUR, AdcR) (ex. L.l.) ZinT: protein sequence analysis Y. pestis, V. cholerae, B. halodurans S. aureus, E. faecalis, S. pneumoniae, S. mutans, S. pyogenes E. coli, S. typhi, K. pneumoniae, A. tumefaciens, R. sphaeroides, B. subtilis L. lactis TM Zn AdcA ZinT ZinT: summary • zinT is sometimes fused to the gene of a zinc transporter adcA • zinT is expressed only in zinc-deplete conditions (regulated by zinc repressors) • ZinT is attached to cell surface (has a TM-segment) • ZinT has a zinc-binding domain ZinT: conclusions • ZinT is a new type of zinc-binding component of zinc ABC transporter Zinc regulation of PHT (pneumococcal histidine triad) proteins of Streptococcus spp. S. pneumoniae S. pyogenes zinc regulation shown in experiment lmb phtD phtA phtE phtB lmb phtD phtY S. equi S. agalactiae lmb phtD Structural features of PHP proteins • PHT proteins contain multiple HxxHxH motifs • PHT proteins of S. pneumoniae are paralogs (65-95% id) • Sec-dependent hydrophobic leader sequences are present at the Ntermini of PHT proteins • Localization of PHT proteins from S. pneumoniae on bacterial cell surface has been confirmed by flow cytometry PHH proteins: summary • PHT proteins are induced in zincdeplete conditions • PHT proteins are localized at the cell surface • PHT proteins have zinc-binding motifs A hypothesis: • PHT proteins represent a new family of zinc transporters … incorrect • Zinc-binding domains in zinc transporters: EEEHEEHDHGEHEHSH HSHEEHGHEEDDHDHSH EEHGHEEDDHHHHHDED • Histidine triads in streptococci: HGDHYHY HGDHYHF HGNHYHF HYDHYHN HMTHSHW 7 out of 21 2 out of 21 2 out of 21 2 out of 21 2 out of 21 DEHGEGHEEEHGHEH (histidine-aspartateglutamate-rich) (specific pattern of histidines and aromatic Analyis of PHP proteins (cont’d) • The phtD gene forms a candidate operon with the lmb gene in all Streptococcus species – Lmb: an adhesin involved in laminin binding, adherence and internalization of streptococci into epithelial cells • PhtY of S. pyogenes: – phtY regulated by AdcR – PhtY consists of 3 domains: 4 HIS TRIADS PHT LRR IR HDYNHNHTYEDEEGH AHEHRDKDDHDHEHED internalin H-rich PHH proteins: summary-2 • • • • • PHT proteins are induced in zinc-deplete conditions PHT proteins are localized at the cell surface PHT proteins have structural zinc-binding motifs phtD forms a candidate operon with an adhesin gene PhtY contains an internalin domain responsible for the streptococcal invasion Hypothesis PHT proteins are adhesins involved in the attachment of streptococci to epithelium cells, leading to invasion Current state • Pht proteins are required for inhibition of complement deposition on the pneumococcal surface through the recruitment of complement factor H (Oqunniyi et al., 2009) • Pht proteins may play a role in immune evasion, but the mechanism of function is unlikely to be mediated by factor H binding (Melin et al., 2010) nZUR Zinc and (paralogs of) ribosomal proteins E. coli, S.typhi K. pneumoniae Y. pestis, V. cholerae pZUR B subtilis S. aureus Listeria spp. AdcR E. faecalis S. pne., S. mutans S. pyo., L. lactis L36 – – – – – – – – – L33 – – – –+– ––– –– ––– ––– ––– L31 –+ –– –+ –+ – – – – – S14 – – – –+ –+ –+ –+– – –+ Zn-ribbon motif nZUR (Makarova-Ponomarev-Koonin, 2001) E. coli, S.typhi K. pneumoniae Y. pestis, V. cholerae pZUR B subtilis S. aureus Listeria spp. AdcR E. faecalis S. pne., S. mutans S. pyo., L. lactis L36 (–) (–) (–) (–) (–) (–) (–) (–) (–) L33 – – – (–) + – (–) – – (–) – (–) – – (–) – – (–) – – L31 (–) + (–) – (–) + (–) + – – – – – S14 – – – (–) + (–) + (–) + (–) + – (–) (–) + Summary of observations: • Makarova-Ponomarev-Koonin, 2001: – L36, L33, L31, S14 are the only ribosomal proteins duplicated in more than one species – L36, L33, L31, S14 are four out of seven ribosomal proteins that contain the zinc-ribbon motif (four cysteines) – Out of two (or more) copies of the L36, L33, L31, S14 proteins, one usually contains zinc-ribbon, while the other has eliminated it • Among genes encoding paralogs of ribosomal proteins, there is (almost) always one gene regulated by a zinc repressor, and the corresponding protein never has a zinc ribbon motif Bad scenario Zn-rich conditions Zn-deplete conditions: all Zn utilized by the ribosomes, no Zn for Zn-dependent enzymes Regulatory mechanism Sufficient Zn ribosomes repressor R Zn-dependent enzymes Zn starvation R Good scenario Zn-rich conditions Zn-deplete conditions: some ribosomes without Zn, some Zn left for the enzymes Prediction … (Proc Natl Acad Sci U S A. 2003 Aug 19;100(17):9912-7.) … and confirmation (Mol Microbiol. 2004 Apr;52(1):273-83.) Later: L31 is a depot; S14 and L33 are “failsafe” substitutes (integrity of ribosomes unde zink starvation). Owen et al, 2007: Of seven Znribbon proteins, six are regulated in Streptomycs (also L28, L32, S18) Метаболический путь синтеза рибофлавина (витамин В2) PURINE BIOSYNTHESIS PATHWAY GTP ribA PENTOSE-PHOSPHATE PATHWAY ribA GTP cyclohydrolase II 2,5-diamino-6-hydroxy-4-(5`-phosphoribosylamino)pyrimidine ribG ribA Pyrimidine deaminase 5-amino-6-(5`-phosphoribosylamino)uracil ribulose-5-phosphate 3,4-DHBP synthase ribD ribB ribG 3,4-dihydroxy-2-butanone-4-phosphate ribD Pyrimidine reductase 5-amino-6-(5`-phosphoribitylamino)uracil ribH ribH Riboflavin synthase, -chain 6,7-dimethyl-8-ribityllumazine ribB ypaA ribE Riboflavin Riboflavin synthase, -chain Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий BS BQ BE HD Bam CA DF SA LLX PN TM DR TQ AO DU CAU FN TFU SX BU BPS REU RSO EC TY KP HI VK VC YP AB BP AC Spu PP AU PU PY PA MLO SM BME BS BQ BE CA DF EF LLX LO PN ST MN SA AMI DHA FN GLU 1 2 2’ 3 =========> ==> <== ===> TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT -AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT ---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT Add. 3’ -><<=== 21 AGCCCGTGAC-19 AGTCCGTGAC-20 AGCCCGCGA--19 AGTCCGTGAC-23 AGCCCGTGAC-2 AGCCCGCAA--2 AGCCCGCG---6 AGCCTGCGAC-2 AGCCCGCGA--2 AGCCCACGA--3 AGCCCGCGAG-15 AGCCCGCGAA-3 AGCCCGCGAA-2 AGTCCGCGA--2 AGTCCGCGA--20 AGCCCGCGA--2 AGTCCACG---3 AGTCCGCGAC-3 AGTCCGCGAC-30 AGCCCGCGAGCG 21 AGCCCGCGAGCG 31 AGCCCGCGAGCG 21 AGCCCGCGAGCG 17 AGCCCGCGAGCG 67 AGCCCGCGAGCG 20 AGCCCGCGAGCG 2 AGCCCACGAGCG 14 AGCCCACGAGCG 13 AGCCCACGAGCG 40 AGCCCGCGAGCG 25 AGCCCACGAGCG 18 AGCCCGCGAGCG 16 AGCCCGCGAGCA 34 AGCCCGCGAGCG 13 AGCCCGCGAGCG 17 AGCCCGCGAGCG 19 AGCCCGCGAGCG 19 AGCCCGCGAGCG 19 AGCCCGCGAGCG 16 AGCCCGCGAGCG 34 AGCCCGCGAGCG 17 AGCCCGCGAGCG 18 AGCCCGCGA--27 AGCCCGCGA—-20 AGCCCGCGA--2 AGCCCGCGAG-2 AGCCCGCG---3 AGTCCACGAC-21 ACTCCGCGAT-3 AGTCCACGAT-125 AGTCCGTG---14 AGTCCGCG---104 AGTCCGCG---6 AGCCTGCGAC-14 AGCCCGCGC--20 AGCCCGCAAC-2 AGTCCACG---28 AGCCCGCGAGCG Variable 4 4’ 5 5’ 1’ -> <====> <==== ==> <== <========= 8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT 8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG 3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC 10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG 8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG 3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG 7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT 4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA 3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA 5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA 8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG 5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC 7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA 13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA 3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC 5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG 8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG 8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG 137 GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC 8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC 7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC 11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC 8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG 8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG 8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG 26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA 11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC 5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA 16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG 16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA 10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC 10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG 6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA 7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA 7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG 19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA 15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA 14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA 8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA 8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC 10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT 5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG 3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG 3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG 3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT 6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT 5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG 4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC 3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG 3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA 3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG 3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG 5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC 11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA 4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA 10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC--- Консервативная вторичная структура RFN-элемента additional stemloop variable stem-loop Ag Y u C N rU G CRY G N GY G 3 G C c A A N UC C c N a * GGgN N c G Y 2 x G G g rC U Y Y 1 y N N N N 5’ * * * * G A R R r N N N N KN R A RG K x Y yB RYC V Rr C 4 C G A U xN CRG N AG Y C UG A x R R 5 g x u GA Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs N: any nucleotide. X: any nucleotide or deletion 3’ RFN: механизм регуляции • Transcription attenuation • Translation attenuation … и еще перед одним геном (ypaA) цветные стрелки – гены пути желтые стрелки – ypaA, ген с неизвестной функцией черные стрелки – регуляторный элемент additional stemloop variable stem-loop Ag Y u C N rU G CRY G N GY G 3 G C c A N A UC C c N a * GGgN N c G Y 2 x G G g rC U Y Y 1 y N N N N 5’ BY * * * * GG A R R r N N N N RG KN CK x R A y Y VR Rr C 4 C G A U xN CRG N AG Y C UG A x R R 5 g x Au 3’ YpaA/RibU: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный RFN-элемент => корегуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника • S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: • генетический анализ (Кренева и др., 2000) • биохимический эксперимент (Burgess et al., 2006) Биотиновый транспортер BioY Метаболическая реконструкция пути биосинтеза тиамина (витамин В1) = thiN (confirmed) Transport of HMP Transport of HET (Gram-positive bacteria) (Gram-negative bacteria) yuaJ(=thiT) тиаминовый транспортер (возможно, H+зависимый) в фирмикутах • 6 предсказанных трансмембранных сегментов • Почти всегда регулируется THI-рибопереключателями • Встречается в геномах, в которых отсутствует тиаминовый путь (Streptococcus spp.); • В B. cereus импорт тиамина сопряжен с током протонов (Arch. Microbiol., 1977) thiX-thiY-thiZ и ykoF-ykoEykoD-ykoC: предсказанные АТФ-зависимые транспортеры HMP • Почти всегда регулируются THI-рибопереключателями • Не встречаются в геномах, в которых отсутствует тиаминовый путь • Всегда встречаются вместе с thiD и thiE • В ряде геномов (Pasteurellacee, Brucella некоторые фирмикуты) встречаются в отсутствие thiC Co и Ni • ко-локализация (хромосомные локусы) – транспортеры Ni – с генами никельзависимых ферментов – транспортеры Co – с генами синтеза кобаламина • ко-регуляция – транспортеры Ni – фактор транскрипции NikR – транспортеры Co – рибопереключатель В12 Add-I g aN t C t Gg cg N R N N P2 N A A G G G a N a a C c y G C d c P1 r C c G C P3 h a C BI K G T r a P4 r A G Y N g k c tG y G h C C d C G M B12 box k G C g A C BI I VS P6 P5 A g c C Add-I I CTG c gG GGY AG A The Bacillus/ Clostridium group -proteobacteria a g P0 F aculta tive stem-loop 5' 3' base stem Other taxonomic groups Дмитрий Родионов Thomas Eitinger Пять семейств транспортеров Новое семейство транспортеров Co и Ni Структура локусов гены B12-элемент сайт связывания NikR Проверка: тест на транспорт ионов Co Co Ni Ni Ni Co Структура: слишком много компонентов Биотиновый транспортер BioY • АТФаза BioM ~ CbiO = NikO • Пермеаза BioN ~ CbioQ = NikQ Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера) cbiMNQO cbiMNQ cbiMN cbiM контроль BioY тоже достаточно (даже в геномах, содержащих BioMN); у BioMNY более крутая кинетика Верхушка айсберга? Экспериментальные подтверждения RibU: рибофлавин ThiT: тиамин FolT: фолат (ср. BioY) Универсальный «энергетический комплекс» + компоненты, определяющие специфичность The overall structure of RibU. P Zhang et al. Nature 000, 1-4 (2010) doi:10.1038/nature09488 Эволюция регуляторных путей Глобализация: как FruR превратился в CRA • CRA (= FruR) в Escherichia coli: – глобальный регулятор – хорошо изучен экспериментально • Машина времени: поиск потенциальных сайтов связывания CRA/FruR перед генами, которые регулируются в E.coli Общий предок Escherichia и Salmonella Mannose Glucose manXYZ ptsHI-crr edd epd eda adhE aceEF Mannitol mtlA gapA fbp Fructose pykF mtlD fruBA fruK pfkA pgk gpmA icdA ppsA pckA aceA tpiA aceB Gamma-proteobacteria Enterobacteriales E. coli и Salmonella spp. Общий предок Enterobacteriales Mannose Glucose manXYZ ptsHI-crr edd epd eda adhE aceEF Mannitol mtlA gapA fbp Fructose pykF mtlD fruBA fruK pfkA pgk gpmA icdA ppsA pckA aceA tpiA aceB Gamma-proteobacteria Enterobacteriales Общий предок gamma-proteobacteria Mannose Glucose manXYZ ptsHI-crr edd epd eda adhE aceEF Mannitol mtlA gapA fbp Fructose pykF mtlD fruBA fruK pfkA pgk gpmA icdA ppsA pckA aceA tpiA aceB Gamma-proteobacteria Общий предок Enterobacteriales Mannose Glucose manXYZ ptsHI-crr edd epd eda adhE aceEF Mannitol mtlA gapA fbp Fructose pykF mtlD fruBA fruK pfkA pgk gpmA icdA ppsA pckA aceA tpiA aceB Gamma-proteobacteria Enterobacteriales Общий предок Escherichia и Salmonella Mannose Glucose manXYZ ptsHI-crr edd epd eda adhE aceEF Mannitol mtlA gapA fbp Fructose pykF mtlD fruBA fruK pfkA pgk gpmA icdA ppsA pckA aceA tpiA aceB Gamma-proteobacteria Enterobacteriales E. coli and Salmonella spp. Перестройка: катаболизм жирных кислот и разветвленных аминокислот в гамма- и бета-протеобактериях GntR | TetR | MerR Кто это делал • • • • • *Екатерина Панина (цинк) Дмитрий Родионов (транспортеры) Алексей Казаков (жирные кислоты) Дмитрий Равчеев (CRA) Алексей Витрещак (РНК-переключатели) • © Андрей Остерман (Burnham-Sanford Inst.) • Томас Эйтингер (Humboldt Universuty) • © Михаил Гальперин (NCBI) template • text