Устойчивые сочетания генов углеводного метаболизма у бактерий А.Д. Казнадзей П.В. Шелякин ИППИ РАН [email protected] ИППИ РАН [email protected] Изучение коэволюционных особенностей всех генов в бактериальных геномах позволяет говорить об эволюционных характеристиках бактерий в целом, но при этом не дает детальной картины из-за огромного разнообразия частных случаев и наличия множества аннотационных неточностей в современных базах данных. Исследования частных случаев позволяют рассматривать конкретные эволюционные тенденции отдельных генов и наборов генов, но не позволяют делать выводы об общей картине. В нашей работе мы старались сочетать оба подхода для большей точности исследования. Мы рассматривали гены углеводного метаболизма в бактериальных геномах, разделяли их на основе сочетания функциональной, структурной и ортологической классификаций с учетом частных “необычных” случаев, которые рассматривались нами отдельно, и искали эволюционно устойчивые сочетания таких генов. Аннотация В работе были исследованы гены углеводного метаболизма у бактерий. Для них была построена система классификации, основанная на их функциональных, структурных и ортологических характеристиках. На основе расположения генов на бактериальных хромосомах была изучена их совместная встречаемость, в результате чего были построены матрицы попарной встречаемости ортолого-структурных семейств генов, принадлежащих разным крупным функциональным классам. Были определены наиболее устойчивые сочетания генов в локусах, относящихся к углеводному метаболизму, определены группы бактерий, имеющих сходства в организации таких локусов, сделаны предположения о наиболее эволюционно “сработавшихся” парах семейств, а также построены филогенетические деревья, позволяющие оценить распределение различных локусов среди бактерий и выявить случаи горизонтальных переносов локусов и их частей. 2. Материалы и методы Мы исследовали 1580 бактериальных геномов и более трехсот тысяч генов, имеющих отношение к углеводному метаболизму бактерий. Гены выбирались на основе списка генов углеводного метаболизма, взятых из JGI IMG, после чего мы расширяли этот список следующим образом. В бактериальных геномах некоторые гены образуют так называемые “fusions”, то есть последовательности двух генов в некоторых бактериях сочетаются внутри одного гена. Мы исследовали все такие случаи для генов углеводного метаболизма и получили список “соседей” по fusions. Эти соседи в других геномах встречались и как отдельные гены, и, если их аннотация позволяла предположить, что они также относятся к углеводному метаболизму, мы добавляли их к общему списку кластеров ортологичных генов. После этого мы смотрели, в 1. Введение Нашей целью было исследование совместной встречаемости (ко-встречаемости) различных семейств генов углеводного метаболизма бактерий. В геноме бактерий функционально связанные гены (например, отвечающие за последовательные реакции в метаболическом пути), как правило, располагаются на хромосоме вблизи друг от друга. Совместное расположение, таким образом, считается признаком совместной эволюции генов. Поэтому на основании ковстречаемости членов локуса можно делать предположения об эволюционной устойчивости такого локуса. 265 свою очередь, их случаи fusions и повторяли процедуру наращивания списка несколько раз. скорее всего, только подтверждает их коэволюционную совместимость и не мешает ее изучению. Для изучения ко-эволюционных особенностей генов необходима было ввести разумную их классификацию. Среди генов углеводного метаболизма мы выделили 24 крупных функциональных класса (мутазы, киназы, эпимеразы и др.), представители каждого из которых встречались в большем числе бактерий. Разделение на функциональные классы основывалось на классификации Enzyme Nomenclature (до sub-subclasses) с дополнительным анализом частных “необычных” случаев. Эти классы мы далее в одном случае разделяли на семейства на основании принадлежности их генов к ортологическим кластерам (COG) и cтруктурным семействам (PFam), получая комбинированные структурноортологические COG-PFam семейства; во втором случае мы ограничились разделением классов на COG-семейства. Всего мы рассматривали 257 COG и 567 PFam. Мы использовали обе системы классификации и получили сравнительные характеристики двух таких подходов. Критерий ко-встречаемости мы одним из следующих способов: Для каждой пары из 24 крупных функциональных классов была построена матрица ковстречаемости входящих в них семейств. Значения, соответствующие количеству встреч, были кластеризованы на основании их величины; количество кластеров для каждой матрицы варьировало от 3 до 6. Рассматривая значения и характер кластеризации каждого семейства, мы исследовали особенности ко-встречаемости каждого семейства в рамках разных матриц. Случай, когда семейство имеет один или несколько пиков на матрице, означает, что его представители имеют ко-эволюционные “предпочтения”; случай, когда пики не выражены, означает, что “предпочтений” у семейства нет. Чтобы оценить меру значимости каждого пика мы также вычислили меру отклонения от ожидаемого значения матрицы, в модели случайного образования пар с учетом размера семейств. На основании этих данных мы получили разбиение всех возможных пар семейств из разных функциональных классов, на четыре группы: часто встречающиеся пары (пики) с высокой степенью отклонения от ожидаемой величины, часто встречающиеся пары (пики), близкие к ожидаемой величине, не частые пары (не пики), близкие к ожидаемой величине и не частые пары (не пики), далекие от ожидаемой величины. определяли 1) считается, что представители семейств (гены) встречаются в геноме бактерии вместе, если они встречаются в составе одного локуса. Под локусом подразумевается несколько генов углеводного метаболизма (от 2 до 12), которые располагаются на хромосоме подряд, с межгенным расстоянием не более 200 п.н.; при этом допускается один “пропуск” (gap) длиной в 1500 п.н. Также мы исследовали все встречающиеся в бактериальных геномах локусы углеводного метаболизма, в результате чего был построен список существующих локусов и список всех частей локусов (т.е. элементов “конструктора” из которых собираются полные локусы), определена частота их встреч и, в результате, выявлены самые распространенные сочетания функциональных классов и структурноортологических семейств генов, по-видимому, наиболее оптимальные с точки зрения коэволюции. Ряд таких сочетаний и их однозаменных вариантов был исследован на филогенетических деревьях, в том числе, чтобы оценить число и характер горизонтальных переносов для каждого такого случая и сделать предположения о его причинах. 2) считается, что представители семейств встречаются в геноме бактерии вместе, если они лежат на геноме на расстоянии не больше чем 15 т.п.н. друг от друга. В исследовании мы использовали оба критерия ко-встречаемости, получив сравнительные характеристики двух этих подходов. Отдельной проблемой являются упомянутые выше случаи “fusion”, когда два гена могут встречаться отдельно, а могут находиться в составе одного общего гена. Не всегда можно сказать, является ли “составной” ген промежуточным эволюционным вариантом между первыми двумя или настоящим fusion. Мы рассматривали каждый “составной” ген как два лежащих рядом гена; поскольку слияние генов, Кроме того, на основании COG-PFam семейств мы построили филогенетический профиль бактерий. С помощью него можно ещё одним 266 способом подтвердить эволюционно устойчивые сочетания генов, найти новые, так как в таком профиле нет условия ко-локализации генов на хромосомах, а также выделить группы бактерий, содержащие похожие семейства генов и, предположительно, населяющих сходные среды обитания с точки зрения углеводного метаболизма. Список литературы [1] Kanehisa, M., Goto, S., Furumichi, M., Tanabe, M., and Hirakawa, M. KEGG for representation and analysis of molecular networks involving diseases and drugs. Nucleic AcidsRes. (2010), 38, D355D360. [2] Kanehisa, M., Goto, S., Hattori, M., AokiKinoshita, K.F., Itoh, M., Kawashima, S., Katayama, T., Araki, M., and Hirakawa, M., From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Res. (2006), 34, D354-357. 3. Результаты Была составлена система классификации генов углеводного метаболизма. На основе ковстречаемости в геномах бактерий были выявлены все сочетания генов и определены эволюционно устойчивые комбинации. Для каждой пары из 24 крупных функциональных классов была построена матрица ковстречаемости входящих в них ортологоструктурных семейств. На основании кластеризации таких матриц были сделаны выводы о ко-эволюционных особенностях каждого семейства. Также для каждого значения матрицы была вычислена мера отклонения от ожидаемого значения в модели случайного образования пар с учетом размера семейств и проанализирован результат. [3] Kanehisa, M. and Goto, S., KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. (2000), 28, 27-30. [4] Markowitz VM, Chen, I.A., Palaniappan K, et al. The Integrated Microbial Genomes system: an expanding comparative analysis resource. Nucleic Acids Res. (2010) , 38 [5] R.D. Finn, J. Mistry, J. Tate, P. Coggill, A. Heger, J.E Pollington, O.L. Gavin, P. Gunesekaran, G. Ceric, K.Forslund, L. Holm, E.L. Sonnhammer, S.R. Eddy, A. Bateman, The Pfam protein families database. Nucleic Acids Research (2010), Database Issue 38:D211-222 [6] Marchler-Bauer A, Anderson JB, Chitsaz F, Derbyshire MK, DeWeese-Scott C, Fong JH, Geer LY, Geer RC, Gonzales NR, Gwadz M, He S, Hurwitz DI, Jackson JD, Ke Z, Lanczycki CJ, Liebert CA, Liu C, Lu F, Lu S, Marchler GH, Mullokandov M, Song JS, Tasneem A, Thanki N, Yamashita RA, Zhang D, Zhang N, Bryant SH., CDD: specific functional annotation with Были изучены все существующие локусы углеводного метаболизма и составлен список всех вариантов частей таких локусов. Была определена частота встреч локусов и их частей и выявлены самые распространенные сочетания функциональных классов и структурноортологических семейств генов, по-видимому, наиболее оптимальные с точки зрения коэволюции. Ряд таких сочетаний и их однозаменных вариантов был исследован на филогенетических деревьях для визуализации их распространения в бактериальных геномав и для оценки числа и характера горизонтальных переносов для каждого такого случая и сделать предположения о его причинах. the Conserved Domain Database. Nucleic Acids Res. (2009), 37, D205-10. [7]PHYLIP (http://evolution.genetics.washington.edu/phylip.html ) [8] Larkin M.A., Blackshields G., Brown N.P., Chenna R., McGettigan P.A., McWilliam H., Valentin F., WallaceI.M., Wilm A., Lopez R., Thompson J.D., Gibson T.J. And Higgins D.G., ClustalW and ClustalX version 2. Bioinformatics (2007), 23(21): 2947-2948. На основании COG-PFam семейств был построен филогенетический профиль бактерий, позволяющий выявить новые устойчивые сочетания генов и распределить бактерии по группам, обладающим сходными характеристиками с точки зрения углеводного метаболизма в целом. [9] Caspi, R., Altman, T., Dale, J.M., Dreher, K., Fulcher, C.A., Gilham, F., Kaipa, P., Karthikeyan, A.S., Kothari, A., Krummenacker, M., Latendresse, M., Mueller, L.A., Paley, S., Popescu, L., Pujar, A., Shearer, A., Zhang, P. and Karp, P.D., The MetaCyc Database of metabolic pathways and enzymes and Данные, полученные в ходе исследования, доступны на сайте http://imagenome.org. 267 the BioCyc collection of Pathway/Genome Databases Nucleic AcidsRes. (2010), 38(1):D473D479. [12] Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B, Galperin MY, Fedorova ND, Koonin EV., The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucleic Acids Res. (2001), 29(1): 22-28. [10] Selkov E Jr, Grechkin Y, Mikhailova N, Selkov E. MPW: the Metabolic Pathways Database. Nucleic Acids Res. (1998), 26(1):43-5. [11] Tatusov RL, Galperin MY, Natale DA, Koonin EV., The COG database: a tool for genome-scale analysis of protein functions and evolution. Nucleic Acids Res. (2000), 28(1): 33-36. 268