Изучение эволюции и классификация геномных локусов

реклама
Изучение эволюции и классификация геномных локусов углеводного
метаболизма у бактерий
Казнадзей А.Д., Шелякин П.В.
ИППИ РАН
[email protected], [email protected]
встречающихся в бактериальных геномах
наборов
деталей
позволяет
вычислить
"стандартные" варианты локусов и создать
соответствующую локусную классификацию для
разных
групп
бактерий.
В
случаях
множественной совместимости (когда одна и та
же "деталь" встречается в комбинациях с
разными деталями другого функционального
класса)
можно
предполагать
успешное
осуществление
горизонтального
переноса
отдельных генов при возникновении, например,
новой субстратной среды, что можно подтвердить
за
счет
анализа
бактериального
филогенетического дерева построенного для
разных
составляющих
локуса.
Помимо
вычисления "стандартных" локусов целью работы
является определение масштабов и специфики
подобных "перетасовок" в рамках бактериальных
геномов.
Аннотация
Целью данной работы является исследование
геномных локусов, относящихся к углеводному
метаболизму бактерий. В состав локуса,
ответственного за метаболизм каждого
конкретного сахара или группы сахаров, входит
ряд генов, кодирующих белки, которые
участвуют в биохимических превращениях
углеводов,
таких
как
фосфорелирование,
гидролиз, изомеризация, а также, как правило,
трансмембранные переносчики и регуляторы
транскрипции.
Сравнение
распределений
семейств и подсемейств белков разных
функциональных классов по бактериальному
филогенетическому
древу
позволяет
обнаруживать
комбинации
эволюционно
совместимых групп и оценивать степень
функциональной
совместимости
их
представителей.
2. Обсуждение
Важнейшим
этапом
работы
являлось
определение наиболее адекватной классификации
белков углеводного метаболизма. В качестве
основных
критериев
структуризации,
подходящей
для
данной
задачи,
были
протестированы
классификации,
распределяющие белки по EC-номерам, по Pfamсемействам, по COG-семействам и по группам
ортологов на основании bidirectional best hit, а
также
сделана
попытка
разделить
рассматриваемые
белки
при
помощи
множественного выравнивания аминокислотных
последовательностей
внутри
крупных
функциональных классов. Наиболее обширной и,
вместе с тем, четкой, оказалась структурная
система, созданная на основе принадлежности
белков
к
COG-семействам.
Итоговая
классификация белков была создана на основе
COG-системы. Для ряда семейств, в том числе
1. Формулировка задачи
Бактериальный
углеводный
метаболизм
характеризуется чрезвычайным разнообразием
благодаря способности бактерий усваивать
широкий спектр различных субстратов. При этом
гены кодирующие ферменты одного участка
метаболического пути часто расположены рядом
друг с другом на хромосоме, т.е. формируют
локусы. Компоненты таких локусов можно
представить в качестве своеобразной мозаики,
состоящей из генов-"деталей", принадлежащих
разным генным «семействам» выделенным на
основании функциональных и структурных
особенностей
кодируемых
ими
белков.
Предполагается
исследовать
совместимость
различных "деталей" между собой за счет
изучения вариативности мозаики между разными
видами
бактерий.
Анализ
всевозможных
105
[2] Kanehisa, M., Goto, S., Hattori, M., Aoki-Kinoshita,
K.F., Itoh, M., Kawashima, S., Katayama, T., Araki,
M., and Hirakawa, M., From genomics to chemical
genomics: new developments in KEGG. Nucleic Acids
Res. (2006), 34, D354-357.
[3] Kanehisa, M. and Goto, S., KEGG: Kyoto
Encyclopedia of Genes and Genomes. Nucleic Acids
Res. (2000), 28, 27-30.
[4] Markowitz VM, Chen, I.A., Palaniappan K, et al. The
Integrated Microbial Genomes system: an expanding
comparative analysis resource. Nucleic Acids Res.
(2010) , 38
[5] R.D. Finn, J. Mistry, J. Tate, P. Coggill, A. Heger, J.E
Pollington, O.L. Gavin, P. Gunesekaran, G. Ceric,
K.Forslund, L. Holm, E.L. Sonnhammer, S.R. Eddy, A.
Bateman, The Pfam protein families database. Nucleic
Acids Research (2010), Database Issue 38:D211-222
[6] Marchler-Bauer A, Anderson JB, Chitsaz F, Derbyshire
MK, DeWeese-Scott C, Fong JH, Geer LY, Geer RC,
Gonzales NR, Gwadz M, He S, Hurwitz DI, Jackson
JD, Ke Z, Lanczycki CJ, Liebert CA, Liu C, Lu F, Lu
S, Marchler GH, Mullokandov M, Song JS, Tasneem
A, Thanki N, Yamashita RA, Zhang D, Zhang N,
Bryant SH., CDD: specific functional annotation with
the Conserved Domain Database. Nucleic Acids Res.
(2009), 37, D205-10.
[7] PHYLIP
( http://evolution.genetics.washington.e
du/phylip.html)
[8] Larkin M.A., Blackshields G., Brown N.P., Chenna R.,
McGettigan P.A., McWilliam H., Valentin F., Wallace
I.M., Wilm A., Lopez R., Thompson J.D., Gibson T.J.
And Higgins D.G., ClustalW and ClustalX version 2.
Bioinformatics (2007), 23(21): 2947-2948.
[9] Caspi, R., Altman, T., Dale, J.M., Dreher, K., Fulcher,
C.A., Gilham, F., Kaipa, P., Karthikeyan, A.S.,
Kothari, A., Krummenacker, M., Latendresse, M.,
Mueller, L.A., Paley, S., Popescu, L., Pujar, A.,
Shearer, A., Zhang, P. and Karp, P.D., The MetaCyc
Database of metabolic pathways and enzymes and the
BioCyc collection of Pathway/Genome Databases
Nucleic Acids Res. (2010), 38(1):D473-D479.
[10] Selkov E Jr, Grechkin Y, Mikhailova N, Selkov E.
MPW: the Metabolic Pathways Database. Nucleic
Acids Res. (1998), 26(1):43-5.
[11] Tatusov RL, Galperin MY, Natale DA, Koonin EV.,
The COG database: a tool for genome-scale analysis
of protein functions and evolution. Nucleic Acids Res.
(2000), 28(1): 33-36.
[12] Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA,
Shankavaram UT, Rao BS, Kiryutin B, Galperin MY,
Fedorova ND, Koonin EV., The COG database: new
developments in phylogenetic classification of proteins
from complete genomes. Nucleic Acids Res. (2001),
29(1): 22-28.
самых
крупных,
были
определены
дополнительные подсемейства, основанные на
множественном выравнивании с помощью
Clustalw; кроме того, массивы таких белков, как
гидролазы и лиазы, были дополнительно
структурированы с помощью классификации
CAZY. Таким образом, каждому белку
присваивалось классификационное положение,
относящее его к тому или иному семейству или
подсемейству; то есть были определены группы
"деталей" для дальнейшего анализа локусов.
Было рассмотрено взаимное расположение
генов-«деталей» внутри бактериальных геномов и
на основании их близости друг к другу были
определены предполагаемые локусы. Далее
анализировалась связанность деталей между
собой,
и
проводился
соответствующий
статистический анализ. Он включал в себя
статистическую
оценку
«неслучайности»
сочетания деталей в локусах (за счёт сравнения с
случайным распределением) и выделение
«стандартных»
сочетаний.
Для
поиска
стандартных
локусов
гены-«детали»
представляли в виде вершин графа соединённых
рёбрами в том случае, если гены встречались в
одном локусе. Далее всем рёбрам задавался
определённый вес на основании частоты
встречаемости пары генов в разных геномах.
После этого из графа убирались все рёбра и
вводились обратно по одному в порядке
уменьшения их веса. При этом строился график
роста наибольшей – гигантской – компоненты,
резкое изменение кинетики которого указывало
на то, что в этот момент образовавшиеся крупные
компоненты начинали сливаться друг с другом.
Эти
крупные
компоненты
мы
решили
рассматривать в качестве наиболее частых –
стандартных – локусов. И перетасовки генов
между этими локусами в первом приближении
считать
горизонтальным
переносом
(и
подтверждать или опровергать это построением
филогенетических деревьев).
3. Литература
[1] Kanehisa, M., Goto, S., Furumichi, M., Tanabe, M., and
Hirakawa, M. KEGG for representation and analysis
of molecular networks involving diseases and drugs.
Nucleic Acids Res. (2010), 38, D355-D360.
106
Скачать