Сравнительная геномика и функциональная аннотация генов и геномов 24.III.2009, ИМБ

advertisement
Сравнительная геномика и
функциональная аннотация
генов и геномов
24.III.2009, ИМБ
М.С.Гельфанд
Экспоненциальный рост объема данных
100000000000
10000000000
1000000000
100000000
10000000
1000000
100000
10000
1000
100
1982
1987
1992
красный – статьи (PubMed)
синий – последовательности (GenBank)
зеленый – объем в нуклеотидах (GenBank)
1997
2002
2007
из 18 миллионов ссылок,
~675 тыс. отвечают на
“bioinformat* OR comput*”
16 тыс. “bioinformat*”
65 тыс. “bioinformat* OR computat*”
622 полных генома (прокариот)
186
200
180
142
160
140
120
100
80
60
40
81
66
48
3
3
6
6
7
30
25
19
20
0
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Цель аннотации
• Что
– функция
• Когда
– Регуляция
• Экспрессии
• Время жизни
• Где
– Локализация
• Внутри/снаружи
• Органеллы и компартменты
• Как
– Механизм
• Специфичность, регуляция
Поиск похожих последовательностей
с известными функциями
How much do we know about the
Escherichia coli proteome?
Characterized
experimentally
“Hypothetical”
Function inferred
by similarity only
“Conserved
hypothetical”
Перепредсказания
SOURCE
ORGANISM
FEATURES
source
Protein
Methanococcus jannaschii.
Methanococcus jannaschii
Archaea; Euryarchaeota; Methanococcales; Methanococcaceae;
Methanococcus.
Location/Qualifiers
1..492
/organism="Methanococcus jannaschii"
/db_xref="taxon:2190"
1..492
/product="sodium-dependent
noradrenaline transporter"
CDS
1..492
/gene="MJ1319"
/note="similar to EGAD:HI0736 percent identity: 38.5;
identified by sequence
similarity;
putative"
/coded_by="U67572:71..1549"
/transl_table=11
Now corrected:
Hypothetical sodium-dependent transporter MJ1319.
Анекдоты
• C75604:
Probable head morphogenesis protein,
Deinococcus radiodurans
• Q8TID9:
Benzodiazepine (valium) receptor TspO,
Methanosarcina acetivorans
• NP_069403:
DR-beta chain MHC class II,
Archaeoglobus fulgidus
Ошибки в экспериментальных статьях
SwissProt:
DEFINITION Hypothetical 43.6 kDa protein.
ACCESSION
...
KEYWORDS
SOURCE
ORGANISM
P48012
Hypothetical protein.
Debaryomyces occidentalis
Debaryomyces occidentalis
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Debaryomyces.
[CAUTION] Was originally (Ref.1) thought to be
3-isopropylmalate dehydrogenase (LEU2).
PIR:
DEFINITION
3-isopropylmalate dehydrogenase
ACCESSION
KEYWORDS
- yeast(Schwanniomyces occidentalis).
S55845
oxidoreductase.
(EC 1.1.1.85)
SwissProt: DSDX_ECOLI
-!- CAUTION: An ORF called dsdC was
originally (Ref.3) assigned to the wrong
DNA strand and thought to be a D-serine
deaminase activator, it was then
resequenced by Ref.2 and still thought to
be "dsdC", but this time to function as a
D-serine permease. It is Ref.1 that showed
that dsdC is another gene and that this
sequence should be called dsdX. It should
also be noted that the C-terminal part of
dsdX (from 338 onward) was also sequenced
(Ref.6 and Ref.7) and was thought to be a
separate ORF (don't worry, we also had
difficulties understanding what happened!).
SwissProt: DSDX_ECOLI
-!- CAUTION: An ORF called dsdC was
originally (Ref.3) assigned to the wrong
DNA strand and thought to be a D-serine
deaminase activator, it was then
resequenced by Ref.2 and still thought to
be "dsdC", but this time to function as a
D-serine permease. It is Ref.1 that showed
that dsdC is another gene and that this
sequence should be called dsdX. It should
also be noted that the C-terminal part of
dsdX (from 338 onward) was also sequenced
(Ref.6 and Ref.7) and was thought to be a
separate ORF (don't worry, we also had
difficulties understanding what happened!).
Другие источники информации
(для предсказания чего-то нового)
• Много геномов => можем
использовать слабые соображения:
– Ко-локализация (в геноме):
позиционные кластеры
– Ко-локализация (геномах):
филогенетические паттерны
• «Омики»:
– Транскриптомика
– Протеомика
– Интерактомика
STRING:
trpB –
позиционные
кластеры
STRING:
trpB –
филогенетические
паттерны
STRING:
trpB summary
Новый универсальный
фактор транскрипции
Консервативный мотив перед генами рибонуклеотидредуктаз (nrd) в бактериальных геномах
Идентификация фактора транскрипции
• Филогенетический паттерн: список геномов, в
которых присутствует/отсутствует обнаруженный
сигнал
=> единственный ген с таким паттерном –
ybaD (COG1327)
– “макроуровень” – большие таксоны
– “микроуровень” – в «смешанных» таксонах:
• отсутствует в геномах паразитов в группах альфа- и гаммапротеобактерий
• отсутствует в Desulfovibrio spp. среди дельта-протеобактерий
• отсутствует в Nostoc sp. среди цианобактерий
• отсутствует в Oenococcus и Leuconostoc среди Firmicutes
• присутствует только в Treponema denticola среди четырех
спирохет
• COG1327: Гипотетический регулятор
транскрипции, содержащий домены цинковая лента
(ДНК- и РНК-связывающий) и АТФ-конус
Bork, Koonin:
YbaD=RibX, регулятор биосинтеза рибофлавина?
Состав регулона
• ген nrdR иногда образует
(потенциальные) опероны с
генами nrd genes или с генами
репликации dnaB, dnaI, polA
dN
PnuC-like
transporter
dN
N
dN kinase
• потенциальные сайты
связывания NrdR обнаружены
перед другими генами,
связанными с репликацией:
–
–
–
–
топоизомераза I
инициатор репликации dnaA
разделение (partitioning) хромосом
ДНК-хеликаза II
– ре-утилизация (salvage) dNTP
dNMP
NMP
NMP/dNMP kinase
dNDP
NDP
NDP/dNDP kinase
dNTP
DNA
RNR
NTP
RNA
Множественные сайты (гены nrd): FNR, DnaA, NrdR
Механизм регуляции
• репрессор
– сайты перекрываются с промоторами
• кооперативное связывание:
– >90% генов имеет парные сайты
– расстояние между сайтами (центрами
палиндромов) равно целому числу витков
спирали ДНК
• как правило (94%) 30-33 пн,
в 84% случаев 31-32 пн – 3 витка
• в Vibrio spp. 21 пн (2 витка)
• в некоторых фирмикутах 41-42 пн (4 витка)
Экспериментальное подтверждение
Транспортеры
• Два основных класса
– АТФ-зависимые
• Трансмембранный белок (пермеаза)
• АТФаза
• Субстрат-связывающий
(периплазматический) белок
– Вторичные (симпортеры,
антипортеры)
• Сложный эксперимент
(по сравнению с ферментами)
• Относительно легко
идентифицировать
• Сложно предсказать
специфичность
H+
Разнообразие специфичностей в семействе
транспортеров никеля и олигопептидов
(субстрат-связывающий белок NikA)
Семейство транспортеров кофакторов PnuC
Функциональный анализ транспортеров
• Предсказание общей функции
– гомология (сходство с известными транспортерами)
– анализ трансмембранных сегментов
• Отнесение к функциональной подсистеме
(метаболическому пути)
– ко-локализация
– ко-регуляция
• Предсказание специфичности
– анализ филогенетического профиля
• конечный продукт биосинтетического пути: присутствует в
геномах, не имеющих пути (импорт заменяет биосинтез)
• промежуточный продукт биосинтетического пути; может
заменять часть пути «выше по течению»
• исходный продукт катаболического или
биосинтетического пути: не встречается в геномах, где этот
путь отсутствует
Биосинтез рибофлавина
PURINE BIOSYNTHESIS PATHWAY
GTP
ribA
PENTOSE-PHOSPHATE PATHWAY
ribA
GTP cyclohydrolase II
2,5-diamino-6-hydroxy-4-(5`-phosphoribosylamino)pyrimidine
ribG
ribA
Pyrimidine deaminase
5-amino-6-(5`-phosphoribosylamino)uracil
ribulose-5-phosphate
3,4-DHBP synthase
ribD
ribB
ribG
3,4-dihydroxy-2-butanone-4-phosphate
ribD
Pyrimidine reductase
5-amino-6-(5`-phosphoribitylamino)uracil
ribH
ribH
Riboflavin synthase, -chain
6,7-dimethyl-8-ribityllumazine
ribB
ypaA
ribE
Riboflavin
Riboflavin synthase, -chain
5’-области генов синтеза рибофлавина
BS
BQ
BE
HD
Bam
CA
DF
SA
LLX
PN
TM
DR
TQ
AO
DU
CAU
FN
TFU
SX
BU
BPS
REU
RSO
EC
TY
KP
HI
VK
VC
YP
AB
BP
AC
Spu
PP
AU
PU
PY
PA
MLO
SM
BME
BS
BQ
BE
CA
DF
EF
LLX
LO
PN
ST
MN
SA
AMI
DHA
FN
GLU
1
2
2’
3
=========>
==>
<==
===>
TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT
AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT
TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT
TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT
TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT
GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT
CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT
TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT
ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT
AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT
GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT
CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT
AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT
TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT
GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT
TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT
ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT
-AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT
GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT
GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT
GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT
GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT
AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT
GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT
GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT
TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT
GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT
ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT
GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT
ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT
AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT
GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT
GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT
AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT
GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT
AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT
AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT
AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT
ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT
TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT
ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT
AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT
---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
Add.
3’
-><<===
21 AGCCCGTGAC-19 AGTCCGTGAC-20 AGCCCGCGA--19 AGTCCGTGAC-23 AGCCCGTGAC-2 AGCCCGCAA--2 AGCCCGCG---6 AGCCTGCGAC-2 AGCCCGCGA--2 AGCCCACGA--3 AGCCCGCGAG-15 AGCCCGCGAA-3 AGCCCGCGAA-2 AGTCCGCGA--2 AGTCCGCGA--20 AGCCCGCGA--2 AGTCCACG---3 AGTCCGCGAC-3 AGTCCGCGAC-30 AGCCCGCGAGCG
21 AGCCCGCGAGCG
31 AGCCCGCGAGCG
21 AGCCCGCGAGCG
17 AGCCCGCGAGCG
67 AGCCCGCGAGCG
20 AGCCCGCGAGCG
2 AGCCCACGAGCG
14 AGCCCACGAGCG
13 AGCCCACGAGCG
40 AGCCCGCGAGCG
25 AGCCCACGAGCG
18 AGCCCGCGAGCG
16 AGCCCGCGAGCA
34 AGCCCGCGAGCG
13 AGCCCGCGAGCG
17 AGCCCGCGAGCG
19 AGCCCGCGAGCG
19 AGCCCGCGAGCG
19 AGCCCGCGAGCG
16 AGCCCGCGAGCG
34 AGCCCGCGAGCG
17 AGCCCGCGAGCG
18 AGCCCGCGA--27 AGCCCGCGA—-20 AGCCCGCGA--2 AGCCCGCGAG-2 AGCCCGCG---3 AGTCCACGAC-21 ACTCCGCGAT-3 AGTCCACGAT-125 AGTCCGTG---14 AGTCCGCG---104 AGTCCGCG---6 AGCCTGCGAC-14 AGCCCGCGC--20 AGCCCGCAAC-2 AGTCCACG---28 AGCCCGCGAGCG
Variable
4
4’
5
5’
1’
->
<====>
<====
==>
<==
<=========
8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT
8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG
3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC
10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG
8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG
3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG
7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT
11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT
4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA
3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA
5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA
8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG
5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC
7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA
13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA
3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC
5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG
8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG
8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG
137
GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC
8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC
7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC
11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC
8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG
8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG
8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG
26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA
11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC
5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA
16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG
16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA
10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC
10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG
6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA
7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA
7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG
19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA
15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA
14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA
8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA
8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC
10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT
5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG
3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG
3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG
3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT
6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT
5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG
4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC
3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG
3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA
3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG
3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG
11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG
5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC
11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA
4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA
10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC---
RFN, вторичная структура
additional
stemloop
variable
stem-loop
Ag
Y
u
C
N
rU G CRY G N
GY
G
3 G
C
c
A
A N UC C c N
a
*
GGgN
N
c
G Y
2 x
G
G
g
rC
U
Y
Y
1 y
N
N
N
N
5’
*
*
*
*
G
A
R
R
r
N
N
N
N
KN
R
A
RG K x
Y
yB RYC
V
Rr
C 4
C
G
A
U xN
CRG
N
AG Y C
UG A x
R
R 5
g
x
u
GA
Capitals: invariant (absolutely conserved) positions.
Lower case letters: strongly conserved positions.
Dashes and stars: obligatory and facultative base pairs
N: any nucleotide. X: any nucleotide or deletion
3’
Регуляторный механизм
Transcription attenuation
Translation attenuation
YpaA/RibU: транспортёр рибофлавина
• 5 предсказанных ТМ-сегментов =>
потенциальный транспортёр
• регуляторный RFN-элемент => корегуляция с генами метаболизма
рибофлавина => транспорт
рибофлавина или предшественника
• S. pyogenes, E. faecalis, Listeria: есть
ypaA, нет генов биосинтеза
рибофлавина => транспорт
рибофлавина
Предсказание:
YpaA – рибофлавиновый транспортёр
(Gelfand et al., 1999)
Проверка:
• генетический анализ
(Кренева и др., 2000)
• биохимический эксперимент
(Burgess et al., 2006)
Биотиновый
транспортер
BioY
• Идентификация:
– ко-локализация
– ко-регуляция
– филогенетические
паттерны
• Дополнительные
компоненты
– АТФаза(?) bioM
– Пермеаза(?) bioN
Предсказание и подтверждение
Биосинтез тиамина
= thiN (confirmed)
Transport of HMP
Transport of HET
(Gram-positive bacteria)
(Gram-negative bacteria)
yuaJ(=thiT): транспортер тиамина
• 6 предсказанных TM-сегментов
• Регуляция РНК-переключателями THI
• Streptococci: есть ThiT, нет тиаминового пути
ykoFEDC: АТФ-зависимый транспортер
• Регуляция РНК-переключателями THI
• Никогда не встречается в геномах, не имеющего
тиаминового пути
• Встречается только вместе с thiD и thiE
• Иногда встречается в геномах без thiC
Co и Ni
• ко-локализация
(хромосомные локусы)
– транспортеры Ni –
с генами никельзависимых ферментов
– транспортеры Co –
с генами синтеза
кобаламина
• ко-регуляция
– транспортеры Ni –
фактор транскрипции NikR
– транспортеры Co –
рибопереключатель В12
Add-I
g
aN
t
C
t Gg
cg
N R
N
N
P2 N
A
A
G
G
G
a
N
a
a
C
c
y
G
C d
c
P1 r
C
c
G
C P3
h a
C
BI
K
G
T
r
a
P4
r
A
G
Y
N
g k
c tG
y
G
h
C
C
d
C
G M B12 box
k G
C g
A
C
BI I
VS
P6
P5 A
g c C
Add-I I
CTG
c gG
GGY
AG
A
The Bacillus/
Clostridium group
-proteobacteria
a g
P0
F aculta tive
stem-loop
5'
3'
base stem
Other taxonomic groups
Структура локусов
genes
B12 riboswitch
NikR binding site
Пять семейств транспортеров
Новое семейство транспортеров Co и Ni
+ CbiN
CbiM
Ni2+
Co2+
NikM
+ NikN
+ NikL, NikK
+ NikL
Дмитрий Родионов  Thomas Eitinger
Предсказанные специфичности правильны
Co
Co
Ni
Ni
Ni
Co
Структура: слишком много компонентов
Биотиновый
транспортер
BioY
• АТФаза
BioM
~ CbiO
= NikO
• Пермеаза
BioN
~ CbioQ
= NikQ
Для транспорта достаточно компонент МN
(АТФаза и пермеаза не обязательны –
первый пример такого транспортера)
cbiMNQO
cbiMNQ
cbiMN
cbiM
контроль
BioY тоже достаточно
(даже в геномах, содержащих BioMN;
у BioMNY более крутая кинетика
Вершина айсберга?
Экспериментальные подтверждения
RibU: рибофлавин
ThiT: тиамин
FolT: фолат
(ср. BioY)
Унивесальное
«заряжающее
устройство»
+ специфические
компоненты
• Дмитрий Родионов
– регуляция транскрипции
– метаболическая реконструкция
– идентификация транспортеров
• Алексей Витрещак
– РНК-переключатели
• А.А. Миронов
– программы
•
•
•
•
Томас Хеббельн (Берлин) – Cо, Ni, биотин
Андрей Остерман (Сан Диего) – рибофлавин
Эндрю Хансон (Флорида) – тиамин
Дирк Слотблум (Гронинген) – фолат
•
•
•
HHMI
РФФИ
«Молекулярная и клеточная биология» (РАН)
Download