Функциональная аннотация

реклама
Биоинформатика,
или молекулярная биология in silico
М.Гельфанд
Конференция ИППИ
сентябрь 2007, Звенигород
Расшифрован геном!
Расшифрован ли геном?
Перехватить зашифрованное сообщение –
еще не значит его понять
Фрагмент генома (0.1% генома E. coli)
Геном бактерии:
несколько миллионов нуклеотидов
От 600 до 9 тысяч генов
(примерно 90% генома кодирует белки)
Фрагмент генома (0.0001% генома человека)
Геном человека:
3 000 000 000 нуклеотидов
Примерно 25 тысяч генов,
< 5% генома кодирует белки
Пропаганда
10000000
1000000
100000
10000
1000
последовательности
статьи
100
1982 1984 1986 1988 1990 1992 1994 1996 1998 2000
год
Цель (локальная):описать гены
• Что
– функция
• Когда
– Регуляция
• Экспрессии
• Время жизни (мРНК, белка)
• Где
– Локализация
• Внутри/снаружи
• Органеллы и компартменты
• Как
– Механизм
• Специфичность, регуляция
Пропаганда-2: полные геномы
90
84
80
70
2006:
> 1000
геномов
бактерий
(~400
полных)
60
55
50
40
30
30
20
10
19
18
14
9
2
0
1995
4
1
2 1
3 2
1996
1997
1998
4
2
10
7
4
1999
2000
15
8
2001
2002
Цель (глобальная):
предсказать свойства
организма по его геному
(с использованием кое-какой
дополнительной информации –
эпигенетика и т.п.)
и “понять” эволюцию
геномов/организмов
Цель (недостижимая?)
откуда оно все взялось?
первое приближение –
реконструкция генома/свойств LUCA
реально ли заглянуть глубже?
реально ли смоделировать? (времена)
реально ли смоделировать «по частям»?
Задачи биоинформатики
• С проверяемым ответом
– предсказание функции, регуляции, структуры и т.п.:
• ставим эксперимент
• С непроверяемым ответом
– эволюционные деревья
• но если бы знать все геномы всех (в том числе очень давно
умерших) существ, то задача станет тривиальной
• С принципиально непроверяемым ответом (который
зависит от операциональных определений)
– идентификация повторов, консервативных областей,
островов метилирования и т.п.
• (так ли он непроверяем?)
• Без ответа (общеописательные)
– статистика геномов (изохоры и т.п.)
– описание регуляторных и пр. сетей (hubs, мотивы и т.п.)
Идеология
• Сходство => гомология
(общность происхождения)
• Гомология => сходная функция
• Принцип Пирсона:
консервативно то, что важно
– функциональные мотивы в белках
– регуляторные сайты в ДНК
– не обязательно последовательности
• структура белка и РНК
• расположение генов на хромосоме
• ко-экспрессия генов
Не все так хорошо
• Сходство ≠ гомология
– области малой сложности, неструктурированные
домены, трансмембранные сегменты и т.п.
области с нестандартным аминокислотным
составом
• надо правильно измерять сходство последовательностей
– всегда ли гомология следует из сходства
структур?
• что такое сходство структур? как его измерять?
• сколько раз возникала каждая белковая укладка? (>1?)
можем ли мы это узнать и доказать ответ?
• бывает ли конвергентная эволюция структур?
• Гомология ≠ та же функция.
– Что такое «та же функция»?
• биохимические детали и функциональная роль
(к вопросу о «проверяемости»)
Забавные функциональные
аннотации
• C75604: Probable head morphogenesis
protein, Deinococcus radiodurans
• O05360: Automembrane protein H,
Yersinia enterocolitica
• Q8TID9: Benzodiazepine (valium)
receptor TspO, Methanosarcina
acetivorans
• NP_069403: DR-beta chain MHC class
II, Archaeoglobus fulgidus
© М.Galperin, А.Миронов
Ошибки в экспериментальных работах
SwissProt:
DEFINITION Hypothetical 43.6 kDa protein.
ACCESSION
...
KEYWORDS
SOURCE
ORGANISM
P48012
Hypothetical protein.
Debaryomyces occidentalis
Debaryomyces occidentalis
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Debaryomyces.
[CAUTION] Was originally (Ref.1) thought to be
3-isopropylmalate dehydrogenase (LEU2).
PIR:
DEFINITION
3-isopropylmalate dehydrogenase
ACCESSION
KEYWORDS
- yeast(Schwanniomyces occidentalis).
S55845
oxidoreductase.
(EC 1.1.1.85)
© Koonin-Galperin (?)
Iyer L.M., Aravind L., Bork P., Hofmann K., Mushegian A.R., Zhulin I.B., Koonin E.V.
Quod erat demonstrandum? The mystery of experimental validation of
apparently erroneous computational analyses of protein sequences.
Genome Biology. 2001. 2: research0051
SwissProt, запись DSDX_ECOLI
-!- CAUTION: An ORF called dsdC was
originally (Ref.3) assigned to the wrong
DNA strand and thought to be a D-serine
deaminase activator, it was then
resequenced by Ref.2 and still thought to
be "dsdC", but this time to function as a
D-serine permease. It is Ref.1 that showed
that dsdC is another gene and that this
sequence should be called dsdX. It should
also be noted that the C-terminal part of
dsdX (from 338 onward) was also sequenced
(Ref.6 and Ref.7) and was thought to be a
separate ORF (don't worry, we also had
difficulties understanding what happened!).
© АБР
Случай из жизни
• Принцип Ферми-Финкельштейна
– переносить функции по гомологии:
скучно (ничего нового)
• Оказывается, можно описывать нечто
совсем новое
Консервативный мотив перед генами
рибонуклеотид-редуктаз (nrd) в
бактериальных геномах
Идентификация фактора транскрипции
• Филогенетический паттерн: список геномов, в которых
присутствует/отсутствует обнаруженный мотив
=> единственный ген с таким паттерном – ybaD (COG1327)
– “макроуровень” – большие таксоны
– “микроуровень” – в «смешанных» таксонах:
• отсутствует в геномах паразитов в группах альфа- и гаммапротеобактерий
• отсутствует в Desulfovibrio spp. среди дельта-протеобактерий
• отсутствует в Nostoc sp. среди цианобактерий
• отсутствует в Oenococcus и Leuconostoc среди Firmicutes
• присутствует только в Treponema denticola среди четырех спирохет
• COG1327: Гипотетический регулятор транскрипции,
содержащий домены цинковая лента (ДНК- и РНКсвязывающий) и АТФ-конус
Bork, Koonin: YbaD=RibX,
регулятор биосинтеза рибофлавина?
Дополнительные соображения:
Ко-локализация
ген nrdR
иногда
образует
опероны с
генами nrd
genes или с
генами
репликаци
и dnaB,
dnaI, polA
Еще дополнительные соображения:
Состав регулона dN
потенциальные сайты
связывания NrdR
обнаружены перед другими
генами, связанными с
репликацией:
– топоизомераза I
– инициатор репликации dnaA
– разделение (partitioning)
хромосом
– ДНК-хеликаза II
PnuC-like
transporter
dN
N
dN kinase
dNMP
NMP
NMP/dNMP kinase
dNDP
NDP
NDP/dNDP kinase
dNTP
RNR
NTP
– ре-утилизация (salvage) dNTP
DNA
RNA
Множественные сайты (гены nrd):
FNR, DnaA, NrdR
Механизм регуляции
• репрессор (сайты перекрываются с
промоторами)
• кооперативное связывание:
– >90% генов имеет парные сайты
– расстояние между сайтами (центрами
палиндромов) равно целому числу
витков спирали ДНК
• как правило (94%) 30-33 пн, в 84% случаев
31-32 пн – 3 витка
• в Vibrio spp. 21 пн (2 витка)
• в некоторых фирмикутах 41-42 пн (4 витка)
Экспериментальное подтверждение
Опять философия:
«С трудом проверяемые ответы»
TGTCGGCnnGCCGACA
• филогенетические деревья
(и реконструкция предковых
последовательностей)
– правила гигиены:
самосогласованность
(bootstrap)
– что, если бы мы знали все
современные геномы?
• не поможет
– ср. пра-цезский и
пра-индоевропейский
– а вообще все когда-либо
существовавшие геномы?
• тогда тривиально
• горизонтальный перенос
• «правильное» выравнивание
CooA
Desulfovibrio
TTGTGAnnnnnnTCACAA
FNR
Gamma
TTGATnnnnATCAA
HcpR
Desulfovibrio
TTGTgAnnnnnnTcACAA
«В принципе не проверяемые ответы»
(зависящие от определений)
Так ли они непроверяемы?
• Повторы
– если иметь все геномы, то можно описывать вставки/замены
фрагментов генома и их последующее расхождение
• Консервативные области
– если иметь все геномы, то можно просто оценивать локальную
скорость эволюции (но это будет функцией времени)
• Статистика ДНК (локальный нуклеотидный состав)
– это следствие локального паттерна замен, так и надо описывать
• Микросателлиты
– можно ли «функционально» (а не операционально) определить
микросателлит, исходя из динамики вставок/замен/дупликаций?
• CpG-острова
– можно ли «функционально» (а не операционально) определить
CpG-остров, исходя из паттерна мутаций, состояния
метилирования и т.п.? (тут уже эволюция + эксперимент)
«Безответные задачи»
• Общие свойства геномов
– количество факторов
транскрипции как функция
размера генома
• квадратично: «бюрократическая
катастрофа»
• опять: интересна эволюция
• Общие свойства сетей
– распределения степеней
вершин и т.п.
– перепредставленные мотивы
Скачать