презентация - Учебно-Научный центр "Биоинформатика"

advertisement
Системная биология
М.С.Гельфанд
Учебно-научный центр «Биоинформатика»
Институт проблем передачи информации РАН
Международная школа
«Биоинформатика, геномика, протеомика»
Алма-Ата, Казахстан, апрель 2006
90
84
80
Полные геномы
70
60
55
50
40
30
30
10
19
18
20
14
9
2
0
1995
4
1
2 1
3 2
1996
1997
1998
4
2
10
7
4
1999
2000
15
8
2001
2002
•GOLD:
361 полный геном
В процессе:
952 бактерий
58 архей
607 эукариот (в т.ч. EST)
46 метагеномов
46 метагеномов
• “complete”
–
–
–
–
–
–
–
–
–
Sargasso Sea 1600 Мб
Methane-oxidizing archaea from deep sea sediments 111 Мб
Minnesota Soil 100 Мб
Acid mine drainage (AMD) 75 Мб
Woolly mammoth 28 Мб
Whale falls 25 Мб
Antarctic Marine Bacterioplankton 12 Мб
Pleistocene Cave Bears 1 Мб
DOE Hanford Site
• “incomplete”, но с оценкой размера или опубликованые
–
–
–
–
–
–
–
Hawaii Ocean Times Series Station (HOT) 2000 Мб
Rice endophyte community 100 Мб
Poplar endophytic bacteria 37 Мб
Alaskan Soil 8 Мб
Pacific Beach Sand 3 Мб
Calyptogena magnifica symbiont 1.2 Мб
Biofilms in drinking-water networks
Метагеномы в другом смысле
•
•
•
•
Escherichia 5+32 + Shigella 6+5
Salmonella 5+18
Staphylococcus 17+9 (aureus 9+5)
Streptococcus 17+35
– S. pyogenes 7+7
– S. pneumoniae ~7+7
• Bacillus anthracis+cereus+thuringiensis 7+22
• Mycoplasma 12+16
• Chlamydia 4+5 + Chlamydophyla 6+2
Массовые негеномные данные
•
•
•
•
•
(ко)-экспрессия
Белок-ДНКовые взаимодействия
Состав и концентрации белков
Белок-белковые взаимодействия
Одинарные и двойные мутанты
(жизнеспособность, фенотипы)
• Всякие разные эксперименты (text mining)
• Много баз данных
• Мало удобных средств анализа
Задачи на ближайшее будущее
• Что делать с тысячами геномов?
• Что делать с метагеномами?
• Как разумно интегрировать
разнообразные данные?
Виды чипов (expression arrays)
• кДНКовые
– ПЦР-амплификация известных генов
– (можно сколь угодно либерально – брать все
сомнительные гены)
– Надо учитывать альтернативный сплайсинг,
полиаденилирование, промоторы (трудно)
– В зависимости от способа приготовления меченой
кДНК, можно предпочитать 3’-концы
• Выстилающие (tiling)
– Весь геном – по ~30 нуклеотидов со сдвигом ~10
нуклеотидов…
– … за исключением повторов, микросателлитов и т.п.
Типичные задачи
• классификация измерений (например,
диагностика)
• выбор генов, дифференциально
экспрессирующихся в двух классах
(диагностика, до/после)
• поиск групп ко-регулируемых генов
базы данных результатов экспериментов по
анализу экспрессии
• ArrayExpress
http://www.ebi.ac.uk/microarray/ArrayExpress/arrayxpress.html
• Stanford Microarray Database
http://genome-www5.stanford.edu/MicroArray/NDEV/index.shtml
• GEO (Gene Expression Omnibus)
http://www.ncbi.nlm.nih.gov/geo/
• Стандартизованная форма данных об
эксперименте (MIAME: Minimal Iinformation
About a Microarray Experiment)
Развитие
цветка
резухи
Таля
двойная
кластериза
ция – на
генах и на
условиях
Plasmodium
– цикл
развития в
эритроците
[Bozdech et
al., 2003]
белок-белковые взаимодействия
• комплексы – масс-спектрометрия
• дрожжевые двугибридные системы
– GAL4
– два домена: димеризационный (связывает
галактозу) и ДНК-связывающий
– димер связывается с оператором
– димеризационный и ДНК-связывающий
домены могут быть в разных белках (связь
через тестируемые белки)
ChIP-chip (chromatin immunoprecipitation)
Briefly, cells are fixed with formaldehyde, harvested by sonication, and
DNA fragments that are crosslinked to a protein of interest are enriched
by immunoprecipitation with a specific antibody. After reversal of the
crosslinking, the enriched DNA is amplified and labeled with a
fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of
DNA that has not been enriched by immunoprecipitation is subjected to
LM-PCR in the presence of a different fluorophore, and both IP-enriched
and unenriched pools of labeled DNA are hybridized to a single DNA
microarray containing all yeast intergenic sequences.
Что можно делать
• Частная биоинформатика
– Функциональная аннотация
– Метаболическая реконструкция
– Анализ регуляторных систем
• Системная биология
– Общие свойства систем: графы, сети, …
• Эволюция
– Конкретных метаболических и
регуляторных подсистем
– Моделирование сетей
Haemophilus influenzae, 1995
Vibrio cholerae, 2000
Систематический анализ генов
дрожжей [Kemmeren et al. 2005]
•
•
•
•
Белок-белковые взаимодействия
Корреляция профилей экспрессии
Ко-локализация
Сходство фенотипов
KRE33
“killer toxin resistant”, no GO annotation
• 20 связанных
генов
• 13: часть
комплекса U3
snoRNP
(процессинг
рРНК)
• 4: метаболизм
мРНК
ASC1 (no annotation)
•
•
•
•
4 гена – процессинг рРНК
6 факторов инициации
трансляции
Ydj1 и ZUO1 имеют домены,
гомологичные DnaJ
(шаперон, работает при
тепловом и (другом) шоке),
ZUO1 – шаперон, связанный
с рибосомой
Предсказания:
– Ydj1 – шаперон
– ASC1 – “a role in stressinduced misfolding”
•
Эксперимент: мутанты по
Ydj1 и ASC1 плохо растут
при повышенной
концентрации NaCl и KCl
Metabolic pathways
STRING
server
(EMBL –
Bork):
- positional
clustering
- fusions
- phyletic
patterns
- co-expression
- high-throughput
experiments
- text mining
(Medline
abstracts)
- databases
Functionally dependent genes tend to cluster on
chromosomes in many different organisms
More genomes (stronger links)
=> highly significant clustering
Особенно в линейных путях (справа)
Распределение уровней связи
(бимодальное для изоферментов,
монотонное для субъединиц)
Биосинтез ароматических аминокислот
• Синий:
общие
метаболиты
• Зеленый,
желтый,
красный:
связи
Путь синтеза
ароматических
кислот и его
окрестности с
точки зрения
сравнительной
геномики
Метаболизм
серосодержащих
аминокислот и
геномные кластеры.
•Традиционные пути:
Слева и посередине:
синтез цистеина
Справа:
синтез метионина
Горизонтальный:
one-carbon metabolism
(частично)
свойства сетей
• N = количество вершин
• распределение степеней вершин
P(k) = вероятность того, что у случайно
взятой вершины будет k ребер
• средняя длина пути между вершинами L
• Коэффициент кластеризации – мера
связи между соседями данной вершины
случайная сеть
• пуассоновское распределение
P(k) = exp(-λ) λk / k!
• Теорема Эрдеша-Реньи: фазовый
переход – возникновение гигантской
компоненты
• средняя длина пути ~ log N
scale-free network
• P(k) ~ k–γ
– γ>3 – ничего особенного
– 2<γ<3 – hubs, иерархия
– γ=2 большой hub, соединенный с большой
долей вершин
• При γ<3 удаление случайной вершины не
разрушает сеть, удаление hub’а –
разрушает
• средняя длина пути (при 2<γ<3) ~ log log N
Разные
виды
графов
• Распределение
степеней
вершин
• Коэффициент
кластеризации
L.Barabasi
Yeast protein interaction
network
• Data from the highthroughput two-hybrid
experiment (T. Ito, et al.
PNAS (2001) )
• The full set containing 4549
interactions among 3278
yeast proteins
• 87% nodes in the largest
component
• The highest connected
protein interacts with 285
others!
•Figure shows only nuclear
proteins
Sergei Maslov’s web site
Гигантская
компонента в
графе белокбелковых
взаимодействий
в дрожжах
• Красный –
летальная
мутация
• Оранжевый –
медленный
рост
• Желтый –
неизвестно
• Зеленый –
нелетальная
мутация
Белок-белковые взаимодействия в
дрожжах: P(k) и размеры связных
компонент
Transcription regulatory
network in baker’s yeast




Downloaded from the
YPD database: 1276
regulations among 682
proteins by 125
transcription factors (10
regulated genes per TF)
Part of a bigger genetic
regulatory network of
1772 regulations among
908 proteins
Positive to negative ratio
3:1
Broader distribution of
out-degrees (up to 72)
and more narrow of indegrees
(up to 21)
регуляция транскрипции (дрожжи, ChIP-chip)
•
•
A: in-degree (относительно регулируемых генов): гистограмма (в
полулогарифмических координатах) количества промоторов с заданным
числом регуляторов– экспоненциальное распределение (у большинства генов
мало регуляторов). Пустые кружки – случайный граф
В: out-degree (относительно факторов): гистограмма количества факторов,
связывающих заданное количество промоторов – scale-free
Transcription regulatory
network in Homo Sapiens



Data courtesy of
Ariadne Genomics
obtained from the
literature search:
1449 regulations
among 689 proteins
Positive to negative
ratio is 3:1 (again!)
Broader distribution
of out-degrees
(up to 95) and more
narrow of in-degrees
(up to 40)
Transcription regulatory
network in E. coli



Data (courtesy of Uri
Alon) was curated from
the Regulon database:
606 interactions
between 424 operons
(by 116 TFs)
Positive to negative
ratio is 3:2 (different
from eukaryots!)
Broader distribution of
out-degrees
(up to 85) and more
narrow of in-degrees
(only up to 6 !)
зависимость физиологических и
геномных свойств от топологии
• дрожжи:
– ~10% genes with <5 links are essential
– >60% genes with >15 links are essential
• гены с большим числом связей
– с большей вероятностью имеют ортологов
в многоклеточных эукариотах
– ближе к ортологам из C. elegans
Статус гена
в геноме
• PPI – количесто белокбелковых взаимодействий
• EL – уровень экспрессии
• KE – летальность
нокаутов
• ER – скорость эволюции
• PGL – вероятность потери
в геноме
• NP – количество
паралогов
• GI – количество геномных
взимодействий
Е.В.Кунин
party hubs и date hubs
• Бимодальное
распределение
корреляций уровня
экспрессии
– Красный: hubs
– Голубой: non-hubs
– Черный: случайный
граф
• Party hubs: сам и
соседи коэкспрессируются
(комплексы)
• Date hub: нет
корреляции в уровнях
экспрессии
(сигнальные пути)
Han et al., 2004
Устойчивость
к атаке
(распадение
гигантской
компоненты)
основа сети
– party hubs
• Красный: атака на
party hubs
• Коричневый: атака
на все хабы
• Голубой: атака на
date hubs
• Зеленый: атака на
случайные белки
мотивы
• клики
– много в графах белок-белковых
взаимодействий (масс-спек. анализ
комплексов – по определению)
• подграфы фиксированной структуры,
встречающиеся существенно чаще, чем
в случайном графе (с теми же
свойствами)
Регуляторный каскад
• R – транскрипционная регуляция
• Х – ко-экспрессия
Zhang et al. 2005
• R – транскрипционная регуляция
• Р – белок-белковое взаимодействие
• Н – гомология
Субъединицы факторов транскрипции
• R – транскрипционная регуляция
• Р – белок-белковое взаимодействие
• Н – гомология
•
•
•
•
R – транскрипционная регуляция
Р – белок-белковое взаимодействие
Х – ко-экспрессия
Н – гомология
Регулоны
•
•
•
•
R – транскрипционная регуляция
Р – белок-белковое взаимодействие
Х – ко-экспрессия
Н – гомология
• Р – белок-белковое взаимодействие
• Х – ко-экспрессия
Ко-экспрессия в комплексах
• Р – белок-белковое взаимодействие
• Х – ко-экспрессия
Регуляция
транскрипции
в E.coli
• Почти
все “bifan”
мотивы
связаны
друг с
другом
• Сергей Маслов Brookhaven Natl. Lab.
• Леонид Мирный и Виктор Спирин, MIT
• … авторы использованных работ
•
•
•
•
РФФИ
РАН
HHMI
LICR
Download