Системная биология – сети М.Гельфанд «Сравнительная геномика»

реклама
Системная биология –
сети
М.Гельфанд
«Сравнительная геномика»
БиБи 4 курс, ШБ 2 год, ПФУ(КГУ)
весна 2015
разные сети
•
•
•
•
•
метаболические
регуляторные сети (фактор-ген)
белок-белковые взаимодействия
синтетические летали
…
свойства сетей
• N = количество вершин
• распределение степеней вершин
P(k) = вероятность того, что у
случайно взятой вершины будет k
ребер
• средняя длина пути между
вершинами L
случайная сеть
• пуассоновское распределение
P(k) = exp(-λ) λk / k!
• Теорема Эрдеша-Реньи: фазовый
переход – возникновение гигантской
компоненты
• средняя длина пути ~ log N
scale-free network
(сеть, свободная от масштаба)
•
•
•
•
P(k) ~ k–γ
γ>3 – ничего особенного
2<γ<3 – hubs, иерархия
γ=2 большой hub, соединенный с большой
долей вершин
• При γ<3 удаление случайной вершины не
разрушает сеть, удаление hub’а –
разрушает
• средняя длина пути (при 2<γ<3) ~ log log N
Случайные и scale-free графы:
P(k) (линейная и лог. шкалы)
Коэффициент
кластеризации
• Мера связи
между
соседями
данной
вершины
Метаболическая сеть с птичьего полета
В деталях
Один путь
(метаболизм аргинина и пролина)
Ранг vs. степень вершины для
метаболитов и реакций в H. pylori
Transcription regulatory
network in baker’s yeast




Downloaded from the
YPD database: 1276
regulations among 682
proteins by 125
transcription factors (10
regulated genes per TF)
Part of a bigger genetic
regulatory network of
1772 regulations among
908 proteins
Positive to negative ratio
3:1
Broader distribution of
out-degrees (up to 72)
and more narrow of indegrees
(up to 21)
регуляция транскрипции (дрожжи, ChIP-chip)
•
•
A: in-degree (относительно регулируемых генов): гистограмма (в
полулогарифмических координатах) количества промоторов с заданным
числом регуляторов– экспоненциальное распределение (у большинства генов
мало регуляторов). Пустые кружки – случайный граф
В: out-degree (относительно факторов): гистограмма количества факторов,
связывающих заданное количество промоторов – scale-free
Transcription regulatory
network in Homo sapiens



Data courtesy of
Ariadne Genomics
obtained from the
literature search:
1449 regulations
among 689 proteins
Positive to negative
ratio is 3:1 (again!)
Broader distribution
of out-degrees
(up to 95) and more
narrow of in-degrees
(up to 40)
Transcription regulatory
network in E. coli



Data (courtesy of Uri
Alon) was curated from
the Regulon database:
606 interactions
between 424 operons
(by 116 TFs)
Positive to negative
ratio is 3:2 (different
from eukaryots!)
Broader distribution of
out-degrees
(up to 85) and more
narrow of in-degrees
(only up to 6 !)
Yeast protein interaction network
• Data from the highthroughput two-hybrid
experiment (T. Ito, et al.
PNAS (2001) )
• The full set containing 4549
interactions among 3278
yeast proteins
• 87% nodes in the largest
component
• The highest connected
protein interacts with 285
others!
•Figure shows only nuclear
proteins
Гигантская
компонента в
графе белокбелковых
взаимодействий
в дрожжах
• Красный –
летальная
мутация
• Оранжевый –
медленный
рост
• Желтый –
неизвестно
• Зеленый –
нелетальная
мутация
Белок-белковые взаимодействия в
дрожжах: P(k) и размеры связных
компонент
Синтетические
летали в
дрожжах
Предостережения
• Экспериментальный шум (узлы и ребра)
– Пропуски (не удается экспрессировать)
– Лишнее (липкие белки, комплексы)
• Дискретизация
• Динамика, специфичность
– время
• Клеточный цикл
• Условия
– место
• Компартменты
• Ткани
Что смотрят
• Биологическая интерпретация
положения белка/гена в сети
• Глобальные топологические свойства
сетей
• Интересные подсети
– «графушки», модули
• Эволюция
– Моделирование
– Сравнительный анализ (пока почти нет)
Глобальные свойства сетей
Свобода от масштаба / степенное
распределение – ой ли?
Khanin R, Wit E. How scale-free are biological networks (J
Comput Biol. 2006): … Here we study 10 published
datasets of various biological interactions and perform
goodness-of-fit tests to determine whether the given data
is drawn from the power-law distribution. Our analysis
did not identify a single interaction network that has a
nonzero probability of being drawn from the power-law
distribution.
зависимость физиологических и
геномных свойств от топологии
• дрожжи:
– ~10% genes with <5 links are essential
– >60% genes with >15 links are essential
• гены с большим числом связей
– с большей вероятностью имеют
ортологов в многоклеточных эукариотах
– ближе к ортологам из C. elegans
Пьянки и свиданки
• Бимодальное
распределение
корреляций уровня
экспрессии
– Красный: hubs
– Голубой: non-hubs
– Черный: случайный граф
• Party hubs: сам и соседи
ко-экспрессируются
(комплексы)
• Date hub: нет
корреляции в уровнях
экспрессии (сигнальные
пути)
Устойчивость
к атаке
(распадение
гигантской
компоненты)
основа сети
– party hubs
• Красный: атака на
party hubs
• Коричневый: атака
на все хабы
• Голубой: атака на
date hubs
• Зеленый: атака на
случайные белки
мотивы
• клики
– много в графах белок-белковых
взаимодействий (масс-спек. анализ
комплексов – по определению)
• подграфы фиксированной структуры,
встречающиеся существенно чаще,
чем в случайном графе (с теми же
свойствами)
Graphlets / motifs
Przulj
Регуляторный каскад
• R – транскрипционная регуляция
• Х – ко-экспрессия
?
• R – транскрипционная регуляция
• Р – белок-белковое взаимодействие
• Н – гомология
Субъединицы факторов транскрипции
• R – транскрипционная регуляция
• Р – белок-белковое взаимодействие
• Н – гомология
?
•
•
•
•
R – транскрипционная регуляция
Р – белок-белковое взаимодействие
Х – ко-экспрессия
Н – гомология
Регулоны
•
•
•
•
R – транскрипционная регуляция
Р – белок-белковое взаимодействие
Х – ко-экспрессия
Н – гомология
?
• Р – белок-белковое взаимодействие
• Х – ко-экспрессия
Ко-экспрессия в комплексах
• Р – белок-белковое взаимодействие
• Х – ко-экспрессия
?
• S – синтетические летали (слабость)
• Н – гомология
Взаимозаменяемость паралогов (?)
• S – синтетические летали (слабость)
• Н – гомология
Четверные мотивы: взаимозаменяемость
Регуляция
транскрипции
в E.coli
• Почти все
“bi-fan”
мотивы
связаны
друг с
другом
Прямые петли (Feed-forward loops)
Динамический ответ
• Продолжающийся
ответ после снятия
стимула
• Немонотонный ответ
• Ответ на увеличение
стимула (в разы),
независимо от начального
уровня
Метаболизм сахаров в E. coli
Ответ зависит от цАМФ (глюкоза) и сахара
Uri Alo
Разложение на две функции ответа
Немонотонный ответ
Модули – существуют ли они?
• Клики в графе белок-белковых
взаимодействий – комплексы (по
построению)
• Много алгоритмов для поиска плотных
подграфов. Вычислительные и
содержательные сложности
• Если хабы слабо связаны друг с другом,
естественный модель – звезда с центром
в хабе
•
Модули в сети регуляции транскрипции
• Заходящие и выходящие степени не коррелируют
• Сильная негативная корреляция между
выходящей степенью фактора и заходящей
степенью регулируемого белка
– Глобальные регуляторы действуют на гены, на которые
мало кто действует
• Потому большие регуляторные модули слабо
взаимодействуют друг с другом
Maslov S, Sneppen K.
Стратификация сигнальных путей (человек)
B-cell
EGRF1
Ребра, ведущие назад (красные) – дефосфорилирование,
убиквинизация – перезарядка сети
Маслов-Исполатов
Человек:
732 белков
(71 рецептор),
1671 взаимодействий
(фосфорилирование,
дефосфорилирование,
гидролиз, и т.п.)
208 «обратных» связей
Маслов-Исполатов
Модульность метаболической сети
отражает стиль жизни бактерий
Q = ∑s [ls/L – (ds/2L)2]  max
s номер модуля, s = 1 … K
ls количество ребер в модуле
L количество ребер в графе
ds сумма степеней вершин модуля
Мотивировка: минимизировать количество
ребер между модулями (весь граф как
модуль даст Q=0; для К несвязанных клик
Q~1–1/К)
Доля факторов транскрипции
Размер гигантской компоненты
Obligate / Specialized / Aquatic / Facultative / Multiple / Terrestial
Kashtan - Alon
Модульность
Kashtan - Alon
Функциональная однородность модулей
Escherichia
coli
Buchnera
aphidicola
Kashtan - Alon
Пример: параллельный синтез пуринов и
пиримидинов уменьшает модульность
Kashtan - Alon
Динамика в сети белок-белковых
взаимодействий
• Увеличение концентрации белка влияет на
концентрации других белков
–
–
–
–
Сеть: дрожжи, эксперимент
Концентрации белков – эксперимент
Константа диссоциации – одна на всех
Удвоим концентрацию одного белка и посмотрим, что
получится
• Обычно возмущение не распространяется далеко
(экспоненциальный спад)
– Поэтому модули имеют смысл, несмотря на высокую
связность сети
Маслов-Исполатов
Распространение возмущений
доля белков с изменением концентрации >20% как функция расстояния до
измененного белка (для разных констант диссоциации)
примеры
чередование
уменьшения
(красный) и
увеличения
(зеленый)
концентраций
Маслов-Исполатов
эволюция
• rich get richer (preferential attachment)
– Internet, линии электропередачи
• Дупликации – зависит от начального
графа
• случайные рождения/исчезновение
ребер
Прибежали в избу дети,
Второпях зовут отца:
«Тятя! тятя! наши сети
Притащили мертвеца».
А.С.Пушкин
Скачать