Распознавание регуляторных сигналов Д.А. Равчеев, М.С. Гельфанд Факультет биоинженерии и биоинформатики МГУ

advertisement
Распознавание
регуляторных сигналов
Факультет биоинженерии и биоинформатики МГУ
2-й курс (набор 2007 года)
Осенний семестр 2008
Д.А. Равчеев, М.С. Гельфанд
В. Ю. Макеев (некоторые слайды)
Транскрипция и трансляция в прокариотах
Прокариоты
Эукариоты
1. Сопряжение
транскрипции и
трансляции
1.Транскрипция
2. Котранскрипция
нескольких генов
(опероны)
(синтез пре-мРНК)
2. Процессинг пре-мРНК
–
кэпирование
–
сплайсинг
–
полиаденилирование
3. Экспорт мРНК
4.Трансляция
Сплайсинг ( эукариоты )
Сборка сплайсосомы
Разрез на 5’ конце интрона,
образование «аркана»
Разрез на 3’ конце интрона,
соединение экзонов
Транскрипция в прокариотах :
Инициация транскрипции
Направление транскрипции
Старт транскрипции
Промотор
Транскрипция в прокариотах :
Регуляция транскрипции
Активация
Репрессия
Структура ДНК-связывающего домена
CI, фаг l
Структура ДНК-связывающего домена
Cro, фаг l
Белок-ДНКовые взаимодействия
CI
Cro
Регуляция транскрипции у эукариот
Регуляция транскрипции у эукариот
Регуляторные модули ( В. Ю. Макеев )
 Один и тот же ген может регулироваться несколькими
регуляторными модулями, работающими в разных
условиях
 Расстояние от регуляторного модуля до кодирующих
областей может достигать
100 000 пар оснований
Представление сигналов

Консенсус

Pattern (“образец” - консенсус с
вырoжденными позициями)

Матрица частот, nucleotide frequency matrix

Позиционная весовая матрица (или профиль)
positional weight matrix, PWM, profile

Логические правила

РНКовые сигналы – вторичная структура
Консенсус
Сайты связывания PurR E. coli
cvpA
purM
purT
purL
purE
purC
purB
purH
purA1
purA2
guaB
purR1
purR2
consensus
CCTACGCAAACGTTTTCTTTTT
GTCTCGCAAACGTTTGCTTTCC
CACACGCAAACGTTTTCGTTTA
TCCACGCAAACGGTTTCGTCAG
GCCACGCAACCGTTTTCCTTGC
GATACGCAAACGTGTGCGTCTG
CCGACGCAATCGGTTACCTTGA
GTTGCGCAAACGTTTTCGTTAC
TTGAGGAAAACGATTGGCTGAA
TTTAAGCAAACGGTGATTTTGA
TAGATGCAATCGGTTACGCTCT
TAAAGGCAAACGTTTACCTTGC
AACGAGCAAACGTTTCCACTAC
ACGAAAACGTTTTCGT
Образец
Сайты связывания PurR E. coli
cvpA
purM
purT
purL
purE
purC
purB
purH
purA1
purA2
guaB
purR1
purR2
CCTACGCAAACGTTTTCTTTTT
GTCTCGCAAACGTTTGCTTTCC
CACACGCAAACGTTTTCGTTTA
TCCACGCAAACGGTTTCGTCAG
GCCACGCAACCGTTTTCCTTGC
GATACGCAAACGTGTGCGTCTG
CCGACGCAATCGGTTACCTTGA
GTTGCGCAAACGTTTTCGTTAC
TTGAGGAAAACGATTGGCTGAA
TTTAAGCAAACGGTGATTTTGA
TAGATGCAATCGGTTACGCTCT
TAAAGGCAAACGTTTACCTTGC
AACGAGCAAACGTTTCCACTAC
consensus
ACGAAAACGTTTTCGT
pattern
amGAAAaCGkTTwCwT
Матрица частот
Сайты связывания PurR E. coli
a
m G A A A
a
C G
k
T
T
w C w
T
10
0
2
1
2
8
2
1
10
1
0
2
0
13
0
0
1
0
4
8
0
0
1
12
0
0
1
12
4
1
3
5
0
2
0
11
b
A
C
G
T
0
0
13
0
1
12
0
0
13
0
0
0
13
0
0
0
0
0
13
0
Информационное содержание :
I = j b f (b, j) [log f (b, j) / p (b)]
где
f (b, j) – частота нуклеотида b в позиции j
p (b) – частота нуклеотида в геноме
0
11
1
1
1
4
5
3
Диаграмма Лого (Logo)
Сайты связывания PurR E. coli
I = j b f (b, j) [log f (b, j) / p (b)]
Позиционная весовая матрица
(профиль)
a
m G A A A
a
C G
k
T
T
w C w
T
10
0
2
1
2
8
2
1
10
1
0
2
0
13
0
0
1
0
4
8
0
0
1
12
0
0
1
12
4
1
3
5
0
2
0
11
j
A
C
G
T
0
0
13
0
1
12
0
0
13
0
0
0
13
0
0
0
0
0
13
0
0
11
1
1
1
4
5
3
W(b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]
A 1,6 -0,2 -0,8
C -1,4 1,0 -0,8
G 0,2 -0,2 2,5
T -0,3 -0,7 -0,8
0,0
2,1
-1,1
-1,1
2,5
-0,8
-0,8
-0,8
2,5
-0,8
-0,8
-0,8
1,6
-0,3
-1,4
0,2
-0,8
2,5
-0,8
-0,8
-0,8
-0,8
2,5
-0,8
-0,4
-1,5
0,7
1,3
-1,1
-1,1
0,0
2,1
-1,1
-1,1
0,0
2,1
0,3
-0,8
0,0
0,5
-1,3
1,8
-0,2
-0,2
-0,8
0,3
0,5
0,0
-1,2
0,4
-1,2
1,9
Позиционная весовая матрица
(профиль)
A 1,6 -0,2 -0,8
C -1,4 1,0 -0,8
G 0,2 -0,2 2,5
T -0,3 -0,7 -0,8
0,0
2,1
-1,1
-1,1
2,5
-0,8
-0,8
-0,8
2,5
-0,8
-0,8
-0,8
1,6
-0,3
-1,4
0,2
-0,8
2,5
-0,8
-0,8
-0,8
-0,8
2,5
-0,8
-0,4
-1,5
0,7
1,3
-1,1
-1,1
0,0
2,1
-1,1
-1,1
0,0
2,1
0,3
-0,8
0,0
0,5
-1,3
1,8
-0,2
-0,2
-0,8
0,3
0,5
0,0
-1,2
0,4
-1,2
1,9
 Термодинамическая мотивировка :
свободная энергия
Предположение:
независимость соседних позиций
Сравнение частотной и весовой матриц
...
...
...
...
A
G
G
G
...
...
...
...
A
G
G
C
...
...
...
...
Частоты
A
C
G
T
1
0
3
0
1
1
2
0
1
1
1
1
A
G
C
T
...
...
...
...
Веса
A
C
G
T
0,34 0,15
-0,76 0,15
1,18 0,66
-0,76 -0,95
0,00
0,00
0,00
0,00
Составление выборки

Начало:




GenBank
специализированные банки данных (EcoCyc, RegDB)
литература (обзоры)
литература (оригинальные статьи)

Исправление ошибок

Проверка литературных данных
 предсказанные сайты

Удаление дубликатов
Перевыравнивание

Первоначальное выравнивание по биологическим
признакам
 промоторы: старт транскрипции
 участки связывания рибосом: стартовый кодон
 сайты сплайсинга: экзон-интронные границы

Выделение сигнала в скользящем окне

Перевыраванивание

и т.д. пока не сойдётся
Начала генов Bacillus subtilis
Позиционное информационное содержание
до и после перевыравнивания
после
до
Оптимизация
Expectation - Maximization
 Породим начальное множество профилей
(например, каждый из имеющихся k-меров породит один
профиль)
k-мер : ACGT
Матрица (профиль) весов
Матрица частот
A
C
G
T
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
A
C
G
T
0,8
-0,3
-0,3
-0,3
-0,3
0,8
-0,3
-0,3
-0,3
-0,3
0,8
-0,3
-0,3
-0,3
-0,3
0,8
Оптимизация
Expectation - Maximization
 Для каждого профиля :
 найти наилучшего представителя в каждой
последовательности
 обновить профиль
 Повторять пока не сойдётся
http://meme.sdsc.edu/meme/meme.html
Оптимизация
Expectation - Maximization
Недостатки метода :

Алгоритм сходится, но не может покинуть область
локального максимума

Поэтому если начальное приближение было плохим, он
сойдётся к ерунде

Решение: стохастическая оптимизация
Имитация теплового отжига
Цель: максимизировать информационное
содержание I
I = j b f (b, j) [log f (b, j) / p (b)]
или любой другой функционал, измеряющий
однородность множества сайтов
Имитация теплового отжига
Алгоритм
A
– текущий сигнал (множество потенциальных сайтов)
I (A) – информационное содержание A
– сигнал, отличающийся от А выбором сайта в одной
последовательности
I (B) – информационное содержание B
B


если I (B)  I (A), B принимается
если I (B) < I (A), B принимается с вероятностью
P = exp [ (I(B) – I(A)) / T ]
Температура T медленно снижается, первоначально она
такова, что почти все изменения принимаются (Р  1).
Gibbs sampler
A
– текущий сигнал (множество потенциальных сайтов)
I (A) – информационное содержание A
На каждом шаге в одной последовательности выбирается
новый сайт с вероятностью
P ~ exp [ (I(Anew) ]
Для каждого потенциального сайта подсчитывается, сколько
раз он был выбран.
Использование свойств сигнала
 ДНК-связывающие белки и их сигналы
 Кооперативные однородные
 Палиндромы
 Прямые повторы
 Кооперативные неоднородные
 Кассеты
 Другие
 РНК-сигналы
Распознавание сайтов :
весовые матрицы (профили)
Позиционные веса нуклеотидов
W(b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]
Вес потенциального сайта (k-мера) b1…bk –
сумма соответствующих позиционных весов :
S(b1…bk) = i=1…k W(bi , j)
Распознавание сайтов : весовые матрицы (профили)
Escherichia coli K-12
carA
GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT
A
C
G
T
1,6
-1,4
0,2
-0,3
-0,2
1,0
-0,2
-0,7
-0,8
-0,8
2,5
-0,8
0,0
2,1
-1,1
-1,1
2,5
-0,8
-0,8
-0,8
2,5
-0,8
-0,8
-0,8
1,6
-0,3
-1,4
0,2
-0,8
2,5
-0,8
-0,8
-0,8
-0,8
2,5
-0,8
-0,4
-1,5
0,7
1,3
-1,1
-1,1
0,0
2,1
Вес данного потенциального сайта :
S = 21,2
-1,1
-1,1
0,0
2,1
0,3
-0,8
0,0
0,5
-1,3
1,8
-0,2
-0,2
-0,8
0,3
0,5
0,0
-1,2
0,4
-1,2
1,9
Распределение весов
сайтов связывания рибосом
Кол-во
сайтов
сайты
не сайты
вес
Оценка качества алгоритмов
Чувствительность =
Специфичность =
правильно предсказанные
все правильные
правильно предсказанные
все предсказанные
Трудно составить тестирующую выборку:
— неизвестные сайты
— активация в определенных условиях
— неспецифическое связывание
Промоторы Escherichia coli K-12
Профиль предсказывает 1 сайт на 2000 нт
Чувствительность:
– 25% на всех промоторах
– 60% на конститутивных (неактивируемых) промоторах
Эукариотические промоторы
Случайные предсказания
Сайты связывания рибосом
 Надежность предсказания зависит
Правильно предсказанные
старты трансляции (в %)
от информационного содержания
Информационное содержание
CRP (Escherichia coli)
%
110
100
90
80
70
60
50
40
30
20
10
0
OV
UN
3
3,2
3,4
3,6
3,8
4
4,2
4,4
4,6
4,8
5
ПОРОГ
OV = 1 – специфичность
перепредсказание (% лишних среди всех предсказанных)
UN = 1 – чувствительность
недопредсказание (% потерянных правильных)
Запись GenBank для гена aroP E. coli
gene
CDS
protein_bind
protein_bind
protein_bind
promoter
protein_bind
protein_bind
complement(120178..121551)
/note="b0112"
/gene="aroP"
complement(120178..121551)
/gene="aroP"
/product="aromatic amino acid transport
protein"
complement(121599..121617)
/bound_moiety="TyrR documented site"
complement(121622..121640)
/bound_moiety="TyrR documented site"
complement(121653..121664)
/bound_moiety="PutA predicted site"
complement(121683..121711)
/note="factor Sigma70; promoter aroP;
documented +1 at 121671"
complement(121810..121823)
/bound_moiety="OxyR predicted site"
complement(121813..121835)
/bound_moiety="ArgR predicted site"
promoter
aroP
TyrR
TyrR
PutA
OxyR
ArgR
Что же делать ?
Выход :
филогенетическое картирование
(филогенетический футпринтинг) :
“правильные” сайты консервативны
Консервативная область
purL
STY
ECO
YPK
CAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGCGG-TGATT---------TTATTTCT-CAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGATGG-TGATT---------TTATTTCC-CAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGCGGCTGTTTCTGACTGAATTATTAATAA
**** ***
* ** *
*
*
*
** ** **
*****
PurR
STY
ECY
YPK
-----ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGTTTCCCCCC------------------ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCC------------TAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGTTTTGCCCTGTTGTTGCGCCAAT
***************** *** ******** ******* ** ***** ***
STY
ECO
YPK
-----TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT
-----TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT
GAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGATTATGGAAATACTGCGT
*** * **
**
**** ************ **** * ******** ******
Менее консервативная область
yjcD
PurR
STY
ECO
YPK
AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG-AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA--AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACA
*
**** ** ************* **
***** * *
*** * ***
*** *
PurR
STY
ECO
YPK
-CCACCC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G
-CCACCC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-A
TCTGCCCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATG
****** ******** **** * ***
** **
* *** *
* ***
STY
ECO
YPK
-TTGTCGTAAATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATAC
ATTGTCGCAAACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCT
AGTCAGGGAGAGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGC
* **
*
**
*
** * * * **** *
* * * * *
*
STY CGACGAATAATAAATTCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACT
ECO TGACGAAAATTAAACTCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACT
YPK TATTTTAAAATGA-CACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCT
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
** * **
*
*** *
* **
* ******
* ******* *
* * * *
rbsD в энтеробактериях
RbsR
STY
SEN
SEN
ECO
YPE
AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
GGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC
TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT
** ***
**************** ***** * * ***** *****
STY
SEN
STM
SEN
YPE
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT
* ** ** *** **** * **** ** *********** ***** ***
*
Сложная ситуация
сайты консервативны …
Сайты связывания FruR перед ppsA
YPK
PCA
PLU
SMA
STY
ECO
GGTTGATCGATTCACC
AGCCAACAAAAAATTTTTCTTGTTGGGTTGATCGATTCACCTGTCCATAGGTTATGGATCATTGTGCT
GCCATGAAATCAGTTTTTTTTCATAGGTTGATCGATTCACCTGTCCATGTTCATCAAAACGCTATGCT
TACCTAAGAAAAAAATAATGTGTTGGGTTGATCGATTCACCTTTCTATGTGTGCGAAAACATTGTGTT
CTCTTAAAAACCACTTTCTTCAGTGGGTTGATCGATTCACCTTTCCATTTTCCCCAGATCAGTGTGCT
TCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTTTAAGTATGCCA
GTCTTAAAAAGTAAAAAAAATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGTTAAATATGCAA
*
* * **** ********* *
*
Сложная ситуация
… но не на выравнивании
YPK
PCA
PLU
SMA
STY
ECO
TTGGGTTGATCGATTCACCTGTCCATAGGTTA--TGGATCATTGTGCTAGTCTGAAATGGCT-GAT--TTTTCAG
CGATATTGG--ATTTTTACCG-CGTTAAGCAA--TCATTCGCCATGA-AATCAGTTTTTTTT-CAT-AGGTTGAT
TGAAACCGA--GAGT---C-GATTTTCTGCAA--AGTATACCTAAGA-AAAAAATAATGTGT-TG---GGTTGAT
CGATTGGGAACGGTTCCCAGGCAAATCAGCCGGTTAGGACATTCTCTTAAAAACCACTTTCTTCAGTGGGTTGAT
CTTGAAACGCAGTTTATGCCGGGAGTGATTAA--GGGAATGCCGTGCTATGCGCGGGTTTGCGCAACTACGTAAA
-TTATGGTTTCGTTTATACCGATGGTTTATGT--GGAAAT-TGTCGAAGAGAGCAGATTTGCGCAACGCTGGGAT
*
*
*
*
YPK
PCA
PLU
SMA
STY
ECO
CGACGATAACGGTTGTCCGTACCCTACAGACTGTTCGTCACTCGTCGGCGATGT-AATAACTAATCGACGGTGTA
CGATTCACCTGTCCATGTTCATCAAAACGCT-ATGCTAACCTGATTGTGTTGA------------------GGCG
CGATTCACCTTTCTATGTGTGCGAAAACATT-GTGTTAGTCTATTTGTGACT-------------------GCTC
CGATTCACCTTTCCATTTTCCCCAGATCAGT-GTGCTAGTCTGATTCGGCTC--------CGTGTTAGCGGCGCC
CAATCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTT-TAAGTAT-GCCAGG
CAGTCTTAAAAAGTAAAAAAATATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGT-TAAATAT-GCAAAG
*
YPK
PCA
PLU
SMA
STY
ECO
ATA-ACTAATCGGCG-------ATGTAATAACTAATCGACAATGTA-AAAGGATTGTT-TCGATGTCCAACAATG
---ATTCTCAACCGAACTCT---TTCATACCCTAATTGT--ATGCAGAAAGGATTATTTTCGATGTCCAATAACG
----TATGCAGTGCTAATTT---CCCGATTTGTACCCAA--ATGCTAAAAGGATTGTTTT-AATGCCCAATAATG
GTAAAGCAAGCGAATTAAATCCGTCTTTACCCTACTGAT--A-GCAATAAGGATTGTC-TCGATGTCCAACAATG
ATA-AATACGCAACTATGTG-TTTCTTAAACTCGTTCATTTATCACAAAAGGATTGT--TCGATGTCCAACAATG
ATA-AATGCGCAGAAATGTG-TTTCTCAAAC-CGTTCATTTATCACAAAAGGATTGT—-TCGATGTCCAACAATG
*
********* * *************
Метод проверки соответствия
Базовый геном
Геномы родственных организмов
регулируется
НЕ регулируется
?
http://genome.lbl.gov/vista/rvista/submit.shtml
rVista
Матрицы TRANSFAQ (частотные)
или консенсус
rVista
all sites
aligned sites
conserved sites
CNS = conserved non-coding sequences
rVista
Conserved sites :
располагаются в участках последовательности,
консервативность которых не менее 80% в окне 24 п.н.
Aligned sites :
ключевые позиции идентичны в обеих последовательностях
All sites :
все сайты : conserved+aligned+все остальные предсказанные
rVista
Download