Распознавание регуляторных сигналов М. Гельфанд (лекции) Д. Равчеев (задания)

advertisement
Распознавание
регуляторных сигналов
Факультет биоинженерии и биоинформатики МГУ,
второй курс.
Декабрь 2006
М. Гельфанд (лекции)
Д. Равчеев (задания)
А. Герасимова, Э. Пермина (занятия)
В.Ю. Макеев (некоторые слайды)
Транскрипция и трансляция в
прокариотах
Сплайсинг
(эукариоты)
Инициация транскрипции
Регуляция транскрипции в
прокариотах
Структура ДНК-связывающего
домена (cI)
Структура ДНК-связывающего
домена (Cro)
Белок-ДНКовые взаимодействия
Регуляция транскрипции у
эукариот
Регуляторные модули
(В.А.Макеев)
• Один и тот же ген может регулироваться
несколькими регуляторными модулями,
работающими в разных условиях
• Расстояние от регуляторного модуля до
кодирующих областей может достигать
100 000 пар оснований
Представление сигналов
• Консенсус
• Pattern («образец» - консенсус с
вырoжденными позициями)
• Позиционная весовая матрица (или
профиль) positional weight matrix, PWM,
profile
• Логические правила
• РНКовые сигналы – вторичная структура
Консенсус
codB
purE
pyrD
purT
cvpA
purC
purM
purH
purL
consensus
CCCACGAAAACGATTGCTTTTT
GCCACGCAACCGTTTTCCTTGC
GTTCGGAAAACGTTTGCGTTTT
CACACGCAAACGTTTTCGTTTA
CCTACGCAAACGTTTTCTTTTT
GATACGCAAACGTGTGCGTCTG
GTCTCGCAAACGTTTGCTTTCC
GTTGCGCAAACGTTTTCGTTAC
TCTACGCAAACGGTTTCGTCGG
ACGCAAACGTTTTCGT
Образец
codB
purE
pyrD
purT
cvpA
purC
purM
purH
purL
consensus
pattern
CCCACGAAAACGATTGCTTTTT
GCCACGCAACCGTTTTCCTTGC
GTTCGGAAAACGTTTGCGTTTT
CACACGCAAACGTTTTCGTTTA
CCTACGCAAACGTTTTCTTTTT
GATACGCAAACGTGTGCGTCTG
GTCTCGCAAACGTTTGCTTTCC
GTTGCGCAAACGTTTTCGTTAC
TCTACGCAAACGGTTTCGTCGG
ACGCAAACGTTTTCGT
aCGmAAACGtTTkCkT
Матрица частот
j a C G m A A A C G
t
T T k C k T
A 6
0
0
2
9
9
8
0
0
1
0
0
0
0
0 0
C
1
8
0
7
0
0
1
9
0
0
0
0
0
9
1 0
G 1
1
9
0
0
0
0
0
9
1
1
0
5
0
5 0
T
0
0
0
0
0
0
0
0
7
8
9
4
0
3 9
1
Информационное
содержание
I = j b f(b,j)[log f(b,j) / p(b)]
Logo
Позиционная весовая матрица
(профиль)
j a C G m A A A C G
t
T T k C k T
A
6
0
0
2
9
9
8
0
0
1
0
0
0
0
0 0
C
1
8
0
7
0
0
1
9
0
0
0
0
0
9
1 0
G
1
1
9
0
0
0
0
0
9
1
1
0
5
0
5 0
T
1
0
0
0
0
0
0
0
0
7
8
9
4
0
3 9
A
1.1 –1.0 –0.7 0.5
2.2
2.2
1.9 –0.7 –0.7 –0.1 –1.0 –0.7 –1.1 –0.7 –1.4 –0.7
C
–0.4
1.9 –0.7
1.6 –0.7 –0.7
G
–0.4
0.1
T
–0.4 –1.0 –0.7 –1.1 –0.7 –0.7 –1.0 –0.7 –0.7
0.1
2.2 –0.7 –1.2 –1.0 –0.7 –1.1
2.2 –1.1 –0.7 –0.7 –1.0 –0.7
2.2 –0.1 –0.1 –0.7
1.5
1.9
2.2
2.2 –0.3 –0.7
1.2 –0.7
1.0 –0.7
1.0 –0.7
0.6
2.2
W(b,j)=ln(N(b,j)+0.5) – 0.25iln(N(i,j)+0.5)
• Вероятностная мотивировка: лог-правдоподобие
(с точностью до линейного преобразования)
• Ещё одна: z-score (при сообтветствующем
основании логарифма)
• Термодинамическая мотивировка: свободная
энергия (в предположении независимости
соседних позиций)
• Псевдоотсчеты (pseudocounts)
Логические правила, деревья и
т.п. – учет зависимостей
Составление выборки
• Начало:
–
–
–
–
GenBank
специализированные банки данных
литература (общоры)
литература (оригинальные статьи)
• Исправление ошибок
• Проверка литературных данных
• предсказанные сайты.
• Удаление дубликатов
Перевыравнивание
• Первоначальное выравнивание по
биологическим признакам
– промоторы: старт транскрипции
– участки связывания рибосом: стартовый кодон
– сайты сплайсинга: экзон-интронные границы
• Выделение сигнала в скользящем окне
• Перевыраванивание
• и т.д. пока не сойдётся
Начала генов Bacillus subtilis
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
cons.
num.
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
aaagtatataagggagggttaataATG
001000000000110110000000111
760666658967228106888659666
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
cons.
num.
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
tacataaaggaggtttaaaaat
0000000111111000000001
5755779156663678679890
Позиционное информационное
содержание до и после
перевыравнивания
позиционные частоты после
перевыравнивания (паттерн aGGAGG)
Поиск сигнала с самого начала
(ab initio)
• “дискретные” подходы: считать слова и
образцы
• “непрерывные” подходы: оптимизация
профиля
Как считать короткие слова
• Рассмотрим все слова длины k (k-меры)
• Для каждого k-мера вычислим
количество последовательностей,
которые его содержат
– (не обязательно в точности)
• Выберем самый частый k-мер
Проблема: Полный перебор возможен
только для относительно коротких слов
Предположение: если длинное слово
встречается часто, его подслова тоже
будут часто встречаться
Решение: выбрать набор частых коротких
слов и склеить в длинное
Как считать длинные слова
• Рассмотрим некоторые k-меры
• Для каждого k-мера вычислим
количество последовательностей,
которые его содержат
– (не обязательно в точности)
• Выберем самый частый k-мер
Проблема: «некоторые» k-меры - это
какие?
1я попытка: те, которые встречаются в
выборке
Но: сигнал (консенсусный k-мер) может и
не встретиться.
2я попытка: те, которые встречаются в
выборке и похожие на них.
Но:
– опять же, сигнал может и не попасть в это
множество;
– а размер множества «похожих» слов растёт
экспоненциально
Теоретико-графовый подход
Каждый k-мер в каждой последовательности
соответствует вершине. Два k-мера соединены
ребром, если они похожи (например,
отличаются не более, чем в h позиций, h<<k).
Получается n-дольный граф (n – количество
последовательностей).
Сигнал соответствует клике (полному подграфу)
– или по крайней мере плотному графу – с
вершинами в каждой доле
Простой алгоритм
• Удалить все вершины, которые не могут быть
продолжены до полных графов
– то есть, не имеют ребер во все доли
• Из списка пар удалить все, которые …
– то есть не образуют треугольники с третьими
вершинами во всех долях
• И т.д..
(не будет в такой форме работать для поиска
плотных подграфов)
Оптимизация.
Expectation - Maximization
• Породим начальное множество профилей
(например, каждый из имеющихся k-меров
породит один профиль)
• Для каждого профиля:
– найти наилучшего представителя в каждой
последовательности
– обновить профиль
• Повторять пока не сойдётся
Этот алгоритм сходится, но не может
покинуть область локального максимума.
Поэтому если начальное приближение
было плохим, он сойдётся к ерунде.
Решение: стохастическая оптимизация.
Имитация теплового отжига
• Цель: максимизировать информационное
содержание I
I = j b f(b,j)[log f(b,j) / p(b)]
• или любой другой функционал,
измеряющий однородность множества
сайтов
Алгоритм
Обозначим: A – текущий сигнал (множество
потенциальных сайтов), I(A) – его
информационное содержание.
B – сигнал, отличающийся от А выбором сайта в
одной последовательности, I(B) – го
информационное содержание.
• если I(B)  I(A), B принимается
• если I(B) < I(A), B принимается с вероятностью
P = exp [(I(B) – I(A)) / T]
Температура T медленно снижается,
первоначально она такова, что почти все
изменения принимаются (Р близко к 1).
Gibbs sampler
Опять, A – сигнал, I(A) – его информационное
содержание.
На каждом шаге в одной последовательности
выбирается новый сайт с вероятностью
P ~ exp [(I(Anew)]
Для каждого потенциального сайта
подсчитывается, сколько раз он был выбран.
(Замечание: сигнал всё время меняется)
Использование свойств сигнала
• Днк-связывающие белки и их сигналы
 Кооперативные однородные
 палиндромы
 прямые повторы
 Кооперативные неоднородные
 кассеты
 Другие
 РНКовые сигналы
Распознавание: весовые
матрицы (профили)
Позиционные веса нуклеодтидов
W(b,j)=ln(N(b,j)+0.5) – 0.25iln(N(i,j)+0.5)
Вес потенциального сайта b1…bk – это
сумма соответствующих позиционных
весов:
S(b1…bk ) = j=1,…,kW(bj,j)
Усиление слабого сигнала
Распределение весов сайтов
связывания рибосом на сайтах
(зеленый) и не-сайтах (красный)
Нейронные сети: архитектура
• 4k входных нейронов (сенсоров),
присутствие конкретного нуклеотида в
конкретной позиции (да/нет)
или 2k нейронов (пурин/пиримидин,
AT/GC)
• один или более слоёв внутренних
нейронов
• один выходной нейрон (сайт/не-сайт)
• каждый нейрон связан соединениями с
нейронами соседнего уровня
• каждому соединению приписан вес
Нейрон:
• суммирует (с весами) входящие сигналы
• сравнивает результат с порогом (или
преобразует по заданному правилу)
• если сумма выше порога, отправляет
сигнал всем нейронам следующего
уровня (или просто преобразованное
значение)
Обучение:
• Обработать сайты и не-сайты из обучающей
выборки одни за одним, несколько полных
итераций.
• Для каждого объекта сделать предсказание.
• Если оно неправильное, изменить веса.
Сети отличаются архитектурой, способом
обработки сигнала, расписанием обучения
Оценка качества алгоритмов
Чувствительность:
правильно предсказанные / все правильные
Специфичность:
правильно предсказанные / все предсказанные
• Трудно составить тестирующую выборку:
– неизвестные сайты
– активация в определенных условиях
– неспецифическое связывание
Промоторы E. coli
• профиль, предсказывающий 1 сайт на
2000 нт, имеет чувствительность:
– 25% на всех промоторах,
– 60% на конститутивных (неактивируемых)
промоторах
Эукариотические
промоторы
Сайты связывания рибосом
• Надежность
предсказания
зависит от
информационного
содержания
CRP (E. coli)
110
100
90
80
70
60
50
40
30
20
10
0
OV
UN
3
3,2
3,4
3,6
3,8
4
4,2
4,4
4,6
4,8
5
threshold
OV: перепредсказание (% лишних среди всех предсказанных)
= 1 – специфичность
UN: недопредсказание (% потерянных правильных)
= 1 – чувствительность
Запись GenBank для гена E. coli
gene
CDS
protein_bind
protein_bind
protein_bind
promoter
protein_bind
protein_bind
aroP
complement(120178..121551)
/note="b0112"
/gene="aroP"
complement(120178..121551)
/gene="aroP"
/product="aromatic amino acid transport
protein"
complement(121599..121617)
/bound_moiety="TyrR documented site"
complement(121622..121640)
/bound_moiety="TyrR documented site"
complement(121653..121664)
/bound_moiety="PutA predicted site"
complement(121683..121711)
/note="factor Sigma70; promoter aroP;
documented +1 at 121671"
complement(121810..121823)
/bound_moiety="OxyR predicted site"
complement(121813..121835)
/bound_moiety="ArgR predicted site"
TyrR
TyrR
PutA
Pr.
OxyR
ArgR
Что же делать?
• филогенетическое картирование:
правильные сайты консервативны
Консервативная область
purL
ST AGCGGCATTTTGCGTAACAATGCGCCAGTTGGCAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGC
EC AGCGGCATTTTGCGTAAACCTGCGCCAGATGGCAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGAT
YP AGTGGCATTTTGCGCAACAAAACGCCAGTGTGCAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGC
** *********** **
******
******* ***
* ** *
*
*
*
ST GG-TGATT---------TTATTTCT-------ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGT
EC GG-TGATT---------TTATTTCC-------ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGT
YP GGCTGTTTCTGACTGAATTATTAATAATAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGT
** ** **
*****
***************** *** ******** ******* ** ***
ST TTCCCCCC-------------------TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA-EC TTCCCCCCC------------------TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA-YP TTTGCCCTGTTGTTGCGCCAATGAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGA
** ***
*** * **
**
**** ************ ****
ST TGATGGAAATTCTGCGTGGTTCGCCTGCACTGTCTGCATTCCGTATCAATAAACTGCTGGCGCGCTTTCAGGCTGCCAAC
EC TGATGGAAATTCTGCGTGGTTCGCCTGCACTGTCGGCATTCCGAATCAACAAACTGCTGGCACGTTTTCAGGCTGCCAGG
YP TTATGGAAATACTGCGTGGTTCACCCGCTTTGTCGGCTTTTCGTATCACCAAACTGTTGTCCCGTTGCCAGGATGCTCAC
* ******** *********** ** ** **** ** ** ** **** ****** ** * ** * **** ***
Менее консервативная область
yjcD
ST AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG---CCAC
EC AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA----CCAC
YP AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACATCTGC
*** *
*** * ***
***** * *
**** ** ************* **
*
* *
ST CC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G-TTGTCGTAA
EC CC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-AATTGTCGCAA
YP CCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATGAGTCAGGGAG
**
* *** *
** **
****** ******** **** * ***
*
* *
ST ATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATACCGACGAATAATAAAT
EC ACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCTTGACGAAAATTAAAC
YP AGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGCTATTTTAAAATGA-C
* * *
** * * * **** *
*
**
*
* **
* * * *
ST TCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACTCGACGCCTGGTTTAAAATTT
EC TCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACTCGACGCCTGGTTTAAAATTT
YP ACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCTTGATGCATTCTTTAAGCTTA
* ******* *
* ******
* **
*** *
*
** * ** ** ** * ***** **
rbsD в энтеробактериях: ответ
Sty
Sen
Stm
Eco
Ype
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC
TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT
** ***
**************** ***** * * ***** *****
Sty
Sen
Stm
Eco
Ype
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT
* ** ** **** ** ** **** ** *********** ***** ***
*
Регулирующие модули обычно консервативны и
часто содержат кластеры сходных сайтов
связывания одинаковых молекул фактора
(В.Макеев)
rVISTA:все / выравненные /
консервативные сайты
ура!
Download