Распознавание генов М. Гельфанд (лекции) А. Неверов (задания) Е. Ермакова, Р.Нуртдинов (занятия)

advertisement
Распознавание генов
Факультет биоинженерии и биоинформатики МГУ,
второй набор, второй курс.
Апрель 2005
М. Гельфанд (лекции)
А. Неверов (задания)
Е. Ермакова, Р.Нуртдинов (занятия)
А. Казаков (примеры)
Распознавание генов
•
Поиск открытых рамок считывания
•
Использование статистики (отличия
белок-кодирующих и некодирующих
областей)
•
Идентификация начал генов – участки
связывания рибосом (прокариоты)
•
Экзон-интронная структура (эукариоты)
•
Сравнения с известными генами
•
Геномные сравнения
Вероятность открытой рамки
считывания длины не меньше данной
0,0008
0,0007
0,0006
0,0005
0,0004
0,0003
0,0002
0,0001
0
150
200
250
300
ORFы в геноме K. pneumoniae
Перепредсказание
(E. coli)
Сильное
перепредсказание
(Aeropyrum
pernix)
Поиск
открытых
рамок в
заданной
последовательности
Генетический код
TTT
TTC
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
GTT
GTC
GTA
GTG
F
F
L
L
L
L
L
L
I
I
I
M/ start
V
V
V
V
TCT
TCC
TCA
TCG
CCT
CCC
CCA
CCG
ACT
ACC
ACA
ACG
GCT
GCC
GCA
GCG
S
S
S
S
P
P
P
P
T
T
T
T
A
A
A
A
TAT
TAC
TAA
TAG
CAT
CAC
CAA
CAG
AAT
AAC
AAA
AAG
GАT
GАC
GАA
GАG
Y
Y
stop
stop
H
H
Q
Q
N
N
K
K
D
D
E
E
TGT
TGC
TGA
TGG
CGT
CGC
CGA
CGG
AGT
AGC
AGA
AGG
GGT
GGC
GGA
GGG
C
C
stop
W
R
R
R
R
S
S
R
R
G
G
G
G
Codon usage
(статистика употребления кодонов)
• частоты кодонов отличаются от частот
триплетов в некодирующих областях
– различия в частотах аминокислот в белках
– различия в частотах синонимичных кодонов
• частоты синонимичных кодонов
– специфичны для генома
– коррелируют с концентрациями тРНК
Ещё про codon usage
• различается у высоко- и низкоэкспрессируемых генов (у
высокоэкспрессируемых генов больше доля
«оптимальных» кодонов) – прокариоты,
дрожжи
• нестандартный у горизонтально
перенесенных генов
• у фага T4 – близок к хозяйскому (E. coli) у
ранних генов, специфический (соответствует
своему набору тРНК) – у поздних
Кодирующий потенциал
Функция, измеряющая, насколько участок
генома похож на белок-кодирующий (и
отличается от некодирующего) с точки
зрения статистики
Можно вычислять кодирующий потенциал
– скользящего окна (не слишком маленького!)
– открытой рамки считывания
Нужна обучающая выборка генов (и
межгенных промежутков) из данного
организма
E. coli. Окно 48 нт
E. coli. Окно 96 нт
Сравнение предсказаний при разной
длине окон
GeneMark
Сигналы на границах генов
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
… после выравнивания
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
cons.
num.
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
tacataaaggaggtttaaaaat
0000000111111000000001
5755779156663678679890
Участки связывания рибосом
rbsD в E. coli
Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAAAAAAATGAAAAAAGGC
Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
rbsD в энтеробактериях
Sty
Sen
Stm
Eco
Ype
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC
TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT
** ***
**************** ***** * * ***** *****
Sty
Sen
Stm
Eco
Ype
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT
* ** ** **** ** ** **** ** *********** ***** ***
*
rbsD в энтеробактериях: ответ
Sty
Sen
Stm
Eco
Ype
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC
AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC
TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT
** ***
**************** ***** * * ***** *****
Sty
Sen
Stm
Eco
Ype
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG
ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT
* ** ** **** ** ** **** ** *********** ***** ***
*
Паттерн нуклеотидных замен
в белок-кодирующих областях:
pdxB в энтеробактериях
Sty
Stm
Sen
Eco
Kpn
Ype
TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT
TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT
TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT
TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATT
----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATG
TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC
*
*
* * * *
* *
* *
*
Sty
Stm
Sen
Eco
Kpn
Ype
AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGG
AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG
AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG
ACGTATCCTTATAC----------CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGG
ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAG
ATGTTTCAGCAAATAT--------CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC
*
**
*
* *
*
*** *
** **** * ***
**
Sty
Stm
Sen
Eco
Kpn
Ype
TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC
TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC
TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC
TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC
TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT
CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG
*
* ** *
*
***
**
*
******** ** ***************** ** **
123123123123123123123123123123123123123
Белковое выравнивание (ribD)
Eco V_____QDEYYMARALKLAQRGRFTTHPNPNVGCVIVKDGEIVGEGYHQRAGEPHAEVHA
QD +M RAL LA +G +TT PNP VGCV VK+GEIVGEG+H +AG+PHAE A
Hin MLEFSSQDCVFMQRALDLAAKGQYTTTPNPSVGCVLVKNGEIVGEGFHFKAGQPHAERVA
Eco
Hin
GCGCGCCTGGAGGACTAA----G----------CCGTGCAGGAC-GAGTATTACATGGCGCGGGCGCTAA
*
* **** ***
*
**
** ** * ***** ***
** ** **
GAAAAATTAAAGGATTAATTATGCTTGAATTTTCCTCACAAGATTGCGTATTT-ATGCAACGTGCCTTAG
Множественное выравнивание
REC06584
RECO04717
RECS04752
RTY01088
RSY05814
REO01497
RYPK00397
RYP04048
RYE04903
RVFI01204
REC06584
RECO04717
RECS04752
RTY01088
RSY05814
REO01497
RYPK00397
RYP04048
RYE04903
RVFI01204
109
109
109
51
51
66
45
45
44
0
tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaat
tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaat
tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaat
tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaat
tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaat
atagcgcctgtttgatttcattgaattggggaaggcgtgtctacggcggaagtattgaat
gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaac
gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaac
aaccggcctgtgcagatctcatagttggggaatagtgtgtcaaccgcagcagtgataaat
........tattattgatgagttttttatgtccagcatgatcgcagagcaaccaatggaa
f l f q a i g v n = = = V A Q A E V L N
f l f q a i g v n = = = V A Q A E V L N
f l f q a i g v n = = = V A Q A E V L N
* r l f * f m v n g v n V A Q A E V L N
* r l f * f m v n g v n V A Q A E V L N
i a p v * f h * i g e g V S T A E V L N
a g l c r s n s w g k s V S T A A V I N
a g l c r s n s w g k s V S T A A V I N
n r p v q i s * l g n s V S T A A V I N
. . . i i d e f f m s s M I A E Q P M E
Распознавание генов
в отсутствие обучающей выборки
«псевдообучающая выборка»:
•
протяженные рамки считывания
•
гены, предсказанные по сходству
Репликация и статистика ДНК
• GC-сдвиг (G-C)/(G+C)
• Направление транскрипции
• DnaA сайты
Эукариоты (человек)
• В среднем 9-10 экзонов (кодирующих) на
ген
• Средняя длина (внутреннего) экзона 120130 нуклеотидов
• Часто очень длинные интроны
Длины экзонов:
человек, нематода C. elegans, дрозофила
Длины
интронов
Бета-глобин человека
Хемотрипсин крысы
… ничего … (28S рРНК человека)
Статистические методы
• Скользящее окно не работает! (~ 1990)
• Статистика кодирующих и некодирующих
областей + сайты сплайсинга – ещё одна
вариация на тему динамического
программирования
Сайты сплайсинга
Donor sites
gtgggatgatgtaagtattggggcggcccg
tcaaaacaaggtaagaaatgaggtatgcct
agctcccaaggtaggaggttgagtgttgtg
agtggccaaggtatggtggatggaaattgc
tggaaaaagcgtaagtcactctaattttat
ctctcaaaaagtaagctttgtgagcatttc
atcttcaagggtgagcatgtgtgttatgct
tttcagaattgtaagagtacacattttaag
gccagaaaaggtcagtactttctttcacac
tacctcacaggtatgaattttctagttctt
atctttcaaggtagagtatatgaatgttac
atgtggattcgtaagtattcaacacattca
aaaatatccagtaagcagttctgatgtttg
ccaggagccggtgaggggctggtgggctct
aatggatgaggtgggtacttagggcttctg
atttcaaaaagtaagttttccctggagaaa
aatttgtagagtatccttgatttgacgaat
cagacaatgggtaagtacatgcttgttccc
gtctgttaaggtaggtataccccatcacaa
gttcaaaaaggttggtcacatgttcttgat
attcggccaggtatgggtagtgtgctgaga
acatatgcaggtaaacaacttaactcaaat
aaagaaagaggtgagagggtgttttaattt
ccagctccaggtaagccatctggaaagagc
gtcttaacaggtaaatgccaccctttcccc
Acceptor sites
gtttcttcttacatttctaggactcaacta
ttcacgtttttgccttccaggagacagagc
tttcaatatttattacccaggaccccaaat
gtgttatttacatttttcaggaatggacaa
tttttctgcttctccaacagctatactaaa
ttgttgtgttcacttcacagcatatatcgc
tccgttgttttatttcccagaatgattcaa
tggtttttcattgtttttagtggtgcaaaa
tctaacttcatttcctccaggacaaatatc
gttttgttggtgttttatagctggccaact
acatgtgttctcatttttaggaagtgatag
ctgttcttgttctcccttagcccaaagcag
atgcctttcatttctattagctggaatctg
ctgttattaaaatttgacaggagaagctga
ttttttattcctacttccaggggactgctg
tttgttgttgcttaactcagaaagaaataa
tacttaacatgatggtccagatataacaaa
cttgtgtttttgatactcagacctggctat
ttgatttattgattttctagattatttcag
gtccttaatgtcctttgtaggtggttcttc
gcattattctcaccttccaggctatcacta
aatatctcttccctatttagatgtcatcga
aaggatatttataattttaggctgatcctg
ttttatcttttatattacaggttctgtaaa
ttcatattcatttgttgcagaagtggaagc
Распознавание сайтов сплайсинга
Список потенциальных экзонов
Граф динамического
программирования
Путь = экзон-интронная структура
GenScan
Сравнительные методы
• BLASTN: ESTs и альтернативный
сплайсинг
• BLASTX
• BLASTX+статистика
• Сравнение с известными белками
• Геномные сравнения
– выравнивание ДНК
– выравнивание белков
• All of the above and more…
Семейство
программ
BLAST
ESTs: короткие фрагменты
(клонированной) мРНК
• Характерная длина ~300 нт
• Ошибки секвенирования
• Ошибки клонирования
– несплайсированный транскрипты
– геномная ДНК
• Обогащение к 3’-концу (PolyA-праймеры)
• Альтернативный сплайсинг: 30-50% генов
Human
Genome
Browser
– поиск
по
имени
гена
Результат
MAGE-C1
Ещё о сравнении предсказаний
Альтернативный сплайсинг генов
человека
5%
35%
38%
22%
55%
42%
~33%
59%
Sharp, 1994 (Nobel lecture)
Mironov-Fickett-Gelfand, 1999 (BGRS’98)
Brett-…-Bork, 2000 (ESTs/mRNA)
Croft et al., 2000 (ISIS database)
Kan et al., 2001 (11% AS patterns conserved in mouse ESTs)
Modrek et al., 2001 (HASDB)
CELERA, 2001
Human Genome Consortium, 2001
28% Clark and Thanaraj, 2002
more?
MAGEA2
GenomeScan=GenScan+BLASTX
Сплайсированное выравнивание
Сравнение (формально транслированной)
ДНК с аминокислотной
последовательностью родственного белка.
• Динамическое программирование,
дополнительная операция – интрон
– Только на потенциальных сайтах сплайсинга
– Небольшой штраф
– Учёт особенностей экзон-интронной структуры
– минимальная длина интрона (зависит от
генома)
VISTA (human-dog-mouse)
Сплайсированое выравнивание
геномных последовательностей
Другие
возможности
Человекмышь
(мультигенное
семейство)
Тканеспецифичная
экспрессия
Download