Эволюция сайтов сплайсинга в семействах недавно

advertisement
Эволюция сайтов сплайсинга в семействах недавно дуплицированных
генов человека
Александр Панчин
Институт
проблем передачи
информации РАН
alexpanchin@yahoo
.com
Ирена Артамонова
Институт общей
генетики РАН
irenart@gmail.com
последовательности, которые похожи по свои
свойствам на экзоны, однако не функционируют как
таковые (псевдоэкзоны) [9].
Использование семейств недавно дуплицированных
генов, как модели, для поиска закономерностей
эволюции сайтов сплайсинга особенно интересно в
свете сложных взаимосвязей между эволюционными
изменениями сайтов сплайсинга генов и дупликациями
[10-12].
Методом максимального правдоподобия (maximum
likelihood) на выборке семейств паралогичных генов
человека
можно
восстановить
нуклеотидную
последовательность предковых генов в ключевых
позициях в окрестности известных сайтов сплайсинга.
Таким методом можно выявить взаимосвязь между
этими мутациями и эволюционными событиями,
связанными с появлением и исчезновением сайтов
сплайсинга, а также выяснить общие закономерности
эволюции сайтов сплайсинга при дупликации генов.
Аннотация
Используя метод максимального правдоподобия, мы
реконструировали историю
эволюции сайтов
сплайсинга на выборке семейств паралогичных генов
человека с двумя и более экзонами. Оказалось, что при
дупликации генов сайты сплайсинга чаще появляются,
чем исчезают. Реконструированные предки вновь
приобретенных сайтов сплайсинга, как правило,
имеют относительно низкое значения силы сайта, в
то время как сила пропавших сайтов, потерявших
функциональность, в среднем, имеет довольно высокое
значение. При этом рождение сайтов сплайсинга
ассоциировано с существенным увеличением силы
сайта, а исчезновение – с уменьшением.
1. Введение
Большинство генов человека подвергается процессу
сплайсинга, в ходе которого определенные участки
незрелой пре-мРНК (интроны) вырезаются, а
остальныеучастки (экзоны) сшиваются между собой,
образуя новую, более короткую молекулу зрелой
мРНК. Около 10% всех изученных генетических
заболеваний человека вызваны одиночными мутациями
в сайтах сплайсинга [1]. Примерами заболеваний,
вызываемых нарушениями этого процесса, являются
некоторые формы рака [2-4], мышечная дистрофия [5],
аутоиммунные заболевания [6], семейная дизавтономия
[7], синдром Фрейзера [8] и другие.
Несмотря на то, что механизм сплайсинга
достаточно хорошо изучен, до сих пор до конца не
разрешен вопрос: что заставляет нуклеотидную
последовательность выступать в роли интрона или
экзона. Например, многие гены эукариот содержат
2. Методы
25931 наиболее надежных записей базы данных
RefSeq
(имеющих
обозначение
“NM”)
были
объединены в 18412 не перекрывающихся генов. Эти
гены сравнивались между собой программой Blat для
выявления
родственных
отношений.
Гены
объединялись в семейства методом single linkage
clustering при условии >75% сходства на протяжении
>20% длины интронов и >50% длины экзонов (на этом
этапе для определения экзонов и интронов
использовались данные о молекулах мРНК из RefSeq).
Гены без интронов, а так же гены, которые оказались
отмеченными в более новых версиях базы данных
RefSeq как псевдогены исключались из выборки. В
итоговую выборку включались только семейства,
107
содержащие 3 и более гена. Итоговая выборка
составила 96 семейств, содержащих 485 генов.
Сайты сплайсинга определялись на основании
транскрипционных данных в базе данных UniGene [13]
на Web-сервере Human Genome Browser [14].
Использовались только те транскрипты, которые
содержали хотя бы один интрон, длиной более 30
нуклеотидов, с каноническими сайтами сплайсинга (с
парами динуклеотидов GT-AG или GC-AG на концах).
Кроме того мы использовали только те мРНК и EST,
которые входили в те же кластеры UniGene, что и
мРНК из RefSeq, относящиеся к исследуемым генам. В
итоге использовалось 45874 записей EST и 4394 записи
мРНК.
Сайты
сплайсинга
подтверждались
либо
валидированной
мРНК
из
RefSeq,
либо
последовательностями EST и мРНК, полученными из
двух и более библиотек. Всего было обнаружено 7010
валидированных сайтов сплайсинга.
Участки длиной в 100 нуклеотидов (по 50
нуклеотидов слева и справа от валидированного сайта
сплайсинга) каждого гена сравнивался со всеми
остальными генами семейства, к которому относился
ген, с помощью программы discontigous megablast со
следующими параметрами:
dc-megablast -template_type coding_and_optimal template_length 16 -word_size 11
Найденные
гомологичные
участки
длиной
выравнивания >50 нуклеотидов объединялись в группы
методом single linkage clustering. Всего было получено
853 кластера из сходных между собой участков генов.
831 из этих кластеров содержали участки из не менее
трех генов, при этом каждый ген был представлен в
кластере не более чем одной последовательностью. Эти
кластеры выравнивались программой ClustalW [15].
Всего в 831 множественном выравнивании нашлось
1261 блоков выравнивания, содержащих сайт
сплайсинга хотя бы в одной из последовательностей.
Для всех семейств генов исследовались белковые
филогенетические деревья, построенные методом
максимального правдоподобия, с использованием
программы PhyML [16]. Реконструкция предковых
последовательностей производилась для участков от 13 до +1 позиции акцепторных сайтов сплайсинга и от 3 до +7 позиции донорных сайтов сплайсинга. Для
этого использовалась программа codeml пакета PAML
[17]со следующими параметрами:
model = 1 (K80); fix_blength = 2 (fixed); RateAncestor
= 1;
При этом использовались филогенетические
деревья, ранее полученные, с помощью программы
PhyML. Этот же метод использовался для определения
ветвей, на которых произошло появление или
исчезновение сайтов сплайсинга.
Вес сайта (W) подсчитывался по формуле
W = ∑ln(fi/0.25)
Здесь fi – частота наблюдаемого нуклеотида в i-ой
позиции матрицы частот [18] для сайтов сплайсинга
данного типа (акцепторных или донорных). Вес
суммировался по всем рассматриваемым позициям
сайта.
3. Результаты и обсуждение
Методом
максимального
правдоподобия
мы
восстановили предковые состояния, а так же изменения
на 4236 ветвях эволюционных деревьев акцепторных
сайтов, а так же на 4456 ветвях эволюционных деревьев
донорных сайтов. Существует четыре типа ветвей на
деревьях такого рода: ветви, где сайт появился; ветви,
где сайт отсутствовал и не появился; ветви, где сайт
исчез; ветви, где сайт был и не исчез. Распределение
этих ветвей представлено на Рис. 1.
Рис. 1 Число ветвей различного типа на деревьях эволюции
сайтов сплайсинга.
Доля ветвей, на которых сайт родился, от
общего числа ветвей, где он мог родиться
статистически значимо превосходит долю ветвей, на
которых сайт мог исчезнуть от общего числа ветвей,
где сайт мог исчезнуть (Хи-квадрат, p < 0.001) как в
случае донорных так и в случае акцепторных сайтов. В
таблице 1 приведены результаты нормировки числа
событий появления и исчезновения сайтов сплайсинга
на суммарную длину ветвей, на которых сайт мог
появиться или исчезнуть соответственно. Этот
контроль показывает, что эффект не объясняется
различиями в длинах ветвей на филогенетических
деревьях.
Число событий/
длина ветвей
Тип сайта
Сайт
Сайт
появился исчез
Акцепторный
0,45
0,25
Донорный
0,7
0,16
Отношение
1,81
4,27
Таблица 1. Число случаев появления и исчезновения сайтов
сплайсинга, нормированное на суммарную длину ветвей, на
которых сайт мог появиться или исчезнуть соответственно.
Примерно в 20% случаев появлений и
исчезновений сайтов сплайсинга в нашей выборке
происходила смена основного динуклеотида (AG или
GT или GC). Динуклеотид менялся в 41% случаев,
108
когда при исчезновении или появлении сайта
сплайсинга менялся его вес.
Значительно большая доля таких изменений
была отмечена в исследовании мутаций сайтов
сплайсинга, ведущих к генетическим заболеваниям
[19]. По данным исследования, из 101 мутации в сайтах
сплайсинга,
ассоциированных с
генетическими
заболеваниями у людей, 60% мутаций в донорных
сайтах были в динуклеотиде GT, а среди мутаций в
акцепторных 87% были в инвариантном динуклеотиде
AG.
На Рис.2 и Рис.3 представлены диаграммы
весов предковых акцепторных и донорных сайтов
соответственно и изменений весов этих сайтов на
четырех типах ветвей эволюционных деревьев. Как для
акцепторных, так и для донорных сайтов видно
преобладание сайтов с низким исходным весом и
большими положительными изменениями веса сайта
для ветвей, на которых произошло рождение сайтов.
Исчезновение сайтов происходит преимущественно
при высоком весе предковых сайтов и уменьшении
веса сайта.
4. Выводы
Представленные данные свидетельствуют, что после
дупликаций генов сайты сплайсинга чаще появляются,
чем исчезают.
Реконструированные предки вновь появившихся сайтов
сплайсинга, как правило, имеют низкое значение силы
сайта, в то время как сила пропавших сайтов, как
правило, имеет высокое значение. Это особенно
интересно в контексте, что в существенной доле
случаев рождения и исчезновения сайтов не менялись
ключевые динуклеотиды сайта. При этом рождение
сайтов сплайсинга ассоциировано с существенным
увеличением силы сайта, а исчезновение – с
уменьшением. Это согласуется с представлением о том,
что
вес
сайта
играет
важную
роль
для
функциональности сайта.
Рис. 2. Акцепторные сайты - сила предковых сайтов и изменения силы сайтов.
109
Рис. 3. Донорые сайты - сила предковых сайтов и изменения силы сайтов.
7.
Список литературы
[1.
2.
3.
4.
5.
6.
Krawczak, M., et al., Single base-pair
substitutions in exon-intron junctions of human
genes: nature, distribution, and consequences for
mRNA splicing. Hum Mutat, 2007. 28(2): p. 1508.
Dutertre, M., S. Vagner, and D. Auboeuf,
Alternative splicing and breast cancer. RNA Biol,
2010. 7(4): p. 403-11.
Berasain, C., et al., Impairment of pre-mRNA
splicing in liver disease: mechanisms and
consequences. World J Gastroenterol, 2010.
16(25): p. 3091-102.
Dutertre, M., et al., Exon-based clustering of
murine breast tumor transcriptomes reveals
alternative exons whose expression is associated
with metastasis. Cancer Res, 2010. 70(3): p. 896905.
Pistoni, M., C. Ghigna, and D. Gabellini,
Alternative splicing and muscular dystrophy. RNA
Biol, 2010. 7(4): p. 441-52.
Evsyukova, I., et al., Alternative splicing in
multiple sclerosis and other autoimmune diseases.
RNA Biol, 2010. 7(4): p. 462-73.
8.
9.
10.
11.
12.
13.
110
Rubin, B.Y. and S.L. Anderson, The molecular
basis of familial dysautonomia: overview, new
discoveries and implications for directed
therapies. Neuromolecular Med, 2008. 10(3): p.
148-56.
Faustino, N.A. and T.A. Cooper, Pre-mRNA
splicing and human disease. Genes Dev, 2003.
17(4): p. 419-37.
Dhir, A. and E. Buratti, Alternative splicing: role
of pseudoexons in human disease and potential
therapeutic strategies. FEBS J, 2010. 277(4): p.
841-55.
Zhan, Z., et al., Evolution of alternative splicing in
newly evolved genes of Drosophila. Gene, 2011.
470(1-2): p. 1-6.
Zhang, Z., et al., Divergence of exonic splicing
elements after gene duplication and the impact on
gene structures. Genome Biol, 2009. 10(11): p.
R120.
Su, Z., et al., Evolution of alternative splicing
after gene duplication. Genome Res, 2006. 16(2):
p. 182-9.
Sayers, E.W., et al., Database resources of the
National Center for Biotechnology Information.
Nucleic Acids Res, 2011. 39(Database issue): p.
D38-51.
14.
15.
16.
17.
18.
19.
Rhead, B., et al., The UCSC Genome Browser
database: update 2010. Nucleic Acids Res, 2010.
38(Database issue): p. D613-9.
Chenna, R., et al., Multiple sequence alignment
with the Clustal series of programs. Nucleic Acids
Res, 2003. 31(13): p. 3497-500.
Guindon, S., et al., New algorithms and methods
to estimate maximum-likelihood phylogenies:
assessing the performance of PhyML 3.0. Syst
Biol, 2010. 59(3): p. 307-21.
Yang, Z., PAML 4: phylogenetic analysis by
maximum likelihood. Mol Biol Evol, 2007. 24(8):
p. 1586-91.
Itoh, H., T. Washio, and M. Tomita,
Computational
comparative
analyses
of
alternative splicing regulation using full-length
cDNA of various eukaryotes. RNA, 2004. 10(7): p.
1005-18.
Krawczak, M., J. Reiss, and D.N. Cooper, The
mutational spectrum of single base-pair
substitutions in mRNA splice junctions of human
genes: causes and consequences. Hum Genet,
1992. 90(1-2): p. 41-54.
111
Download