Эволюция сайтов сплайсинга в семействах недавно дуплицированных генов человека Александр Панчин Институт проблем передачи информации РАН alexpanchin@yahoo .com Ирена Артамонова Институт общей генетики РАН [email protected] последовательности, которые похожи по свои свойствам на экзоны, однако не функционируют как таковые (псевдоэкзоны) [9]. Использование семейств недавно дуплицированных генов, как модели, для поиска закономерностей эволюции сайтов сплайсинга особенно интересно в свете сложных взаимосвязей между эволюционными изменениями сайтов сплайсинга генов и дупликациями [10-12]. Методом максимального правдоподобия (maximum likelihood) на выборке семейств паралогичных генов человека можно восстановить нуклеотидную последовательность предковых генов в ключевых позициях в окрестности известных сайтов сплайсинга. Таким методом можно выявить взаимосвязь между этими мутациями и эволюционными событиями, связанными с появлением и исчезновением сайтов сплайсинга, а также выяснить общие закономерности эволюции сайтов сплайсинга при дупликации генов. Аннотация Используя метод максимального правдоподобия, мы реконструировали историю эволюции сайтов сплайсинга на выборке семейств паралогичных генов человека с двумя и более экзонами. Оказалось, что при дупликации генов сайты сплайсинга чаще появляются, чем исчезают. Реконструированные предки вновь приобретенных сайтов сплайсинга, как правило, имеют относительно низкое значения силы сайта, в то время как сила пропавших сайтов, потерявших функциональность, в среднем, имеет довольно высокое значение. При этом рождение сайтов сплайсинга ассоциировано с существенным увеличением силы сайта, а исчезновение – с уменьшением. 1. Введение Большинство генов человека подвергается процессу сплайсинга, в ходе которого определенные участки незрелой пре-мРНК (интроны) вырезаются, а остальныеучастки (экзоны) сшиваются между собой, образуя новую, более короткую молекулу зрелой мРНК. Около 10% всех изученных генетических заболеваний человека вызваны одиночными мутациями в сайтах сплайсинга [1]. Примерами заболеваний, вызываемых нарушениями этого процесса, являются некоторые формы рака [2-4], мышечная дистрофия [5], аутоиммунные заболевания [6], семейная дизавтономия [7], синдром Фрейзера [8] и другие. Несмотря на то, что механизм сплайсинга достаточно хорошо изучен, до сих пор до конца не разрешен вопрос: что заставляет нуклеотидную последовательность выступать в роли интрона или экзона. Например, многие гены эукариот содержат 2. Методы 25931 наиболее надежных записей базы данных RefSeq (имеющих обозначение “NM”) были объединены в 18412 не перекрывающихся генов. Эти гены сравнивались между собой программой Blat для выявления родственных отношений. Гены объединялись в семейства методом single linkage clustering при условии >75% сходства на протяжении >20% длины интронов и >50% длины экзонов (на этом этапе для определения экзонов и интронов использовались данные о молекулах мРНК из RefSeq). Гены без интронов, а так же гены, которые оказались отмеченными в более новых версиях базы данных RefSeq как псевдогены исключались из выборки. В итоговую выборку включались только семейства, 107 содержащие 3 и более гена. Итоговая выборка составила 96 семейств, содержащих 485 генов. Сайты сплайсинга определялись на основании транскрипционных данных в базе данных UniGene [13] на Web-сервере Human Genome Browser [14]. Использовались только те транскрипты, которые содержали хотя бы один интрон, длиной более 30 нуклеотидов, с каноническими сайтами сплайсинга (с парами динуклеотидов GT-AG или GC-AG на концах). Кроме того мы использовали только те мРНК и EST, которые входили в те же кластеры UniGene, что и мРНК из RefSeq, относящиеся к исследуемым генам. В итоге использовалось 45874 записей EST и 4394 записи мРНК. Сайты сплайсинга подтверждались либо валидированной мРНК из RefSeq, либо последовательностями EST и мРНК, полученными из двух и более библиотек. Всего было обнаружено 7010 валидированных сайтов сплайсинга. Участки длиной в 100 нуклеотидов (по 50 нуклеотидов слева и справа от валидированного сайта сплайсинга) каждого гена сравнивался со всеми остальными генами семейства, к которому относился ген, с помощью программы discontigous megablast со следующими параметрами: dc-megablast -template_type coding_and_optimal template_length 16 -word_size 11 Найденные гомологичные участки длиной выравнивания >50 нуклеотидов объединялись в группы методом single linkage clustering. Всего было получено 853 кластера из сходных между собой участков генов. 831 из этих кластеров содержали участки из не менее трех генов, при этом каждый ген был представлен в кластере не более чем одной последовательностью. Эти кластеры выравнивались программой ClustalW [15]. Всего в 831 множественном выравнивании нашлось 1261 блоков выравнивания, содержащих сайт сплайсинга хотя бы в одной из последовательностей. Для всех семейств генов исследовались белковые филогенетические деревья, построенные методом максимального правдоподобия, с использованием программы PhyML [16]. Реконструкция предковых последовательностей производилась для участков от 13 до +1 позиции акцепторных сайтов сплайсинга и от 3 до +7 позиции донорных сайтов сплайсинга. Для этого использовалась программа codeml пакета PAML [17]со следующими параметрами: model = 1 (K80); fix_blength = 2 (fixed); RateAncestor = 1; При этом использовались филогенетические деревья, ранее полученные, с помощью программы PhyML. Этот же метод использовался для определения ветвей, на которых произошло появление или исчезновение сайтов сплайсинга. Вес сайта (W) подсчитывался по формуле W = ∑ln(fi/0.25) Здесь fi – частота наблюдаемого нуклеотида в i-ой позиции матрицы частот [18] для сайтов сплайсинга данного типа (акцепторных или донорных). Вес суммировался по всем рассматриваемым позициям сайта. 3. Результаты и обсуждение Методом максимального правдоподобия мы восстановили предковые состояния, а так же изменения на 4236 ветвях эволюционных деревьев акцепторных сайтов, а так же на 4456 ветвях эволюционных деревьев донорных сайтов. Существует четыре типа ветвей на деревьях такого рода: ветви, где сайт появился; ветви, где сайт отсутствовал и не появился; ветви, где сайт исчез; ветви, где сайт был и не исчез. Распределение этих ветвей представлено на Рис. 1. Рис. 1 Число ветвей различного типа на деревьях эволюции сайтов сплайсинга. Доля ветвей, на которых сайт родился, от общего числа ветвей, где он мог родиться статистически значимо превосходит долю ветвей, на которых сайт мог исчезнуть от общего числа ветвей, где сайт мог исчезнуть (Хи-квадрат, p < 0.001) как в случае донорных так и в случае акцепторных сайтов. В таблице 1 приведены результаты нормировки числа событий появления и исчезновения сайтов сплайсинга на суммарную длину ветвей, на которых сайт мог появиться или исчезнуть соответственно. Этот контроль показывает, что эффект не объясняется различиями в длинах ветвей на филогенетических деревьях. Число событий/ длина ветвей Тип сайта Сайт Сайт появился исчез Акцепторный 0,45 0,25 Донорный 0,7 0,16 Отношение 1,81 4,27 Таблица 1. Число случаев появления и исчезновения сайтов сплайсинга, нормированное на суммарную длину ветвей, на которых сайт мог появиться или исчезнуть соответственно. Примерно в 20% случаев появлений и исчезновений сайтов сплайсинга в нашей выборке происходила смена основного динуклеотида (AG или GT или GC). Динуклеотид менялся в 41% случаев, 108 когда при исчезновении или появлении сайта сплайсинга менялся его вес. Значительно большая доля таких изменений была отмечена в исследовании мутаций сайтов сплайсинга, ведущих к генетическим заболеваниям [19]. По данным исследования, из 101 мутации в сайтах сплайсинга, ассоциированных с генетическими заболеваниями у людей, 60% мутаций в донорных сайтах были в динуклеотиде GT, а среди мутаций в акцепторных 87% были в инвариантном динуклеотиде AG. На Рис.2 и Рис.3 представлены диаграммы весов предковых акцепторных и донорных сайтов соответственно и изменений весов этих сайтов на четырех типах ветвей эволюционных деревьев. Как для акцепторных, так и для донорных сайтов видно преобладание сайтов с низким исходным весом и большими положительными изменениями веса сайта для ветвей, на которых произошло рождение сайтов. Исчезновение сайтов происходит преимущественно при высоком весе предковых сайтов и уменьшении веса сайта. 4. Выводы Представленные данные свидетельствуют, что после дупликаций генов сайты сплайсинга чаще появляются, чем исчезают. Реконструированные предки вновь появившихся сайтов сплайсинга, как правило, имеют низкое значение силы сайта, в то время как сила пропавших сайтов, как правило, имеет высокое значение. Это особенно интересно в контексте, что в существенной доле случаев рождения и исчезновения сайтов не менялись ключевые динуклеотиды сайта. При этом рождение сайтов сплайсинга ассоциировано с существенным увеличением силы сайта, а исчезновение – с уменьшением. Это согласуется с представлением о том, что вес сайта играет важную роль для функциональности сайта. Рис. 2. Акцепторные сайты - сила предковых сайтов и изменения силы сайтов. 109 Рис. 3. Донорые сайты - сила предковых сайтов и изменения силы сайтов. 7. Список литературы [1. 2. 3. 4. 5. 6. Krawczak, M., et al., Single base-pair substitutions in exon-intron junctions of human genes: nature, distribution, and consequences for mRNA splicing. Hum Mutat, 2007. 28(2): p. 1508. Dutertre, M., S. Vagner, and D. Auboeuf, Alternative splicing and breast cancer. RNA Biol, 2010. 7(4): p. 403-11. Berasain, C., et al., Impairment of pre-mRNA splicing in liver disease: mechanisms and consequences. World J Gastroenterol, 2010. 16(25): p. 3091-102. Dutertre, M., et al., Exon-based clustering of murine breast tumor transcriptomes reveals alternative exons whose expression is associated with metastasis. Cancer Res, 2010. 70(3): p. 896905. Pistoni, M., C. Ghigna, and D. Gabellini, Alternative splicing and muscular dystrophy. RNA Biol, 2010. 7(4): p. 441-52. Evsyukova, I., et al., Alternative splicing in multiple sclerosis and other autoimmune diseases. RNA Biol, 2010. 7(4): p. 462-73. 8. 9. 10. 11. 12. 13. 110 Rubin, B.Y. and S.L. Anderson, The molecular basis of familial dysautonomia: overview, new discoveries and implications for directed therapies. Neuromolecular Med, 2008. 10(3): p. 148-56. Faustino, N.A. and T.A. Cooper, Pre-mRNA splicing and human disease. Genes Dev, 2003. 17(4): p. 419-37. Dhir, A. and E. Buratti, Alternative splicing: role of pseudoexons in human disease and potential therapeutic strategies. FEBS J, 2010. 277(4): p. 841-55. Zhan, Z., et al., Evolution of alternative splicing in newly evolved genes of Drosophila. Gene, 2011. 470(1-2): p. 1-6. Zhang, Z., et al., Divergence of exonic splicing elements after gene duplication and the impact on gene structures. Genome Biol, 2009. 10(11): p. R120. Su, Z., et al., Evolution of alternative splicing after gene duplication. Genome Res, 2006. 16(2): p. 182-9. Sayers, E.W., et al., Database resources of the National Center for Biotechnology Information. Nucleic Acids Res, 2011. 39(Database issue): p. D38-51. 14. 15. 16. 17. 18. 19. Rhead, B., et al., The UCSC Genome Browser database: update 2010. Nucleic Acids Res, 2010. 38(Database issue): p. D613-9. Chenna, R., et al., Multiple sequence alignment with the Clustal series of programs. Nucleic Acids Res, 2003. 31(13): p. 3497-500. Guindon, S., et al., New algorithms and methods to estimate maximum-likelihood phylogenies: assessing the performance of PhyML 3.0. Syst Biol, 2010. 59(3): p. 307-21. Yang, Z., PAML 4: phylogenetic analysis by maximum likelihood. Mol Biol Evol, 2007. 24(8): p. 1586-91. Itoh, H., T. Washio, and M. Tomita, Computational comparative analyses of alternative splicing regulation using full-length cDNA of various eukaryotes. RNA, 2004. 10(7): p. 1005-18. Krawczak, M., J. Reiss, and D.N. Cooper, The mutational spectrum of single base-pair substitutions in mRNA splice junctions of human genes: causes and consequences. Hum Genet, 1992. 90(1-2): p. 41-54. 111