Эволюция некодирующих РНК в геномах рода Drosophila Журавлева Е.В. ФББ МГУ, студентка [email protected] Johns Hopkins University School of Medicine [email protected] Миронов А.А. ФББ МГУ ИППИ РАН [email protected] su.ru Ставровская Е.Д ФББ МГУ, ИППИ РАН stavrovskaya@gmail. com Фаворов А.В. ГосНИИГенетика, ИОГЕН РАН, идентификации участков структуры нкРНК, находящихся под отбором, были применены эволюционные тесты dN /dS и МакдональдаКрейтмана [1]. Было показано, что петли более полиморфны по сравнению со стеблями, но отличаются меньшей дивергенцией. Несогласованность вариации по полиморфизмам и дивергенции может свидетельствовать о наличии большого количества слабо вредных мутаций в петлях, либо о действии положительного отбора на нуклеотидные замены в стеблях. Также показана большая полиморфность петель и стеблей в классах нкРНК с высокими удельными свободными энергиями, что, вероятно, говорит о том, что такие нкРНК подвержены действию более сильного отрицательного отбора. Аннотация Некодирующими называются такие РНК молекулы, которые не транслируются в белок. НкРНК является важными функциональными молекулами. В последние десятилетия количество молекул, относимых к классу нкРНК, существенно возросло. К основным классам нкРНК относят малые ядерные, малые ядрышковые, микроРНК, длинные некодирующие РНК и регуляторные элементы. НкРНК различных классов участвуют в процессах регуляции транскрипции, трансляции, химической модификации молекул в клетке, поддержании теломер. По общим оценкам регуляция посредством нкРНК затрагивает подавляющее большинство процессов в клетке. Поэтому изучение этих молекул, в частности закономерностей их эволюции является важной задачей современной биологии. Последовательность нкРНК формирует вторичную структуру, которая может быть представлена петлями, стеблями и псевдоузлами. Изучение эволюции элементов структуры нкРНК является важной задачей с практической точки зрения. Информацию о связи свободной энергии структуры с отбором в различных участках последовательности нкРНК можно, в частности, использовать для улучшения работы ряда алгоритмов по поиску генов нкРНК в геноме. Данная работа посвящена исследованию отбора, действующего на различные элементы вторичной структуры основных классов нкРНК, а также связи отбора cо свободной энергией структуры. В качестве анализируемых организмов рассмотрены плодовые мушки рода Drosophila. Для 1. Введение Некодирующие РНК – это молекулы РНК, которые не транслируются в белки. Некодирующие РНК принимают участие в регуляции процессов транскрипции и трансляции, в химической модификации других молекул в клетке, в поддержании теломер, а также имеют ряд других важных клеточных функций. НкРНК подразделяют на различные классы, основываясь на размере молекулы, а также на типе и механизме осуществляемой функции. Помимо классов тРНК и рРНК, выделяют классы малой ядрышковой РНК (мякРНК), малой ядерной РНК (мяРНК), микроРНК, длинной некодирующей РНК, а также нкРНК, относимых к регуляторным элементам. 63 Из линейной молекулы нкРНК формируется некоторая вторичная структура, которая образуется за счет взаимодействий пар нуклеотидов в последовательности. В формировании вторичной структуры участвуют канонические пары оснований АТ и GC, а также неканонические пары, такие как, например, GU. Последние также важны для формирования и функционирования молекулы нкРНК. Спаренные основания образуют элементы вторичной структуры - стебли, а неспаренные – петли. Отдельные локальные участки структуры, как и вся структура нкРНК в целом, характеризуется некоторой свободной энергией молекулы. Эта энергия складывается из энергий стэкингового взаимодействия пар оснований, а также вклада неспаренных нуклеотидов, формирующих петли. Свободная энергия определяет стабильность той или иной формы вторичной структуры РНК. В результате мутационного процесса могут появляться замены нуклеотидов, которые меняют свободную энергию структуры. Данная работа посвящена исследованию отбора, действующего на различные типы вторичной структуры основных классов нкРНК, а также связи отбора cо свободной энергией структуры. (http://infernal.janelia.org/). Полученное выравнивание нкРНК с консенсусной последовательностью семейства, а также с описанием предполагаемой вторичной структуры в формате WUSS, было использовано для классификации позиций нуклеотидов в составе нкРНК с точки зрения их структурной принадлежности к петлям или к стеблям. Все вставки в последовательности нкРНК в сравнении с консенсусной последовательностью семейства интерпретировались как принадлежащие к петле. Были посчитаны частоты встречаемости замен нуклеотидов для различных элементах структуры в различных классах нкРНК. Смысл оценки дивергенции и полиморфизма – показать отличие эволюции рассматриваемых позиций от позиций, эволюционирующих нейтрально. В качестве нейтральных сайтов мы рассматривали четырежды вырожденные третьи позиции кодонов. Т.е. таких кодонов, замена нуклеотида в третьих позициях которых, не ведет к замене аминокислоты в белковой последовательности. Для подсчета частот замен нуклеотидов по нейтральным позициям были использованы множественные выравнивания ортологичных последовательностей (CDS) из базы данных FlyBase (ftp://ftp.flybase.net/genomes/12_species_analysis/clark_ei sen/alignments/) для дрозофил филогенетической группы melanogaster. При вычислении координат третьих позиций четырежды вырожденных кодонов использовались данные о координатах экзонов в транскриптах (http://www.ensembl.org/biomart/martview/). После классификации нуклеотидов по принадлежности их к различным элементам структуры, в рамках каждого класса нкРНК были посчитаны отношения по дивергенции и по полиморфизмам для петель и стеблей. Помимо этого для полученных данных был применен тест Макдональда-Крейтмана. Одной из наиболее существенных проблем теста Макдональда-Крейтмана является то, что при большой доли нуклеотидных замен под слабо отрицательным отбором происходит недооценка параметра альфа, поскольку такие замены вносят вклад в отношение по полиморфизмам, но не в отношение по дивергенции. В данной работе нами были отфильтрованы полиморфизмы с аллельными частотами в популяции <5%, поскольку, они с большой вероятностью являются слабо вредными. Таким образом, мы стремились нивелировать недооценку параметра альфа. Для структур нкРНК, предсказанных Rfam, были посчитаны свободные энергии молекул с помощью программы rnaeval пакета ViennaRNA (http://rna.tbi.univie.ac.at/). Для анализа данных в работе были разработаны скрипты на языках программирования bash и python. Для хранения полученных результатов и работы с данными была создана база данных mysql. 2. Материалы и методы В качестве исходных данных нами были рассмотрены данные по нкРНК геномов Drosophila melanogaster. Данные о координатах нкРНК в геноме Drosophila melanogaster, были взяты из базы данных Rfam [2], которая содержит информацию о семействах нкРНК с консервативной вторичной структурой. Всего было рассмотрено 298 нкРНК из 140 семейств 5 классов нкРНК. Для статистики однонуклеотидных полиморфизмов (SNP) использованы данные проекта Drosophila Population Genomics Project (DPGP) (http://www.dpgp.org/). Для аннотации по SNP мы использовали данные первой версии проекта DPGP (ftp://ftp.ensembl.org/pub/release75/variation/gvf/drosophila_melanogaster/), собранные по 50 геномам Drosophila melanogaster, поскольку только в этой версии представлена информация об аннотации SNP. Далее эта информация была перенесена на данные второй версии, то есть SNP были размечены в 139 геномах второй версии проекта. По аннотации координат снипов вычислены аллельные частоты. Для каждой нкРНК была выбрана в Rfam соответствующая ей ковариационная модель. Эта ковариационная модель была использована для поиска вторичной структуры на ортологичных последовательностях нкРНК в родственных организмах. Для поиска ортологичных последовательностей были использованы средcтва Blast (http://blast.ncbi.nlm.nih.gov/Blast.cgi). Восстановление вторичной структуры нкРНК было осуществлено средствами cmscan пакета Infernal. 64 Фишера 2*2, p-value=0.0019). Соответственно петли более вариантны по числу полиморфизмов в сравнении со стеблями, но менее вариантны по числу межвидовых замен, т.е. по дивергенции. Это может быть свидетельством того, что в петлях содержится большое количество слабо вредных мутаций относительно высоких частотных вариантов, а также наличия некоторого положительного отбора в стеблях нкРНК. Значение индекса нейтральности указывает на то, что во всех классах нкРНК, за исключением мякРНК, последовательности стеблей более близки к нейтральным по сравнению с петлями. Отрицательные значения альфа, свидетельствует о недооценки этого параметра, вероятно, в силу недостатков присущих методу Макдональда-Крейтмана. Мутации со слабо вредным эффектом могут не испытывать сильного давления отрицательного отбора, и потому появляться в популяции достаточно часто в результате процессов случайного дрейфа. Наличие таких мутаций приводит к тому, что доля сайтов α, закрепившихся под положительным отбором, недооценивается. НкРНК были разделены на две равные группы по величине удельной энергии на нуклеотид. Для нкРНК в этих группах были посчитаны значения по дивергенции и полиморфизму. Для всех классов нкРНК, за исключением микроРНК, значение по полиморфизмам больше для нкРНК с низкой энергией, чем с высокой. Дивергенция при этом выше в группе нкРНК с высокой энергией. В группе нкРНК с высокой энергией для всех классов нкРНК, за исключением микроРНК выше дивергенция в стеблях, по сравнению с петлями. За исключением мяРНК, подобное соотношение наблюдаются и в группе нкРНК с низкой энергией. В целом, в обоих классах по энергии сохраняется распределение по дивергенции между петлями и стеблями, наблюдаемое в общей группе. Менее полиморфны петли и стебли нкРНК с высокими энергиями. Это может свидетельствовать о большей силе отрицательного отбора на нкРНК этой группы. Вероятно, это связано с тем, что при большей свободной энергии структуры эффект от мутаций оказывается более существенным, чем при низкой. В силу небольшого количества данных по нкРНК, проведенный анализ эволюции нкРНК не является исчерпывающим. Однако для нас интерес представлял анализ именно нкРНК с наиболее достоверным предсказанием вторичной структуры, опирающимся в основном экспериментальные данные. В ходе данного исследования нам удалось выявить некоторые интересные особенности эволюции нкРНК в различных типах структуры, а также изучить различия эволюционных закономерностей для последовательностей нкРНК с высокой и низкой удельной свободной энергией структур. Анализ показал, что петли нкРНК более полиморфны по сравнению со стеблями, но отличаются меньшей дивергенцией. Это может говорить о наличии большого количества слабо вредных мутаций в петлях, 3. Результаты и обсуждение В рамках каждого анализируемого класса нкРНК все нуклеотиды были размечены по принадлежности к типу вторичной структуры: петле либо стеблю. Каждому классу нкРНК соответствует собственное соотношение числа нуклеотидов в стеблях и петлях в силу особенностей структуры и функциональности. Так, например, для мякРНК характерны большие петли, которые содержат специфические сайты связывания белков. В классах длинных некодирующих РНК и мяРНК количество нуклеотидов, расположенных в стеблях, сравнимо по величине с аналогичным показателем для петель. Структура типа «стебель» преобладает в классах микроРНК и в регуляторных элементах. Большая часть нуклеотидов в стеблях находится в составе канонических (УотсонКриковских) пар A-U и G-C. От 7 до 16 % нуклеотидов в различных классах нкРНК находится в составе пары G-U, которая является наиболее распространённой из неканонических [3]. Что касается распределения количества нуклеотидов по различным частотам в петлях и стеблях в нкРНК, то можно отметить, что в целом преобладают низкочастотные варианты. В стеблях и петлях внутри классов нкРНК доля различных низкочастотных вариантов приблизительно одинакова. Во всех классах нкРНК, кроме мякРНК, полиморфизмов с частотой <1% больше в стеблях. Это может свидетельствовать в пользу относительно большей вредности мутаций в стеблях, что не позволяет мутациям достигать больших частот в популяции. Однако уже для интервала частот полиморфизмов от 1% до 6% наблюдается противоположная картина: больше замен с такими частотами наблюдается в петлях. Полиморфизмов с высокими аллельными частотами (от 16 до 51%) немного больше в стеблях, чем в петлях для длинных некодирующих РНК, мяРНК и мякРНК. Большую вариацию по полиморфизмам в петлях показывают микроРНК и регуляторные элементы. Наиболее значительная разница в количестве полиморфных сайтов в последовательности наблюдается в классе микроРНК. Последнее может свидетельствовать о том, что в стеблях микроРНК наблюдается относительно большее количество нейтральных замен. Значения по полиморфизмам и дивергенции для различных типов структур нкРНК превосходят соответствующие значения для синонимичных сайтов. После применения фильтрации низкочастотных вариантов число SNP резко сократилось. Это затрудняет работу с данными, поскольку различие в числе замен нуклеотидов между петлями и стеблями в отдельных классах достоверно оценить невозможно. Однако, если оценивать общее количество полиморфизмов и межвидовых однонуклетидных несовпаданий по петлям и стеблям, то можно показать ассоциированность дивергенции (межвидовой вариации) и полиморфности (внутривидовой вариации) с разделением по петлям и стеблям (двусторонний тест 65 либо о наличии положительного отбора на нуклеотидные замены в стеблях. Также можно предположить, что для нкРНК с высокой энергией более выражено действие отрицательного отбора в стеблях и петлях. Это может быть связано с большей полиморфностью петель и стеблей в классах нкРНК с высокими удельными свободными энергиями. Список цитируемой литературы [1] McDonald JH, Kreitman M. Adaptive evolution at the Adh locus in Drosophila. Nature. (1991) [2] Rfam 11.0: 10 years of RNA families. S.W. Burge, J. Daub, R. Eberhardt, J. Tate, L. Barquist, E.P. Nawrocki, S.R. Eddy, P.P. Gardner, A. Bateman.Nucleic Acids Research (2012) [3] Ananth P, Goldsmith G, Yathindra N. An innate twist between Crick's wobble and Watson-Crick base pairs. RNA. (2013) 66