ГЕНЕТИКА, 2016, том 52, № 2, с. 146–163 ОБЗОРНЫЕ И ТЕОРЕТИЧЕСКИЕ СТАТЬИ УДК 575.113.152 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ © 2016 г. Е. В. Шешукова1, А. В. Шиндяпина1, 2, Т. В. Комарова1, 2, Ю. Л. Дорохов1, 2 1 Институт общей генетики им. Н.И. Вавилова Российской академии наук, Москва 119991 email: [email protected] 2 Московский государственный университет им. М.В. Ломоносова, Научноисследовательский институт физикохимической биологии им. А.Н. Белозерского, Москва 119991 Поступила в редакцию 02.09.2015 г. Несмотря на относительно небольшой объем человеческого генома, приходящегося на гены, коди рующие белок, последние данные по исследованию мРНК с альтернативными отрытыми рамками считывания (ОРС) расширили наши представления о репертуаре и возможностях этих генов. До не давнего времени было устоявшимся мнение, что один зрелый РНКтранскрипт кодирует один бе лок. Последние данные протеогеномики указали на существование исключения из этого правила, которое во многом меняет привычный смысл термина “ген”. Определение и топологию гена с пе рекрывающейся ОРС хорошо моделирует русская игрушка матрешка. Генная система “матрешка” проявляется на двух уровнях. Первый, хромосомный уровень, когда “вложенный” ген расположен в интронах и экзонах бóльшего хромосомного гена, причем как в смысловой, так и антисмысловой ориентации по отношению к основному гену. Второй уровень – это зрелая молекула мРНК, содер жащая перекрывающиеся ОРС или ОРС с альтернативными стартовыми кодонами. В обзоре мы по дробно рассматриваем свойства “геновматрешек” второго уровня, методы их обнаружения и вери фикации. Особое внимание уделено биологическим свойствам полипептидов, кодируемых этими генами. Ключевые слова: ген, открытая рамка считывания, альтернативный стартовый кодон, неканониче ский стартовый кодон, “генматрешка”. DOI: 10.7868/S0016675816020144 Определение понятия “ген” является слож ным и сейчас не может обойтись без таких терми нов, как “вложенный” ген и “перекрывающаяся открытая рамка считывания”. Исторически появ ление новых данных требовало изменения ранее предложенной концепции гена. Тем не менее но вые концепции полностью не вытеснили более ранние дефиниции, что сделало возможным со существование нескольких концепций гена одно временно [1, 2]. Определение гена 70–80х гг. ХХ в. ограничивало его областью, соответствующей зрелой матричной РНК (мРНК), и в частности, открытой рамкой считывания (ОРС) [3], как по тенциально транслируемой последовательно стью, которая состоит из смысловых кодонов в одной рамке, начиная со стартового кодона и за канчивая стопкодоном. В то время межгенное пространство эукариот рассматривали в качестве нефункционального, нетранскрибируемого про странства. Концепции гена основывались на предположении, что транскрипция ограничена известными генами, кодирующими белок (ГКБ), а также дргуими структурными генами РНК, та кими как рРНК и тРНК. Открытие интронов [4] и использование чувствительных методов анализа транскриптома изменили представление о при роде гена [5]. Микрочипы с перекрывающимися ДНКзондами (tiling microarrays) [6] и глубокое секвенирование РНК [7] выявили мириады тран скриптов, которые охватывают почти весь геном человека [8]. Кроме того, выяснилось, что разно образие механизмов экспрессии гена определяет ся не только количеством ГКБ, но и существова нием альтернативных сайтов инициации тран скрипции, альтернативного сплайсинга и редактирования транскрипта [9, 10]. Даже протя женные межгенные последовательности, кото рые изначально считались лишенными какой либо функции, оказались способными к актив ной транскрипции. Почти каждому нуклеотиду ДНКгенома человека соответствует нуклеотид, включенный, по крайней мере, в один основной РНКтранскрипт [8]. Однако к каждому полно размерному смысловому транскрипту следует до бавить не менее 100 коротких абортивно синтези руемых РНК, сопровождающих его синтез [11, 12]. Осознание обилия и многообразия некодиру ющих транскриптов было выражено в заимство ванном у астрофизиков термине “темная мате рия” [13]. 146 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ Таким образом, существование огромного раз нообразия РНКтранскриптов, не кодирующих белок, привело к модификации концепции гена. В настоящее время нет общепринятого определе ния понятия “ген”, учитывающего особенности его структуры и функции. В одном определении дается широкое толкование гена как “области ге номной последовательности, соответствующей единице наследственности, которая связана с ре гуляторными элементами, транскрибируемым участком и/или другими функциональными об ластями последовательности” [14]. В другом определении ген – это “единица геномной после довательности, кодирующая когерентный набор потенциально перекрывающихся функциональ ных продуктов” [2]. Что касается ГКБ человека, то с развитием мо лекулярной генетики наше представление о них менялось, причем оценочное число ГКБ все вре мя сокращалось [15]. Так, предсказывали суще ствование около 100000 ГКБ в начальной фазе выполнения проекта определения полной пер вичной структуры генома человека [16]. Потом давали цифру 50000 [17], а затем 30000 [18]. Нако нец, это число сократилось до 19000 ко времени окончания проекта и последующего аннотирова ния генов [19, 20]. Оказалось, что объем генома человека, кодирующего белки, составляет около 1% [21, 22]. Тем не менее это относительно не большое количество ГКБ человека, соответству ющее объему ГКБ круглого червя Caenorhabditis elegans [18, 23], успешно справляется со своими функциями, приобретя в ходе эволюции допол нительные возможности [15, 24, 25]. Вопервых, обнаружены белки со множе ственными функциями, т.е. белки, у которых по мимо основной давно известной функции обна руживаются новые. Такие белки в англоязычной литературе обозначены как moonlighting protein (белок, имеющий “подработку”) [26]. Например, у глицеральдегид3фосфатдегидрогеназы, белка “домашнего хозяйства”, помимо функции глико литического фермента обнаружены дополнитель ные функции [27]. К этим функциям относится участие в регуляции транскрипции, репарации ДНК, поддержании структуры теломеры, апопто зе, нейродегенеративных расстройствах; глице ральдегид3фосфатдегидрогеназа также являет ся мишенью метаболического метанола, однако даже этим перечнем функций список не ограни чивается [28, 29]. Вовторых, последние данные по обнаруже нию коротких отрытых рамок считывания (кОРС) и мРНК с альтернативными стартовыми кодонами расширяют наше представление о функциях и возможностях ГКБ. До недавнего времени устоявшимся было мнение, что один транскрипт, как правило, кодирует один белок, ГЕНЕТИКА том 52 №2 2016 147 но были обнаружены транскрипты, содержащие две рамки считывания, которые кодируют два структурно различных белковых продукта [30]. На сегодняшний день известно относительно не много транскриптов, кодирующих два различных экспериментально подтвержденных белковых продукта (см. ниже), хотя многие такие гены кандидаты предсказаны на основе биоинформа ционного анализа. Существование ГКБ с пере крывающимися ОРС описывается близкими по смыслу терминами, такими как “угнезден ный/вложенный (nested) ген” [31], “перекрываю щиеся (overlapping) гены” [32] или более привыч ный для русского языка “генматрешка” [33]. ПОДХОДЫ И МЕТОДЫ ВЫЯВЛЕНИЯ “ГЕНОВМАТРЕШЕК” Проект секвенирования генома человека рево люционизировал нашу способность исследовать структуру, число, порядок и расположение генов. Традиционный молекулярнобиологический ана лиз отдельных генов ранее требовал физического клонирования и определения последовательно сти ДНК для того, чтобы понять их организацию. Биоинформационные методы совершенствовали анализ известных генов и поиск новых. Время, необходимое для исследования структуры гена, значительно сократилось. Выявление функциональных “геновматре шек” связано прежде всего с анализом кОРС, ко дирующих короткие пептиды (кПЕП). Вообще, наличие кОРС – это общая черта всех геномов. Кодирующий потенциал таких рамок в большин стве случаев не принимается во внимание, преж де всего изза отсутствия информации о возмож ности образования кПЕП в клетке [34]. Послед ние инновации в области вычислительной техники, протеомики и высокопроизводительно го секвенирования положили начало решению проблемы определения стартовых сайтов и выяв лению сотен потенциальных кОРС. Трансляция некоторых из них была подтверждена экспери ментально, но вклад их белковых продуктов в клеточные функции остается в значительной сте пени неизвестным. кОРС отличаются от всех дру гих ОРС своим размером. Хотя полного согласия еще нет, к разряду кОРС чаще относят рамки дли ной меньше 200–250 кодонов [35, 36]. Доказан ный минимальный размер кОРС ограничивается 6 кодонами [37]. Транслируемые кОРС в “генематрешке” об наружены (рис. 1) в 5'лидерной [38–40], 3'не транслируемой части мРНК [39], в области пере крывания с основной ОРС [34] и, наконец, в пре делах основной ОРС (см. ниже). Транслируемые кОРС также выявлены в различных транскрип тах, которые ранее считались некодирующими: 1) длинные некодирующие РНК [41], 2) межген 148 ШЕШУКОВА и др. а экзон 1 “вложенный” ген интрон экзон 2 “вложенный” ген “вложенный” ген Хромосомная ДНК б 5'НТО Основная ОРС 3'НТО в ADH1A ADH1B ADH1C Рис. 1. “Геныматрешки”. а – хромосомный уровень: схематическое изображение геномной ДНК, содержащей “вло женные” гены (светлосерые) как внутри интронов, так и в экзонах (темносерые); б – уровень мРНК: обозначено пять возможных позиций “вложенной” ОРС (светлосерые прямоугольники), НТО – нетранслируемая область; в – схема расположения экзонов гена (серые блоки) и консервативных кОРС (черные блоки) в генах человека ADH1B, ADH1A и ADH1C. ные области [42], 3) антисмысловые транскрипты [43], 4) транскриптпредшественник микроРНК [44, 45]. Идентификация предполагаемых кОРС осно вывается на трех стратегиях, которые в принципе аналогичны тем, что обычно используют в про гнозировании традиционных генов: 1) межвидо вое сравнение последовательностей кОРС для выявления консервативных последовательно стей; 2) анализ содержания кодонов и особенно ГЕНЕТИКА том 52 №2 2016 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ стей кодирования кОРС и 3) анализ транскрип ции и трансляции вероятных кОРС [34, 46–48]. Биоинформационный поиск кОРС В отличие от обычной кодирующей ОРС до вольно трудно различить кодирующую и некоди рующую кОРС. Большинство компьютерных программ прогнозирования ОРС отличают коди рующие последовательности от некодирующих, выявляя 1) канонические кодоны инициации и терминации трансляции, 2) сайты сплайсинга, 3) последовательности промоторов и 4) сигналы полиаденилирования [46, 47, 49]. Большинство программ предназначены в основном для оценки потенциала кодирования ОРС, размер которых больше чем 100 кодонов [50, 51]. Заложенные в программах алгоритмы аннотирования гена ис ключают потенциальные кОРС размером менее 100 кодонов и определяют их как бессмысленные последовательности. Чаще всего эти программы используют специальные критерии, уменьшаю щие ложноположительную идентификацию, а это в свою очередь выводит из анализа потенци альнотранслируемые кОРС [49, 50]. Для компьютерного выявления потенциаль ных кОРС обычно используют такие программы, как sORFfinder [52], HAltORF [53] и uPEPperoni [54]. Проведение межвидового сравнения позво ляет определить консервативные кОРС, обращая особое внимание на их длину и положение относи тельно ранее идентифицированной ОРС [42, 55]. Доказательство эволюционной консервативно сти кОРС важно, так как кОРС, не обладающая этим признаком, скорее всего будет случайной последовательностью, не способной направлять синтез функциональных кПЕП [56]. В то же вре мя кОРС, не прошедшую тест межвидового срав нения, не следует сбрасывать со счетов a priori, она должна быть сохранена для дальнейшего ана лиза и поиска биологически значимых кПЕП [34]. Межвидовой подход сравнения может быть объединен с методами, которые анализируют со держание последовательности и генных характе ристик. Вопервых, кОРС могут быть отсортированы по контексту их стартовых кодонов. Те кОРС, у которых стартовый кодон находится в оптималь ном контексте по М. Козак [57], скорее всего бу дут транслируемыми [30, 46]. К этому надо доба вить поиск других особенностей контекста. Не давно при использовании метода сортировки клеток с активированной флуоресценцией и вы сокопроизводительного секвенирования ДНК (FACSseq) в результате анализа 65536 стартовых кодонов мРНК млекопитающих было обнаруже но, что мотив RYMRMVAUGGC усиливает узна вание стартового кодона и повышает эффектив ность трансляции [58]. 2 ГЕНЕТИКА том 52 №2 2016 149 Вовторых, потенциал кодирования кОРС мо жет быть определен с помощью анализа состава кодонов и тенденции их преимущественного ис пользования [59]. Потенциально транслируемые кОРС могут быть проанализированы на наличие функциональных доменов, выявляемых поиском по базе данных Pfam [60]. Наконец, можно использовать программы со сложными алгоритмами, например Coding Index [50], которая была разработана специально для определения потенциала кодирования кОРС [52]. Оказываются также полезными программы, та кие как CSTminer [61], CRITICA [62] и Coding Po tential Calculator [63], использующие статистиче ские методы. При поиске кОРС надо иметь в виду также те кОРС, которые начинаются с неканонического стартового кодона (НСК) [64, 65]. О распростра ненности в кОРС НСК в геноме млекопитающих можно судить по результатам рибосомного про файлинга – метода, основанного на секвенирова нии защищенных рибосомой фрагментов мРНК, дающего моментальный “снимок” процесса трансляции. Данный метод позволяет определять также и старт трансляции мРНК [66]. Установле но, что в ряде случаев стартом трансляции явля ются такие НСК, как CUG, UUG и GUG [64, 67]. В качестве примера поиска кОРС, имеющих биологический смысл, представляем результаты анализа кластера генов алкогольдегидрогеназ (АДГ). Нами проведен поиск кОРС в семи генах кластера (ADH1A, ADH1B, ADH1C, ADH4, ADH5, ADH6 и ADH7), оценена их консервативность и кодирующий потенциал. Все гены кластера АДГ находятся на одном плече хромосомы 4 человека. Поскольку в одном гене кластера АДГ располага ется в среднем 400 кОРС, их анализ без привлече ния биоинформационных инструментов весьма затруднителен. Мы оценили кодирующий потен циал всех кОРС генов кластера с помощью серви са sORFinder, который оказался самым удобным открытым ресурсом для подобного анализа. Важ но уточнить, что наряду с проведением анализа с помощью интернетресурса с этого сервиса мож но скачать программный код для проведения рас четов с использованием вычислительных мощно стей своего компьютера. Такая возможность бу дет полезна при анализе длинных последовательностей (>20000 пн), так как за один запуск сервиса sORFinder можно проанализиро вать не более 10000 пн. Для поиска кОРС были взяты последовательности каждого гена, и к каж дой из них были добавлены с 5' и 3'концов фланкирующие последовательности длиной 2000 пн. Для анализа с помощью сервиса sORFinder были установлены параметры поиска по обеим цепям ДНК человека. Среднее количество кОРС с кодирующим потенциалом выше установленно 150 ШЕШУКОВА и др. Предсказание кОРС в кластере генов АДГ Общее число кОРС Кодирующие кОРС* Консервативные кОРС** Консервативные кОРС вне экзонов ADH1A 327 25 2 1 ADH1B 258 28 3 0 ADH1C 241 28 4 0 ADH4 599 37 5 0 ADH5 310 21 4 0 ADH6 209 22 2 0 ADH7 457 26 3 0 Ген * Кодирующие кОРС были предсказаны с использованием сервиса sORFinder, поиск проводился на обеих цепях ДНК генов организма H. sapience. ** кОРС, последовательность которых выравнивается с последовательностью ортолога соответствующего гена одного из сле дующих млекопитающих: Mus musculus, Rattus norvegicus, Oryctolagus cuniculus, Canis lupus familiaris, а также со всеми ортолога ми соответствующего гена у представителей отряда Приматы: Nomascus leucogenys, Pan troglodytes, Macaca mulatta, Callithrix jac chus, Gorilla gorilla gorilla. го уровня значимости для каждого гена составило около 20 (таблица). Однако далеко не каждая кОРС из полученного списка с высоким значени ем кодирующего потенциала имеет биологический смысл. Для определения наиболее вероятных био логически значимых кандидатов необходимо определить консервативность каждой кОРС. Гены кластера АДГ обнаружены у всех млекопитающих, птиц, некоторых видов рептилий и земноводных. Мы воспользовались последовательностями из ба зы данных Ensembl (http://www.ensembl.org) каж дого гена кластера АДГ у эволюционно близких к человеку представителей отряда Приматы: No mascus leucogenys, Pan troglodytes, Macaca mulatta, Callithrix jacchus, Gorilla gorilla gorilla, а также нахо дящихся чуть дальше на эволюционном дереве млекопитающих: Mus musculus, Rattus norvegicus, Oryctolagus cuniculus, Canis lupus familiaris. Для каждой кОРС по результатам работы sORFinder и доступных последовательностей генов было построено выравнивание в программе blastn (http://blast.ncbi.nlm.nih.gov/Blast.cgi). В каче стве алгоритма для выравнивания кОРС с генами млекопитающих был выбран discontiguous mega blast. Большинство кОРС по результатам про граммы sORFinder имели высокий процент иден тичности с участками генов представителей отря да Приматы, что, вероятно, связано с общим высоким уровнем идентичности последователь ности генома человека и приматов. Такие кОРС мы исключали из дальнейшего анализа. Тем не менее 2–3 предсказанные кОРС из каждого гена кластера АДГ имели высокий процент идентич ности с генами эволюционно более далеких мле копитающих (Mus musculus, Rattus norvegicus, Oryc tolagus cuniculus, Canis lupus familiaris), что указы вает на их потенциальную биологическую значимость (таблица). Мы решили исключить влияние положения кОРС относительно экзонов на консервативность кОРС. Для этого в каждой последовательности генов сравнили положение экзонов и консервативных кОРС. Подавляющее большинство из них расположилось внутри или на значительном пересечении с экзонами генов (рис. 1,в). Это объясняет их высокий уровень идентичности с эволюционно далекими человеку млекопитающими, так как на кодирующие участ ки гена действует положительный отбор. Однако в ходе анализа нами была обнаружена одна из кон сервативных кОРС, которая располагается в интро не (рис. 1,в). Обнаруженная кОРС представляет особый интерес для дальнейшего биоинформа ционного и экспериментального анализа. Экспериментальная верификация транслируемой кОРС Выявление транскрипта, соответствующего кОРСсодержащему региону генома. Эксперимен тальные доказательства существования трансли руемой кОРС как необходимого признака “гена матрешки” необходимо начинать с выявления транскрипта, соответствующего кОРСсодержа щему региону генома. Существует ряд методов ГЕНЕТИКА том 52 №2 2016 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ для анализа экспрессии генов, такие как ОТ ПЦР, микрочипы с перекрывающимися ДНК зондами, создание фрагментов экспрессируемых последовательностей (EST), серийный анализ экспрессии генов (SAGE) и секвенирование РНК (RNAseq) следующего поколения [34, 46, 48]. Поиск “геновматрешек”, содержащих кОРС, требует точного анализа старта транскрипции. Ге номные исследования показали, что многие гены обладают альтернативными транскрипционными промоторами [68, 69]. Для определения старта транскрипции обычно используют методы, осно ванные на быстрой амплификации 5'конца кДНК (5'RACE) [70–72]. Недавно предложен но вый протокол определения старта транскрипции, названный как RAMPAGE (RNA Annotation and Mapping of Promoters for the Analysis of Gene Ex pression) [73]. Метод определения 5'конца кДНК достаточно точный и позволяет идентифициро вать старт транскрипции, характеристику тран скриптов и их количественное выражение. Этим методом показано, что более 40% транскрибируе мых генов имеют, по крайней мере, два промотора. Несмотря на то, что обнаружение факта тран скрипции уже является необходимым условием, важно доказать способность кОРС направлять синтез пептида. Рибосомный профайлинг [66, 74, 75]. Использо вание агентов, таких как харрингтонин [76], спо собствующих скоплению рибосом на стартовом кодоне, позволяет, например, составить геном ные карты синтеза белка в эмбриональных ство ловых клетках мышей [64]. Метод предоставляет объективную информацию о трансляции в кон кретной временной точке и точном положении всех ОРС, независимо от того, присутствуют ли они в мРНК или некодирующих транскриптах [77]. Кроме того, рибосомный профайлинг дает дополнительное преимущество в идентификации НСК (см. выше). Данные рибосомного профай линга нужно анализировать обязательно с ис пользованием методов биоинформационного анализа. Дело в том, что локализация рибосомы на стартовом кодоне не обязательно означает трансляцию ОРС. Существуют стартовые кодо ны, в особенности в 5'нетранслируемой области, предназначенные клеткой для регулирования трансляции следующей ОРС (см. подробнее ни же). Необходимо учитывать и стартовые кодоны, на которые произвольно “садится” рибосома без последующей трансляции ОРС [78]. Анализ протеома и выявление пептидов, кодиру емых кОРС. Большинство продуктов, синтезиро ванных рибосомой, рассматривают как стабиль ные. У человека большая часть белков имеет по лупериод жизни около 20 ч; хотя есть белки с полупериодом жизни от нескольких минут до де сятков часов [79, 80]. Изначально предполага ГЕНЕТИКА том 52 №2 2016 151 лось, что длина ОРС должна быть более 300 нук леотидов, но оказалось, что около 10% ОРС мы ши короче 300 нуклеотидов [49]. Более того, протеомный анализ показывает, что у человека многие кОРС транслируются независимо от того, расположены ли они в кодирующей или некоди рущей областях [43, 64, 81]. Доказательства трансляции кОРС также могут быть получены непосредственно с помощью массспектрометрии белков. Теоретически любой пептид, который присутствует в количестве выше порогового уровня во фракции клеток или тка ней, может быть идентифицирован путем поиска его массспектров в базе данных известных или прогнозируемых пептидов [77, 82]. Однако имею щиеся в настоящее время базы данных содержат данные только экспериментально подтвержден ных белковых последовательностей и, таким об разом, вряд ли содержат кПЕП искомых кОРС. В поиске транслируемых кОРС наиболее опти мальным является комплексный протеогеном ный подход [82], когда массспектральные дан ные сравнивают с результатом трансляции всех шести ОРС исследуемого генома [83]. На сего дняшний день выявление кПЕП с помощью массспектроскопии остается сложной задачей изза их небольшого размера и низкого содержа ния в клетке [11]. Тем не менее протеомные ис следования подтвердили экспрессию 80 кПЕП, которые кодируются кОРС, вложенными в “ма теринскую матрешку” [43, 84–86], а с помощью рибосомного профайлинга были определены старты их трансляции [64, 87]. “ГЕНМАТРЕШКА”: ПЕРЕКРЫВАЮЩИЕСЯ ГЕНЫ, “ВЛОЖЕННЫЕ” ГЕНЫ И ОРС С АЛЬТЕРНАТИВНЫМ СТАРТОВЫМ КОДОНОМ Термин “перекрывающиеся гены” обычно обозначает пары соседних генов, последователь ность которых частично перекрывается [88–91]. Такая организация генома у вирусов, бактерий и митохондрий вполне объяснима и обеспечивает компактную организацию генома, а также повы шает эффективность генной регуляции [92, 93]. Перекрывающиеся гены были найдены и в гено ме человека, причем до 10% всех генов – это пере крывающиеся гены [88, 89]. Значение перекрыва ющихся генов неясно, но можно предполагать, что перекрывающиеся гены в паре должны вза имно влиять друг на друга хотя бы на уровне тран скрипции [32]. Эволюционное происхождение перекрывающихся генов обсуждается и нет еди ного взгляда на этот вопрос. Одна из гипотез, на званная “надпечатка” (как процесс печати поверх ранее напечатанного текста или изображения), по лучила экспериментальное подтверждение [94]. Эта гипотеза объясняет происхождение нового гена 2* 152 ШЕШУКОВА и др. через накопление мутаций внутри уже существу ющих генов. Термин “вложенный” (nested) ген относится к гену, который содержится в другом гене (“ген в гене”) [31, 95], и описывает частный случай пере крывающихся генов, когда один ген находится в пределах другого. Термин “вложенный” часто применяют к случаям инсерции одного мобиль ного генетического элемента в другой мобильный элемент [96]. Топологию перекрывающихся генов хорошо моделирует русская игрушка матрешка, вот почему в литературе можно встретить термин “matreshka” для обозначения перекрывающихся и “вложенных” ОРС [33]. Чтобы избежать пута ницы в терминологии, можно рассматривать два уровня существования генной системы “матреш ка”. Первый уровень, хромосомный, когда “вло женный” ген расположен в пределах бóльшего хромосомного гена и часто в пределах интрона и в противоположной ориентации по отношению к основному гену (рис. 1,а) [97]. Второй уровень – это молекулы мРНК, содержащие перекрывающиеся ОРС или ОРС с альтернативным стартовым кодо ном. Этот тип “генаматрешки”, подробно рас сматриваемый ниже, подразделяется на дополни тельные подтипы (рис. 1,б) [34]: а) с “вложенными” ОРС, которые располагаются в пределах основной ОРС, б) начинаются в 5'лидерной области мРНК и простираются в пределы основной ОРС, в) начина ются в основной ОРС и заканчиваются в 3'некоди рующей области мРНК [33, 87]. “ГЕНМАТРЕШКА” С “ВЛОЖЕННОЙ” ОРС, КОТОРАЯ РАСПОЛАГАЕТСЯ В ПРЕДЕЛАХ ОСНОВНОЙ ОРС Открытие кПЕП, которые образуются при трансляции кОРС, “вложенных” в основную ОРС, составляя вместе “генматрешку”, измени ло представление о возможности ГКБ. Представ ление о том, что невирусные транскрипты могут содержать несколько транслируемых ОРС, с это го момента перестало считаться абсурдным [34]. Обнаружение транскриптов двойного кодирова ния, таких как транскрипт гена TRP1, кодирую щий опухолевый антиген TYRP1 [98], и тран скрипт каспазы 1 (CASP1, или ICE) [99], стимули ровало развитие методов поиска и обнаружения “геновматрешек”. Биоинформационный анализ мРНК человека и млекопитающих выявил доста точно большое число “вложенных” кОРС [30, 33, 53, 100]. Использование консервативных пара метров поиска (длина кОРС должна быть не ме нее 500 пн (∼167 кодонов) и обязательное присут ствие кОРС в генах не только человека, но и дру гих млекопитающих) позволило отобрать 40 генов [100]. В другом исследовании, где исполь зовали менее строгие критерии (анализу подвер гали кОРС длиной более 150 нуклеотидов), ото брали 1793 “геновматрешек” человека с “вло женными” кОРС, сохраняющимися и в геноме грызунов [33]. Среди них только 217 кОРС имеют оптимальный контекст стартового кодона [33]. В качестве примера “генаматрешки”, выявленно го в результате такого поиска, следует упомянуть ген GPR27, с одним экзоном, кодирующим рецеп тор Gбелка, где в конце основной ОРС выявлена “вложенная” ОРС [33]. Необходимость экспериментальной верифи кации существования “генаматрешки” с “вло женной” кОРС потребовала разработки метода с использованием экспрессирующих векторов, со держащих две различные последовательности, кодирующие белковые метки [30, 84]. Для обна ружения трансляции кОРС эти белковые метки должны находиться в разных рамках считывания по отношению друг к другу. Так, использование гемагглютинина и GFP в качестве меток позволи ло одновременно анализировать трансляцию ос новной ОРС и “вложенной” кОРС при трансфек ции линии клеток млекопитающих с последую щим тестированием с помощью микроскопии и вестернблота [84]. Ниже мы опишем известные на сегодняшний день “геныматрешки” с “вложенными” кОРС, ко торые располагаются в пределах основной ОРС. TYRP1 (tyrosinaserelated protein 1, тирозиназасвязанный белок 1) Лимфоциты, инфильтрирующие опухоль (ан глийская аббревиатура TIL) и полученные от больных раком, способны узнавать молекулы глав ного комплекса гистосовместимости класса I. По сле клиникобиохимического тестирования па циентов с метастатической меланомой у пациен та № 586 отобрали лимфоциты, обозначенные как TIL586, и ввели их вместе с интерлейкином 2 этому же пациенту. В результате – регрессия опухоли [101]. В последующем ген TYRP1, кодирующий опу холевый антиген gp75, был изолирован [102]. Уста новлено, что антигенный пептид MSLQRQFLR, узнаваемый TIL586, не является частью нормаль ного белка gp75, а образуется с альтернативной ОРС (рис. 2) [98, 103]. Таким образом, ген TYRP1 кодирует два совершенно разных полипептида – gp75 как антиген, распознаваемый иммуноглобу лином G и антителами в сыворотке от пациента с раком, и полипептид длиной 24 аминокислоты как антиген отторжения опухоли, узнаваемый Т клетками. Это был первый пример, когда у чело века антиген, способствующий отторжению опу холи, синтезируется с альтернативной кОРС. ГЕНЕТИКА том 52 №2 2016 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ 294 1 369 а ATG 153 1614 TAA +1 ATG TGA +3 60 120 180 240 300 360 1614 б (+1) (+3) Рис. 2. Альтернативная ОРС (+3) в составе гена TYRP1 человека кодирует пептид, узнаваемый Тлимфоцитами. а – схематическое изображение мРНК TYRP1: обозначена основная ОРС (первая рамка, +1), соответствующая gp75, и альтернативная ОРС (третья рамка, +3), ниже приведена часть нуклеотидной последовательности гена TYRP1, где подчеркнуты старт и стопкодоны +1 ОРС, а +3 ОРС выделена жирным шрифтом. Старт и стопкодоны +3 ОРС вы делены прямоугольниками; б – аминокислотная последовательность gp75 (приведена часть) и пептида, кодируемого +3 ОРС. CASP1 (caspase 1, apoptosisrelated cysteine peptidase или intestinal carboxyl esterase, iCE) Исследование Тлимфоцитов (класс TIL), су прессирующих рост почечноклеточной карци номы, позволил идентифицировать нонапептид SPRWWPTCL, способный in vivo обеспечивать узнавание и пролиферацию Тклеток. Оказалось, что мРНК, кодирующая апоптозсвязанную ци стеиновую пептидазу, содержит “вложенную” кОРС, направляющую синтез нонапептида с НСК ACG (рис. 3) [99]. Мутация природного стартового кодона ATG основной ОРС CASP1 не отменяет узнавание НСК ACG и синтез нонапеп тида, что, по мнению авторов, исключает участие механизма frameshifting в синтезе нонапептида. Ген прионного белка PRP Ген PRNP направляет синтез прионного белка (PRP). мРНК PRNP человека длиной 2415 нук леотидов содержит ОРС длиной 251 кодон. Поиск альтернативных ОРС выявил в 3й рамке кОРС, способную направлять синтез 73аминокислот ного пептида, отличного по аминокислотной по следовательности от приона (рис. 4) [104]. Стар товый AUG кодон кОРС находится в оптималь ном контексте по М. Козак. Способность клеток, трансфицированных мРНК PRNP, синтезировать кПЕП доказана в экспериментах с использованием ГЕНЕТИКА том 52 №2 2016 конструкции, кодирующей гемагглютининовую последовательность. Выяснилось, что 73амино кислотный пептид конститутивно экспрессируется как у человека, так и у других млекопитающих, та ких как бык, овца и олень; локализуется в митохон дриях; присутствует у человека в гомогенате мозга, первичных нейронах и периферических одноядер ных клетках крови. ATXN1 (ген, кодирующий атаксин1) Спиноцеребеллярная атаксия 1го типа (СЦА1) – смертельное аутосомнодоминантное нейродегенеративное расстройство, характеризу ющееся прогрессивной потерей координации движений изза дисфункции и дегенерации моз жечка. Отличительной чертой СЦА1 является атрофия клеток Пуркинье коры мозжечка. После индентификации гена ATXN1 обнаружена прямая корреляция между размером полиглютаминового тракта (CAG)n и началом заболевания СЦА1 [105]. Нормальные аллели имеют полиглютаминовый по втор размером 19–36 остатков, в то время как пато логические аллели имеют 39–82 остатков. Мутант ный ATXN1 кодирует денатурированный белок, формирующий включения в ядрах нейронов. С целью выяснения механизма патогенеза СЦА1 Бергерон и его коллеги [106] нашли в преде лах мРНК ATXN1 альтернативную ОРС, кодирую 154 ШЕШУКОВА и др. а 1 ATG +1 440 928 1680 TAG AСG TGA +2 60 360 420 480 540 600 660 720 780 840 900 960 1680 б (+1) (+2) Рис. 3. Альтернативная ОРС (+2), содержащая неканонический стартовый кодон, в составе гена CASP1 (iCE) человека кодирует полипептид, несущий эпитоп узнавания Тлимфоцитами. а – схематическое изображение мРНК CASP1: обозначена основная ОРС (первая рамка, +1), соответствующая CASP1, и альтернативная ОРС (вторая рамка, +2); ни же приведена часть нуклеотидной последовательности гена CASP1, где подчеркнуты старт и стопкодоны +1 ОРС, а +2 ОРС выделена жирным шрифтом. Старт и стопкодоны +2 ОРС выделены прямоугольниками; б – аминокислот ная последовательность CASP1 (приведена часть) и полипептида, кодируемого +2 ОРС. Подчеркнута последователь ность нонапептида, узнаваемого Тлимфоцитами. щую 21кДа полипептид (185 а.к.). Полипептид, по лучивший название AltATXN1 (альтернативный ATXN1), имеет совершенно другую аминокислот ную последовательность, чем ATXN1 (рис. 5). Вве дение гемагглютининовой последовательности в рамку с AltATXN1 позволило определить сов местную экспрессию ATXN1 и AltATXN1 в трансфицированных клетках. Установлено, что ATXN1, повидимому, контролирует субклеточ ное распределение AltATXN1: только в присут ствии ATXN1 можно обнаружить AltATXN1 в яд рах клеток в виде включений. В отсутствие ATXN1 AltATXN1 равномерно распределен в нуклеоплазме. Использование антител к Alt ATXN1 подтвердило экспрессию AltATXN1 в мозжечке человека. Эти результаты показывают, что “генматрешка” ATXN1 способен направлять синтез двух белков, взаимодействие которых определяет патогенез СЦА1. кОРС В 5'ЛИДЕРНОЙ НЕКОДИРУЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ мРНК кОРС в 5'лидерной последовательности (ко торую обычно называют предшествующей кОРС (пкОРС), от английского upstream ORFs, uORFs) является одним из наиболее распространенных регуляторных элементов РНКтранскриптов. И хотя у 40% мРНК млекопитающих обнаруживают пкОРС, их функция неясна. пкОРС разнообраз ны по длине, количеству в лидерной области и расстоянию от кэпа. Среди них встречаются пкОРС, которые стартуют в лидерной области мРНК и терминируют в основной ОРС [107]. Об щепризнано, что универсальной функцией пкОРС является ослабление трансляции основ ной ОРС путем регулирования посадки рибосом на 5'лидерном участке мРНК [108]. Ослабление трансляции основной ОРС преимущественно ГЕНЕТИКА том 52 №2 2016 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ 155 а 1 90 311 762 ATG +1 TGA ATG TAA +3 60 120 180 240 300 360 420 480 540 600 660 720 762 б (+1) (+3) Рис. 4. Альтернативная ОРС (AltPrP) в составе мРНК PRNP человека. а – схематическое изображение основной ОРС (первая рамка, +1) PRNP человека и альтернативной перекрывающейся ОРС (третья рамка, +3), кодирующей AltPrP, обозначены старт и стопкодоны обеих ОРС, отмечено их положение (пн). Ниже приведена нуклеотидная последо вательность гена PRNP человека. Старт и стопкодоны основной (+1) ОРС подчеркнуты, альтернативная (+3) ОРС выделена жирным шрифтом. Старт и стопкодоны AltPrP выделены прямоугольником; б – аминокислотная после довательность PrP (+1) и AltPrP (+3) человека. происходит через реинициацию или механизм “проскальзывающего” сканирования (leakyscan ning), в которых пкОРС перехватывает сканирую щие рибосомы до того, как они достигнут старто вого кодона основной ОРС [34, 107, 109, 110]. Важная роль пкОРС в регулировании синтеза белкового продукта подтверждается исследова ниями наследственных заболеваний человека. В настоящее время выявлено много мутаций в транскриптах, приводящих к появлению “новых” или удалению “старых” пкОРС [108, 110–113]. В 509 уникальных генах человека обнаружены му тантные пкОРС [108]. 14 генов с мутантными пкОРС, повидимому, вовлечены в патогенез раз личных заболеваний [34, 111]. Наиболее полно изучено участие пкОРС в патогенезе следующих заболеваний человека: а) наследственная тромбоцитемия, которая является результатом мутационного удаления ГЕНЕТИКА том 52 №2 2016 пкОРС, приводящего к повышению продукции тромбопоэтина [111]; б) семейная предрасположенность к развитию меланомы: мутации в последовательности пкОРС в 5'лидерной области мРНК гена CDKN2A при водят к снижению биосинтеза циклинзависимо го ингибитора киназы 2A [112]; в) синдром Мари Унна (наследственная потеря волос): результат мутирования пкОРС и повыше ния экспрессии гена HR (hereditary hypotrichosis, наследственный гипотрихоз) [113]. Трансляционный контроль основной ОРС с помощью пкОРС, начинающейся в 5'лидерной области мРНК и простирающейся в пределы ос новной ОРС, хорошо исследован на примерах трансляции мРНК гена: ATF4 и ATF5 человека, кодирующих активатор транскрипции генов, участвующих в обмене ве ществ и апоптозе [114, 115]; 156 ШЕШУКОВА и др. 1 30 587 2448 ATG +1 TAG ATG TGA +3 45 90 135 180 225 270 315 360 405 450 495 540 585 587 Рис. 5. Альтернативная ОРС (AltATXN1) в составе мРНК ATXN1 человека. Схематическое изображение основной ОРС (первая рамка, +1) ATXN1 человека и альтернативной перекрывающейся ОРС (третья рамка, +3), кодирующей AltATXN1. Обозначены старт и стопкодоны обеих ОРС, отмечено их положение (пн). Ниже приведена часть после довательности мРНК ATXN1 человека (1–587 нт), где жирным шрифтом выделены стартовые кодоны ATXN1 и Alt ATXN1. Старт и стопкодоны AltATXN1 также выделены прямоугольником. THPO, который кодирует тромбопоэтин [116]. Лидер мРНК THPO имеет сложную организацию со множеством пкОРС, из которых 7я пкОРС перекрывается с основной ОРС. Удивительно, но вопреки предположениям, мРНК THPO не под вергается действию механизма нонсенсопосре дованной деградации в клетках [117]; A2AR (A2A Adenosine Receptor) [118], аденозино вый рецептор, являющийся Gбелком и главной мишенью кофеина. мРНК в дополнение к основ ной ОРС содержит альтернативную пкОРС (обо значенную как uORF5), простирающуюся в преде лы основной ОРС и направляющую синтез 134а.к. полипептида в клетках; Shank1, кодирующий постсинаптический бе локноситель Shank1 [65]. Лидерная последова тельность мРНК этого гена содержит три пкОРС, из которых пкОРС3, начинающаяся в 5'лидер ной области мРНК и терминирующаяся в преде лах основной ОРС, повидимому, принимает уча стие в контроле трансляции основной ОРС. Кро ме того, анализ 5'лидерной области мРНК выявил дополнительную пкОРС с НСК, влияю щую на экспрессию Shank1. Мутация НСК при водит к почти полной потере инициации транс ляции в AUGкодоне основной ОРС. Долгое время исследователи с недоверием от носились к вероятности кодирующего потенциа ла пкОРС и отводили им только цисрегулятор ную функцию в трансляционном контроле ос новного ГКБ. Оказалось, что некоторые пкОРС транслируются и обеспечивают синтез в клетке кПЕП. Считают, что эти кПЕП в эволюции изна чально были побочными продуктами трансля ции, а затем “закрепились” и приобрели свою трансфункциональность [119]. Вообще, протеом эукариот содержит разнообразные кПЕП, коди руемые пкОРС с НСК [34, 120, 121]. кОРС с НСК длиной в среднем 75 кодонов могут перекрывать ся с основной ОРС [43]. Компьютерный анализ выявляет множество кОРС с НСК в 5'лидерной области мРНК дрожжей и млекопитающих и предсказывает нуклеотидные последовательно сти в окружении НСК, которые более предпочти тельны для рибосом, чем контекст по М. Козак [122]. Однако экспериментальная проверка не подтверждает этого предсказания. Использова ние модельных конструкций на основе гена FRAT2 (Frequently rearranged in advanced Tcell lym phomas 2) с использованием двух белковых меток показывает [43], что “правильный” контекст по М. Козак повышает синтез кПЕП, синтезирую ГЕНЕТИКА том 52 №2 2016 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ щегося с НСК. Удаление НСК, такого как ACG, отменяет синтез кПЕП. Мутация ACGкодона в канонический AUGкодон стимулирует синтез кПЕП, но полностью подавляет трансляцию ос новной ОРС. Последнее указывает на трансля цию основной ОРС с помощью механизма “про скальзывающего” сканирования [43]. Механизм узнавания НСК неясен, но, повидимому, не об ходится без участия eIF1. Этот фактор инициации трансляции играет важную роль в выборе стартово го кодона. В его отсутствие сканирующая рибосома не в состоянии различить не только неAUG и AUGкодон, но и оптимальный контекст по М. Козак [123]. Более того, избыточная экспрессия в клетках eIF1 отменяет инициацию с НСК [124]. кОРС В 3'НЕКОДИРУЮЩЕЙ ПОСЛЕДОВАТЕЛЬНОСТИ мРНК В отличие от 5'лидерных последовательно стей мРНК поиск функциональных кОРС в 3'не транслируемой последовательности мРНК счита ется бесперспективным [34, 64]. В принципе можно ожидать присутствие множества кОРС, поскольку длина 3'нетранслируемого участка, как правило, гораздо больше, чем 5'лидерной последовательности [39]. Действительно, анализ RefSeq банка (http://www.ncbi.nlm.nih.gov/refseq/) на присутствие кОРС в 3'нетранслируемой по следовательности мРНК человека и мыши вы явил большое число кОРС, потенциальных для синтеза кПЕП [39, 84]. Тем не менее синтез кПЕП с рамок, расположенных в 3'последовательности мРНК, судя по всему, редкое событие, поскольку по данным рибосомного профайлинга эта об ласть мРНК почти лишена рибосом [41, 64, 78]. В настоящее время известен только один случай, когда кОРС в 3'нетранслируемой последователь ности мРНК генагомолога MRVI1 человека была способна обеспечивать синтез функционального кПЕП. Этот кПЕП был идентифицирован мето дом массспектрометрии, а в последующем опре делена его способность перемещаться в ядро клетки и связываться с белком 1 восприимчиво сти к раку молочной железы (BRCA1) [84]. ПРИСУТСТВИЕ кОРС И “ГЕНОВМАТРЕШЕК” В ГЕНОМЕ РАСТЕНИЙ Считается, что кПЕП, кодируемые кОРС раз мером более 150 кодонов, играют важную роль в росте и развитии растений [36]. Исследование ге нома A. thaliana с использованием протеогеном ных методов позволило выявить 18024 кПЕП, ко торые не соответствуют ранее аннотированным генам, т.е. о существовании соответствующих кОРС до этого момента не подозревали [125]. В дальнейшем при анализе генома выявлены при ГЕНЕТИКА том 52 №2 2016 157 мерно 8000 кОРС с высоким потенциалом коди рования в межгенных регионах генома A. thaliana [126]. Проведен функциональный анализ 473 меж генных кОРС, соответствующих жестким критери ям отбора, включая создание трансгенных растний. Среди них 49 тестируемых кОРС на трансгенах при водили к изменению фенотипа растений, указывая на их регуляторную роль [126]. Пример присутствия функциональной кОРС в некодирующих РНК дает недавнее обнаружение кОРС в предшественниках микроРНК (primiRNA), primiR171b и primiR165a, в растениях соответ ственно Medicago truncatula и A. thaliana [44, 45]. Такие primiRNA, по всей видимости, избегают процессинга и транспортируются из ядра в цито плазму для трансляции c кОРС кПЕП, который транспортируется в ядро, действует в качестве эн хансера экспрессии генов primiRNA и способ ствует накоплению своей зрелой микроРНК. В связи с этим открытием возникает вопрос, может ли такая бифункциональная микроРНК быть классифицирована как мРНК. мРНК растений содержит множество кОРС как в области 5'лидерной последовательности, так и кОРС, перекрывающиеся с основной ОРС [127–129]. По оценкам, примерно 20% лидерных последовательностей ГКБ A. thaliana содержат пкОРС [109]. Как и у животных, пкОРС растений функционируют в качестве барьера и регулятора трансляции основной ОРС. Такой взгляд недавно убедительно подтвердил проведенный рибосом ный профайлинг транскриптома A. thaliana в нор ме и стрессовых условиях [130]. Что касается доказанного синтеза кПЕП при трансляции “вложенных” кОРС “геновматре шек”, растения дают еще меньше примеров, чем животные. Недавно идентифицирована кОРС, названная Zm908p11, в геноме кукурузы [131] при использовании стратегии Ханады с соавт. [126]. мРНК гена Zm908, который транскрипционно ак тивен преимущественно в пыльце кукурузы, содер жит несколько “вложенных” кОРС, причем самая длинная кОРС, обозначенная как Zm908p11, по тенциально кодирует кПЕП длиной 97 а.к. (рис. 6). Эктопическая экспрессия гена табака Zm908 со “вложенной” кОРС Zm908p11 приводит к образо ванию дефектной пыльцы. Введение мутаций в ген Zm908 со сдвигом рамки считывания или мутагенез только Zm908p11 восстанавливают нормальное раз витие пыльцы. С другой стороны, избыточная экс прессия Zm908p11 в кукурузе снижает эффектив ность прорастания пыльцы. Скрининг библиотеки кДНК пыльцы и исследование белокбелковых вза имодействий показали, что Zm908p11 взаимодей ствует с кукурузным профилином 1 (ZmPRO1), участвующим в биогенезе актина. Авторами предложен механизм, по которому Zm908p11 свя зывается с профилином в качестве нового лиган 158 ШЕШУКОВА и др. –225 1 697 5'HTO ATG 990 TGA 1259 1758 3'HTO +1 756 816 876 936 990 (+1) Рис. 6. ОРС в составе гена Zm908 кукурузы кодирует пептид Zm908p11. Схематическое изображение гена Zm908: обо значены 5' и 3'нетранслируемые области (НТО), кодирующая часть (темный прямоугольник) и внутренняя (+1) ОРС (светлый прямоугольник), нуклеотидная последовательность которой приведена ниже. Старт и стопкодоны выделе ны жирным шрифтом и прямоугольниками. Представлена аминокислотная последовательность пептида Zm908p11 длиной 97 а.к. да и нарушает динамическое равновесие между актином и профилином во время роста пыльце вой трубки в кукурузе [131]. ЗАКЛЮЧЕНИЕ 1. Существование кОРС и мРНК с альтерна тивными стартовыми кодонами расширяет наше представление о функциях и возможностях ГКБ. Хотя на сегодняшний день известно относитель но немного транскриптов, кодирующих два раз личных экспериментально подтвержденных бел ковых продукта, биоинформационный анализ предсказывает распространенность “геновмат решек”. 2. Идентификация предполагаемых “генов матрешек” основывается на межвидовом сравне нии последовательностей для выявления консер вативных последовательностей; анализе содержа ния кодонов и особенностей кодирования; ана лизе транскрипции и трансляции вероятных “геновматрешек”. 3. В настоящее время доказано существование в геноме человека четырех “геновматрешек” с “вложенной” ОРС, которая располагается в пре делах основной ОРС: TYRP1, CASP1, ген прион ного белка PRP и ATXN1, в то время как растения дают только один пример “генаматрешки” – это ген кукурузы Zm908. 4. До сих пор не выявлена регуляторная роль “вложенного” гена в структуре известных “генов матрешек”. Однако недавно описанная регуля торная функция продукта кОРС в составе “неко дирующей” primiRNA у растений (см. выше) позволяет предсказать существование регулятор ных “вложенных” ОРС, расположенных в преде лах основной ОРС. Работа была выполнена при финансовой под держке РФФИ в рамках научных проектов 1404 00109_а, 153420014_мол_а_вед, 1634 60002_мол_а_дк (ТВК) и подпрограммы “Гено фонды живой природы и их сохранение” Про граммы фундаментальных исследований Прези диума РАН “Биоразнообразие природных си стем” (Ю.Л.Д.), а также стипендии Президента Российской Федерации для молодых ученых (А.В.Ш.). СПИСОК ЛИТЕРАТУРЫ 1. Griffiths P.E., Stotz K. Genes in the postgenomic era // Theor. Med. Bioeth. 2006. V. 27. № 6. P. 499–521. DOI: 10.1007/s110170069020y. 2. Gerstein M.B., Bruce C., Rozowsky J.S. et al. What is a gene, postENCODE? History and updated definition // Genome Res. 2007. V. 17. № 6. P. 669– 681. DOI: 10.1101/gr.6339607. 3. Rogic S., Mackworth A.K., Ouellette F.B. Evaluation of genefinding programs on mammalian sequences // Genome Res. 2001. V. 11. № 5. P. 817–832. DOI: 10.1101/gr.147901. 4. Chow L.T., Gelinas R.E., Broker T.R., Roberts R.J. An amazing sequence arrangement at the 5' ends of aden ovirus 2 messenger RNA // Cell. 1977. V. 12. № 1. P. 1–8. 5. Brosius J. The fragmented gene // Ann. N.Y. Acad. Sci. 2009. V. 1178. P. 186–193. DOI: 10.1111/j.1749 6632.2009.05004.x. 6. Yazaki J., Gregory B.D., Ecker J.R. Mapping the ge nome landscape using tiling array technology // Curr. Opin. Plant Biol. 2007. V. 10. № 5. P. 534–542. DOI: 10.1016/j.pbi.2007.07.006. ГЕНЕТИКА том 52 №2 2016 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ 7. Mortazavi A., Williams B.A., McCue K. et al. Mapping and quantifying mammalian transcriptomes by RNA Seq // Nat. Methods. 2008. V. 5. № 7. P. 621–628. DOI: 10.1038/nmeth.1226. 8. The ENCODE Project Consortium. Identification and analysis of functional elements in 1% of the human ge nome by the ENCODE pilot project // Nature. 2007. V. 447. № 7146. P. 799–816. DOI: 10.1038/ nature05874. 9. Mercer T.R., Mattick J.S. Understanding the regulato ry and transcriptional complexity of the genome through structure // Genome Res. 2013. V. 23. № 7. P. 1081–1088. DOI: 10.1101/gr.156612.113. 10. Mercer T.R., Clark M.B., Andersen S.B. et al. Genome wide discovery of human splicing branchpoints // Ge nome Res. 2015. V. 25. № 2. P. 290–303. DOI: 10.1101/gr.182899.114. 11. Baboo S., Cook P.R. “Dark matter” worlds of unstable RNA and protein // Nucl. Austin Tex. 2014. V. 5. № 4. P. 281–286. DOI: 10.4161/nucl.29577. 12. Goldman S.R., Ebright R.H., Nickels B.E. Direct de tection of abortive RNA transcripts in vivo // Science. 2009. V. 324. № 5929. P. 927–928. DOI: 10.1126/sci ence.1169237. 13. Kapranov P., St Laurent G. Dark Matter RNA: Exist ence, Function, and Controversy // Front. Genet. 2012. V. 3. P. 60. DOI: 10.3389/fgene.2012.00060. 14. Pearson H. Genetics: what is a gene? // Nature. 2006. V. 441. № 7092. P. 398–401. DOI: 10.1038/441398a. 15. Raabe C.A., Brosius J. Does every transcript originate from a gene? // Ann. N.Y. Acad. Sci. 2015. V. 1341. P. 136–148. DOI: 10.1111/nyas.12741. 16. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome // Nature. 2001. V. 409. № 6822. P. 860–921. DOI: 10.1038/35057062. 17. Liang F., Holt I., Pertea G. et al. Gene index analysis of the human genome estimates approximately 120,000 genes // Nat. Genet. 2000. V. 25. № 2. P. 239–240. DOI: 10.1038/76126. 18. Claverie J.M. Gene number. What if there are only 30,000 human genes? // Science. 2001. V. 291. № 5507. P. 1255–1257. 19. Ezkurdia I., Juan D., Rodriguez J.M. et al. Multiple ev idence strands suggest that there may be as few as 19,000 human proteincoding genes // Hum. Mol. Genet. 2014. V. 23. № 22. P. 5866–5878. DOI: 10.1093/hmg/ddu309. 20. Flicek P., Amode M.R., Barrell D. et al. Ensembl 2014 // Nucl. Acids Res. 2014. V. 42. № Database is sue. P. 749–755. DOI: 10.1093/nar/gkt1196. 21. Bamshad M.J., Chong J.X., Buckingham K.J. et al. The Genetic Basis of mendelian phenotypes: Discoveries, challenges, and opportunities // Am. J. Hum. Genet. 2015. V. 97. № 2. P. 199–215. DOI: 10.1016/j.ajhg.2015.06.009. 22. Tattini L., D’ Aurizio R., Magi A. Detection of genomic structural variants from nextgeneration sequencing data // Front. Bioeng. Biotechnol. 2015. V. 3. P. 92. DOI: 10.3389/fbioe.2015.00092. 23. Harrison P.M., Kumar A., Lang N. et al. A question of size: the eukaryotic proteome and the problems in de ГЕНЕТИКА том 52 №2 2016 159 fining it // Nucl. Acids Res. 2002. V. 30. № 5. P. 1083– 1090. 24. Sudmant P.H., Mallick S., Nelson B.J. et al. Global di versity, population stratification, and selection of hu man copy number variation // Science. 2015. P. aab3761. DOI: 10.1126/science.aab3761. 25. Журавлева Г.А. Рождение и смерть генов // Гене тика. 2015. Т. 51. № 1. С. 9–21. DOI: 10.1134/ S1022795415010159. 26. Jeffery C.J. Moonlighting proteins: old proteins learn ing new tricks // Trends Genet. 2003. V. 19. № 8. P. 415–417. DOI: 10.1016/S01689525(03)001677. 27. Jung D.W., Kim W.H., Williams D.R. Chemical ge netics and its application to moonlighting in glycolytic enzymes // Biochem. Soc. Trans. 2014. V. 42. № 6. P. 1756–1761. DOI: 10.1042/BST20140201. 28. Dorokhov Y.L., Komarova T.V., Petrunia I.V. et al. Methanol may function as a crosskingdom signal // PLoS One. 2012. V. 7. № 4. P. e36122. DOI: 10.1371/journal.pone.0036122. 29. Shindyapina A.V., Petrunia I.V., Komarova T.V. et al. Dietary methanol regulates human gene activity // PLoS One. 2014. V. 9. № 7. P. e102837. DOI: 10.1371/journal.pone.0102837. 30. Xu H., Wang P., Fu Y. et al. Length of the ORF, posi tion of the first AUG and the Kozak motif are impor tant factors in potential dualcoding transcripts // Cell Res. 2010. V. 20. № 4. P. 445–457. DOI: 10.1038/ cr.2010.25. 31. Gibson C.W., Thomson N.H., Abrams W.R., Kirkham J. Nested genes: biological implications and use of AFM for analysis // Gene. 2005. V. 350. № 1. P. 15–23. DOI: 10.1016/j.gene.2004.12.045. 32. Ho M.R., Tsai K.W., Lin W. A unified framework of overlapping genes: towards the origination and en dogenic regulation // Genomics. 2012. V. 100. № 4. P. 231–239. DOI: 10.1016/j.ygeno.2012.06.011. 33. Ribrioux S., Brüngger A., Baumgarten B. et al. Bioin formatics prediction of overlapping frameshifted translation products in mammalian transcripts // BMC Genomics. 2008. V. 9. P. 122. DOI: 10.1186/ 147121649122. 34. Andrews S.J., Rothnagel J.A. Emerging evidence for functional peptides encoded by short open reading frames // Nat. Rev. Genet. 2014. V. 15. № 3. P. 193– 204. DOI: 10.1038/nrg3520. 35. Hayden C.A., Bosco G. Comparative genomic analysis of novel conserved peptide upstream open reading frames in Drosophila melanogaster and other dipteran species // BMC Genomics. 2008. V. 9. P. 61. DOI: 10.1186/14712164961. 36. Yang X., Tschaplinski T.J., Hurst G.B. et al. Discovery and annotation of small proteins using genomics, pro teomics, and computational approaches // Genome Res. 2011. V. 21. № 4. P. 634–641. DOI: 10.1101/ gr.109280.110. 37. Law G.L., Raney A., Heusner C., Morris D.R. Polyamine regulation of ribosome pausing at the up stream open reading frame of Sadenosylmethionine decarboxylase // J. Biol. Chem. 2001. V. 276. № 41. P. 38036–38043. DOI: 10.1074/jbc.M105944200. 160 ШЕШУКОВА и др. 38. Iacono M., Mignone F., Pesole G. uAUG and uORFs in human and rodent 5' untranslated mRNAs // Gene. 2005. V. 349. P. 97–105. DOI: 10.1016/ j.gene.2004.11.041. 39. Crowe M.L., Wang X.Q., Rothnagel J.A. Evidence for conservation and selection of upstream open reading frames suggests probable encoding of bioactive pep tides // BMC Genomics. 2006. V. 7. P. 16. DOI: 10.1186/14712164716. 40. Mercer T.R., Wilhelm D., Dinger M.E. et al. Expression of distinct RNAs from 3' untranslated regions // Nucl. Acids Res. 2011. V. 39. № 6. P. 2393–2403. DOI: 10.1093/nar/gkq1158. 41. Chew G.L., Pauli A., Rinn J.L. et al. Ribosome profil ing reveals resemblance between long noncoding RNAs and 5' leaders of coding RNAs // Dev. Camb. Engl. 2013. V. 140. № 13. P. 2828–2834. DOI: 10.1242/dev.098343. 42. Ladoukakis E., Pereira V., Magny E.G. et al. Hundreds of putatively functional small open reading frames in Drosophila // Genome Biol. 2011. V. 12. № 11. P. R118. DOI: 10.1186/gb20111211r118. 43. Slavoff S.A., Mitchell A.J., Schwaid A.G. et al. Pepti domic discovery of short open reading frameencoded peptides in human cells // Nat. Chem. Biol. 2013. V. 9. № 1. P. 59–64. DOI: 10.1038/nchembio.1120. 44. Lauressergues D., Couzigou J.M., Clemente H.S. et al. Primary transcripts of microRNAs encode regulatory peptides // Nature. 2015. V. 520. № 7545. P. 90–93. DOI: 10.1038/nature14346. 45. Waterhouse P.M., Hellens R.P. Plant biology: Coding in noncoding RNAs // Nature. 2015. V. 520. № 7545. P. 41–42. DOI: 10.1038/nature14378. 46. Brent M.R., Guigó R. Recent advances in gene struc ture prediction // Curr. Opin. Struct. Biol. 2004. V. 14. № 3. P. 264–272. DOI: 10.1016/j.sbi.2004.05.007. 47. Wang J., Li S., Zhang Y. et al. Vertebrate gene predic tions and the problem of large genes // Nat. Rev. Gen et. 2003. V. 4. № 9. P. 741–749. DOI: 10.1038/ nrg1160. 48. Sleator R.D. An overview of the current status of eukary ote gene prediction strategies // Gene. 2010. V. 461. № 1–2. P. 1–4. DOI: 10.1016/ j.gene.2010.04.008. 49. Frith M.C., Forrest A.R., Nourbakhsh E. et al. The abundance of short proteins in the mammalian pro teome // PLoS Genet. 2006. V. 2. № 4. P. e52. DOI: 10.1371/journal.pgen.0020052. 50. Hanada K., Zhang X., Borevitz J.O. et al. A large num ber of novel coding small open reading frames in the intergenic regions of the Arabidopsis thaliana genome are transcribed and/or under purifying selection // Genome Res. 2007. V. 17. № 5. P. 632–640. DOI: 10.1101/gr.5836207. 51. Cheng H., Chan W.S., Li Z. et al. Small open reading frames: current prediction techniques and future pros pect // Curr. Protein Pept. Sci. 2011. V. 12. № 6. P. 503–507. 52. Hanada K., Akiyama K., Sakurai T. et al. sORF finder: a program package to identify small open reading frames with high coding potential // Bioinform. Oxf. Engl. 2010. V. 26. № 3. P. 399–400. DOI: 10.1093/bio informatics/btp688. 53. Vanderperre B., Lucier J.F., Roucou X. HAltORF: a database of predicted outofframe alternative open reading frames in human // Database J. Biol. Databas es Curation. 2012. V. 2012. P. bas025. DOI: 10.1093/database/bas025. 54. Skarshewski A., StantonCook M., Huber T. et al. uP EPperoni: an online tool for upstream open reading frame location and analysis of transcript conservation // BMC Bioinformatics. 2014. V. 15. P. 36. DOI: 10.1186/147121051536. 55. Zhang Z., Dietrich F.S. Identification and character ization of upstream open reading frames (uORF) in the 5' untranslated regions (UTR) of genes in Saccha romyces cerevisiae // Curr. Genet. 2005. V. 48. № 2. P. 77–87. DOI: 10.1007/s002940050001x. 56. Clamp M., Fry B., Kamal M. et al. Distinguishing pro teincoding and noncoding genes in the human ge nome // Proc. Natl Acad. Sci. USA. 2007. V. 104. № 49. P. 19428–19433. DOI: 10.1073/pnas. 0709013104. 57. Kozak M. An analysis of 5'noncoding sequences from 699 vertebrate messenger RNAs // Nucl. Acids Res. 1987. V. 15. № 20. P. 8125–8148. 58. Noderer W.L., Flockhart R.J., Bhaduri A. et al. Quan titative analysis of mammalian translation initiation sites by FACSseq // Mol. Syst. Biol. 2014. V. 10. P. 748. 59. Karlin S., Campbell A.M., Mrázek J. Comparative DNA analysis across diverse genomes // Annu. Rev. Genet. 1998. V. 32. P. 185–225. DOI: 10.1146/an nurev.genet.32.1.185. 60. Bateman A., Coin L., Durbin R. et al. The Pfam protein families database // Nucl. Acids Res. 2004. V. 32. № Database issue. P. 138–141. DOI: 10.1093/nar/ gkh121. 61. Castrignanò T., Canali A., Grillo G. et al. CSTminer: a web tool for the identification of coding and noncod ing conserved sequence tags through crossspecies ge nome comparison // Nucl. Acids Res. 2004. V. 32. № Web Server issue. P. 624–627. DOI: 10.1093/nar/ gkh486. 62. Badger J.H., Olsen G.J. CRITICA: coding region iden tification tool invoking comparative analysis // Mol. Biol. Evol. 1999. V. 16. № 4. P. 512–524. 63. Kong L., Zhang Y., Ye Z.Q. et al. CPC: assess the pro teincoding potential of transcripts using sequence features and support vector machine // Nucl. Acids Res. 2007. V. 35. № Web Server issue. P. 345–349. DOI: 10.1093/nar/gkm391. 64. Ingolia N.T., Lareau L.F., Weissman J.S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes // Cell. 2011. V. 147. № 4. P. 789–802. DOI: 10.1016/ j.cell.2011.10.002. 65. Studtmann K., OlschlägerSchütt J., Buck F. et al. A noncanonical initiation site is required for efficient trans lation of the dendritically localized Shank1 mRNA // PLoS One. 2014. V. 9. № 2. P. e88518. DOI: 10.1371/journal.pone.0088518. 66. Ingolia N.T., Ghaemmaghami S., Newman J.R.S., Weissman J.S. Genomewide analysis in vivo of trans lation with nucleotide resolution using ribosome pro ГЕНЕТИКА том 52 №2 2016 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ filing // Science. 2009. V. 324. № 5924. P. 218–223. DOI: 10.1126/science.1168978. 67. Ivanov I.P., Firth A.E., Michel A.M. et al. Identifica tion of evolutionarily conserved nonAUGinitiated Nterminal extensions in human coding sequences // Nucl. Acids Res. 2011. V. 39. № 10. P. 4220–4234. DOI: 10.1093/nar/gkr007. 68. Carninci P., Sandelin A., Lenhard B. et al. Genome wide analysis of mammalian promoter architecture and evolution // Nat. Genet. 2006. V. 38. № 6. P. 626– 635. DOI: 10.1038/ng1789. 69. The FANTOM Consortium and Riken Omics Science Center. The transcriptional network that controls growth arrest and differentiation in a human myeloid leukemia cell line // Nat. Genet. 2009. V. 41. № 5. P. 553–562. DOI: 10.1038/ng.375. 70. Kodzius R., Kojima M., Nishiyori H. et al. CAGE: cap analysis of gene expression // Nat. Methods. 2006. V. 3. № 3. P. 211–222. DOI: 10.1038/nmeth0306211. 71. Ni T., Corcoran D.L., Rach E.A. et al. A pairedend se quencing strategy to map the complex landscape of transcription initiation // Nat. Methods. 2010. V. 7. № 7. P. 521–527. DOI: 10.1038/nmeth.1464. 72. Plessy C., Bertin N., Takahashi H. et al. Linking pro moters to functional transcripts in small samples with nanoCAGE and CAGEscan // Nat. Methods. 2010. V. 7. № 7. P. 528–534. DOI: 10.1038/nmeth.1470. 73. Batut P., Dobin A., Plessy C. et al. Highfidelity pro moter profiling reveals widespread alternative promot er usage and transposondriven developmental gene expression // Genome Res. 2013. V. 23. № 1. P. 169– 180. DOI: 10.1101/gr.139618.112. 74. Andreev D.E., O’Connor P.B.F., Fahey C. et al. Trans lation of 5' leaders is pervasive in genes resistant to eIF2 repression // eLife. 2015. V. 4. P. e03971. DOI: 10.7554/eLife.03971. 75. Andreev D.E., O’Connor P.B.F., Zhdanov A.V. et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes // Genome Biol. 2015. V. 16. P. 90. DOI: 10.1186/ s130590150651z. 76. Huang M.T. Harringtonine, an inhibitor of initiation of protein biosynthesis // Mol. Pharmacol. 1975. V. 11. № 5. P. 511–519. 77. Menschaert G., Van Criekinge W., Notelaers T. et al. Deep proteome coverage based on ribosome profiling aids mass spectrometrybased protein and peptide dis covery and provides evidence of alternative translation products and nearcognate translation initiation events // Mol. Cell. Proteomics. 2013. V. 12. № 7. P. 1780–1790. DOI: 10.1074/mcp.M113.027540. 78. Guttman M., Russell P., Ingolia N.T. et al. Ribosome profiling provides evidence that large noncoding RNAs do not encode proteins // Cell. 2013. V. 154. № 1. P. 240–251. DOI: 10.1016/j.cell.2013.06.009. 79. LykkeAndersen J., Bennett E.J. Protecting the pro teome: Eukaryotic cotranslational quality control pathways // J. Cell Biol. 2014. V. 204. № 4. P. 467– 476. DOI: 10.1083/jcb.201311103. 80. Boisvert F.M., Ahmad Y., Gierlin’ski M. et al. A quan titative spatial proteomics analysis of proteome turn over in human cells // Mol. Cell. Proteomics. 2012. V. ГЕНЕТИКА том 52 №2 2016 161 11. № 3. P. M111.011429. DOI: 10.1074/ mcp.M111.011429. 81. Fritsch C., Herrmann A., Nothnagel M. et al. Genome wide search for novel human uORFs and Nterminal protein extensions using ribosomal footprinting // Ge nome Res. 2012. V. 22. № 11. P. 2208–2218. DOI: 10.1101/gr.139568.112. 82. Krug K., Nahnsen S., Macek B. Mass spectrometry at the interface of proteomics and genomics // Mol. Bio syst. 2011. V. 7. № 2. P. 284–291. DOI: 10.1039/ c0mb00168f. 83. Chu Q., Ma J., Saghatelian A. Identification and char acterization of sORFencoded polypeptides // Crit. Rev. Biochem. Mol. Biol. 2015. V. 50. № 2. P. 134– 141. DOI: 10.3109/10409238.2015.1016215. 84. Vanderperre B., Lucier J.F., Bissonnette C. et al. Direct detection of alternative open reading frames transla tion products in human significantly expands the pro teome // PLoS One. 2013. V. 8. № 8. P. e70698. DOI: 10.1371/journal.pone.0070698. 85. Oyama M., Itagaki C., Hata H. et al. Analysis of small human proteins reveals the translation of upstream open reading frames of mRNAs // Genome Res. 2004. V. 14. № 10B. P. 2048–2052. DOI: 10.1101/ gr.2384604. 86. Oyama M., KozukaHata H., Suzuki Y. et al. Diversity of translation start sites may define increased complex ity of the human short ORFeome // Mol. Cell. Pro teomics. 2007. V. 6. № 6. P. 1000–1006. DOI: 10.1074/mcp.M600297MCP200. 87. Michel A.M., Choudhury K.R., Firth A.E. et al. Obser vation of dually decoded regions of the human genome using ribosome profiling data // Genome Res. 2012. V. 22. № 11. P. 2219–2229. DOI: 10.1101/ gr.133249.111. 88. Sanna C.R., Li W.H., Zhang L. Overlapping genes in the human and mouse genomes // BMC Genomics. 2008. V. 9. P. 169. DOI: 10.1186/147121649169. 89. Kim D.S., Cho C.Y., Huh J.W. et al. EVOG: a data base for evolutionary analysis of overlapping genes // Nucl. Acids Res. 2009. V. 37. № Database issue. P. 698–702. DOI: 10.1093/nar/gkn813. 90. Ho M.R., Tsai K.W., Lin W. A unified framework of overlapping genes: towards the origination and en dogenic regulation // Genomics. 2012. V. 100. № 4. P. 231–239. DOI: 10.1016/j.ygeno.2012.06.011. 91. Черезов Р.О., Симонова О.Б. Перекрывающиеся ге ны и антисмысловая транскрипция у эукариот // Генетика. 2014. Т. 50. № 7. С. 749–765. 92. Johnson Z.I., Chisholm S.W. Properties of overlapping genes are conserved across microbial genomes // Ge nome Res. 2004. V. 14. № 11. P. 2268–2272. DOI: 10.1101/gr.2433104. 93. Uetz P., Rajagopala S.V., Dong Y.A., Haas J. From ORFeomes to protein interaction maps in viruses // Genome Res. 2004. V. 14. № 10b. P. 2029–2033. DOI: 10.1101/gr.2583304. 94. Keese P.K., Gibbs A. Origins of genes: “big bang” or continuous creation? // Proc. Natl Acad. Sci. USA. 1992. V. 89. № 20. P. 9489–9493. 162 ШЕШУКОВА и др. 95. Yu P., Ma D., Xu M. Nested genes in the human ge nome // Genomics. 2005. V. 86. № 4. P. 414–422. DOI: 10.1016/j.ygeno.2005.06.008. 96. Gao C., Xiao M., Ren X. et al. Characterization and functional annotation of nested transposable elements in eukaryotic genomes // Genomics. 2012. V. 100. № 4. P. 222–230. DOI: 10.1016/j.ygeno.2012.07.004. 97. Kumar A. An overview of nested genes in eukaryotic genomes // Eukaryot. Cell. 2009. V. 8. № 9. P. 1321– 1329. DOI: 10.1128/EC.0014309. 98. Wang R.F., Parkhurst M.R., Kawakami Y. et al. Utili zation of an alternative open reading frame of a normal gene in generating a novel human cancer antigen // J. Exp. Med. 1996. V. 183. № 3. P. 1131–1140. 99. Ronsin C., ChungScott V., Poullion I. et al. A non AUGdefined alternative open reading frame of the intestinal carboxyl esterase mRNA generates an epitope recognized by renal cell carcinomareactive tumorinfiltrating lymphocytes in situ // J. Immunol. 1999. V. 163. № 1. P. 483–490. 100. Chung W.Y., Wadhawan S., Szklarczyk R. et al. A first look at ARFome: dualcoding genes in mammalian genomes // PLoS Comput. Biol. 2007. V. 3. № 5. P. e91. DOI: 10.1371/journal.pcbi.0030091. 101. Topalian S.L., Solomon D., Avis F.P. et al. Immuno therapy of patients with advanced cancer using tumor infiltrating lymphocytes and recombinant interleukin2: a pilot study // J. Clin. Oncol. 1988. V. 6. № 5. P. 839– 853. 102. Wang R.F., Robbins P.F., Kawakami Y. et al. Identifi cation of a gene encoding a melanoma tumor antigen recognized by HLAA31restricted tumorinfiltrating lymphocytes // J. Exp. Med. 1995. V. 181. № 2. P. 799–804. 103. Wang R.F., Rosenberg S.A. Human tumor antigens recognized by T lymphocytes: implications for cancer therapy // J. Leukoc. Biol. 1996. V. 60. № 3. P. 296– 309. 104. Vanderperre B., Staskevicius A.B., Tremblay G. et al. An overlapping reading frame in the PRNP gene encodes a novel polypeptide distinct from the prion protein // FASEB J. 2011. V. 25. № 7. P. 2373–2386. DOI: 10.1096/fj.10173815. 105. Orr H.T., Chung M.Y., Banfi S. et al. Expansion of an unstable trinucleotide CAG repeat in spinocerebellar ataxia type 1 // Nat. Genet. 1993. V. 4. № 3. P. 221– 226. DOI: 10.1038/ng0793221. 106. Bergeron D., Lapointe C., Bissonnette C. et al. An out offrame overlapping reading frame in the ataxin1 coding sequence encodes a novel ataxin1 interacting protein // J. Biol. Chem. 2013. V. 288. № 30. P. 21824–21835. DOI: 10.1074/jbc.M113.472654. 107. Somers J., Pöyry T., Willis A.E. A perspective on mam malian upstream open reading frame function // Int. J. Biochem. Cell Biol. 2013. V. 45. № 8. P. 1690–1700. DOI: 10.1016/j.biocel.2013.04.020. 108. Calvo S.E., Pagliarini D.J., Mootha V.K. Upstream open reading frames cause widespread reduction of protein expression and are polymorphic among hu mans // Proc. Natl Acad. Sci. USA. 2009. V. 106. № 18. P. 7507–7512. DOI: 10.1073/pnas.0810916106. 109. Jorgensen R.A., DorantesAcosta A.E. Conserved Pep tide Upstream Open Reading Frames are Associated with Regulatory Genes in Angiosperms // Front. Plant Sci. 2012. V. 3. P. 191. DOI: 10.3389/fpls.2012.00191. 110. Wethmar K., Smink J.J., Leutz A. Upstream open read ing frames: molecular switches in (patho)physiology // BioEssays News Rev. Mol. Cell. Dev. Biol. 2010. V. 32. № 10. P. 885–893. DOI: 10.1002/bies.201000037. 111. Wiestner A., Schlemper R.J., van der Maas A.P., Skoda R.C. An activating splice donor mutation in the thrombopoietin gene causes hereditary thromb ocythaemia // Nat. Genet. 1998. V. 18. № 1. P. 49–52. DOI: 10.1038/ng019849. 112. Liu L., Dilworth D., Gao L. et al. Mutation of the CDKN2A 5' UTR creates an aberrant initiation codon and predisposes to melanoma // Nat. Genet. 1999. V. 21. № 1. P. 128–132. DOI: 10.1038/5082. 113. Wen Y., Liu Y., Xu Y. et al. Lossoffunction mutations of an inhibitory upstream ORF in the human hairless transcript cause Marie Unna hereditary hypotrichosis // Nat. Genet. 2009. V. 41. № 2. P. 228– 233. DOI: 10.1038/ng.276. 114. Zhou D., Palam L.R., Jiang L. et al. Phosphorylation of eIF2 directs ATF5 translational control in response to diverse stress conditions // J. Biol. Chem. 2008. V. 283. № 11. P. 7064–7073. DOI: 10.1074/jbc.M708530200. 115. Vattem K.M., Wek R.C. Reinitiation involving up stream ORFs regulates ATF4 mRNA translation in mammalian cells // Proc. Natl Acad. Sci. USA. 2004. V. 101. № 31. P. 11269–11274. DOI: 10.1073/pnas. 0400541101. 116. Ghilardi N., Wiestner A., Skoda R.C. Thrombopoietin production is inhibited by a translational mechanism // Blood. 1998. V. 92. № 11. P. 4023–4030. 117. Stockklausner C., Breit S., NeuYilik G. et al. The uORFcontaining thrombopoietin mRNA escapes nonsensemediated decay (NMD) // Nucl. Acids Res. 2006. V. 34. № 8. P. 2355–2363. DOI: 10.1093/nar/ gkl277. 118. Lee C., Lai H.L., Lee Y.C. et al. The A2A adenosine receptor is a dual coding gene: a novel mechanism of gene usage and signal transduction // J. Biol. Chem. 2014. V. 289. № 3. P. 1257–1270. DOI: 10.1074/jbc. M113.509059. 119. Hashimoto Y., Kondo T., Kageyama Y. Lilliputians get into the limelight: novel class of small peptide genes in morphogenesis // Dev. Growth Differ. 2008. V. 50 Suppl 1. P. S269–S276. DOI: 10.1111/j.1440 169X.2008.00994.x. 120. Van Damme P., Gawron D., Van Criekinge W., Men schaert G. Nterminal proteomics and ribosome profil ing provide a comprehensive view of the alternative translation initiation landscape in mice and men // Mol. Cell. Proteomics. 2014. V. 13. № 5. P. 1245– 1261. DOI: 10.1074/mcp.M113.036442. 121. Ma J., Ward C.C., Jungreis I. et al. Discovery of human sORFencoded polypeptides (SEPs) in cell lines and tissue // J. Proteome Res. 2014. V. 13. № 3. P. 1757– 1765. DOI: 10.1021/pr401280w. 122. Kochetov A.V., Prayaga P.D., Volkova O.A., San kararamakrishnan R. Hidden coding potential of eukaryotic genomes: nonAUG started ORFs // J. Bio ГЕНЕТИКА том 52 №2 2016 “ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ mol. Struct. Dyn. 2013. V. 31. № 1. P. 103–114. DOI: 10.1080/07391102.2012.691367. 123. Pestova T.V., Kolupaeva V.G. The roles of individual eukaryotic translation initiation factors in ribosomal scanning and initiation codon selection // Genes Dev. 2002. V. 16. № 22. P. 2906–2922. DOI: 10.1101/gad. 1020902. 124. Ivanov I.P., Loughran G., Sachs M.S., Atkins J.F. Initi ation context modulates autoregulation of eukaryotic translation initiation factor 1 (eIF1) // Proc. Natl Acad. Sci. U. S. A. 2010. V. 107. № 42. P. 18056–18060. DOI: 10.1073/pnas.1009269107. 125. Castellana N.E., Payne S.H., Shen Z. et al. Discovery and revision of Arabidopsis genes by proteogenomics // Proc. Natl Acad. Sci. USA. 2008. V. 105. № 52. P. 21034–21038. DOI: 10.1073/pnas.0811066106. 126. Hanada K., HiguchiTakeuchi M., Okamoto M. et al. Small open reading frames associated with morpho genesis are hidden in plant genomes // Proc. Natl Acad. Sci. USA. 2013. V. 110. № 6. P. 2395–2400. DOI: 10.1073/pnas.1213958110. 127. Vaughn J.N., Ellingson S.R., Mignone F., Arnim A., von. Known and novel posttranscriptional regulatory se quences are conserved across plant families // RNA N.Y. 2012. V. 18. № 3. P. 368–384. DOI: 10.1261/rna.031179.111. 128. Tran M.K., Schultz C.J., Baumann U. Conserved up stream open reading frames in higher plants // BMC Genomics. 2008. V. 9. P. 361. DOI: 10.1186/1471 21649361. 129. Hayden C.A., Jorgensen R.A. Identification of novel conserved peptide uORF homology groups in Arabi dopsis and rice reveals ancient eukaryotic origin of se lect groups and preferential association with transcrip tion factorencoding genes // BMC Biol. 2007. V. 5. P. 32. DOI: 10.1186/17417007532. 130. Juntawong P., Girke T., Bazin J., BaileySerres J. Translational dynamics revealed by genomewide pro filing of ribosome footprints in Arabidopsis // Proc. Natl Acad. Sci. USA. 2014. V. 111. № 1. P. E203– E212. DOI: 10.1073/pnas.1317811111. 131. Dong X., Wang D., Liu P. et al. Zm908p11, encoded by a short open reading frame (sORF) gene, functions in pollen tube growth as a profilin ligand in maize // J. Exp. Bot. 2013. V. 64. № 8. P. 2359–2372. DOI: 10.1093/jxb/ert093. “Matreshka” Genes with Alternative Reading Frames E. V. Sheshukovaa, A. V. Shindyapinaa, b, T. V. Komarovaa, b, and Yu. L. Dorokhova, b a Vavilov Institute of General Genetics, Russian Academy of Science, Moscow, 119991 Russia email: [email protected] b Belozersky Institute of PhysicoChemical Biology, Moscow State University, Moscow, 119991 Russia Although a relatively small part of the human genome contains protein encoding genes, the latest data on the discovery of alternative open reading frames (ORFs) in conventional mRNAs has highlighted the expanded coding potential of these genes. Until recently, it was believed that each mRNA transcript encodes a single protein. Recent proteogenomics data indicate the existence of exceptions to this rule, which greatly changes the usual meaning of the term “gene”. The topology of a gene with overlapping ORFs resembles a Russian “matreshka” toy. There are two levels of “matreshka” genetic systems. First, the chromosomal level, when the “nested” gene is located within introns and exons of the main chromosomal gene, both in the sense and antisense orientation relative to the external gene. The second level is a mature mRNA molecule containing overlapping ORFs or an ORF with an alternative start codon. In this review we will focus on the properties of “matreshka” genes of the second type and methods for their detection and verification. Particular attention is paid to the biological properties of the polypeptides encoded by these genes. Keywords: gene, open reading frame, alternative start codon, noncanonical start codon, “matreshka” gene. ГЕНЕТИКА том 52 №2 2016 163