“гены матрешки” с альтернативными рамками считывания

реклама
ГЕНЕТИКА, 2016, том 52, № 2, с. 146–163
ОБЗОРНЫЕ
И ТЕОРЕТИЧЕСКИЕ СТАТЬИ
УДК 575.113.152
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
© 2016 г. Е. В. Шешукова1, А. В. Шиндяпина1, 2, Т. В. Комарова1, 2, Ю. Л. Дорохов1, 2
1
Институт общей генетики им. Н.И. Вавилова Российской академии наук, Москва 119991
email: [email protected]
2
Московский государственный университет им. М.В. Ломоносова, Научноисследовательский институт
физикохимической биологии им. А.Н. Белозерского, Москва 119991
Поступила в редакцию 02.09.2015 г.
Несмотря на относительно небольшой объем человеческого генома, приходящегося на гены, коди
рующие белок, последние данные по исследованию мРНК с альтернативными отрытыми рамками
считывания (ОРС) расширили наши представления о репертуаре и возможностях этих генов. До не
давнего времени было устоявшимся мнение, что один зрелый РНКтранскрипт кодирует один бе
лок. Последние данные протеогеномики указали на существование исключения из этого правила,
которое во многом меняет привычный смысл термина “ген”. Определение и топологию гена с пе
рекрывающейся ОРС хорошо моделирует русская игрушка матрешка. Генная система “матрешка”
проявляется на двух уровнях. Первый, хромосомный уровень, когда “вложенный” ген расположен
в интронах и экзонах бóльшего хромосомного гена, причем как в смысловой, так и антисмысловой
ориентации по отношению к основному гену. Второй уровень – это зрелая молекула мРНК, содер
жащая перекрывающиеся ОРС или ОРС с альтернативными стартовыми кодонами. В обзоре мы по
дробно рассматриваем свойства “геновматрешек” второго уровня, методы их обнаружения и вери
фикации. Особое внимание уделено биологическим свойствам полипептидов, кодируемых этими
генами.
Ключевые слова: ген, открытая рамка считывания, альтернативный стартовый кодон, неканониче
ский стартовый кодон, “генматрешка”.
DOI: 10.7868/S0016675816020144
Определение понятия “ген” является слож
ным и сейчас не может обойтись без таких терми
нов, как “вложенный” ген и “перекрывающаяся
открытая рамка считывания”. Исторически появ
ление новых данных требовало изменения ранее
предложенной концепции гена. Тем не менее но
вые концепции полностью не вытеснили более
ранние дефиниции, что сделало возможным со
существование нескольких концепций гена одно
временно [1, 2]. Определение гена 70–80х гг. ХХ в.
ограничивало его областью, соответствующей
зрелой матричной РНК (мРНК), и в частности,
открытой рамкой считывания (ОРС) [3], как по
тенциально транслируемой последовательно
стью, которая состоит из смысловых кодонов в
одной рамке, начиная со стартового кодона и за
канчивая стопкодоном. В то время межгенное
пространство эукариот рассматривали в качестве
нефункционального, нетранскрибируемого про
странства. Концепции гена основывались на
предположении, что транскрипция ограничена
известными генами, кодирующими белок (ГКБ),
а также дргуими структурными генами РНК, та
кими как рРНК и тРНК. Открытие интронов [4] и
использование чувствительных методов анализа
транскриптома изменили представление о при
роде гена [5]. Микрочипы с перекрывающимися
ДНКзондами (tiling microarrays) [6] и глубокое
секвенирование РНК [7] выявили мириады тран
скриптов, которые охватывают почти весь геном
человека [8]. Кроме того, выяснилось, что разно
образие механизмов экспрессии гена определяет
ся не только количеством ГКБ, но и существова
нием альтернативных сайтов инициации тран
скрипции, альтернативного сплайсинга и
редактирования транскрипта [9, 10]. Даже протя
женные межгенные последовательности, кото
рые изначально считались лишенными какой
либо функции, оказались способными к актив
ной транскрипции. Почти каждому нуклеотиду
ДНКгенома человека соответствует нуклеотид,
включенный, по крайней мере, в один основной
РНКтранскрипт [8]. Однако к каждому полно
размерному смысловому транскрипту следует до
бавить не менее 100 коротких абортивно синтези
руемых РНК, сопровождающих его синтез [11,
12]. Осознание обилия и многообразия некодиру
ющих транскриптов было выражено в заимство
ванном у астрофизиков термине “темная мате
рия” [13].
146
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
Таким образом, существование огромного раз
нообразия РНКтранскриптов, не кодирующих
белок, привело к модификации концепции гена.
В настоящее время нет общепринятого определе
ния понятия “ген”, учитывающего особенности
его структуры и функции. В одном определении
дается широкое толкование гена как “области ге
номной последовательности, соответствующей
единице наследственности, которая связана с ре
гуляторными элементами, транскрибируемым
участком и/или другими функциональными об
ластями последовательности” [14]. В другом
определении ген – это “единица геномной после
довательности, кодирующая когерентный набор
потенциально перекрывающихся функциональ
ных продуктов” [2].
Что касается ГКБ человека, то с развитием мо
лекулярной генетики наше представление о них
менялось, причем оценочное число ГКБ все вре
мя сокращалось [15]. Так, предсказывали суще
ствование около 100000 ГКБ в начальной фазе
выполнения проекта определения полной пер
вичной структуры генома человека [16]. Потом
давали цифру 50000 [17], а затем 30000 [18]. Нако
нец, это число сократилось до 19000 ко времени
окончания проекта и последующего аннотирова
ния генов [19, 20]. Оказалось, что объем генома
человека, кодирующего белки, составляет около
1% [21, 22]. Тем не менее это относительно не
большое количество ГКБ человека, соответству
ющее объему ГКБ круглого червя Caenorhabditis
elegans [18, 23], успешно справляется со своими
функциями, приобретя в ходе эволюции допол
нительные возможности [15, 24, 25].
Вопервых, обнаружены белки со множе
ственными функциями, т.е. белки, у которых по
мимо основной давно известной функции обна
руживаются новые. Такие белки в англоязычной
литературе обозначены как moonlighting protein
(белок, имеющий “подработку”) [26]. Например,
у глицеральдегид3фосфатдегидрогеназы, белка
“домашнего хозяйства”, помимо функции глико
литического фермента обнаружены дополнитель
ные функции [27]. К этим функциям относится
участие в регуляции транскрипции, репарации
ДНК, поддержании структуры теломеры, апопто
зе, нейродегенеративных расстройствах; глице
ральдегид3фосфатдегидрогеназа также являет
ся мишенью метаболического метанола, однако
даже этим перечнем функций список не ограни
чивается [28, 29].
Вовторых, последние данные по обнаруже
нию коротких отрытых рамок считывания
(кОРС) и мРНК с альтернативными стартовыми
кодонами расширяют наше представление о
функциях и возможностях ГКБ. До недавнего
времени устоявшимся было мнение, что один
транскрипт, как правило, кодирует один белок,
ГЕНЕТИКА
том 52
№2
2016
147
но были обнаружены транскрипты, содержащие
две рамки считывания, которые кодируют два
структурно различных белковых продукта [30].
На сегодняшний день известно относительно не
много транскриптов, кодирующих два различных
экспериментально подтвержденных белковых
продукта (см. ниже), хотя многие такие гены
кандидаты предсказаны на основе биоинформа
ционного анализа. Существование ГКБ с пере
крывающимися ОРС описывается близкими по
смыслу терминами, такими как “угнезден
ный/вложенный (nested) ген” [31], “перекрываю
щиеся (overlapping) гены” [32] или более привыч
ный для русского языка “генматрешка” [33].
ПОДХОДЫ И МЕТОДЫ ВЫЯВЛЕНИЯ
“ГЕНОВМАТРЕШЕК”
Проект секвенирования генома человека рево
люционизировал нашу способность исследовать
структуру, число, порядок и расположение генов.
Традиционный молекулярнобиологический ана
лиз отдельных генов ранее требовал физического
клонирования и определения последовательно
сти ДНК для того, чтобы понять их организацию.
Биоинформационные методы совершенствовали
анализ известных генов и поиск новых. Время,
необходимое для исследования структуры гена,
значительно сократилось.
Выявление функциональных “геновматре
шек” связано прежде всего с анализом кОРС, ко
дирующих короткие пептиды (кПЕП). Вообще,
наличие кОРС – это общая черта всех геномов.
Кодирующий потенциал таких рамок в большин
стве случаев не принимается во внимание, преж
де всего изза отсутствия информации о возмож
ности образования кПЕП в клетке [34]. Послед
ние инновации в области вычислительной
техники, протеомики и высокопроизводительно
го секвенирования положили начало решению
проблемы определения стартовых сайтов и выяв
лению сотен потенциальных кОРС. Трансляция
некоторых из них была подтверждена экспери
ментально, но вклад их белковых продуктов в
клеточные функции остается в значительной сте
пени неизвестным. кОРС отличаются от всех дру
гих ОРС своим размером. Хотя полного согласия
еще нет, к разряду кОРС чаще относят рамки дли
ной меньше 200–250 кодонов [35, 36]. Доказан
ный минимальный размер кОРС ограничивается
6 кодонами [37].
Транслируемые кОРС в “генематрешке” об
наружены (рис. 1) в 5'лидерной [38–40], 3'не
транслируемой части мРНК [39], в области пере
крывания с основной ОРС [34] и, наконец, в пре
делах основной ОРС (см. ниже). Транслируемые
кОРС также выявлены в различных транскрип
тах, которые ранее считались некодирующими:
1) длинные некодирующие РНК [41], 2) межген
148
ШЕШУКОВА и др.
а
экзон 1
“вложенный”
ген
интрон
экзон 2
“вложенный”
ген
“вложенный”
ген
Хромосомная
ДНК
б
5'НТО
Основная ОРС
3'НТО
в
ADH1A
ADH1B
ADH1C
Рис. 1. “Геныматрешки”. а – хромосомный уровень: схематическое изображение геномной ДНК, содержащей “вло
женные” гены (светлосерые) как внутри интронов, так и в экзонах (темносерые); б – уровень мРНК: обозначено
пять возможных позиций “вложенной” ОРС (светлосерые прямоугольники), НТО – нетранслируемая область; в –
схема расположения экзонов гена (серые блоки) и консервативных кОРС (черные блоки) в генах человека ADH1B,
ADH1A и ADH1C.
ные области [42], 3) антисмысловые транскрипты
[43], 4) транскриптпредшественник микроРНК
[44, 45].
Идентификация предполагаемых кОРС осно
вывается на трех стратегиях, которые в принципе
аналогичны тем, что обычно используют в про
гнозировании традиционных генов: 1) межвидо
вое сравнение последовательностей кОРС для
выявления консервативных последовательно
стей; 2) анализ содержания кодонов и особенно
ГЕНЕТИКА
том 52
№2
2016
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
стей кодирования кОРС и 3) анализ транскрип
ции и трансляции вероятных кОРС [34, 46–48].
Биоинформационный поиск кОРС
В отличие от обычной кодирующей ОРС до
вольно трудно различить кодирующую и некоди
рующую кОРС. Большинство компьютерных
программ прогнозирования ОРС отличают коди
рующие последовательности от некодирующих,
выявляя 1) канонические кодоны инициации и
терминации трансляции, 2) сайты сплайсинга,
3) последовательности промоторов и 4) сигналы
полиаденилирования [46, 47, 49]. Большинство
программ предназначены в основном для оценки
потенциала кодирования ОРС, размер которых
больше чем 100 кодонов [50, 51]. Заложенные в
программах алгоритмы аннотирования гена ис
ключают потенциальные кОРС размером менее
100 кодонов и определяют их как бессмысленные
последовательности. Чаще всего эти программы
используют специальные критерии, уменьшаю
щие ложноположительную идентификацию, а
это в свою очередь выводит из анализа потенци
альнотранслируемые кОРС [49, 50].
Для компьютерного выявления потенциаль
ных кОРС обычно используют такие программы,
как sORFfinder [52], HAltORF [53] и uPEPperoni
[54]. Проведение межвидового сравнения позво
ляет определить консервативные кОРС, обращая
особое внимание на их длину и положение относи
тельно ранее идентифицированной ОРС [42, 55].
Доказательство эволюционной консервативно
сти кОРС важно, так как кОРС, не обладающая
этим признаком, скорее всего будет случайной
последовательностью, не способной направлять
синтез функциональных кПЕП [56]. В то же вре
мя кОРС, не прошедшую тест межвидового срав
нения, не следует сбрасывать со счетов a priori,
она должна быть сохранена для дальнейшего ана
лиза и поиска биологически значимых кПЕП
[34]. Межвидовой подход сравнения может быть
объединен с методами, которые анализируют со
держание последовательности и генных характе
ристик.
Вопервых, кОРС могут быть отсортированы
по контексту их стартовых кодонов. Те кОРС, у
которых стартовый кодон находится в оптималь
ном контексте по М. Козак [57], скорее всего бу
дут транслируемыми [30, 46]. К этому надо доба
вить поиск других особенностей контекста. Не
давно при использовании метода сортировки
клеток с активированной флуоресценцией и вы
сокопроизводительного секвенирования ДНК
(FACSseq) в результате анализа 65536 стартовых
кодонов мРНК млекопитающих было обнаруже
но, что мотив RYMRMVAUGGC усиливает узна
вание стартового кодона и повышает эффектив
ность трансляции [58].
2 ГЕНЕТИКА
том 52
№2
2016
149
Вовторых, потенциал кодирования кОРС мо
жет быть определен с помощью анализа состава
кодонов и тенденции их преимущественного ис
пользования [59]. Потенциально транслируемые
кОРС могут быть проанализированы на наличие
функциональных доменов, выявляемых поиском
по базе данных Pfam [60].
Наконец, можно использовать программы со
сложными алгоритмами, например Coding Index
[50], которая была разработана специально для
определения потенциала кодирования кОРС [52].
Оказываются также полезными программы, та
кие как CSTminer [61], CRITICA [62] и Coding Po
tential Calculator [63], использующие статистиче
ские методы.
При поиске кОРС надо иметь в виду также те
кОРС, которые начинаются с неканонического
стартового кодона (НСК) [64, 65]. О распростра
ненности в кОРС НСК в геноме млекопитающих
можно судить по результатам рибосомного про
файлинга – метода, основанного на секвенирова
нии защищенных рибосомой фрагментов мРНК,
дающего моментальный “снимок” процесса
трансляции. Данный метод позволяет определять
также и старт трансляции мРНК [66]. Установле
но, что в ряде случаев стартом трансляции явля
ются такие НСК, как CUG, UUG и GUG [64, 67].
В качестве примера поиска кОРС, имеющих
биологический смысл, представляем результаты
анализа кластера генов алкогольдегидрогеназ
(АДГ). Нами проведен поиск кОРС в семи генах
кластера (ADH1A, ADH1B, ADH1C, ADH4, ADH5,
ADH6 и ADH7), оценена их консервативность и
кодирующий потенциал. Все гены кластера АДГ
находятся на одном плече хромосомы 4 человека.
Поскольку в одном гене кластера АДГ располага
ется в среднем 400 кОРС, их анализ без привлече
ния биоинформационных инструментов весьма
затруднителен. Мы оценили кодирующий потен
циал всех кОРС генов кластера с помощью серви
са sORFinder, который оказался самым удобным
открытым ресурсом для подобного анализа. Важ
но уточнить, что наряду с проведением анализа с
помощью интернетресурса с этого сервиса мож
но скачать программный код для проведения рас
четов с использованием вычислительных мощно
стей своего компьютера. Такая возможность бу
дет
полезна
при
анализе
длинных
последовательностей (>20000 пн), так как за один
запуск сервиса sORFinder можно проанализиро
вать не более 10000 пн. Для поиска кОРС были
взяты последовательности каждого гена, и к каж
дой из них были добавлены с 5' и 3'концов
фланкирующие последовательности длиной 2000
пн. Для анализа с помощью сервиса sORFinder
были установлены параметры поиска по обеим
цепям ДНК человека. Среднее количество кОРС
с кодирующим потенциалом выше установленно
150
ШЕШУКОВА и др.
Предсказание кОРС в кластере генов АДГ
Общее число
кОРС
Кодирующие
кОРС*
Консервативные
кОРС**
Консервативные
кОРС вне экзонов
ADH1A
327
25
2
1
ADH1B
258
28
3
0
ADH1C
241
28
4
0
ADH4
599
37
5
0
ADH5
310
21
4
0
ADH6
209
22
2
0
ADH7
457
26
3
0
Ген
* Кодирующие кОРС были предсказаны с использованием сервиса sORFinder, поиск проводился на обеих цепях ДНК генов
организма H. sapience.
** кОРС, последовательность которых выравнивается с последовательностью ортолога соответствующего гена одного из сле
дующих млекопитающих: Mus musculus, Rattus norvegicus, Oryctolagus cuniculus, Canis lupus familiaris, а также со всеми ортолога
ми соответствующего гена у представителей отряда Приматы: Nomascus leucogenys, Pan troglodytes, Macaca mulatta, Callithrix jac
chus, Gorilla gorilla gorilla.
го уровня значимости для каждого гена составило
около 20 (таблица). Однако далеко не каждая
кОРС из полученного списка с высоким значени
ем кодирующего потенциала имеет биологический
смысл. Для определения наиболее вероятных био
логически значимых кандидатов необходимо
определить консервативность каждой кОРС. Гены
кластера АДГ обнаружены у всех млекопитающих,
птиц, некоторых видов рептилий и земноводных.
Мы воспользовались последовательностями из ба
зы данных Ensembl (http://www.ensembl.org) каж
дого гена кластера АДГ у эволюционно близких к
человеку представителей отряда Приматы: No
mascus leucogenys, Pan troglodytes, Macaca mulatta,
Callithrix jacchus, Gorilla gorilla gorilla, а также нахо
дящихся чуть дальше на эволюционном дереве
млекопитающих: Mus musculus, Rattus norvegicus,
Oryctolagus cuniculus, Canis lupus familiaris. Для
каждой кОРС по результатам работы sORFinder
и доступных последовательностей генов было
построено выравнивание в программе blastn
(http://blast.ncbi.nlm.nih.gov/Blast.cgi). В каче
стве алгоритма для выравнивания кОРС с генами
млекопитающих был выбран discontiguous mega
blast. Большинство кОРС по результатам про
граммы sORFinder имели высокий процент иден
тичности с участками генов представителей отря
да Приматы, что, вероятно, связано с общим
высоким уровнем идентичности последователь
ности генома человека и приматов. Такие кОРС
мы исключали из дальнейшего анализа. Тем не
менее 2–3 предсказанные кОРС из каждого гена
кластера АДГ имели высокий процент идентич
ности с генами эволюционно более далеких мле
копитающих (Mus musculus, Rattus norvegicus, Oryc
tolagus cuniculus, Canis lupus familiaris), что указы
вает на их потенциальную биологическую
значимость (таблица). Мы решили исключить
влияние положения кОРС относительно экзонов
на консервативность кОРС. Для этого в каждой
последовательности генов сравнили положение
экзонов и консервативных кОРС. Подавляющее
большинство из них расположилось внутри или
на значительном пересечении с экзонами генов
(рис. 1,в). Это объясняет их высокий уровень
идентичности с эволюционно далекими человеку
млекопитающими, так как на кодирующие участ
ки гена действует положительный отбор. Однако в
ходе анализа нами была обнаружена одна из кон
сервативных кОРС, которая располагается в интро
не (рис. 1,в). Обнаруженная кОРС представляет
особый интерес для дальнейшего биоинформа
ционного и экспериментального анализа.
Экспериментальная верификация
транслируемой кОРС
Выявление транскрипта, соответствующего
кОРСсодержащему региону генома. Эксперимен
тальные доказательства существования трансли
руемой кОРС как необходимого признака “гена
матрешки” необходимо начинать с выявления
транскрипта, соответствующего кОРСсодержа
щему региону генома. Существует ряд методов
ГЕНЕТИКА
том 52
№2
2016
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
для анализа экспрессии генов, такие как ОТ
ПЦР, микрочипы с перекрывающимися ДНК
зондами, создание фрагментов экспрессируемых
последовательностей (EST), серийный анализ
экспрессии генов (SAGE) и секвенирование РНК
(RNAseq) следующего поколения [34, 46, 48].
Поиск “геновматрешек”, содержащих кОРС,
требует точного анализа старта транскрипции. Ге
номные исследования показали, что многие гены
обладают альтернативными транскрипционными
промоторами [68, 69]. Для определения старта
транскрипции обычно используют методы, осно
ванные на быстрой амплификации 5'конца
кДНК (5'RACE) [70–72]. Недавно предложен но
вый протокол определения старта транскрипции,
названный как RAMPAGE (RNA Annotation and
Mapping of Promoters for the Analysis of Gene Ex
pression) [73]. Метод определения 5'конца кДНК
достаточно точный и позволяет идентифициро
вать старт транскрипции, характеристику тран
скриптов и их количественное выражение. Этим
методом показано, что более 40% транскрибируе
мых генов имеют, по крайней мере, два промотора.
Несмотря на то, что обнаружение факта тран
скрипции уже является необходимым условием,
важно доказать способность кОРС направлять
синтез пептида.
Рибосомный профайлинг [66, 74, 75]. Использо
вание агентов, таких как харрингтонин [76], спо
собствующих скоплению рибосом на стартовом
кодоне, позволяет, например, составить геном
ные карты синтеза белка в эмбриональных ство
ловых клетках мышей [64]. Метод предоставляет
объективную информацию о трансляции в кон
кретной временной точке и точном положении
всех ОРС, независимо от того, присутствуют ли
они в мРНК или некодирующих транскриптах
[77]. Кроме того, рибосомный профайлинг дает
дополнительное преимущество в идентификации
НСК (см. выше). Данные рибосомного профай
линга нужно анализировать обязательно с ис
пользованием методов биоинформационного
анализа. Дело в том, что локализация рибосомы
на стартовом кодоне не обязательно означает
трансляцию ОРС. Существуют стартовые кодо
ны, в особенности в 5'нетранслируемой области,
предназначенные клеткой для регулирования
трансляции следующей ОРС (см. подробнее ни
же). Необходимо учитывать и стартовые кодоны,
на которые произвольно “садится” рибосома без
последующей трансляции ОРС [78].
Анализ протеома и выявление пептидов, кодиру
емых кОРС. Большинство продуктов, синтезиро
ванных рибосомой, рассматривают как стабиль
ные. У человека большая часть белков имеет по
лупериод жизни около 20 ч; хотя есть белки с
полупериодом жизни от нескольких минут до де
сятков часов [79, 80]. Изначально предполага
ГЕНЕТИКА
том 52
№2
2016
151
лось, что длина ОРС должна быть более 300 нук
леотидов, но оказалось, что около 10% ОРС мы
ши короче 300 нуклеотидов [49]. Более того,
протеомный анализ показывает, что у человека
многие кОРС транслируются независимо от того,
расположены ли они в кодирующей или некоди
рущей областях [43, 64, 81].
Доказательства трансляции кОРС также могут
быть получены непосредственно с помощью
массспектрометрии белков. Теоретически любой
пептид, который присутствует в количестве выше
порогового уровня во фракции клеток или тка
ней, может быть идентифицирован путем поиска
его массспектров в базе данных известных или
прогнозируемых пептидов [77, 82]. Однако имею
щиеся в настоящее время базы данных содержат
данные только экспериментально подтвержден
ных белковых последовательностей и, таким об
разом, вряд ли содержат кПЕП искомых кОРС. В
поиске транслируемых кОРС наиболее опти
мальным является комплексный протеогеном
ный подход [82], когда массспектральные дан
ные сравнивают с результатом трансляции всех
шести ОРС исследуемого генома [83]. На сего
дняшний день выявление кПЕП с помощью
массспектроскопии остается сложной задачей
изза их небольшого размера и низкого содержа
ния в клетке [11]. Тем не менее протеомные ис
следования подтвердили экспрессию 80 кПЕП,
которые кодируются кОРС, вложенными в “ма
теринскую матрешку” [43, 84–86], а с помощью
рибосомного профайлинга были определены
старты их трансляции [64, 87].
“ГЕНМАТРЕШКА”: ПЕРЕКРЫВАЮЩИЕСЯ
ГЕНЫ, “ВЛОЖЕННЫЕ” ГЕНЫ И ОРС
С АЛЬТЕРНАТИВНЫМ СТАРТОВЫМ
КОДОНОМ
Термин “перекрывающиеся гены” обычно
обозначает пары соседних генов, последователь
ность которых частично перекрывается [88–91].
Такая организация генома у вирусов, бактерий и
митохондрий вполне объяснима и обеспечивает
компактную организацию генома, а также повы
шает эффективность генной регуляции [92, 93].
Перекрывающиеся гены были найдены и в гено
ме человека, причем до 10% всех генов – это пере
крывающиеся гены [88, 89]. Значение перекрыва
ющихся генов неясно, но можно предполагать,
что перекрывающиеся гены в паре должны вза
имно влиять друг на друга хотя бы на уровне тран
скрипции [32]. Эволюционное происхождение
перекрывающихся генов обсуждается и нет еди
ного взгляда на этот вопрос. Одна из гипотез, на
званная “надпечатка” (как процесс печати поверх
ранее напечатанного текста или изображения), по
лучила экспериментальное подтверждение [94]. Эта
гипотеза объясняет происхождение нового гена
2*
152
ШЕШУКОВА и др.
через накопление мутаций внутри уже существу
ющих генов.
Термин “вложенный” (nested) ген относится к
гену, который содержится в другом гене (“ген в
гене”) [31, 95], и описывает частный случай пере
крывающихся генов, когда один ген находится в
пределах другого. Термин “вложенный” часто
применяют к случаям инсерции одного мобиль
ного генетического элемента в другой мобильный
элемент [96]. Топологию перекрывающихся генов
хорошо моделирует русская игрушка матрешка,
вот почему в литературе можно встретить термин
“matreshka” для обозначения перекрывающихся
и “вложенных” ОРС [33]. Чтобы избежать пута
ницы в терминологии, можно рассматривать два
уровня существования генной системы “матреш
ка”. Первый уровень, хромосомный, когда “вло
женный” ген расположен в пределах бóльшего
хромосомного гена и часто в пределах интрона и в
противоположной ориентации по отношению к
основному гену (рис. 1,а) [97]. Второй уровень – это
молекулы мРНК, содержащие перекрывающиеся
ОРС или ОРС с альтернативным стартовым кодо
ном. Этот тип “генаматрешки”, подробно рас
сматриваемый ниже, подразделяется на дополни
тельные подтипы (рис. 1,б) [34]: а) с “вложенными”
ОРС, которые располагаются в пределах основной
ОРС, б) начинаются в 5'лидерной области мРНК и
простираются в пределы основной ОРС, в) начина
ются в основной ОРС и заканчиваются в 3'некоди
рующей области мРНК [33, 87].
“ГЕНМАТРЕШКА” С “ВЛОЖЕННОЙ” ОРС,
КОТОРАЯ РАСПОЛАГАЕТСЯ В ПРЕДЕЛАХ
ОСНОВНОЙ ОРС
Открытие кПЕП, которые образуются при
трансляции кОРС, “вложенных” в основную
ОРС, составляя вместе “генматрешку”, измени
ло представление о возможности ГКБ. Представ
ление о том, что невирусные транскрипты могут
содержать несколько транслируемых ОРС, с это
го момента перестало считаться абсурдным [34].
Обнаружение транскриптов двойного кодирова
ния, таких как транскрипт гена TRP1, кодирую
щий опухолевый антиген TYRP1 [98], и тран
скрипт каспазы 1 (CASP1, или ICE) [99], стимули
ровало развитие методов поиска и обнаружения
“геновматрешек”. Биоинформационный анализ
мРНК человека и млекопитающих выявил доста
точно большое число “вложенных” кОРС [30, 33,
53, 100]. Использование консервативных пара
метров поиска (длина кОРС должна быть не ме
нее 500 пн (∼167 кодонов) и обязательное присут
ствие кОРС в генах не только человека, но и дру
гих млекопитающих) позволило отобрать 40
генов [100]. В другом исследовании, где исполь
зовали менее строгие критерии (анализу подвер
гали кОРС длиной более 150 нуклеотидов), ото
брали 1793 “геновматрешек” человека с “вло
женными” кОРС, сохраняющимися и в геноме
грызунов [33]. Среди них только 217 кОРС имеют
оптимальный контекст стартового кодона [33]. В
качестве примера “генаматрешки”, выявленно
го в результате такого поиска, следует упомянуть
ген GPR27, с одним экзоном, кодирующим рецеп
тор Gбелка, где в конце основной ОРС выявлена
“вложенная” ОРС [33].
Необходимость экспериментальной верифи
кации существования “генаматрешки” с “вло
женной” кОРС потребовала разработки метода с
использованием экспрессирующих векторов, со
держащих две различные последовательности,
кодирующие белковые метки [30, 84]. Для обна
ружения трансляции кОРС эти белковые метки
должны находиться в разных рамках считывания
по отношению друг к другу. Так, использование
гемагглютинина и GFP в качестве меток позволи
ло одновременно анализировать трансляцию ос
новной ОРС и “вложенной” кОРС при трансфек
ции линии клеток млекопитающих с последую
щим тестированием с помощью микроскопии и
вестернблота [84].
Ниже мы опишем известные на сегодняшний
день “геныматрешки” с “вложенными” кОРС, ко
торые располагаются в пределах основной ОРС.
TYRP1 (tyrosinaserelated protein 1,
тирозиназасвязанный белок 1)
Лимфоциты, инфильтрирующие опухоль (ан
глийская аббревиатура TIL) и полученные от
больных раком, способны узнавать молекулы глав
ного комплекса гистосовместимости класса I. По
сле клиникобиохимического тестирования па
циентов с метастатической меланомой у пациен
та № 586 отобрали лимфоциты, обозначенные как
TIL586, и ввели их вместе с интерлейкином 2 этому
же пациенту. В результате – регрессия опухоли
[101]. В последующем ген TYRP1, кодирующий опу
холевый антиген gp75, был изолирован [102]. Уста
новлено, что антигенный пептид MSLQRQFLR,
узнаваемый TIL586, не является частью нормаль
ного белка gp75, а образуется с альтернативной
ОРС (рис. 2) [98, 103]. Таким образом, ген TYRP1
кодирует два совершенно разных полипептида –
gp75 как антиген, распознаваемый иммуноглобу
лином G и антителами в сыворотке от пациента с
раком, и полипептид длиной 24 аминокислоты
как антиген отторжения опухоли, узнаваемый Т
клетками. Это был первый пример, когда у чело
века антиген, способствующий отторжению опу
холи, синтезируется с альтернативной кОРС.
ГЕНЕТИКА
том 52
№2
2016
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
294
1
369
а
ATG
153
1614
TAA
+1
ATG TGA
+3
60
120
180
240
300
360
1614
б
(+1)
(+3)
Рис. 2. Альтернативная ОРС (+3) в составе гена TYRP1 человека кодирует пептид, узнаваемый Тлимфоцитами. а –
схематическое изображение мРНК TYRP1: обозначена основная ОРС (первая рамка, +1), соответствующая gp75, и
альтернативная ОРС (третья рамка, +3), ниже приведена часть нуклеотидной последовательности гена TYRP1, где
подчеркнуты старт и стопкодоны +1 ОРС, а +3 ОРС выделена жирным шрифтом. Старт и стопкодоны +3 ОРС вы
делены прямоугольниками; б – аминокислотная последовательность gp75 (приведена часть) и пептида, кодируемого
+3 ОРС.
CASP1 (caspase 1, apoptosisrelated cysteine peptidase
или intestinal carboxyl esterase, iCE)
Исследование Тлимфоцитов (класс TIL), су
прессирующих рост почечноклеточной карци
номы, позволил идентифицировать нонапептид
SPRWWPTCL, способный in vivo обеспечивать
узнавание и пролиферацию Тклеток. Оказалось,
что мРНК, кодирующая апоптозсвязанную ци
стеиновую пептидазу, содержит “вложенную”
кОРС, направляющую синтез нонапептида с
НСК ACG (рис. 3) [99]. Мутация природного
стартового кодона ATG основной ОРС CASP1 не
отменяет узнавание НСК ACG и синтез нонапеп
тида, что, по мнению авторов, исключает участие
механизма frameshifting в синтезе нонапептида.
Ген прионного белка PRP
Ген PRNP направляет синтез прионного белка
(PRP). мРНК PRNP человека длиной 2415 нук
леотидов содержит ОРС длиной 251 кодон. Поиск
альтернативных ОРС выявил в 3й рамке кОРС,
способную направлять синтез 73аминокислот
ного пептида, отличного по аминокислотной по
следовательности от приона (рис. 4) [104]. Стар
товый AUG кодон кОРС находится в оптималь
ном контексте по М. Козак. Способность клеток,
трансфицированных мРНК PRNP, синтезировать
кПЕП доказана в экспериментах с использованием
ГЕНЕТИКА
том 52
№2
2016
конструкции, кодирующей гемагглютининовую
последовательность. Выяснилось, что 73амино
кислотный пептид конститутивно экспрессируется
как у человека, так и у других млекопитающих, та
ких как бык, овца и олень; локализуется в митохон
дриях; присутствует у человека в гомогенате мозга,
первичных нейронах и периферических одноядер
ных клетках крови.
ATXN1 (ген, кодирующий атаксин1)
Спиноцеребеллярная атаксия 1го типа
(СЦА1) – смертельное аутосомнодоминантное
нейродегенеративное расстройство, характеризу
ющееся прогрессивной потерей координации
движений изза дисфункции и дегенерации моз
жечка. Отличительной чертой СЦА1 является
атрофия клеток Пуркинье коры мозжечка. После
индентификации гена ATXN1 обнаружена прямая
корреляция между размером полиглютаминового
тракта (CAG)n и началом заболевания СЦА1 [105].
Нормальные аллели имеют полиглютаминовый по
втор размером 19–36 остатков, в то время как пато
логические аллели имеют 39–82 остатков. Мутант
ный ATXN1 кодирует денатурированный белок,
формирующий включения в ядрах нейронов.
С целью выяснения механизма патогенеза
СЦА1 Бергерон и его коллеги [106] нашли в преде
лах мРНК ATXN1 альтернативную ОРС, кодирую
154
ШЕШУКОВА и др.
а
1
ATG
+1
440
928
1680
TAG
AСG
TGA
+2
60
360
420
480
540
600
660
720
780
840
900
960
1680
б
(+1)
(+2)
Рис. 3. Альтернативная ОРС (+2), содержащая неканонический стартовый кодон, в составе гена CASP1 (iCE) человека
кодирует полипептид, несущий эпитоп узнавания Тлимфоцитами. а – схематическое изображение мРНК CASP1:
обозначена основная ОРС (первая рамка, +1), соответствующая CASP1, и альтернативная ОРС (вторая рамка, +2); ни
же приведена часть нуклеотидной последовательности гена CASP1, где подчеркнуты старт и стопкодоны +1 ОРС, а
+2 ОРС выделена жирным шрифтом. Старт и стопкодоны +2 ОРС выделены прямоугольниками; б – аминокислот
ная последовательность CASP1 (приведена часть) и полипептида, кодируемого +2 ОРС. Подчеркнута последователь
ность нонапептида, узнаваемого Тлимфоцитами.
щую 21кДа полипептид (185 а.к.). Полипептид, по
лучивший название AltATXN1 (альтернативный
ATXN1), имеет совершенно другую аминокислот
ную последовательность, чем ATXN1 (рис. 5). Вве
дение гемагглютининовой последовательности в
рамку с AltATXN1 позволило определить сов
местную экспрессию ATXN1 и AltATXN1 в
трансфицированных клетках. Установлено, что
ATXN1, повидимому, контролирует субклеточ
ное распределение AltATXN1: только в присут
ствии ATXN1 можно обнаружить AltATXN1 в яд
рах клеток в виде включений. В отсутствие
ATXN1 AltATXN1 равномерно распределен в
нуклеоплазме. Использование антител к Alt
ATXN1 подтвердило экспрессию AltATXN1 в
мозжечке человека. Эти результаты показывают,
что “генматрешка” ATXN1 способен направлять
синтез двух белков, взаимодействие которых
определяет патогенез СЦА1.
кОРС В 5'ЛИДЕРНОЙ НЕКОДИРУЮЩЕЙ
ПОСЛЕДОВАТЕЛЬНОСТИ мРНК
кОРС в 5'лидерной последовательности (ко
торую обычно называют предшествующей кОРС
(пкОРС), от английского upstream ORFs, uORFs)
является одним из наиболее распространенных
регуляторных элементов РНКтранскриптов. И
хотя у 40% мРНК млекопитающих обнаруживают
пкОРС, их функция неясна. пкОРС разнообраз
ны по длине, количеству в лидерной области и
расстоянию от кэпа. Среди них встречаются
пкОРС, которые стартуют в лидерной области
мРНК и терминируют в основной ОРС [107]. Об
щепризнано, что универсальной функцией
пкОРС является ослабление трансляции основ
ной ОРС путем регулирования посадки рибосом
на 5'лидерном участке мРНК [108]. Ослабление
трансляции основной ОРС преимущественно
ГЕНЕТИКА
том 52
№2
2016
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
155
а
1
90
311
762
ATG
+1
TGA
ATG
TAA
+3
60
120
180
240
300
360
420
480
540
600
660
720
762
б
(+1)
(+3)
Рис. 4. Альтернативная ОРС (AltPrP) в составе мРНК PRNP человека. а – схематическое изображение основной ОРС
(первая рамка, +1) PRNP человека и альтернативной перекрывающейся ОРС (третья рамка, +3), кодирующей AltPrP,
обозначены старт и стопкодоны обеих ОРС, отмечено их положение (пн). Ниже приведена нуклеотидная последо
вательность гена PRNP человека. Старт и стопкодоны основной (+1) ОРС подчеркнуты, альтернативная (+3) ОРС
выделена жирным шрифтом. Старт и стопкодоны AltPrP выделены прямоугольником; б – аминокислотная после
довательность PrP (+1) и AltPrP (+3) человека.
происходит через реинициацию или механизм
“проскальзывающего” сканирования (leakyscan
ning), в которых пкОРС перехватывает сканирую
щие рибосомы до того, как они достигнут старто
вого кодона основной ОРС [34, 107, 109, 110].
Важная роль пкОРС в регулировании синтеза
белкового продукта подтверждается исследова
ниями наследственных заболеваний человека. В
настоящее время выявлено много мутаций в
транскриптах, приводящих к появлению “новых”
или удалению “старых” пкОРС [108, 110–113]. В
509 уникальных генах человека обнаружены му
тантные пкОРС [108]. 14 генов с мутантными
пкОРС, повидимому, вовлечены в патогенез раз
личных заболеваний [34, 111]. Наиболее полно
изучено участие пкОРС в патогенезе следующих
заболеваний человека:
а) наследственная тромбоцитемия, которая
является результатом мутационного удаления
ГЕНЕТИКА
том 52
№2
2016
пкОРС, приводящего к повышению продукции
тромбопоэтина [111];
б) семейная предрасположенность к развитию
меланомы: мутации в последовательности пкОРС
в 5'лидерной области мРНК гена CDKN2A при
водят к снижению биосинтеза циклинзависимо
го ингибитора киназы 2A [112];
в) синдром Мари Унна (наследственная потеря
волос): результат мутирования пкОРС и повыше
ния экспрессии гена HR (hereditary hypotrichosis,
наследственный гипотрихоз) [113].
Трансляционный контроль основной ОРС с
помощью пкОРС, начинающейся в 5'лидерной
области мРНК и простирающейся в пределы ос
новной ОРС, хорошо исследован на примерах
трансляции мРНК гена:
ATF4 и ATF5 человека, кодирующих активатор
транскрипции генов, участвующих в обмене ве
ществ и апоптозе [114, 115];
156
ШЕШУКОВА и др.
1
30
587
2448
ATG
+1
TAG
ATG
TGA
+3
45
90
135
180
225
270
315
360
405
450
495
540
585
587
Рис. 5. Альтернативная ОРС (AltATXN1) в составе мРНК ATXN1 человека. Схематическое изображение основной
ОРС (первая рамка, +1) ATXN1 человека и альтернативной перекрывающейся ОРС (третья рамка, +3), кодирующей
AltATXN1. Обозначены старт и стопкодоны обеих ОРС, отмечено их положение (пн). Ниже приведена часть после
довательности мРНК ATXN1 человека (1–587 нт), где жирным шрифтом выделены стартовые кодоны ATXN1 и Alt
ATXN1. Старт и стопкодоны AltATXN1 также выделены прямоугольником.
THPO, который кодирует тромбопоэтин [116].
Лидер мРНК THPO имеет сложную организацию
со множеством пкОРС, из которых 7я пкОРС
перекрывается с основной ОРС. Удивительно, но
вопреки предположениям, мРНК THPO не под
вергается действию механизма нонсенсопосре
дованной деградации в клетках [117];
A2AR (A2A Adenosine Receptor) [118], аденозино
вый рецептор, являющийся Gбелком и главной
мишенью кофеина. мРНК в дополнение к основ
ной ОРС содержит альтернативную пкОРС (обо
значенную как uORF5), простирающуюся в преде
лы основной ОРС и направляющую синтез 134а.к.
полипептида в клетках;
Shank1, кодирующий постсинаптический бе
локноситель Shank1 [65]. Лидерная последова
тельность мРНК этого гена содержит три пкОРС,
из которых пкОРС3, начинающаяся в 5'лидер
ной области мРНК и терминирующаяся в преде
лах основной ОРС, повидимому, принимает уча
стие в контроле трансляции основной ОРС. Кро
ме того, анализ 5'лидерной области мРНК
выявил дополнительную пкОРС с НСК, влияю
щую на экспрессию Shank1. Мутация НСК при
водит к почти полной потере инициации транс
ляции в AUGкодоне основной ОРС.
Долгое время исследователи с недоверием от
носились к вероятности кодирующего потенциа
ла пкОРС и отводили им только цисрегулятор
ную функцию в трансляционном контроле ос
новного ГКБ. Оказалось, что некоторые пкОРС
транслируются и обеспечивают синтез в клетке
кПЕП. Считают, что эти кПЕП в эволюции изна
чально были побочными продуктами трансля
ции, а затем “закрепились” и приобрели свою
трансфункциональность [119]. Вообще, протеом
эукариот содержит разнообразные кПЕП, коди
руемые пкОРС с НСК [34, 120, 121]. кОРС с НСК
длиной в среднем 75 кодонов могут перекрывать
ся с основной ОРС [43]. Компьютерный анализ
выявляет множество кОРС с НСК в 5'лидерной
области мРНК дрожжей и млекопитающих и
предсказывает нуклеотидные последовательно
сти в окружении НСК, которые более предпочти
тельны для рибосом, чем контекст по М. Козак
[122]. Однако экспериментальная проверка не
подтверждает этого предсказания. Использова
ние модельных конструкций на основе гена
FRAT2 (Frequently rearranged in advanced Tcell lym
phomas 2) с использованием двух белковых меток
показывает [43], что “правильный” контекст по
М. Козак повышает синтез кПЕП, синтезирую
ГЕНЕТИКА
том 52
№2
2016
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
щегося с НСК. Удаление НСК, такого как ACG,
отменяет синтез кПЕП. Мутация ACGкодона в
канонический AUGкодон стимулирует синтез
кПЕП, но полностью подавляет трансляцию ос
новной ОРС. Последнее указывает на трансля
цию основной ОРС с помощью механизма “про
скальзывающего” сканирования [43]. Механизм
узнавания НСК неясен, но, повидимому, не об
ходится без участия eIF1. Этот фактор инициации
трансляции играет важную роль в выборе стартово
го кодона. В его отсутствие сканирующая рибосома
не в состоянии различить не только неAUG и
AUGкодон, но и оптимальный контекст по М.
Козак [123]. Более того, избыточная экспрессия в
клетках eIF1 отменяет инициацию с НСК [124].
кОРС В 3'НЕКОДИРУЮЩЕЙ
ПОСЛЕДОВАТЕЛЬНОСТИ мРНК
В отличие от 5'лидерных последовательно
стей мРНК поиск функциональных кОРС в 3'не
транслируемой последовательности мРНК счита
ется бесперспективным [34, 64]. В принципе
можно ожидать присутствие множества кОРС,
поскольку длина 3'нетранслируемого участка,
как правило, гораздо больше, чем 5'лидерной
последовательности [39]. Действительно, анализ
RefSeq банка (http://www.ncbi.nlm.nih.gov/refseq/)
на присутствие кОРС в 3'нетранслируемой по
следовательности мРНК человека и мыши вы
явил большое число кОРС, потенциальных для
синтеза кПЕП [39, 84]. Тем не менее синтез кПЕП
с рамок, расположенных в 3'последовательности
мРНК, судя по всему, редкое событие, поскольку
по данным рибосомного профайлинга эта об
ласть мРНК почти лишена рибосом [41, 64, 78]. В
настоящее время известен только один случай,
когда кОРС в 3'нетранслируемой последователь
ности мРНК генагомолога MRVI1 человека была
способна обеспечивать синтез функционального
кПЕП. Этот кПЕП был идентифицирован мето
дом массспектрометрии, а в последующем опре
делена его способность перемещаться в ядро
клетки и связываться с белком 1 восприимчиво
сти к раку молочной железы (BRCA1) [84].
ПРИСУТСТВИЕ кОРС
И “ГЕНОВМАТРЕШЕК”
В ГЕНОМЕ РАСТЕНИЙ
Считается, что кПЕП, кодируемые кОРС раз
мером более 150 кодонов, играют важную роль в
росте и развитии растений [36]. Исследование ге
нома A. thaliana с использованием протеогеном
ных методов позволило выявить 18024 кПЕП, ко
торые не соответствуют ранее аннотированным
генам, т.е. о существовании соответствующих
кОРС до этого момента не подозревали [125]. В
дальнейшем при анализе генома выявлены при
ГЕНЕТИКА
том 52
№2
2016
157
мерно 8000 кОРС с высоким потенциалом коди
рования в межгенных регионах генома A. thaliana
[126]. Проведен функциональный анализ 473 меж
генных кОРС, соответствующих жестким критери
ям отбора, включая создание трансгенных растний.
Среди них 49 тестируемых кОРС на трансгенах при
водили к изменению фенотипа растений, указывая
на их регуляторную роль [126].
Пример присутствия функциональной кОРС в
некодирующих РНК дает недавнее обнаружение
кОРС в предшественниках микроРНК (primiRNA),
primiR171b и primiR165a, в растениях соответ
ственно Medicago truncatula и A. thaliana [44, 45].
Такие primiRNA, по всей видимости, избегают
процессинга и транспортируются из ядра в цито
плазму для трансляции c кОРС кПЕП, который
транспортируется в ядро, действует в качестве эн
хансера экспрессии генов primiRNA и способ
ствует накоплению своей зрелой микроРНК. В
связи с этим открытием возникает вопрос, может
ли такая бифункциональная микроРНК быть
классифицирована как мРНК.
мРНК растений содержит множество кОРС
как в области 5'лидерной последовательности,
так и кОРС, перекрывающиеся с основной ОРС
[127–129]. По оценкам, примерно 20% лидерных
последовательностей ГКБ A. thaliana содержат
пкОРС [109]. Как и у животных, пкОРС растений
функционируют в качестве барьера и регулятора
трансляции основной ОРС. Такой взгляд недавно
убедительно подтвердил проведенный рибосом
ный профайлинг транскриптома A. thaliana в нор
ме и стрессовых условиях [130].
Что касается доказанного синтеза кПЕП при
трансляции “вложенных” кОРС “геновматре
шек”, растения дают еще меньше примеров, чем
животные. Недавно идентифицирована кОРС,
названная Zm908p11, в геноме кукурузы [131] при
использовании стратегии Ханады с соавт. [126].
мРНК гена Zm908, который транскрипционно ак
тивен преимущественно в пыльце кукурузы, содер
жит несколько “вложенных” кОРС, причем самая
длинная кОРС, обозначенная как Zm908p11, по
тенциально кодирует кПЕП длиной 97 а.к. (рис. 6).
Эктопическая экспрессия гена табака Zm908 со
“вложенной” кОРС Zm908p11 приводит к образо
ванию дефектной пыльцы. Введение мутаций в ген
Zm908 со сдвигом рамки считывания или мутагенез
только Zm908p11 восстанавливают нормальное раз
витие пыльцы. С другой стороны, избыточная экс
прессия Zm908p11 в кукурузе снижает эффектив
ность прорастания пыльцы. Скрининг библиотеки
кДНК пыльцы и исследование белокбелковых вза
имодействий показали, что Zm908p11 взаимодей
ствует с кукурузным профилином 1 (ZmPRO1),
участвующим в биогенезе актина. Авторами
предложен механизм, по которому Zm908p11 свя
зывается с профилином в качестве нового лиган
158
ШЕШУКОВА и др.
–225
1
697
5'HTO
ATG
990
TGA
1259
1758
3'HTO
+1
756
816
876
936
990
(+1)
Рис. 6. ОРС в составе гена Zm908 кукурузы кодирует пептид Zm908p11. Схематическое изображение гена Zm908: обо
значены 5' и 3'нетранслируемые области (НТО), кодирующая часть (темный прямоугольник) и внутренняя (+1) ОРС
(светлый прямоугольник), нуклеотидная последовательность которой приведена ниже. Старт и стопкодоны выделе
ны жирным шрифтом и прямоугольниками. Представлена аминокислотная последовательность пептида Zm908p11
длиной 97 а.к.
да и нарушает динамическое равновесие между
актином и профилином во время роста пыльце
вой трубки в кукурузе [131].
ЗАКЛЮЧЕНИЕ
1. Существование кОРС и мРНК с альтерна
тивными стартовыми кодонами расширяет наше
представление о функциях и возможностях ГКБ.
Хотя на сегодняшний день известно относитель
но немного транскриптов, кодирующих два раз
личных экспериментально подтвержденных бел
ковых продукта, биоинформационный анализ
предсказывает распространенность “геновмат
решек”.
2. Идентификация предполагаемых “генов
матрешек” основывается на межвидовом сравне
нии последовательностей для выявления консер
вативных последовательностей; анализе содержа
ния кодонов и особенностей кодирования; ана
лизе транскрипции и трансляции вероятных
“геновматрешек”.
3. В настоящее время доказано существование
в геноме человека четырех “геновматрешек” с
“вложенной” ОРС, которая располагается в пре
делах основной ОРС: TYRP1, CASP1, ген прион
ного белка PRP и ATXN1, в то время как растения
дают только один пример “генаматрешки” – это
ген кукурузы Zm908.
4. До сих пор не выявлена регуляторная роль
“вложенного” гена в структуре известных “генов
матрешек”. Однако недавно описанная регуля
торная функция продукта кОРС в составе “неко
дирующей” primiRNA у растений (см. выше)
позволяет предсказать существование регулятор
ных “вложенных” ОРС, расположенных в преде
лах основной ОРС.
Работа была выполнена при финансовой под
держке РФФИ в рамках научных проектов 1404
00109_а,
153420014_мол_а_вед,
1634
60002_мол_а_дк (ТВК) и подпрограммы “Гено
фонды живой природы и их сохранение” Про
граммы фундаментальных исследований Прези
диума РАН “Биоразнообразие природных си
стем” (Ю.Л.Д.), а также стипендии Президента
Российской Федерации для молодых ученых
(А.В.Ш.).
СПИСОК ЛИТЕРАТУРЫ
1. Griffiths P.E., Stotz K. Genes in the postgenomic era //
Theor. Med. Bioeth. 2006. V. 27. № 6. P. 499–521.
DOI: 10.1007/s110170069020y.
2. Gerstein M.B., Bruce C., Rozowsky J.S. et al. What is a
gene, postENCODE? History and updated
definition // Genome Res. 2007. V. 17. № 6. P. 669–
681. DOI: 10.1101/gr.6339607.
3. Rogic S., Mackworth A.K., Ouellette F.B. Evaluation of
genefinding programs on mammalian sequences //
Genome Res. 2001. V. 11. № 5. P. 817–832. DOI:
10.1101/gr.147901.
4. Chow L.T., Gelinas R.E., Broker T.R., Roberts R.J. An
amazing sequence arrangement at the 5' ends of aden
ovirus 2 messenger RNA // Cell. 1977. V. 12. № 1.
P. 1–8.
5. Brosius J. The fragmented gene // Ann. N.Y. Acad.
Sci. 2009. V. 1178. P. 186–193. DOI: 10.1111/j.1749
6632.2009.05004.x.
6. Yazaki J., Gregory B.D., Ecker J.R. Mapping the ge
nome landscape using tiling array technology // Curr.
Opin. Plant Biol. 2007. V. 10. № 5. P. 534–542. DOI:
10.1016/j.pbi.2007.07.006.
ГЕНЕТИКА
том 52
№2
2016
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
7. Mortazavi A., Williams B.A., McCue K. et al. Mapping
and quantifying mammalian transcriptomes by RNA
Seq // Nat. Methods. 2008. V. 5. № 7. P. 621–628.
DOI: 10.1038/nmeth.1226.
8. The ENCODE Project Consortium. Identification and
analysis of functional elements in 1% of the human ge
nome by the ENCODE pilot project // Nature. 2007.
V. 447. № 7146. P. 799–816. DOI: 10.1038/
nature05874.
9. Mercer T.R., Mattick J.S. Understanding the regulato
ry and transcriptional complexity of the genome
through structure // Genome Res. 2013. V. 23. № 7.
P. 1081–1088. DOI: 10.1101/gr.156612.113.
10. Mercer T.R., Clark M.B., Andersen S.B. et al. Genome
wide discovery of human splicing branchpoints // Ge
nome Res. 2015. V. 25. № 2. P. 290–303. DOI:
10.1101/gr.182899.114.
11. Baboo S., Cook P.R. “Dark matter” worlds of unstable
RNA and protein // Nucl. Austin Tex. 2014. V. 5. № 4.
P. 281–286. DOI: 10.4161/nucl.29577.
12. Goldman S.R., Ebright R.H., Nickels B.E. Direct de
tection of abortive RNA transcripts in vivo // Science.
2009. V. 324. № 5929. P. 927–928. DOI: 10.1126/sci
ence.1169237.
13. Kapranov P., St Laurent G. Dark Matter RNA: Exist
ence, Function, and Controversy // Front. Genet.
2012. V. 3. P. 60. DOI: 10.3389/fgene.2012.00060.
14. Pearson H. Genetics: what is a gene? // Nature. 2006.
V. 441. № 7092. P. 398–401. DOI: 10.1038/441398a.
15. Raabe C.A., Brosius J. Does every transcript originate
from a gene? // Ann. N.Y. Acad. Sci. 2015. V. 1341.
P. 136–148. DOI: 10.1111/nyas.12741.
16. International Human Genome Sequencing Consortium.
Initial sequencing and analysis of the human
genome // Nature. 2001. V. 409. № 6822. P. 860–921.
DOI: 10.1038/35057062.
17. Liang F., Holt I., Pertea G. et al. Gene index analysis of
the human genome estimates approximately 120,000
genes // Nat. Genet. 2000. V. 25. № 2. P. 239–240.
DOI: 10.1038/76126.
18. Claverie J.M. Gene number. What if there are only
30,000 human genes? // Science. 2001. V. 291.
№ 5507. P. 1255–1257.
19. Ezkurdia I., Juan D., Rodriguez J.M. et al. Multiple ev
idence strands suggest that there may be as few as
19,000 human proteincoding genes // Hum. Mol.
Genet. 2014. V. 23. № 22. P. 5866–5878. DOI:
10.1093/hmg/ddu309.
20. Flicek P., Amode M.R., Barrell D. et al. Ensembl
2014 // Nucl. Acids Res. 2014. V. 42. № Database is
sue. P. 749–755. DOI: 10.1093/nar/gkt1196.
21. Bamshad M.J., Chong J.X., Buckingham K.J. et al. The
Genetic Basis of mendelian phenotypes: Discoveries,
challenges, and opportunities // Am. J. Hum. Genet.
2015. V. 97. № 2. P. 199–215. DOI:
10.1016/j.ajhg.2015.06.009.
22. Tattini L., D’ Aurizio R., Magi A. Detection of genomic
structural variants from nextgeneration sequencing
data // Front. Bioeng. Biotechnol. 2015. V. 3. P. 92.
DOI: 10.3389/fbioe.2015.00092.
23. Harrison P.M., Kumar A., Lang N. et al. A question of
size: the eukaryotic proteome and the problems in de
ГЕНЕТИКА
том 52
№2
2016
159
fining it // Nucl. Acids Res. 2002. V. 30. № 5. P. 1083–
1090.
24. Sudmant P.H., Mallick S., Nelson B.J. et al. Global di
versity, population stratification, and selection of hu
man copy number variation // Science. 2015.
P. aab3761. DOI: 10.1126/science.aab3761.
25. Журавлева Г.А. Рождение и смерть генов // Гене
тика. 2015. Т. 51. № 1. С. 9–21. DOI: 10.1134/
S1022795415010159.
26. Jeffery C.J. Moonlighting proteins: old proteins learn
ing new tricks // Trends Genet. 2003. V. 19. № 8.
P. 415–417. DOI: 10.1016/S01689525(03)001677.
27. Jung D.W., Kim W.H., Williams D.R. Chemical ge
netics and its application to moonlighting in glycolytic
enzymes // Biochem. Soc. Trans. 2014. V. 42. № 6.
P. 1756–1761. DOI: 10.1042/BST20140201.
28. Dorokhov Y.L., Komarova T.V., Petrunia I.V. et al.
Methanol may function as a crosskingdom signal //
PLoS One. 2012. V. 7. № 4. P. e36122. DOI:
10.1371/journal.pone.0036122.
29. Shindyapina A.V., Petrunia I.V., Komarova T.V. et al.
Dietary methanol regulates human gene activity //
PLoS One. 2014. V. 9. № 7. P. e102837. DOI:
10.1371/journal.pone.0102837.
30. Xu H., Wang P., Fu Y. et al. Length of the ORF, posi
tion of the first AUG and the Kozak motif are impor
tant factors in potential dualcoding transcripts // Cell
Res. 2010. V. 20. № 4. P. 445–457. DOI: 10.1038/
cr.2010.25.
31. Gibson C.W., Thomson N.H., Abrams W.R., Kirkham J.
Nested genes: biological implications and use of AFM
for analysis // Gene. 2005. V. 350. № 1. P. 15–23.
DOI: 10.1016/j.gene.2004.12.045.
32. Ho M.R., Tsai K.W., Lin W. A unified framework of
overlapping genes: towards the origination and en
dogenic regulation // Genomics. 2012. V. 100. № 4.
P. 231–239. DOI: 10.1016/j.ygeno.2012.06.011.
33. Ribrioux S., Brüngger A., Baumgarten B. et al. Bioin
formatics prediction of overlapping frameshifted
translation products in mammalian transcripts //
BMC Genomics. 2008. V. 9. P. 122. DOI: 10.1186/
147121649122.
34. Andrews S.J., Rothnagel J.A. Emerging evidence for
functional peptides encoded by short open reading
frames // Nat. Rev. Genet. 2014. V. 15. № 3. P. 193–
204. DOI: 10.1038/nrg3520.
35. Hayden C.A., Bosco G. Comparative genomic analysis
of novel conserved peptide upstream open reading
frames in Drosophila melanogaster and other dipteran
species // BMC Genomics. 2008. V. 9. P. 61. DOI:
10.1186/14712164961.
36. Yang X., Tschaplinski T.J., Hurst G.B. et al. Discovery
and annotation of small proteins using genomics, pro
teomics, and computational approaches // Genome
Res. 2011. V. 21. № 4. P. 634–641. DOI: 10.1101/
gr.109280.110.
37. Law G.L., Raney A., Heusner C., Morris D.R.
Polyamine regulation of ribosome pausing at the up
stream open reading frame of Sadenosylmethionine
decarboxylase // J. Biol. Chem. 2001. V. 276. № 41.
P. 38036–38043. DOI: 10.1074/jbc.M105944200.
160
ШЕШУКОВА и др.
38. Iacono M., Mignone F., Pesole G. uAUG and uORFs in
human and rodent 5' untranslated mRNAs // Gene.
2005. V. 349. P. 97–105. DOI: 10.1016/
j.gene.2004.11.041.
39. Crowe M.L., Wang X.Q., Rothnagel J.A. Evidence for
conservation and selection of upstream open reading
frames suggests probable encoding of bioactive pep
tides // BMC Genomics. 2006. V. 7. P. 16. DOI:
10.1186/14712164716.
40. Mercer T.R., Wilhelm D., Dinger M.E. et al. Expression
of distinct RNAs from 3' untranslated regions // Nucl.
Acids Res. 2011. V. 39. № 6. P. 2393–2403. DOI:
10.1093/nar/gkq1158.
41. Chew G.L., Pauli A., Rinn J.L. et al. Ribosome profil
ing reveals resemblance between long noncoding
RNAs and 5' leaders of coding RNAs // Dev. Camb.
Engl. 2013. V. 140. № 13. P. 2828–2834. DOI:
10.1242/dev.098343.
42. Ladoukakis E., Pereira V., Magny E.G. et al. Hundreds
of putatively functional small open reading frames in
Drosophila // Genome Biol. 2011. V. 12. № 11.
P. R118. DOI: 10.1186/gb20111211r118.
43. Slavoff S.A., Mitchell A.J., Schwaid A.G. et al. Pepti
domic discovery of short open reading frameencoded
peptides in human cells // Nat. Chem. Biol. 2013. V. 9.
№ 1. P. 59–64. DOI: 10.1038/nchembio.1120.
44. Lauressergues D., Couzigou J.M., Clemente H.S. et al.
Primary transcripts of microRNAs encode regulatory
peptides // Nature. 2015. V. 520. № 7545. P. 90–93.
DOI: 10.1038/nature14346.
45. Waterhouse P.M., Hellens R.P. Plant biology: Coding
in noncoding RNAs // Nature. 2015. V. 520. № 7545.
P. 41–42. DOI: 10.1038/nature14378.
46. Brent M.R., Guigó R. Recent advances in gene struc
ture prediction // Curr. Opin. Struct. Biol. 2004. V. 14.
№ 3. P. 264–272. DOI: 10.1016/j.sbi.2004.05.007.
47. Wang J., Li S., Zhang Y. et al. Vertebrate gene predic
tions and the problem of large genes // Nat. Rev. Gen
et. 2003. V. 4. № 9. P. 741–749. DOI: 10.1038/
nrg1160.
48. Sleator R.D. An overview of the current status of eukary
ote gene prediction strategies // Gene. 2010. V. 461.
№ 1–2. P. 1–4. DOI: 10.1016/ j.gene.2010.04.008.
49. Frith M.C., Forrest A.R., Nourbakhsh E. et al. The
abundance of short proteins in the mammalian pro
teome // PLoS Genet. 2006. V. 2. № 4. P. e52. DOI:
10.1371/journal.pgen.0020052.
50. Hanada K., Zhang X., Borevitz J.O. et al. A large num
ber of novel coding small open reading frames in the
intergenic regions of the Arabidopsis thaliana genome
are transcribed and/or under purifying selection //
Genome Res. 2007. V. 17. № 5. P. 632–640. DOI:
10.1101/gr.5836207.
51. Cheng H., Chan W.S., Li Z. et al. Small open reading
frames: current prediction techniques and future pros
pect // Curr. Protein Pept. Sci. 2011. V. 12. № 6.
P. 503–507.
52. Hanada K., Akiyama K., Sakurai T. et al. sORF finder:
a program package to identify small open reading
frames with high coding potential // Bioinform. Oxf.
Engl. 2010. V. 26. № 3. P. 399–400. DOI: 10.1093/bio
informatics/btp688.
53. Vanderperre B., Lucier J.F., Roucou X. HAltORF: a
database of predicted outofframe alternative open
reading frames in human // Database J. Biol. Databas
es Curation. 2012. V. 2012. P. bas025. DOI:
10.1093/database/bas025.
54. Skarshewski A., StantonCook M., Huber T. et al. uP
EPperoni: an online tool for upstream open reading
frame location and analysis of transcript conservation //
BMC Bioinformatics. 2014. V. 15. P. 36. DOI:
10.1186/147121051536.
55. Zhang Z., Dietrich F.S. Identification and character
ization of upstream open reading frames (uORF) in
the 5' untranslated regions (UTR) of genes in Saccha
romyces cerevisiae // Curr. Genet. 2005. V. 48. № 2.
P. 77–87. DOI: 10.1007/s002940050001x.
56. Clamp M., Fry B., Kamal M. et al. Distinguishing pro
teincoding and noncoding genes in the human ge
nome // Proc. Natl Acad. Sci. USA. 2007. V. 104.
№ 49. P. 19428–19433. DOI: 10.1073/pnas.
0709013104.
57. Kozak M. An analysis of 5'noncoding sequences from
699 vertebrate messenger RNAs // Nucl. Acids Res.
1987. V. 15. № 20. P. 8125–8148.
58. Noderer W.L., Flockhart R.J., Bhaduri A. et al. Quan
titative analysis of mammalian translation initiation
sites by FACSseq // Mol. Syst. Biol. 2014. V. 10.
P. 748.
59. Karlin S., Campbell A.M., Mrázek J. Comparative
DNA analysis across diverse genomes // Annu. Rev.
Genet. 1998. V. 32. P. 185–225. DOI: 10.1146/an
nurev.genet.32.1.185.
60. Bateman A., Coin L., Durbin R. et al. The Pfam protein
families database // Nucl. Acids Res. 2004. V. 32.
№ Database issue. P. 138–141. DOI: 10.1093/nar/
gkh121.
61. Castrignanò T., Canali A., Grillo G. et al. CSTminer: a
web tool for the identification of coding and noncod
ing conserved sequence tags through crossspecies ge
nome comparison // Nucl. Acids Res. 2004. V. 32. №
Web Server issue. P. 624–627. DOI: 10.1093/nar/
gkh486.
62. Badger J.H., Olsen G.J. CRITICA: coding region iden
tification tool invoking comparative analysis // Mol.
Biol. Evol. 1999. V. 16. № 4. P. 512–524.
63. Kong L., Zhang Y., Ye Z.Q. et al. CPC: assess the pro
teincoding potential of transcripts using sequence
features and support vector machine // Nucl. Acids
Res. 2007. V. 35. № Web Server issue. P. 345–349.
DOI: 10.1093/nar/gkm391.
64. Ingolia N.T., Lareau L.F., Weissman J.S. Ribosome
profiling of mouse embryonic stem cells reveals the
complexity and dynamics of mammalian proteomes //
Cell. 2011. V. 147. № 4. P. 789–802. DOI: 10.1016/
j.cell.2011.10.002.
65. Studtmann K., OlschlägerSchütt J., Buck F. et al. A
noncanonical initiation site is required for efficient trans
lation of the dendritically localized Shank1 mRNA //
PLoS One. 2014. V. 9. № 2. P. e88518. DOI:
10.1371/journal.pone.0088518.
66. Ingolia N.T., Ghaemmaghami S., Newman J.R.S.,
Weissman J.S. Genomewide analysis in vivo of trans
lation with nucleotide resolution using ribosome pro
ГЕНЕТИКА
том 52
№2
2016
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
filing // Science. 2009. V. 324. № 5924. P. 218–223.
DOI: 10.1126/science.1168978.
67. Ivanov I.P., Firth A.E., Michel A.M. et al. Identifica
tion of evolutionarily conserved nonAUGinitiated
Nterminal extensions in human coding sequences //
Nucl. Acids Res. 2011. V. 39. № 10. P. 4220–4234.
DOI: 10.1093/nar/gkr007.
68. Carninci P., Sandelin A., Lenhard B. et al. Genome
wide analysis of mammalian promoter architecture
and evolution // Nat. Genet. 2006. V. 38. № 6. P. 626–
635. DOI: 10.1038/ng1789.
69. The FANTOM Consortium and Riken Omics Science
Center. The transcriptional network that controls
growth arrest and differentiation in a human myeloid
leukemia cell line // Nat. Genet. 2009. V. 41. № 5.
P. 553–562. DOI: 10.1038/ng.375.
70. Kodzius R., Kojima M., Nishiyori H. et al. CAGE: cap
analysis of gene expression // Nat. Methods. 2006.
V. 3. № 3. P. 211–222. DOI: 10.1038/nmeth0306211.
71. Ni T., Corcoran D.L., Rach E.A. et al. A pairedend se
quencing strategy to map the complex landscape of
transcription initiation // Nat. Methods. 2010. V. 7.
№ 7. P. 521–527. DOI: 10.1038/nmeth.1464.
72. Plessy C., Bertin N., Takahashi H. et al. Linking pro
moters to functional transcripts in small samples with
nanoCAGE and CAGEscan // Nat. Methods. 2010.
V. 7. № 7. P. 528–534. DOI: 10.1038/nmeth.1470.
73. Batut P., Dobin A., Plessy C. et al. Highfidelity pro
moter profiling reveals widespread alternative promot
er usage and transposondriven developmental gene
expression // Genome Res. 2013. V. 23. № 1. P. 169–
180. DOI: 10.1101/gr.139618.112.
74. Andreev D.E., O’Connor P.B.F., Fahey C. et al. Trans
lation of 5' leaders is pervasive in genes resistant to
eIF2 repression // eLife. 2015. V. 4. P. e03971. DOI:
10.7554/eLife.03971.
75. Andreev D.E., O’Connor P.B.F., Zhdanov A.V. et al.
Oxygen and glucose deprivation induces widespread
alterations in mRNA translation within 20 minutes //
Genome Biol. 2015. V. 16. P. 90. DOI: 10.1186/
s130590150651z.
76. Huang M.T. Harringtonine, an inhibitor of initiation
of protein biosynthesis // Mol. Pharmacol. 1975. V. 11.
№ 5. P. 511–519.
77. Menschaert G., Van Criekinge W., Notelaers T. et al.
Deep proteome coverage based on ribosome profiling
aids mass spectrometrybased protein and peptide dis
covery and provides evidence of alternative translation
products and nearcognate translation initiation
events // Mol. Cell. Proteomics. 2013. V. 12. № 7.
P. 1780–1790. DOI: 10.1074/mcp.M113.027540.
78. Guttman M., Russell P., Ingolia N.T. et al. Ribosome
profiling provides evidence that large noncoding
RNAs do not encode proteins // Cell. 2013. V. 154.
№ 1. P. 240–251. DOI: 10.1016/j.cell.2013.06.009.
79. LykkeAndersen J., Bennett E.J. Protecting the pro
teome: Eukaryotic cotranslational quality control
pathways // J. Cell Biol. 2014. V. 204. № 4. P. 467–
476. DOI: 10.1083/jcb.201311103.
80. Boisvert F.M., Ahmad Y., Gierlin’ski M. et al. A quan
titative spatial proteomics analysis of proteome turn
over in human cells // Mol. Cell. Proteomics. 2012. V.
ГЕНЕТИКА
том 52
№2
2016
161
11. № 3. P. M111.011429. DOI: 10.1074/
mcp.M111.011429.
81. Fritsch C., Herrmann A., Nothnagel M. et al. Genome
wide search for novel human uORFs and Nterminal
protein extensions using ribosomal footprinting // Ge
nome Res. 2012. V. 22. № 11. P. 2208–2218. DOI:
10.1101/gr.139568.112.
82. Krug K., Nahnsen S., Macek B. Mass spectrometry at
the interface of proteomics and genomics // Mol. Bio
syst. 2011. V. 7. № 2. P. 284–291. DOI: 10.1039/
c0mb00168f.
83. Chu Q., Ma J., Saghatelian A. Identification and char
acterization of sORFencoded polypeptides // Crit.
Rev. Biochem. Mol. Biol. 2015. V. 50. № 2. P. 134–
141. DOI: 10.3109/10409238.2015.1016215.
84. Vanderperre B., Lucier J.F., Bissonnette C. et al. Direct
detection of alternative open reading frames transla
tion products in human significantly expands the pro
teome // PLoS One. 2013. V. 8. № 8. P. e70698. DOI:
10.1371/journal.pone.0070698.
85. Oyama M., Itagaki C., Hata H. et al. Analysis of small
human proteins reveals the translation of upstream
open reading frames of mRNAs // Genome Res. 2004.
V. 14. № 10B. P. 2048–2052. DOI: 10.1101/
gr.2384604.
86. Oyama M., KozukaHata H., Suzuki Y. et al. Diversity
of translation start sites may define increased complex
ity of the human short ORFeome // Mol. Cell. Pro
teomics. 2007. V. 6. № 6. P. 1000–1006. DOI:
10.1074/mcp.M600297MCP200.
87. Michel A.M., Choudhury K.R., Firth A.E. et al. Obser
vation of dually decoded regions of the human genome
using ribosome profiling data // Genome Res. 2012.
V. 22. № 11. P. 2219–2229. DOI: 10.1101/
gr.133249.111.
88. Sanna C.R., Li W.H., Zhang L. Overlapping genes in
the human and mouse genomes // BMC Genomics.
2008. V. 9. P. 169. DOI: 10.1186/147121649169.
89. Kim D.S., Cho C.Y., Huh J.W. et al. EVOG: a data
base for evolutionary analysis of overlapping genes //
Nucl. Acids Res. 2009. V. 37. № Database issue.
P. 698–702. DOI: 10.1093/nar/gkn813.
90. Ho M.R., Tsai K.W., Lin W. A unified framework of
overlapping genes: towards the origination and en
dogenic regulation // Genomics. 2012. V. 100. № 4.
P. 231–239. DOI: 10.1016/j.ygeno.2012.06.011.
91. Черезов Р.О., Симонова О.Б. Перекрывающиеся ге
ны и антисмысловая транскрипция у эукариот //
Генетика. 2014. Т. 50. № 7. С. 749–765.
92. Johnson Z.I., Chisholm S.W. Properties of overlapping
genes are conserved across microbial genomes // Ge
nome Res. 2004. V. 14. № 11. P. 2268–2272. DOI:
10.1101/gr.2433104.
93. Uetz P., Rajagopala S.V., Dong Y.A., Haas J. From
ORFeomes to protein interaction maps in viruses //
Genome Res. 2004. V. 14. № 10b. P. 2029–2033. DOI:
10.1101/gr.2583304.
94. Keese P.K., Gibbs A. Origins of genes: “big bang” or
continuous creation? // Proc. Natl Acad. Sci. USA.
1992. V. 89. № 20. P. 9489–9493.
162
ШЕШУКОВА и др.
95. Yu P., Ma D., Xu M. Nested genes in the human ge
nome // Genomics. 2005. V. 86. № 4. P. 414–422.
DOI: 10.1016/j.ygeno.2005.06.008.
96. Gao C., Xiao M., Ren X. et al. Characterization and
functional annotation of nested transposable elements
in eukaryotic genomes // Genomics. 2012. V. 100.
№ 4. P. 222–230. DOI: 10.1016/j.ygeno.2012.07.004.
97. Kumar A. An overview of nested genes in eukaryotic
genomes // Eukaryot. Cell. 2009. V. 8. № 9. P. 1321–
1329. DOI: 10.1128/EC.0014309.
98. Wang R.F., Parkhurst M.R., Kawakami Y. et al. Utili
zation of an alternative open reading frame of a normal
gene in generating a novel human cancer antigen //
J. Exp. Med. 1996. V. 183. № 3. P. 1131–1140.
99. Ronsin C., ChungScott V., Poullion I. et al. A non
AUGdefined alternative open reading frame of the
intestinal carboxyl esterase mRNA generates an
epitope recognized by renal cell carcinomareactive
tumorinfiltrating lymphocytes in situ // J. Immunol.
1999. V. 163. № 1. P. 483–490.
100. Chung W.Y., Wadhawan S., Szklarczyk R. et al. A first
look at ARFome: dualcoding genes in mammalian
genomes // PLoS Comput. Biol. 2007. V. 3. № 5.
P. e91. DOI: 10.1371/journal.pcbi.0030091.
101. Topalian S.L., Solomon D., Avis F.P. et al. Immuno
therapy of patients with advanced cancer using tumor
infiltrating lymphocytes and recombinant interleukin2:
a pilot study // J. Clin. Oncol. 1988. V. 6. № 5. P. 839–
853.
102. Wang R.F., Robbins P.F., Kawakami Y. et al. Identifi
cation of a gene encoding a melanoma tumor antigen
recognized by HLAA31restricted tumorinfiltrating
lymphocytes // J. Exp. Med. 1995. V. 181. № 2.
P. 799–804.
103. Wang R.F., Rosenberg S.A. Human tumor antigens
recognized by T lymphocytes: implications for cancer
therapy // J. Leukoc. Biol. 1996. V. 60. № 3. P. 296–
309.
104. Vanderperre B., Staskevicius A.B., Tremblay G. et al. An
overlapping reading frame in the PRNP gene encodes
a novel polypeptide distinct from the prion protein //
FASEB J. 2011. V. 25. № 7. P. 2373–2386. DOI:
10.1096/fj.10173815.
105. Orr H.T., Chung M.Y., Banfi S. et al. Expansion of an
unstable trinucleotide CAG repeat in spinocerebellar
ataxia type 1 // Nat. Genet. 1993. V. 4. № 3. P. 221–
226. DOI: 10.1038/ng0793221.
106. Bergeron D., Lapointe C., Bissonnette C. et al. An out
offrame overlapping reading frame in the ataxin1
coding sequence encodes a novel ataxin1 interacting
protein // J. Biol. Chem. 2013. V. 288. № 30.
P. 21824–21835. DOI: 10.1074/jbc.M113.472654.
107. Somers J., Pöyry T., Willis A.E. A perspective on mam
malian upstream open reading frame function // Int. J.
Biochem. Cell Biol. 2013. V. 45. № 8. P. 1690–1700.
DOI: 10.1016/j.biocel.2013.04.020.
108. Calvo S.E., Pagliarini D.J., Mootha V.K. Upstream
open reading frames cause widespread reduction of
protein expression and are polymorphic among hu
mans // Proc. Natl Acad. Sci. USA. 2009. V. 106.
№ 18. P. 7507–7512. DOI: 10.1073/pnas.0810916106.
109. Jorgensen R.A., DorantesAcosta A.E. Conserved Pep
tide Upstream Open Reading Frames are Associated
with Regulatory Genes in Angiosperms // Front. Plant
Sci. 2012. V. 3. P. 191. DOI: 10.3389/fpls.2012.00191.
110. Wethmar K., Smink J.J., Leutz A. Upstream open read
ing frames: molecular switches in (patho)physiology //
BioEssays News Rev. Mol. Cell. Dev. Biol. 2010. V. 32.
№ 10. P. 885–893. DOI: 10.1002/bies.201000037.
111. Wiestner A., Schlemper R.J., van der Maas A.P.,
Skoda R.C. An activating splice donor mutation in the
thrombopoietin gene causes hereditary thromb
ocythaemia // Nat. Genet. 1998. V. 18. № 1. P. 49–52.
DOI: 10.1038/ng019849.
112. Liu L., Dilworth D., Gao L. et al. Mutation of the
CDKN2A 5' UTR creates an aberrant initiation codon
and predisposes to melanoma // Nat. Genet. 1999.
V. 21. № 1. P. 128–132. DOI: 10.1038/5082.
113. Wen Y., Liu Y., Xu Y. et al. Lossoffunction mutations
of an inhibitory upstream ORF in the human hairless
transcript
cause
Marie
Unna
hereditary
hypotrichosis // Nat. Genet. 2009. V. 41. № 2. P. 228–
233. DOI: 10.1038/ng.276.
114. Zhou D., Palam L.R., Jiang L. et al. Phosphorylation of
eIF2 directs ATF5 translational control in response to
diverse stress conditions // J. Biol. Chem. 2008. V. 283.
№ 11. P. 7064–7073. DOI: 10.1074/jbc.M708530200.
115. Vattem K.M., Wek R.C. Reinitiation involving up
stream ORFs regulates ATF4 mRNA translation in
mammalian cells // Proc. Natl Acad. Sci. USA. 2004.
V. 101. № 31. P. 11269–11274. DOI: 10.1073/pnas.
0400541101.
116. Ghilardi N., Wiestner A., Skoda R.C. Thrombopoietin
production is inhibited by a translational mechanism //
Blood. 1998. V. 92. № 11. P. 4023–4030.
117. Stockklausner C., Breit S., NeuYilik G. et al. The
uORFcontaining thrombopoietin mRNA escapes
nonsensemediated decay (NMD) // Nucl. Acids Res.
2006. V. 34. № 8. P. 2355–2363. DOI: 10.1093/nar/
gkl277.
118. Lee C., Lai H.L., Lee Y.C. et al. The A2A adenosine
receptor is a dual coding gene: a novel mechanism of
gene usage and signal transduction // J. Biol. Chem.
2014. V. 289. № 3. P. 1257–1270. DOI: 10.1074/jbc.
M113.509059.
119. Hashimoto Y., Kondo T., Kageyama Y. Lilliputians get
into the limelight: novel class of small peptide genes in
morphogenesis // Dev. Growth Differ. 2008. V. 50
Suppl 1. P. S269–S276. DOI: 10.1111/j.1440
169X.2008.00994.x.
120. Van Damme P., Gawron D., Van Criekinge W., Men
schaert G. Nterminal proteomics and ribosome profil
ing provide a comprehensive view of the alternative
translation initiation landscape in mice and men //
Mol. Cell. Proteomics. 2014. V. 13. № 5. P. 1245–
1261. DOI: 10.1074/mcp.M113.036442.
121. Ma J., Ward C.C., Jungreis I. et al. Discovery of human
sORFencoded polypeptides (SEPs) in cell lines and
tissue // J. Proteome Res. 2014. V. 13. № 3. P. 1757–
1765. DOI: 10.1021/pr401280w.
122. Kochetov A.V., Prayaga P.D., Volkova O.A., San
kararamakrishnan R. Hidden coding potential of
eukaryotic genomes: nonAUG started ORFs // J. Bio
ГЕНЕТИКА
том 52
№2
2016
“ГЕНЫМАТРЕШКИ” С АЛЬТЕРНАТИВНЫМИ РАМКАМИ СЧИТЫВАНИЯ
mol. Struct. Dyn. 2013. V. 31. № 1. P. 103–114. DOI:
10.1080/07391102.2012.691367.
123. Pestova T.V., Kolupaeva V.G. The roles of individual
eukaryotic translation initiation factors in ribosomal
scanning and initiation codon selection // Genes Dev.
2002. V. 16. № 22. P. 2906–2922. DOI: 10.1101/gad.
1020902.
124. Ivanov I.P., Loughran G., Sachs M.S., Atkins J.F. Initi
ation context modulates autoregulation of eukaryotic
translation initiation factor 1 (eIF1) // Proc. Natl Acad.
Sci. U. S. A. 2010. V. 107. № 42. P. 18056–18060.
DOI: 10.1073/pnas.1009269107.
125. Castellana N.E., Payne S.H., Shen Z. et al. Discovery
and revision of Arabidopsis genes by proteogenomics //
Proc. Natl Acad. Sci. USA. 2008. V. 105. № 52.
P. 21034–21038. DOI: 10.1073/pnas.0811066106.
126. Hanada K., HiguchiTakeuchi M., Okamoto M. et al.
Small open reading frames associated with morpho
genesis are hidden in plant genomes // Proc. Natl
Acad. Sci. USA. 2013. V. 110. № 6. P. 2395–2400.
DOI: 10.1073/pnas.1213958110.
127. Vaughn J.N., Ellingson S.R., Mignone F., Arnim A., von.
Known and novel posttranscriptional regulatory se
quences are conserved across plant families // RNA
N.Y. 2012. V. 18. № 3. P. 368–384. DOI:
10.1261/rna.031179.111.
128. Tran M.K., Schultz C.J., Baumann U. Conserved up
stream open reading frames in higher plants // BMC
Genomics. 2008. V. 9. P. 361. DOI: 10.1186/1471
21649361.
129. Hayden C.A., Jorgensen R.A. Identification of novel
conserved peptide uORF homology groups in Arabi
dopsis and rice reveals ancient eukaryotic origin of se
lect groups and preferential association with transcrip
tion factorencoding genes // BMC Biol. 2007. V. 5.
P. 32. DOI: 10.1186/17417007532.
130. Juntawong P., Girke T., Bazin J., BaileySerres J.
Translational dynamics revealed by genomewide pro
filing of ribosome footprints in Arabidopsis // Proc.
Natl Acad. Sci. USA. 2014. V. 111. № 1. P. E203–
E212. DOI: 10.1073/pnas.1317811111.
131. Dong X., Wang D., Liu P. et al. Zm908p11, encoded by
a short open reading frame (sORF) gene, functions in
pollen tube growth as a profilin ligand in maize //
J. Exp. Bot. 2013. V. 64. № 8. P. 2359–2372. DOI:
10.1093/jxb/ert093.
“Matreshka” Genes with Alternative Reading Frames
E. V. Sheshukovaa, A. V. Shindyapinaa, b, T. V. Komarovaa, b, and Yu. L. Dorokhova, b
a Vavilov
Institute of General Genetics, Russian Academy of Science, Moscow, 119991 Russia
email: [email protected]
b Belozersky Institute of PhysicoChemical Biology, Moscow State University, Moscow, 119991 Russia
Although a relatively small part of the human genome contains protein encoding genes, the latest data on the
discovery of alternative open reading frames (ORFs) in conventional mRNAs has highlighted the expanded
coding potential of these genes. Until recently, it was believed that each mRNA transcript encodes a single
protein. Recent proteogenomics data indicate the existence of exceptions to this rule, which greatly changes
the usual meaning of the term “gene”. The topology of a gene with overlapping ORFs resembles a Russian
“matreshka” toy. There are two levels of “matreshka” genetic systems. First, the chromosomal level, when
the “nested” gene is located within introns and exons of the main chromosomal gene, both in the sense and
antisense orientation relative to the external gene. The second level is a mature mRNA molecule containing
overlapping ORFs or an ORF with an alternative start codon. In this review we will focus on the properties of
“matreshka” genes of the second type and methods for their detection and verification. Particular attention
is paid to the biological properties of the polypeptides encoded by these genes.
Keywords: gene, open reading frame, alternative start codon, noncanonical start codon, “matreshka” gene.
ГЕНЕТИКА
том 52
№2
2016
163
Скачать