СтатиСтичеСкие закономерноСти мозаичной организации

advertisement
89
Оригинальные исследования
Статистические закономерности мозаичной организации
эукариотической ДНК
А.Р. Каюмов 1, А.А. Саетгараева 1, О.А. Маркелов 2, М.И. Богачев 2
1
Казанский (Приволжский) Федеральный университет, Казань, Россия
2
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»
им. В.И. Ульянова (Ленина), Санкт-Петербург, Россия
Statistical laws of eukaryotic DNA patchiness
A.R. Kayumov 1, A.A. Saetgaraeva 1, O.A. Markelov 2, M.I. Bogachev 2
1
Kazan (Volga region) Federal University, Kazan, Russia
2
Saint-Petersburg Electrotechnical University, Saint-Petersburg, Russia
Активное развитие генной инженерии и экспрессии
чужеродных генов в различных модельных организмах
выявили необходимость адаптации последовательностей
ДНК к генетическому аппарату клетки хозяина. Для этого необходимо приспособление как функциональных элементов кода, так и архитектуры третичной структуры ДНК.
Аннотированные геномы организмов, расположенных на
разном уровне эволюционного развития и используемых
в качестве модельных, были получены с использованием
открытой базы данных ГенБанка (ftp://ftp.ncbi.nlm.nih.gov/
genomes). Проводили анализ распределения длин структурных элементов генетического кода и получали функцию
плотности вероятности их размеров.
Анализ распределения последовательностей кодирующей (гены и экзоны) и некодирующей (межгенных участков
и интронов) ДНК показал, что оно сохраняет универсальный
вид в геномах эукариот всех эволюционных ступеней развития, независимо от среднего числа интронов в гене, их
длины и размера генома. Это позволяет предположить, что
механизмы геномных перестроек в результате инсерций,
делеций, мутагенеза, дупликаций и пр. имеют универсальный характер. Размер вновь встраиваемых (удаляемых)
участков ДНК находится в прямой зависимости от среднего
размера структурных элементов генетического кода (генов,
интронов, экзонов), присущих данному организму. Следовательно, при разработке генноинженерных конструкций,
где донор и акцептор ДНК находятся на разных уровнях
развития, необходимо вносить поправку на их средние размеры для минимизации негативных эффектов перестройки
генетического аппарата клетки.
Ключевые слова: ДНК, статистический анализ, геномы, модельные организмы.
Active development of the genetic engineering and
expression of foreign genes in various organisms revealed the
requirement of the DNA sequences adaptation to the genetic
machinery of a host cell including adaptation of both functional
elements of the genetic code and its tertiary architecture.
The annotated genomes of organisms at different evolutionary
levels that are widely used as models were obtained from the
Genbank (ftp://ftp.ncbi.nlm.nih.gov/genomes). The probability
density functions of the sizes of structural elements of the
genetic code were assessed and analyzed.
The analysis of the distribution of sequences of coding
DNA (genes and exons) and noncoding DNA (intergenic
sequences and introns) revealed their universal pattern in
genomes of all eukaryotes independently of their evolutionary
level, the average number of introns in a gene, their sizes and
the total genome size. It allows claiming that mechanisms of
genomic reorganizations as a result of insertions, deletions,
mutagenesis, duplications and others exhibit universal
character. The size of inserted/deleted sites of DNA directly
depends on the average size of the respective structural
elements of a genetic code (genes, introns, exons) of the
organism. Therefore the genetic engineering designs where
the DNA donor and recipient are located at different
evolutionary levels require the structural elements of foreign
DNA being adapted to their average sizes of the host to
minimize the negative effects from the reorganization of the
genetic machinery of the host.
Несмотря на то, что нуклеиновые кислоты служат
универсальным генетическим материалом, экспрессия чужеродных генов в модельных организмах не
всегда оказывается успешной, особенно в случаях,
когда донор и реципиент генетического материала
находятся далеко по эволюционной лестнице [1]. Активное развитие генной инженерии в регенеративной
медицине, биотехнологии, фармацевтике, сельском
хозяйстве выявило необходимость адаптации последовательностей к генетическому аппарату клетки хозяина, включая такие аспекты, как регуляторные элементы, генетический код, GC-контент, метилирование
и т.д. [2–4]. Кроме того, некоторые организмы способны распознавать и удалять или подавлять экспрессию чужеродных генетических конструкций. Поэтому
понимание этих механизмов и стратегий адаптации
генетического материала донора к экспрессионной
системе реципиента позволит значительно повысить
эффективность гетерологичной экспрессии генов [1].
Для разработки алгоритмов адаптации систем
гетерологичной экспрессии актуальным является
исследование и характеристика архитектуры и функционального строения геномов донора и реципиента.
В настоящее время доступны последовательности
полных геномов многих организмов, находящихся
на различных эволюционных уровнях, от бактерий
до человека. Показано, что общее количество генов
слабо коррелирует с эволюционным положением организма, в то время как объем некодирующей ДНК
значительно отличается [5], возрастая приблизительно в 1000 раз от E. coli к H. sapiens. Недавние
исследования показали, что у эукариот изменения
размера генома вызваны главным образом дупликациями, генетическими перекомбинациями, вставками и (или) удалениями, которые преимущественно
происходят в некодирующей ДНК – интронах и межгенных участках [6–8]. Следовательно, эволюция
затрагивает больше некодирующую ДНК, чем кодирующие последовательности [9]. В последние годы
структура эукариотического генома экстенсивно исследовалась на разных уровнях [10]. Большинство
исследований длин экзонов, интронов, генов и меж-
Key words: DNA, statistical analysis, genomes, model
organism.
е-mail: kairatr@yandex.ru
гены & клетки Том IX, № 3, 2014
90
Оригинальные исследования
генных областей посвящено описанию изменения их
размеров в зависимости от эволюции организма и
размера генома [11, 12]. В данной работе выполнено описание формы распределения длин этих
кодирующих и некодирующих последовательностей
ДНК с применением математического аппарата интервального анализа.
Материал и методы
Аннотированные геномы организмов, распложенных на разном уровне эволюционного развития и используемых в качестве модельных, были получены
с использованием открытой базы данных ГенБанка
(ftp://ftp.ncbi.nlm.nih.gov/genomes). Из файлов данных
Генбанка (*.gbk) были получены линейные размеры
некодирующих последовательностей ДНК – межгенных участков, самих генов (CDSs – кодирующая часть,
включающая интроны и экзоны), интронов и экзонов,
рассчитаны их средние значения (табл. 1).
Проводили анализ распределения длин структурных элементов генетического кода и получали
функцию плотности вероятности их размеров. Строили гистограммы H(l) длин элементов для каждого
из геномов, при этом размер карманов гистограммы
выбирался возрастающим по степенному закону, таким образом, чтобы значения абсцисс гистограммы
l оказывались равноотстоящими при отображении на
логарифмической шкале. Оценку плотности распределения вероятности P(l) производили путем нормировки гистрограммы H(l) к ее площади
P (l ) = H (l )
lmax
∫
Результаты и обсуждение
Размер некодирующей ДНК находится в степенной зависимости от размера генома. По мере
усложнения организмов в ряду от C. elegans до
млекопитающих размер генома увеличивается
в 35 раз (табл. 1). Увеличение его размера происходит путем возрастания размеров некодирующей ДНК, расположенной в интронах и межгенных участках. Отметим, что размеры интронов и
межгенных участков увеличиваются в ряду рассматриваемых организмов в 17 и 30 раз, соответственно. Размер генов увеличивается в 17
раз, как и размер интронов. При этом объем кодирующей ДНК возрастает всего в 3–4 раза,
в основном за счет увеличения количества экзонов
в одном гене при постоянной его длине [5].
Был проведен анализ зависимости среднего размера межгенных последовательностей и интронов от
размера генома (рис. 1). В то время как размер экзона практически не изменяется с эволюцией, размеры межгенных участков и интронов ( l ) находятся
в степенной зависимости от размера генома (S):
l ~ S k . Для интронов значения k составляет порядка 0,65, что близко к ранее показанному значению
H (l ) .
lmin
Для удобства сопоставления характеристик элементов, длина которых существенно (на 1–2 порядка) различается, полученные оценки плотности распределения вероятностей выражали в единицах их
средних значений l для данных элементов конкретного организма (табл. 1). Для сохранения нормировки значения плотности распределения домножали на
средние значения
(
l , таким образом получая зависи-
)
мости вида l P l l .
Рис. 1. Зависимость средней длины кодирующих
и некодирующих последовательностей от размера
генома
Таблица. Линейные размеры геномов со средними размерами гена, экзонов, интронов и межгенных
последовательностей различных организмов
Средние значения, тыс. пар оснований
Геном, млн пар
оснований
Ген
Меж генн.
Экзон
Интрон
Caenorhabditis elegans
100
2,8
7,26
0,22
0,31
Drosophila melanogaster
130
4,4
14,1
0,37
0,94
Danio rerio
1412
23,4
62,6
0,15
2,79
Mus musculus
3400
36,7
188
0,15
4,52
Rattus norvegicus
3360
34,3
198
0,15
4,45
Macaca mulatta
3140
42,8
189
0,15
5,43
Pan troglodytes
3700
46,2
203
0,16
5,72
Homo sapiens
3500
48,3
218
0,15
5,50
Организм
гены & клетки Том IX, № 3, 2014
91
Оригинальные исследования
0,51±0,1 [12]. Для размера межгенных участков
значение k равно 0,78. Это позволяет утверждать, что закономерности эволюции и накопления
некодирующей ДНК, скорее всего, определяются
одинаковыми механизмами и в интронах, и в межгенных последовательностях. С другой стороны, увеличение размеров межгенных участков происходит
быстрее.
Закон распределения размеров некодирующей
ДНК не зависит от эволюции. На следующем этапе
мы провели анализ распределения размеров некодирующей ДНК у организмов различного уровня эволюционного развития. На рис. 2 приведены функции
плотности распределения длин генов, межгенных
участков, а также экзонов и интронов у исследуемых
организмов.
Рис. 2. Функции плотности распределения длин кодирующих и некодирующих
последовательностей от размера генома
гены & клетки Том IX, № 3, 2014
92
Оригинальные исследования
Поскольку размеры данных последовательностей
различаются в 20–30 раз, для того, чтобы иметь
возможность сравнения форм их функций плотности вероятности, значения нормированы к среднему значению для организма ( l / l ). Как следует из
рисунка, независимо от положения организма на
эволюционной лестнице, размеров его генома и
длин генов и некодирующих последовательностей,
форма распределений их кодирующих фрагментов (экзонов) одинакова и затухает по степенному
(
)
−δ
, δδ ≈≈ 33 (см. рис. 2А). При
закону P ( l ) ~ l l
этом распределение некодирующих фрагментов характеризуется растянутой экспоненциальной зави-
( )
−( l l
γ
)
с γ ≈ 0,2 для интросимостью вида P l ~ e
нов (см. рис. 2Б) и γ ≈ 0,4 для межгенных участков
(см. рис. 2Г). Распределение размеров генов изменяется в зависимости от доли некодирующей ДНК
в геноме – для организмов, в геномах которых доминирует некодирующая ДНК, для генов характерно растянутое экспоненциальное распределение
γ
− l l
P ( l ) ~ e ( ) c γ ≈ 0,3, в то время как для орга-
низмов с высокой долей кодирующей ДНК в геномах, наблюдается зависимость, близкая к степенной
P (l ) ~ (l l
)
−δ
(см. рис. 2В).
Обсуждение
Значительные успехи в секвенировании ДНК привели к прочтению большого числа полных геномов
для организмов разных эволюционных уровней. Их
сравнительный анализ выявил резкий рост общего
количества и размера некодирующих последовательностей в ДНК высших эукариот [1], в то время
как количество белок-кодирующих генов довольно
редко превышает 20–25 тыс., несмотря на значительное (в разы) увеличение размера генома [12].
В настоящее время пока остается открытым как вопрос функции некодирующей ДНК, так и механизмов
ее накопления и связи с усложнением организма
[12, 13].
Наш анализ показал, что по мере усложнения
организмов, происходит увеличение размеров
межгенных участков в 30 раз, тогда как размеры интронов возрастают в 17 раз, как и размер
самих генов. Следовательно, размер генов увеличивается в основном за счет интронов, оставляя
кодируемый функциональный белок почти неизменным [1]. Таким образом, наибольший интерес
представляет ДНК, не несущая информации об
аминокислотных последовательностях и расположенная в межгенных участках и интронах. При
этом наблюдается четко выраженная степенная
зависимость длин кодирующих и некодирующих
последовательностей от размера генома. Другими
словами, размер и масштаб геномных перестроек,
по-видимому, находится в строгой зависимости от
размера генома.
С другой стороны, распределение плотности вероятности длин некодирующей (межгенных участков
и интронов) и кодирующей (гены и экзоны) ДНК оди-
гены & клетки Том IX, № 3, 2014
наково для всех рассмотренных организмов и, повидимому, сохраняет универсальный вид в геномах
эукариот всех эволюционных ступеней развития, независимо от среднего числа интронов в гене, их длины и размера генома. Это позволяет предположить,
что механизмы геномных перестроек в результате
инсерций, делеций, мутагенеза, дупликаций и пр.
носят универсальный характер.
Следует отметить, что в предположении о статистически случайных механизмах накопления некодирующей ДНК в геноме, теоретически ожидались
бы нормальные распределения длин элементов
(l) и экспоненциальные распределения интервалов между их положениями в геноме с вероятно-
()
−γ
c γ = 1. Полученные же эмпиристью P l ~ e
ческие распределения имеют γ = 0,2 ... 0,4, что
свидетельствует о неслучайном характере удлинения генов и некодирующей ДНК. Подобные формы
зависимости, описываемые растянутой экспоненциальной функцией, характерны для систем с так называемыми дальнодействующими статистическими
связями (long-range correlation), наличие которых
в первичной структуре биомолекул (ДНК и белков)
неоднократно отмечалось рядом авторов [10, 14–
17]. Наличие подобных связей в структурных элементах генетического кода позволяет утверждать,
что существуют статистически значимые факторы,
приводящие к неслучайному накоплению некодирующей ДНК в некоторых генетических элементах. Вероятно, это связано с наличием механизма,
приводящего к предпочтительному встраиванию
последовательностей в участки некодирующей
ДНК большей длины, причем вероятность такого
встраивания растет с ростом размера генетического элемента быстрее, чем по линейному закону.
Это может быть связано с эффектами, описанными
в [8, 18], а также с большей вероятностью нарушения функции генома при встраивании мобильного
генетического элемента в короткий фрагмент некодирующей ДНК. При этом размер вновь встраиваемых (удаляемых) участков пропорционален среднему размеру структурных элементов генетического
кода (генов, интронов, экзонов), присущих данному
организму.
Следовательно, при разработке генноинженерных конструкций, где донор и акцептор ДНК находятся на разный уровнях развития, за счет свойства масштабируемости поправка, вводимая для
минимизации негативных эффектов перестройки
генетического аппарата клетки, может быть сведена к систематической коррекции на отношение их
средних размеров.
Благодарности
Работа выполнена при поддержке государственной
программы
повышения
конкурентоспособности
Казанского (Приволжского) федерального университета среди ведущих мировых научно-образовательных центров и в рамках проектной части
государственного задания № 8.324.2014/K СанктПетербургского государственного электротехнического университета.
Оригинальные исследования
Литература:
1. Close D., Tingting Xu, Smartt A. Expression of Non-native genes
in a surrogate host organism. Genetic Engineering – Basics, New
Applications and Responsibilities. 2012; 3-34.
2. Angov E. Codon usage: Nature's roadmap to expression and
folding of proteins. Biotechnol. J. 2011; 6(6): 650-9.
3. Boeger H., Bushnell D.A., Davis R. et al. Structural basis of
eukaryotic gene transcription. FEBS Letters 2005; 579(4), 899-903.
4. Chamary J.V., Parmley J.L., Hurst L.D. Hearing silence: nonneutral evolution at synonymous sites in mammals. Nat. Rev. Gen.
2006; 7(2): 98-108.
5. Ahnert S.E., Thomas M.A., Zinovyev A. How much noncoding
DNA do eukaryotes require? J. Theor. Biol. 2008; 252: 587–92.
6. Ludwig M.Z. Functional evolution of noncoding DNA. Curr. Op.
Genet. Dev. 2002; 12: 634–9.
7. Gregory T.R. Insertion/deletion biases and the evolution of
genome sizes. Gene 2004; 324: 15–34.
8. Haddrill P.R., Bachtrog D., Andolfatto P. Positive and negative
selection on noncoding DNA in Drosophila simulans. Mol. Biol. Evol.
2008; 25: 1825–34.
9. Castillo-Davis C.I. The evolution of noncoding DNA: how much
junk, how much func? Trends in Gen. 2005; 21: 533–6.
10. Arneodo A., Vaillant C., Audit B. et al. Multi-scale coding of
genomic information: From DNA sequence to genome structure and
93
function. Phys. Rep. 2011; 408: 45–188.
11. Vinogradov A.E. Intron-genome size relationship on a large
evolutionary scale. J. Mol. Evol. 1999; 49: 376–84.
12. Lynch M., Conery J.S. The origins of genome complexity.
Science 2003; 302: 1401-4.
13. Straalen V., Roelofs D. An introduction to ecological genomics.
Oxford: Oxford University Press; 2006.
14. Peng C.-K., Buldyrev S.V., Goldberger A.L. et al. Longrange correlations in nucleotide sequences. Nature 1992; 356:
168-70.
15. Arneodo A., Bacry E., Graves P.V. et al. Characterizing longrange correlations in DNA sequences from wavelet analysis. Phys.
Rev. Lett. 1995; 74: 3293.
16. Богачев М.И., Каюмов А.Р. Исследование статистических
свойств первичной структуры факторов патогенности белковой природы. Биомедицинская радиоэлектроника 2011; 5: 24-7.
17. Богачев М.И., Каюмов А.Р., Михайлова Е.О. Анализ структуры сигналов и функциональной организации биокаталитических
систем с использованием математического аппарата интервальных
статистик. Известия высших учебных заведений России. Радиоэлектроника 2010; 3: 8-16.
18. Hannan A.J. Tandem repeat polymorphisms: modulators of
disease susceptibility and candidates for ‘missing heritability’. Trends
Gen. 2010; 26: 59-65.
Поступила: 11.08.2014
гены & клетки Том IX, № 3, 2014
Download