Математический анализ генетического кода

advertisement
Н.Н. Козлов
М АТ Е М АТ И Ч Е С К И Й А Н А Л И З
ГЕНЕТИЧЕСКОГО КОДА
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
Н.Н. Козлов
МАТЕМАТИЧЕСКИЙ АНАЛИЗ
ГЕНЕТИЧЕСКОГО КОДА
3-е издание (электронное)
Москва
БИНОМ. Лаборатория знаний
2015
УДК 575+573+519.8
ББК 28.04+22.18
К59
С е р и я о с н о в а н а в 2009 г.
К59
Козлов Н. Н.
Математический анализ генетического кода [Электронный
ресурс] / Н. Н. Козлов. — 3-е изд. (эл.). — Электрон. текстовые
дан. (1 файл pdf : 226 с.). — М. : БИНОМ. Лаборатория знаний,
2015. — (Математическое моделирование). — Систем. требования:
Adobe Reader XI ; экран 10".
ISBN 978-5-9963-2603-7
В монографии на основе изучения генов установлены новые свойства
генетического кода и вычислены важнейшие его интегральные характеристики; выделены две группы таких характеристик. Установлена взаимосвязь
полученных характеристик в этих группах. Проанализирован известный
к настоящему времени набор генов, в том числе человеческого генома;
получен ряд неизвестных ранее эффектов.
Для научных работников, преподавателей и студентов, специализирующихся в области математического моделирования в науках о живом.
УДК 575+573+519.8
ББК 28.04+22.18
Деривативное электронное издание на основе печатного аналога:
Математический анализ генетического кода / Н. Н. Козлов. — М. : БИНОМ.
Лаборатория знаний, 2010. — 215 с. : ил., [8] с. цв. вкл. — (Математическое
моделирование). — ISBN 978-5-9963-0119-5.
Первый тираж осуществлен при финансовой поддержке
Российского фонда фундаментальных исследований по проекту
№ 09-01-07047
В соответствии со ст. 1299 и 1301 ГК РФ при устранении ограничений,
установленных техническими средствами защиты авторских прав,
правообладатель вправе требовать от нарушителя возмещения убытков
или выплаты компенсации
ISBN 978-5-9963-2603-7
c БИНОМ. Лаборатория знаний, 2010
○
ОГЛАВЛЕНИЕ
Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Предисловие автора. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
Глава 1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
22
26
1.1. Гены и белки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Генетический код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Перекрывающиеся гены . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Глава 2. Математический анализ перекрывающихся генов . . . .
Теорема для перекрывающихся генов . . . . . . . . . . . . . . . . . . . . .
Доказательство теоремы 2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Молчащие мутации в области перекрывания генов . . . . . . . . . . .
Перекрывающиеся гены и нерегулярности генетического кода . .
Терминаторные кодоны в генетических перекрытиях . . . . . . . . .
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
30
34
38
45
51
58
Глава 3. Свойства структуры генетического кода на основе анализа перекрытий генов из одной цепи ДНК . . . . . . . . . .
60
2.1.
2.2.
2.3.
2.4.
2.5.
3.1. О востребованности каждого из 64 кодонов в генетических
перекрытиях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. О полном множестве перекрывающихся генов: случай сдвига
на −1 нуклеотид . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. О полном множестве перекрывающихся генов: случай сдвига на
+1 нуклеотид . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Перекрывающиеся гены и вариабельность генетического кода . .
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Глава 4. Потенциал стандартного кода для построения перекрытий пар генов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.
4.2.
4.3.
4.4.
Множества, порождаемые генетическим кодом . . . . . . . . . . . . . .
Теорема для генетического кода . . . . . . . . . . . . . . . . . . . . . . . . .
Функциональная роль переосмысленных кодонов . . . . . . . . . . . .
Математический анализ необычных случаев перекрытий генов .
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
66
71
75
81
83
84
94
100
105
112
Глава 5. Интегральные характеристики ряда генетических кодов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.1. Гипотетические коды . . . . . . . . . . . . . . . . .
5.2. Свойство всех известных природных кодов
5.3. Два вывода . . . . . . . . . . . . . . . . . . . . . . . . .
Заключение . . . . . . . . . . . . . . . . . . . . . . . . .
..
..
..
..
..............
..............
..............
..............
114
119
124
126
Оглавление
215
Глава 6. Неперекрывающиеся гены и генетический код . . . . . . . 128
6.1.
6.2.
6.3.
6.4.
Математический анализ структурных генов . . . . . . . . . . . . . . . .
Математический анализ девиантности генетического кода . . . . .
Интегральные характеристики генетического кода . . . . . . . . . . .
Некоторые расчетные характеристики больших геномов. . . . . . .
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
128
136
142
149
161
Глава 7. Математический анализ одной биологической структуры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
7.1. Вторичная структура матричной РНК . . . . . . . . . . . . . . . . . . . . .
7.2. Уточнение постановки задачи . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3. Результаты численных расчетов для вторичной структуры мРНК
MS2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4. Особенности множеств элементарных генетических перекрытий
и вторичная структура матричных РНК. . . . . . . . . . . . . . . . . . . .
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
165
169
170
175
177
Некоторые итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Приложение. Полный перечень элементарных генетических
перекрытий для пяти множеств W1 –W5 . . . . . . . . . . . . . 188
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
ПРЕДИСЛОВИЕ
Монография Н. Н. Козлова «Математический анализ генетического кода»
посвящена оригинальным исследованиям в области биоматематики. Круг
научных интересов автора чрезвычайно широк. Ранее мы совместно
выполнили ряд работ по анализу космических траекторий и эволюции
структур, начиная с изучения движения ИС Луны и галактик до математического моделирования процесса структуризации вторичных структур
РНК. Последняя тема относится к биоматематике, автор приступил
к работе над ней после того, как я предложил ему обратиться к задачам
молекулярной биологии.
Задача, о которой идет речь в монографии, была впервые поставлена автором позднее и активно мною поддерживалась. На основе 15 работ автора в ДАН, которые были опубликованы вплоть
до 2008 г., была написана данная монография. Используя большой
опыт исследования сложных природных дискретных систем различных
типов, автор нашел свой оригинальный подход к решению поставленных задач. Исследование начиналось с анализа перекрывающихся
генов, которые представлялись одним из типов сложных взаимосвязанных систем. Однако исследование показало, что такие гены являются хорошей площадкой для анализа свойств генетического кода.
Было доказано (теорема для генетического кода), что структура генетического кода содержит феноменальные возможности для построения
генетических перекрытий различных типов. Полученные результаты
привели к постановке задачи о взаимосвязи генетических перекрытий и вариабельности кода, а также к исследованию неперекрывающихся генов. В конечном итоге возник новый подход в изучении
больших геномов, в том числе генома человека. Была изучена также
установленная автором математическая аналогия между генетическими перекрытиями и стеблями вторичной структуры матричных РНК.
Интегральные характеристики генетического кода, введенные автором,
позволяют с новых позиций изучать структуру кода. Открытие новых, неизвестных ранее свойств генетического кода с неожиданной
стороны осветили проблему происхождения кода и его эволюции.
Сказанное свидетельствует о глубине проникновения автора в суть
4
Предисловие
рассматриваемых фундаментальных проблем. При этом полученные
оригинальные результаты не имеют аналогов в зарубежных исследовательских работах.
В связи со сказанным выше считаю исключительным важной публикацию данной монографии.
Академик Т. М. Энеев,
9 сентября 2009 г.
ПРЕДИСЛОВИЕ АВТОРА
В каждой естественной науке заключено
столько истины, сколько в ней математики.
И. Кант
Автора могут упрекнуть в том, что, как математик, он не вправе
указывать биологам, что же таится в структуре генетического кода.
Однако, оглядываясь назад, на всю историю открытия такого феномена, как генетический код, можно сказать, что именно неспециалисты
внесли решающий вклад в постановку задачи о существовании кода, его
структуре и свойствах. У истоков проблемы стоял Г. Мендель (ученик
Доплера!), который в 1866 г. установил, что передача наследственных
признаков потомству определяется независимыми факторами, которые
позже получили название генов. Практически через 80 лет физик
Э. Шредингер, а позднее астрофизик Г. Гамов и физик Ф. Крик внесли
решающий вклад в постановку задачи и прояснение принципиальных
аспектов, связанных с проблемой генетического кода (см. работы [1–5]).
Было выяснено, что ДНК является носителем генетической информации,
в 1953 г. определена пространственная структура ДНК, доказано существование первичной структуры у белка (см. п. 4 из монографии [6],
а также работы [7, 8]), после чего был экспериментально установлен
генетический код. Практически в ходе проведения всех названных
исследований возникала новая наука — молекулярная биология. После
завершения гигантского международного проекта по геному человека
(1990–2003 гг.) в ней наступила постгеномная эпоха. Как известно,
стоимость этого проекта оценивалась в 3 млрд долларов, а его завершение было приурочено к 50-летию классической работы [7]. Впервые
объединенная коллекция статей по человеческому геному была представлена в журнале «Nature» в 2006 г.; она составлена по публикациям
2001 г. для отдельных хромосом, с включением последующих комментариев [9].
К настоящему времени расшифровано относительно небольшое число других больших геномов. Ситуация существенным образом изменится
в ближайшие годы в связи с внедрением новейших методов расшифровки. В конце 2006 г. был объявлен конкурс на премию в 10 млн
долларов, которая будет вручена создателям быстрого и дешевого метода
расшифровки (см. статью [10]). Среди условий конкурса — возможность
6
Предисловие автора
расшифровать 100 любых человеческих геномов за 10 дней. Создание
такого метода приведет к резкому возрастанию числа геномов больших размеров, которые будут расшифрованы уже в ближайшие годы.
Принципиально важно, что создание такого метода откроет возможность
расшифровать геномы, которые по оценкам генетиков на порядок и более
превосходят человеческий. Математический анализ огромных объемов
подобной информации приобретает особую актуальность. При этом наиболее значимыми становятся исследования, связанные с поиском новых
постановок, которые ранее не обсуждались. Именно такие постановки
позволят по-новому подойти к изучению громадной по объему и невероятно таинственной информации, которой мы уже обладаем. Результаты
одного из таких исследований представлены в данной монографии.
Итак, к настоящему времени молекулярная биология уже стала производителем гигантских по объему экспериментальных данных, осмысление которых невозможно без математических методов и алгоритмов.
Многолетний опыт математического моделирования с применением ЭВМ
от легендарной «Стрелы» вплоть до самых современных супер-ЭВМ
позволяет сформулировать важный вывод. Принципиально новые результаты при работе с гигантской генетической информацией могут быть
получены только при использовании новых подходов, которые в своей
основе учитывают сущность генетической информации, ее отличие от сугубо физической или химической информации. Именно такой подход
оказался с успехом примененным к решению задач, о которых идет речь
в данной монографии. Кратко опишем его.
В основе исследования лежат экспериментальные данные по необычным способам записи генетической информации, так называемым перекрывающимся генам, когда один и тот же участок ДНК кодирует два
белка. К началу данного цикла исследований уже были экспериментально
установлены все пять случаев парных генетических перекрытий, которые
разрешаются структурой ДНК. Пониманию этого феномена во многом
способствовало то, что уже к 1992 г. объем публикаций по перекрытиям генов был значительным и все более и более увеличивался.
Это были публикации в журналах Nature, Cell, J. Mol. Biol., J. Virol.,
Genetics, The J. Biological Chemistry, J. Vol. Evol. и др. Первоначально
в исследовании речь не шла о свойствах генетического кода. Вопрос
был поставлен только о потенциальных позициях молчащих мутаций,
которые могут иметь место в областях, занятыми перекрывающимися
генами. Было установлено значительное (на порядок и более) сужение
спектра подобных позиций по сравнению с генами без перекрытий.
При анализе этого спектра для сотен генетических перекрытий были
обнаружены ряд геномов, в которых перекрытия требовали участия всех
смысловых кодонов. Стало ясно, что из перекрытий можно каким-то
Предисловие автора
7
образом выявить неизвестное свойство структуры генетического кода.
Была поставлена задача изучения потенциала генетического кода, который использован природой для всех пяти случаев перекрытий. Главный
результат был представлен теоремой для стандартного (первоначальное
название — универсального) генетического кода (см. работы [11, 12]).
Биологические следствия из нее позволили обратиться к анализу экспериментальных данных по всем девиантным генетическим кодам, или
кодам, отклоненным от стандартного. Однако в рамках генетических
перекрытий не удалось объяснить функциональную значимость всех
переосмысленных кодонов, или кодонов, которые изменили свой смысл
по сравнению со стандартным кодом. Путей дальнейших исследований
было несколько. Требуемое решение было найдено при исследовании
областей ДНК, где гены не перекрываются, а подчиняются принципу,
сформулированному как предположение в 1941 г.: один ген отвечает за
один белок (см. работу [13]). Таких генов — подавляющее большинство;
на сегодня это миллиардные нуклеотидные последовательности больших геномов (в том числе человека).
Как видим, на всех этапах исследования наши математические
утверждения подтверждались или дополнялись разнообразными экспериментальными данными, а именно: многими случаями перекрытий пар
генов, в том числе записанными нестандартными кодами, полным набором природных нестандартных кодов, полными кодирующим областями
больших геномов, в том числе генома человека. В ходе проведения
данного исследования был использован наш опыт проведения более
ранних работ по изучению эволюции и структуры сложных природных
и технических дискретных систем с большим числом взаимодействующих элементов.
Представим кратко эти исследования, в которых я принимал участие.
Из этого представления станет ясно, что перекрывающиеся гены, с которых были начаты наши исследования, есть еще одна достаточно сложная
система, состоящая из большого числа взаимозависимых элементов.
Перед представлением первой из таких задач следует отметить, что
именно это исследование в итоге привело нас к биологической проблематике. Речь идет об изучении гравитационного взаимодействия галактик
по компьютерной программе, созданной первоначально для изучения
движения искусственного спутника Луны в поле тяготения, где помимо
центрального тела учитывались масконы — вкрапления некоторого количества тел, которые были установлены экспериментально в статье [15].
Результаты изложены в работе [14] по космическим исследованиям, в которых заметное место занимали исследования по оптимизации процесса
траекторных измерений в случае ИС Марса (см. также статьи [16–20]
и рис. В.1).
8
Предисловие автора
Рис. В.1. Оптимальные сеансы измерений радиальной скорости на одном обороте
ИС Марса [17]. Приводятся решения для наилучшего определения минимального
расстояния до Марса. Сеансы располагаются по времени (спектры) и по истинной
аномалии (на орбитах). Время 1, 2, 4, 12 — допустимое время измерений в часах,
период обращения спутника — 24 часа
Предисловие автора
9
ГРАВИТАЦИОННОЕ ВЗАИМОДЕЙСТВИЕ ГАЛАКТИК
При близком пролете массивного тела мимо галактики, как показали численные эксперименты, возникают специфические приливные эффекты,
появляются спиральные ветви, значительные отклонения от плоскости
диска, искажения поля скоростей вещества, падение газа на плоскость
галактик. Качественный анализ и численный эксперимент позволили
выявить основные эффекты, возникающие при характерных вариантах
гиперболического пролета массивного тела относительно галактик: перпендикулярно ее плоскости, над плоскостью и в плоскости по направлению и против направления вращения галактики. Анализировалось
поведение до 2000 невзаимодействующих между собой точек-спутников,
двигавшихся первоначально по круговым кеплеровским орбитам вокруг
центральных областей галактики и возмущаемых при близком пролете
массивного тела (см. статьи [21–26]). На основе расчетов в 1973 г. был
создан компьютерный кинофильм продолжительностью около 15 минут.
Оценка этой работы дана Президентом АН СССР, академиком М. В. Келдышем на торжественном заседании, посвященном двадцатилетию созданного им ИПМ. Приводим выдержку из его доклада[27]. «Ярким
примером успешного применения машинных расчетов к классической
задаче является работа по гравитационному взаимодействию галактик.
Изготовленный вычислительной машиной кинофильм наглядно показывает образование у галактик спиральной структуры. По-видимому,
именно таким путем возникла спиральная структура нашей собственной
галактики» На рис. В.2 представлены 6 кадров из около 2000 кадров
одного из вариантов такого пролета.
Все 7 эпизодов пролета (по 6 кадров в каждом) представлены в статье [25]. Создание наиболее полной версии кинофильма было приурочено к чрезвычайной сессии МАС, посвященной 500-летию Коперника,
проходившей в 1973 г.. Первоначальным местом проведения этой сессии
бала выбрана Австралия, где в заседала галактическая секция. Однако
затем некоторые секции были перенесены на родину Коперника, где
на секциях небесной механики и астрофизики, и был впервые показан
этот кинофильм. Лишь много лет спустя зарубежным специалистам была
представлена только цифровая копия фильма на конференции Dynamics
of Galaxies. (Санкт-Петербург, 2007 г.)
МОДЕЛЬ АККУМУЛЯЦИОННОГО ПРОЦЕССА
ФОРМИРОВАНИЯ ПЛАНЕТНЫХ СИСТЕМ
Рассматривалась эволюция плоского протопланетного облака, состоящего из большого числа гравитационно взаимодействующих и объединяющихся при контактах тел (протопланет), движущихся в поле цен-
10
Предисловие автора
Рис. В.2. Фрагменты кинофильма (ИПМ, 1973 г.) относятся к варианту пролета
тела с массой равной массе галактики, пролетающего вблизи галактического диска (с параметрами порядка нашей галактики), перпендикулярно его плоскости с
удвоенной параболической скоростью. Время Т дается в миллиардах лет, момент
T = 0 соответствует моменту наибольшего сближения (см. статьи [24, 25])
Предисловие автора
11
трального массивного тела (Солнца или планеты). Предполагалось, что
гравитационное взаимодействие между телами имеет место лишь при их
бинарном тесном сближении. Предполагалось также, что от одного
тесного сближения до другого тела движутся по кеплеровским орбитам,
причем орбиты всех тел в начальный момент эволюции облака являются
круговыми. Рассматривались так называемая предельная модель процесса аккумуляции, в которой каждое тесное сближение тел заканчивается
их объединением. Показывается, что в ходе эволюции такой модели
в ней появляются кольцевые зоны уплотнения вещества, последующее
развитие которых приводит к образованию планет (см. работы [28–34], а
также рис. В.3).
Основные численные результаты работы были получены с помощью
моделирования процесса аккумуляции планет на БЭСМ-6. (см. также
следующий пункт) Кроме того, одновременно с образованием самих
планет изучался механизм формирования вращательного движения планет. Показывается, что подавляющее большинство крупных тел, образующихся в конце аккумуляционного процесса, приобретают прямое
(т. е. такое же, как и орбитальное) вращение вокруг своих осей. Одним
из важнейших результатов численных экспериментов является установление возможности обратного вращения протопланет Венеры и Урана
к моменту образования планет из протопланетного облака. Поскольку
указанные протопланеты обладали достаточно большими размерами,
то большую роль должна играть приливная эволюция вращательного
движения. Член-корреспондент В. В. Белецкий исследовал этот вопрос
и показал различие в результате указанной эволюции в случае Урана,
по сравнению с Венерой (см. статью [35]).
На основе анализа формирования вращения планет была установлена
связь между предельной моделью аккумуляционного процесса и теорией гравитационной неустойчивости допланетного газопылевого облака.
Этот анализ позволил также дать четкую физическую интерпретацию
и смысл предельной модели процесса аккумуляции. В итоге проведенных исследований академик Т. М. Энеев создал новую модель процесса
аккумуляции планетных систем.
По нашим данным проведенное исследование и прежде всего численные эксперименты не были до сих пор повторены за рубежом.
Ссылка на английский перевод нашей первой работы по данному
исследованию [28], датированной 1977 г., представлена на сайте NASA
(см. ссылку на эту работу). Причина этого таится по-видимому в достаточно нестандартной методике расчета (см. следующий пункт), так как
расчет, основанный на простом переборе не представляется возможным
за приемлемое время даже на самых современных супер-ЭВМ.
Рис. В.3. Слева: фрагменты образования планет-гигантов в одной из моделей [31]. Число тел N изменяется в ходе аккумуляционного процесса от исходного (25 600) до финального (4). Приводится радиальная проекция, по оси абсцисс — расстояние от Солнца
в астрономических единицах. Справа: фрагмент одного из вариантов образования планет в узком кольце. Все исходные тела имеют
одинаковые размеры. Приводится состояние системы для 500 тел или когда исходное число тел — 106 уменьшилось в 2000 раз.
Программа составлена на БЭСМ-6 в 1981 г. В. Н. Торопцевой на основе алгоритма из главы 6 работы [41]. Публикуется впервые
Предисловие автора
13
МЕТОД ВИРТУАЛЬНЫХ КОНТАКТОВ
Рассматривается новый подход к исследованию с помощью ЭВМ эволюции сложных дискретных систем, состоящих из большого числа N 1
контактирующих элементов. На основе этого подхода был разработан
метод, получивший название метода виртуальных контактов. Показывается, что использование этого метода приводит к затратам времени ЭВМ
порядка N 2 , в отличие от подхода, основанного на полном переборе,
когда эти затраты имеют порядок N 3 . Метод в своей основе может
использоваться для широкого круга столкновительных и коагуляционных
процессов (см. работы [36–46]).
Непосредственно созданный метод разрабатывался и был использован при проведении численных экспериментов по имитации формирования планетных систем в новой модели в случае N = 25 600,
при этом была выявлена весьма высокая его эффективность, характерное время расчета оказалось порядка N 3/2 ; уменьшение времени
счета по сравнению с N 2 было достигнуто за счет учета специфики
изучаемой модели. В ходе проведения численных экспериментов была
выявлена специфика протекания процесса формирования планетных
систем в рассматриваемой модели, что позволило разработать методику
расчета такой модели за время порядка N в диссертации [41]. Методика
была опробована на единственном экспериментальном варианте расчета
в котором исходное число прототел было равно 1 млн (фрагмент расчета
приведен на рис. В.3).Фактически эта работа завершилась в 1981 г.
В настоящее время в связи с появлением новейших супер-ЭВМ нами
предпринимаются попытки повторить расчет указанной модели.
ТРАССИРОВКА БИС
Предлагается новый подход к решению некоторых задач, возникающих
при конструкторском проектировании двухслойных БИС. Этот подход
основывается на математическом анализе множественных конфликтов
в препринте [47]. На основе этого подхода было создано несколько
версий алгоритма трассировки (см. работы [48–50]). Наиболее общий
из таких алгоритмов позволяет определять такие сочетания всех трасс
на двухслойной плате, при которых число точек межслойных переходов становится минимальным. На ПК был опробован такой алгоритм
для известного типа двухслойных БИС содержащего около 1500 трасс
с более чем 3250 выводами, так как не все трассы были двухконцевыми
(см. рис. В.4). Оказалось, что число точек межслойных переходов более
чем вдвое сокращается по сравнению со случаем ортогонального расслоения (см. отчет [50]).
14
Предисловие автора
Рис. В.4. Фрагмент канальной трассировки двухслойной БИС [47, 49]. На первом
этапе минимизируется число канальных магистралей, на втором — число межслойных переходов
КОМПЬЮТЕРНЫЙ АНАЛИЗ ПРОЦЕССОВ СТРУКТУРООБРАЗОВАНИЯ
НУКЛЕИНОВЫХ КИСЛОТ
Исследовался процесс структурообразования макромолекул рибонуклеиновых кислот. Принципиально новым в нашем подходе является моделирование не только структурообразования как отдельного явления,
но процесса рождения макромолекулы в целом. Это включает в себя
и моделирование механизма возникновения и роста молекулярной цепи
во взаимодействии с механизмами структурообразования. Усложнение
модели позволяет получать более точное описание поведения молекулярного комплекса, но требует достаточно большого объема вычислений.
Ранее нами были проведены исследования процесса структуризации
молекул РНК длиной до 150 нуклеотидов (впервые в работах [51–54])),
что позволило высказать гипотезу о прерывистости процесса транскрипции (см. работы [55–60]). Применение многопроцессорного вычислительного комплекса МВС-1000 позволило провести серию вычислений
для существенно более длинных молекул РНК — ферментов, длина которых превышает несколько сотен нуклеотидов. Полученные результаты
не только подтверждают высказанную нами ранее гипотезу о прерывистости процесса удлинения молекулярной цепи, но и позволяют сделать
оценку периода этого процесса. Основная идея определения вторичной
структуры заключается в моделировании последовательного процесса ее
формирования в ходе постепенного роста молекулярной цепи. Подход
этот был назван последовательным. Его применение дало заметное
Предисловие автора
15
повышение качества предсказания вторичных структур РНК и позволило
уточнить гипотезу о прерывистом характере транскрипции.
Именно с этой задачи начались наши исследования по биоматематике
и биоинформатике. Переход к этой проблематике был осуществлен
по инициативе академика Т. М. Энеева. Эти исследования в настоящее
время продолжаются (см. работы [60–64]). Программный комплекс,
работающий в настоящее время, рассчитан на молекулы РНК вплоть до
3000 нуклеотидов, при этом используются более совершенные модели
(см. рис. Ц. 1 на цв. вклейке).
Итак, от килопарсек и миллиардов лет мне пришлось перейти
в наномир — к нанометрам и наносекундам или уменьшить размерности
на 20 и большее число порядков. Это чисто формальное изменение.
В действительности оказалось, что мы погрузились в удивительный
мир, который настолько нас поразил, что нам ничего не оставалось
как попытаться его понять. А понять было не так просто. Оказалось,
что сегодня молекулярная биология является одной из наиболее бурно
развивающихся областей знаний с результатами поразительно быстро
прогрессирующих исследований. Обилие понятий, используемых в молекулярной биологии, необычайно велико и для анализа современных
проблем этой науки требуются определенная подготовка. Учитывая
это обстоятельство нами были выделены основополагающие понятия,
процессы и явления которые изучаются в молекулярной биологии
(см. работу [58], с. 25–28). При этом изложение ведется по возможности
без употребления узкоспециальных терминов. Достижения молекулярной
биологии — это результат многочисленных экспериментов. Автор пытался через результаты этих экспериментов (через измерения сначала так
называемых перекрывающихся генов, а затем неперекрывающихся, через
данные по 15 генетическим кодам, обнаруженных к настоящему времени) прорваться к пониманию структуры генетического кода. Именно
учет экспериментальных данных — генетической информации — является
основой проведенных исследований. Кроме того, приводятся результаты
по новейшим данным — по полным наборам генов в больших генома,
в том числе генома человека, причем окончательный смысл проведенных
расчетов сегодня может быть еще не вполне до конца ясен, поскольку
мы исходили из другой задачи, в которой нас интересовала всего одна
характеристика таких геномов без полного их анализа.
Остановимся на структуре книги.
Глава 1 посвящена основным понятиям молекулярной биологии,
используемым в данной книге. В настоящей работе изучаются лишь важнейшие преобразования, которые осуществляются в клетке живого организма между главными типами последовательностей — между генами
и белками. Причем эти преобразования изучаются в основном для особых
16
Предисловие автора
способов записи генетической информации — центрального объекта первого этапа исследования — перекрывающихся генов. Кроме того, кратко
излагается почти столетняя история открытия генетического кода.
Глава 2 вводит нас в описание первых результатов, полученных
по математическому анализу перекрывающихся генов, принадлежащих
одной цепи ДНК. Анализируются потенциальные позиции молчащих
мутаций для парных генетических перекрытий. Формулируется теорема
для перекрывающихся генов, и впервые публикуется ее доказательство.
Рассмотрено множество молчащих мутаций, принадлежащих, прежде
всего, двум группам наборов вирусов: группе HBV и HIV; эти вирусы
широко изучаются специалистами.
В главе 3 приводится один из центральных результатов проведенного
исследования. В самом начале показывается, что существуют геномы,
у которых для построения перекрытий генов требуется полный набор смысловых кодонов. После этого результата важнейшим пунктом
исследования становится взаимосвязь перекрытий генов и структуры
генетического кода. Для поиска потенциальных свойств этой структуры
были исследованы полные множества перекрытий генов, принадлежащих
одной цепи ДНК. Далее говорится о связи перекрытий генов и девиантности кода.
Глава 4 посвящена описанию основного инструментария, который
был использован при доказательстве основных утверждений и анализе
кодов, отклоненных от стандартного. Рассмотрение ведется для пяти
случаев парных генетических перекрытий, установленных экспериментально — это все возможные случаи парных перекрытий генов. Для них
было построено пять множеств элементарных перекрытий или перекрытий, соответствующих одиночным аминокислотам. Полный анализ
таких множеств, обладающих рядом удивительных свойств, до конца еще
не завершен. Приводится лишь полный перечень всех перекрытий из этих
множеств, а также самые общие свойства, использованные при доказательстве ряда утверждений. Формулируется теорема для генетического
кода, из которой следует удивительное свойство, содержащее в структуре
кода в неявном виде. Оказывается, что структура стандартного кода такова, что позволяет осуществлять парные перекрытия по каждому из пяти
случаев (за небольшим исключением) для любых аминокислотных последовательностей. Устанавливается также функциональная значимость переосмысленных кодонов: показывается, что структура девиантного кода
способна уменьшать размер всего генома. Рассматриваются также случаи
необычных генетических записей, которые специалисты интерпретируют
как редкие случаи перекрытий пар генов.
Глава 5 посвящена исследованию интегральных характеристик ряда
генетических кодов на основе установленной теоремы. Прежде всего,
Предисловие автора
17
анализируются гипотетические коды, которые были образованы как
одиночными перестановками в структуре стандартного кода, так и множественными перестановками, приводящими к увеличению интегральной характеристики почти на порядок по сравнению со стандартным
кодом. Отдельно рассматриваются коды с нулевой интегральной характеристикой. Исследованы все природные генетические коды, известные
к настоящему времени. На основе такого исследования сформулировано
свойство всех природных кодов. В конце главы формулируются два вывода, которые непосредственно вытекают из проведенных исследований
и связаны с двумя вопросами: как же был выбран генетический код
и какова роль переосмысленных кодонов в девиантных кодах.
Основные результаты глав 1–5 были доложены автором 18 октября
2005 г. на заседании Президиума РАН; аннотация доклада [65] представлена в сети Интернет. О главном на тот момент полученном результате —
теореме для генетического кода — Президент РАН, академик Ю. С. Осипов говорил в годовом отчете [66] в разделе «Крупные результаты,
полученные в математических науках».
Глава 6 посвящена результатам исследований, полученным в самые
последние годы и кратко впервые опубликованным в журнале «Доклады
Академии Наук» за 2007–2008 гг. (см. статьи [67–71]). Как и ранее,
рассматривались только структурные гены или гены, кодирующие белки.
Причем в отличие от предыдущих глав в данной главе анализируются
гены без каких бы то ни было перекрытий, а таких генов — подавляющее
большинство. В самом начале формулируется теорема, устанавливающая
потенциал кода, который может быть использован для блокировки всех
последовательностей, альтернативных гену. Насколько автору известно,
это наблюдение генетиков ранее математиками не изучалось. На основе
результатов, установленных теоремой, были решены несколько принципиальных задач. Прежде всего, анализировались все гены из одной
клетки, которые, как известно, записаны различающимися генетическими кодами. В ходе такого анализа была показано, что переосмысленные
кодоны могут участвовать в двух функциях: в генетических перекрытиях,
которые недопустимы для стандартного кода и в блокировке генов.
Результат получен для клетки человека и клетки медоносной пчелы.
Расчеты по большим геномам показали, что введенные блокировочные
характеристики носят индивидуальных характер для каждого организма. Поэтому помимо указанных организмов были проведены расчеты
по большим геномам еще для десяти организмов, расшифрованным к настоящему времени; дается предварительный анализ расчетов. Анализируются интегральные характеристики кода, которые используются при блокировке и показывается взаимосвязь таких характеристик с интегральной
характеристикой кода, которая соответствует генетическим перекрытиям.
18
Предисловие автора
В главе 7 установлена возможная роль примерно половины пар аминокислот, которые не могут участвовать в блокировке. Речь идет об участии таких пар в построении вторичных структур матричных РНК (или
копий участков ДНК, занимаемых генами), на основе которых впоследствии вырабатывается белок в клетке живого организма. Исследование
ведется в неизвестной ранее постановке. Показывается, что характерные
участки таких вторичных структур — так называемые стебли — являются
математическими аналогами фрагментов генетических перекрытий, как
будто бы взятых из различных цепей ДНК. В связи с таким положением
вся разработанная ранее методология изучения генетических перекрытий
в полной мере используется при изучении стеблей. Анализ ведется
для одной из наиболее протяженных вторичных структур, известных
к настоящему времени — матричной РНК MS2. Причем исследуется
целиком взятая структура. Одновременно проводится расчет позиций
блокировки в указанной структуре. В конце главы анализируется одна
особенность множеств элементарных перекрытий, и рассматриваются
вопросы возможного использования этой особенности при построении
вторичных структур матричных РНК.
Автор посчитал целесообразным после каждой главы давать ее
краткое резюме. В приложении в конце книги приводится полный
перечень элементарных генетических перекрытий, которые были вычислены для стандартного генетического кода и к которым имеет место
неоднократное обращение в ходе представления различных результатов
исследования. Из-за достаточно большого объема этот материал был
опубликован лишь однажды — в препринте ИПМ за 2004 год.
Данная книга стала итогом многолетних исследований (самая первая
постановка задачи относится к 1992 г., хотя главный акцент книги,
связанный со структурой генетического кода, не был четко обозначен
в самой первой публикации [72]). Окончательная ее структура сложилась в ходе плодотворных дискуссий на многочисленных докладах,
включая доклады на конференциях, в том числе международных. Это
были доклады в ИПМ РАН (многократно), МГУ (мех-мат, физфак),
ОИЯИ (Дубна, многократно), ИМПБ (Пущино), ИПМех РАН, МИАН
им. В. А. Стеклова, ИХС РАН (Санкт-Петербург) и Свято-Тихоновском
Православном богословском институте.
Особую благодарность хочу выразить Т. М. Энееву за предложение
обратиться к задачам молекулярной биологии, постоянное внимание
к данной работе и многократные обсуждения. Опыт многолетних совместных исследований с таким блистательным ученым как Т. М. Энеев
считаю бесценным. Именно это многолетнее сотрудничество научило
меня самостоятельно ставить и решать сложнейшие задачи современного
естествознания. Большая роль в этом принадлежит также Д. Е. Охоцим-
Предисловие автора
19
скому, которого уже нет с нами и которому я безмерно благодарен. По
существу он также стоял у истоков этой монографии, предложив мне
прочесть на его кафедре в МГУ спецкурс по первым результатам, которые
в итоге составили первые главы данной работы, а также активно содействовал привлечению студентов своей кафедры для расширения начатых
исследований и всегда детально интересовался ходом наших работ.
Автор благодарит В. П. Маслова за высокую оценку данных исследований, многочасовые дискуссии и постоянную поддержку
Автор благодарит Э. Л. Акима, В. В. Белецкого, В. В. Веденяпина,
Г. П. Георгиева, П. Г. Георгиева, А. В. Забродина, Е. А. Красавина, Е. И. Кугушева, С. П. Курдюмова, О. Б. Лупанова, М. Я. Марова, А. М. Молчанова, А. К. Платонова, Ю. П. Попова, А. Н. Сисакяна, Б. Н. Четверушкина,
В. Я. Шевченко, Ф. Л. Черноусько за дискуссии на разных этапах представления данной работы, за критические замечания и полезные советы.
Автор также благодарит И. В. Исавнину за ценные советы и замечания
в ходе публикации в ДАН главных результатов данной книги.
Автор благодарит М. Г. Бахарева, Д. И. Белецкого, П. С. Власова,
С. С. Грязнова, которые начиная с 3-го курса мехмата МГУ много работали над решением поставленных автором задач. В результате совместных
исследований были получены важные результаты, которые частично
представлены в гл. 5–7.
Автор благодарит лауреата двух Нобелевских премий по химии доктора Ф. Сенгера за проявленный интерес к работе [73] (в письме к автору
от 30.09.99). Следует отметить, что без исследований, начатых доктором
Ф. Сенгером в 1975 г., данная работа не могла состояться; именно при чтении первого целого генома были открыты перекрывающиеся гены —
главный объект первого этапа исследований. Автор также благодарен
лауреату Нобелевской премии доктору К. де Дюву за проявленный интерес к неизвестной ему ранее работе [11] (в письме к автору от 22.08.03)
и ценные указания, которые привели к новым постановкам задач в продолжение наших исследований. Мое письмо доктору К. де Дюву было
связано с его лекцией о происхождении жизни, которую он прочитал на
юбилейных торжествах в связи с 300-летием северной столицы России,
и в которой он не коснулся важнейшего вопроса, связанного с происхождением генетического кода. Достаточно подробное изложение указанной
лекции было опубликовано (см. статью [74]). Хотелось бы подчеркнуть
мою признательность лауреату Нобелевской премии И. Р. Пригожину,
которого уже нет с нами, за активное содействие в рецензировании
расширенной версии работы [11] (послание автору от 18.07.02).
И, наконец, вряд ли есть необходимость говорить о том, что сам
процесс создания этой книги стал для меня огромным удовольствием
благодаря энтузиазму и участию членов моей семьи.
20
Предисловие автора
Я благодарю дорогих мне Ольгу Николаевну и Наталию Валентиновну Козловых за большую работу по материалам на английском языке и
литературную правку рукописи этой книги.
Работа стала возможной благодаря постоянной финансовой поддержке РФФИ с самого начала основания этого Фонда (коды проектов:
93-011-21914, 95-01-00307, 98-01-00059, 01-01-00853, 02-07-90027, 0401-00320, 05-07-90026, 07-01-00241, 08-01-00042, 10-01-00145), а также
поддержке Программ фундаментальных исследований Президиума РАН:
«Параллельные вычисления на многопроцессорных вычислительных системах», «Фундаментальные проблемы информатики и информационных
технологий», «Интеллектуальные информационные технологии, математическое моделирование, системный анализ и автоматизация» и грантов
ведущих научных школ (00-15-96036, НШ-2003.2003.1, НШ-2448.2006.1,
НШ-1123.2008.1, НШ-6700.2010.1).
Глава 1
ВВЕДЕНИЕ
Данное исследование возникло непосредственно в ходе математического анализа необычных способов записи структурных генов или генов, кодирующих
белки. Главная цель данной работы состоит в том, чтобы изложить один
весьма плодотворный подход к изучению структуры генетического кода,
позволивший получить важное обобщение. Автор не делает попытки исчерпывающего обзора других подходов. Для формулировки главных результатов
данной работы ниже на основе монографии [6] представлены вводные
параграфы по генам и белкам, по генетическому коду, дано современное
представление о способах записи генетической информации для подавляющего большинства генов. Один из необычных способов, описанный в 1976 г.
в статье [75], анализируется ниже (впервые этот анализ был проведен
в статье [72]).
1.1. ГЕНЫ И БЕЛКИ
В работе [13] 1941 г. Д. Бидл и Э. Татум впервые выдвинули представление о взаимосвязи между генами и ферментами в рамках гипотезы «один ген — один фермент». За это открытие в 1958г. они были
удостоены Нобелевской премии. Соображения о природе взаимосвязи
между генами и белками были впервые высказаны в связи с изучением
одного из тяжелейших заболеваний человека — серповидноклеточной
анемии. Люди, страдающие серповидноклеточной анемией, как правило,
погибают, не достигнув зрелого возраста.
В 1949 г. в статьях [76] и [77] Джеймс Нил и Е. Бит независимо
высказали предположение о том, что серповидноклеточность связана
с мутацией определенного гена. В том же году в работе [78] Нобелевский
лауреат Лайнус Полинг и трое его коллег обнаружили, что гемоглобины нормальных индивидов и больных серповидноклеточной анемией
заметно различаются по подвижности в электрическом поле. При этом
оказалось, что гемоглобин пациентов с отдельными симптомами серповидноклеточности представляет собой смесь примерно равных количеств
нормального и мутантного гемоглобинов. Таким образом, стало ясно, что
мутация, вызывающая серповидноклеточность, связана с определенными
изменениями химической структуры молекул гемоглобина.
22
Глава 1. Введение
Рис. 1.1. Первые семь аминокислот (точнее, аминокислотных остатков) β-цепи
человеческого гемоглобина, состоящей из 146 аминокислотных остатков. Замещение глутаминовой кислоты Glu в шестом положении на валин Val приводит
к тяжелому заболеванию — серповидноклеточной анемии
Гемоглобин А, представляющий собой основной тип гемоглобина у
взрослого человека, состоит из четырех полипептидных цепей — двух
идентичных α-цепей и двух идентичных β-цепей (α2 β2 ). В 1957 г. Вернон
Ингрем показал, что нормальный и серповидноклеточный гемоглобины
содержат одинаковые α-цепи, но различные β-цепи. В шестом положении
β-цепи нормального гемоглобина находится остаток глутаминовой кислоты, а у серповидноклеточного гемоглобина он заменен на остаток валина (рис. 1.1). В данном случае различия между нормальным и мутантным
вариантами являются следствием единственной аминокислотной замены
в соответствующем белке.
Таким образом, стало ясно, что гены определяют аминокислотную
последовательность белков. Однако лишь прямое подтверждение того, что гены и полипептиды действительно коллинеарны, полученное
в 1964 г. в статье [79], явилось окончательным разрешением более чем
десятилетней дискуссии, основанной на более или менее правдоподобных гипотезах.
1.2. ГЕНЕТИЧЕСКИЙ КОД
История открытия генетического кода достаточно подробно описана
в монографиях [5, 80] М. Ичасом — одним из участников пионерских
исследований по этой проблеме. Он пишет:
«. . . расшифровка биологического кода действительно революционизирующее событие, ее, быть может, уместно сравнить с другим
событием, вызвавшим переворот в науке сто лет назад — с появлением
дарвиновского “Происхождения видов”».
Самым трудным в проблеме кода было понять, что код существует. На это потребовалось почти целое столетие. Отсчет его ведется
от работы [1] Менделя, который показал, что наследственные признаки
передаются дискретными частицами, которые мы сегодня называем
генами. Эта работа, как известно, почти не вызвала интереса.
1.2. Генетический код
23
«Из всего того, что нам известно, складывается впечатление, что
Менделю были, в общем-то, безразличны отклики на его работу.
Опубликовав свой главный труд, он посчитал свой долг исполненным:
если на нее не обратили внимания, то тем хуже для читателей,
а не для автора» (см. монографию [80, с. 142]).
В 1900 г. три независимых исследователя одновременно своими опытами подтвердили результаты, полученные Менделем. Только завершив
работу, они узнали, что 34 года назад их опередил Мендель. После 1900 г.
генетика стала развиваться быстро и непрерывно.
Впервые идея молекулярно-биологического подхода к проблемам
генетики была сформулирована известным физиком Э. Шредингером
в книге «Что такое жизнь? С точки зрения физика» [2], которая в оригинале увидела свет в 1945 г.. На странице 28 читаем представление о коде
(за 21 год до его окончательной разгадки!):
«Называя структуру хромосомных нитей шифровальным кодом,
мы подразумеваем, что всеохватывающий ум, вроде такого, который
некогда представлял себе Лаплас и которому каждая причинная связь
непосредственно открыта, мог бы, исходя из структуры хромосом,
сказать, разовьется ли яйцо при благоприятных условиях в черного
петуха или в крапчатую курицу, в муху или растение маиса, в рододендрон, жука, мышь или человека».
Помимо этого и других блистательных предвидений следует отметить, что эта книга сыграла решающую роль в судьбе ряда физиковтеоретиков. Назову лишь две фамилии, о которых будет идти речь
в дальнейшем. Это Ф. Крик, который в 1946 г. оставил теоретическую
физику и обратился к задачам биологии после прочтения этой книги. Его
Нобелевская лекция была посвящена проблеме кода, а не структуре ДНК,
за которую он был удостоен Нобелевской премии (F. Crick. Nobel Lecture,
Dec. 11, 1962: On the Genetic Code, Интернет). У истоков проблемы кода
стоял также физик Г. Гамов, на которого Ф. Крик ссылается на первой
странице указанной лекции. В предисловии автора монографии [5] также
читаем:
«Вопрос о кодировании стали рассматривать как конкретную
проблему, над которой можно работать с надеждой на определенный
успех, после заметки Гамова, опубликованной в журнале «Nature»
в 1954 г.».
«Сразу же после появления гипотезы Гамова многие исследователи приняли участие в обсуждении проблемы кода . . . Интересно, что
лишь немногие из них были биохимиками» ([5], с. 38).
24
Глава 1. Введение
Но сначала была решена проблема структуры ДНК. Аспиранту
Д. Уотсону понадобилось всего полтора года, чтобы совместно с руководителем Ф. Криком решить одну из важнейших проблем биологии и одну
из главных фундаментальных проблем, решенных в прошлом столетии.
Речь идет о структуре молекул ДНК, которую мир впервые увидел 25
апреля 1953 г.: работа [7], объемом в одну (!) страницу журнала «Nature»
поставила точку на дискуссии о роли ДНК в передаче наследственной информации. Точка была поставлена в двадцатипятилетнем споре
о структуре ДНК, когда, как считают современные биологи, благодаря
неверной гипотезе 1931 г., было задержано развитие молекулярной биологии, на целую четверть века. Сама же ДНК (дезоксирибонуклеиновая
кислота), одна из двух (еще и РНК) нуклеиновых кислот, была открыта
в 1868 г. Описания, которые дают для ДНК сегодня, различны. Для наших
целей достаточно упрощенного описания. Модель двойной спирали ДНК
представляет собой две нити, закрученные друг относительно друга
(рис. 1.2).
По сути дела, это двойная винтовая линия, а вовсе не спираль.
Алфавит ДНК содержит всего 4 буквы: А, С, G, Т. Это четыре нуклеотида:
аденин, цитозин, гуанин, и тимин соответственно. Точки между этими
буквами на рис. 1.2 указывают на количество водородных связей: две
связи между А и Т и три — между С и G. Именно эта блестящая догадка
Уотсона, который ввел эти комплиментарные пары (история открытия
Рис. 1.2. Модель двойной спирали ДНК. Чтение текста гена указано стрелками,
по одной цепи сверху вниз, по другой — снизу вверх
1.2. Генетический код
25
описана в книге [81]), и позволила объяснить важнейшие свойства
передачи наследственной информации. ДНК измеряют по-разному, в том
числе, и количеством пар нуклеотидов. Например, для ДНК человека их
около 3.2 млрд (ftp://ftp.ncbi.nih.gov/refseq/H_sapiens/).
Тайна гена была окончательно разгадана в 1966 г. (к столетию работы
Менделя [1]), когда в ходе экспериментальных исследований было
окончательно установлено, что гены — однонитевые участки ДНК, и что
они содержат информацию о белке в закодированном виде. Оказалось,
что каждая из 20 аминокислот — элементов, из которых состоят все
известные белки, — кодируется определенными тройками нуклеотидов —
кодонами или триплетами. Для четырех букв A, C, G, T, имеем 64
кодона: AAA, AAC, AAG, . . . , TTT. Смысл всех этих кодонов был экспериментально установлен и представлен в таблице генетического кода,
причем кодировка, которую выбрала природа, оказалась своеобразной.
В табл. Ц. 1 (см. цв. вклейку) она представлена полностью.
В табл. Ц. 1 для двадцати аминокислот приводятся как трехбуквенные, так и однобуквенные сокращения. Оба вида в равной мере
используются в научной литературе и в данной работе; нами, как
правило, сохраняются обозначения оригинальных статей. Столбцы обозначены цифрами: 1 — названия аминокислот (красный цвет), 2 — число
кодонов (зеленый цвет), 3 — наборы кодонов. Синий цвет соответствует
однозначным нуклеотидам, фиолетовый цвет — многозначным (от двух
до четырех). Кодоны терминации ter (обозначаются символом «*»)
не соответствуют никаким аминокислотам, каждый из них останавливает
синтез белка. Приведем также названия двадцати аминокислот, входящие
в состав всех белков: глицин (Gly), аланин (Ala), валин (Val), лейцин
(Leu), изолейцин (Ile), фенилаланин (Phe), пролин (Pro), метионин (Met),
серин (Ser), треонин (Thr), тирозин (Tyr), триптофан (Trp), аспарагин
(Asn), глутамин (Gln), аспарагиновая кислота (Asp), глутаминовая кислота (Glu), лизин (Lys), аргинин (Arg), гистидин (His).
Оказалось, что только две аминокислоты — метионин (Met) и триптофан (Trp) — кодируются однозначно кодонами ATG и TGG соответственно. Все остальные аминокислоты кодируются более чем одним кодоном
(это кодоны-синонимы), но не более чем шестью. Последнее наблюдается
только для трех аминокислот: серин (Ser), лейцин (Leu), аргинин (Arg).
Такие три кодировки названы нерегулярными, в отличие от семнадцати
других, регулярных, для которых каждые первая и вторая позиции
одинаковы в соответствующем наборе кодонов-синонимов. Полное число
смысловых кодонов или троек, кодирующих какую-либо аминокислоту,
равно 61.
Укажем, что помимо вырожденности (она выражается в том, что
одной и той же аминокислоте соответствуют, как правило, несколько
[...]
Генетический код
Таблица Ц. 1
Рис. Ц. 1. Процесс сворачивания во вторичную структуру рибосомальной
молекулы РНК человека (16 S РНК, длина — 1869 нуклеотидов). Приведены
два фрагмента процесса для 473 и 1869 нуклеотидов. Детали модели процесса см. в работах [51–64]. Каждому из нуклеотидов присвоен свой цвет:
А — красный, U — синий, С — желтый, G — зеленый. Видим, что помимо множества канонических связей АU или CG изредка встречаются неканонические связи
GU
Рис. Ц. 2. Пять возможных случаев перекрытий генов, соответствующих одной (1, 2) либо двум цепям ДНК (3–5)
Минимальные системные требования определяются соответствующими требованиями программы Adobe Reader версии не ниже 11-й для платформ Windows,
Mac OS, Android, iOS, Windows Phone и BlackBerry; экран 10"
Научное электронное издание
Серия: «Математическое моделирование»
Козлов Николай Николаевич
МАТЕМАТИЧЕСКИЙ АНАЛИЗ ГЕНЕТИЧЕСКОГО КОДА
Ведущий редактор М. С. Стригунова
Художественный редактор Н. А. Новак
Технический редактор Е. В. Денюкова
Корректор Н. Н. Ектова
Оригинал-макет подготовлен М. Ю. Копаницкой в пакете LATEX 2𝜀
Подписано к использованию 19.03.15. Формат 125×200 мм
Издательство «БИНОМ. Лаборатория знаний»
125167, Москва, проезд Аэропорта, д. 3
Телефон: (499) 157-5272
e-mail: info@pilotLZ.ru, http://www.pilotLZ.ru
Козлов Николай Николаевич – доктор
физико
математических наук, главный научный
сотрудник Института прикладной математики
им. М.В. Келдыша РАН.
Круг научных интересов автора чрезвычайно ши
рок, о чем свидетельствует его участие в работах
по анализу космических траекторий ИС Луны,
ИС Марса, по эволюции сложных дискретных
структур: изучение гравитационного взаимодействия галактик и мо
делирование процесса формирования планет из протопланетного
облака. Также исследовалась задача компьютерного проектирова
ния БИС. В ходе математического моделирования процесса структу
ризации вторичных структур РНК автором была поставлена задача
анализа необычных способов записи генетической информации –
перекрывающихся генов. Оказалось, что такие гены исключительно
важны для выявления и анализа новых свойств генетического кода,
которые могут быть получены только математическими методами.
Используя большой опыт изучения сложных природных и технических
дискретных систем различных типов, автор нашел свой оригинальный
подход к решению поставленных задач. Главные положения такого под
хода излагаются в данной монографии.
Download