spgenetxt

advertisement
Министерство общего и профессионального образования Российской Федерации
Нижегородский государственный университет им. Н.И. Лобачевского
Радиофизический факультет
Филиал кафедры радиотехники в Нижегородском научно-исследовательском
приборостроительном институте "Кварц"
Компьютерный спектральный анализ генетических текстов
Методическое пособие и описание лабораторной работы (препринт)
Составители: д. т. н. Кирьянов К.Г.
аспирант Семенчуков И.В.
Под общей редакцией руководителя филиала д. т. н. Кирьянова К.Г.
Зав. кафедрой, профессор Орлов И.Я.
Нижний Новгород
1998
1
Содержание
1. Введение.
2. Цель работы.
3. Используемые термины и обозначения.
4. Объект исследования.
5. Краткие теоретические сведения о спектральном анализе последовательностей.
6. Методики применения спектрального анализа в исследовании генетических текстов.
7. Описание алгоритма и программы.
8. Контрольные вопросы (для допуска к работе).
9. Ориентировочные направления лабораторных работ.
10. Задание к работе.
11. Содержание отчета.
12. Рекомендуемая литература.
13. Приложения.
2
1. Введение.
В работе одного из основоположников квантовой механики Э. Шредингера "Что такое
жизнь" высказывалась гипотеза о строении молекулы "наследственного вещества". Как
выяснилось впоследствии, это вещество представляет собой нуклеиновые кислоты (ДНК и
РНК) – длинные цепочки из сложных химических комплексов четырех типов, называемых
нуклеотидами. Это аденин – A, гуанин – G, цитозин – C и тимин – T (урацил – U в РНК). Эти
последовательности, названные Шредингером "апериодическими кристаллами" [1], хранятся
в хромосомах каждой клетки. ДНК, содержащаяся в наборе хромосом каждого организма,
называется геномом. Наследственная информация, хранящаяся в геноме, определяет на этапе
белкового синтеза на основе "универсального биологического кода" (УБК) фенотип
организма – внешний вид, сходство с родителями и т. п.
Сегодня для многих организмов уже установлен нуклеотидный состав их ДНК или ее
частей. Одной из важных задач теории и практики на сегодняшний день является проблема
расшифровки нуклеотидных последовательностей – генетических текстов, и их "понимания".
Под расшифровкой понимается разбиение всего генома – «слитного» текста – на смысловые
участки – «предложения», явно не разделенные «знаками препинания». Эта задача особенно
важна в отношении генома человека (состоящего из 3∙109 "букв"), поскольку помогает в
решении проблем установления родства, диагностики наследственных заболеваний,
определения возраста организма [2–5]. Исследования в рамках данной проблемы проводятся
с привлечением различных отраслей науки, способных помочь ее решению. Для изучения
генома используется широкий спектр химических, биохимических, физических и
биофизических методов исследования.
2. Цель работы.
В данной работе для исследования последовательностей ДНК и РНК применяется метод
компьютерного спектрального анализа генетических текстов. В основе этого метода лежит
дискретное преобразование Фурье, которое применяется к закодированным числами
нуклеотидным цепочкам. Целью работы является исследование спектров различных
функциональных участков нуклеотидных последовательностей различных организмов.
Данное методическое пособие и лабораторная работа соответствуют одному из разделов
спецкурса "Математические модели в радиофизике: идентификация, диагностика,
прогнозирование" для магистров и студентов IV и V курсов радиофизического факультета
ННГУ.
3
3. Используемые термины и обозначения.
Аминокислоты – класс органических кислот, у которых одновременно присутствует
аминогруппа (–NH2) и карбоксильная группа (–COOH). Только 20 аминокислот
участвуют в образовании белков.
Пептид – молекула из двух аминокислот, соединенных между собой при помощи пептидной
связи –CO–NH–. Дальнейшее присоединение аминокислот к такой молекуле приводит к
образованию полипептида.
Белки (протеины) представляют собой полипептиды, в молекулу которых входят от 100 до
нескольких тысяч аминокислот, с молекулярной массой свыше 10000.
Нуклеотид – молекула, состоящая из одного пуринового или пиримидинового основания,
пентозы (сахар с 5 атомами углерода) и остатка фосфата (–OP(O)(OH)2). Является
«строительным блоком» нуклеиновых кислот. Наиболее распространены пять
нуклеотидов: аденин (A), гуанин (G), тимин (T), цитозин (C) и урацил (U). (Примечание:
урацил в РНК – эквивалент тимина в ДНК)
ДНК (дезоксирибонуклеиновая кислота) – носитель генетической информации. В основном
находится в хромосомах клеточного ядра. Состоит в основном из A, G, T и C.
РНК (рибонуклеиновая кислота) служит для передачи и реализации генетической
информации в большинстве клеточных систем. У многих простейших вирусов ДНК
отсутствует; ее функции выполняет РНК. Состоит в основном из A, G, C и U.
Геном – ДНК, содержащаяся в одном наборе хромосом.
Ген – это элементарная единица наследственности, представляющая собой определенную
специфическую последовательность нуклеотидов в ДНК.
мРНК (матричная РНК) осуществляет непосредственную передачу кода ДНК (гена) для
синтеза клеточных белков.
тРНК (транспортная РНК) – РНК, основной функцией которой является транспорт
аминокислот на соответствующий участок мРНК в процессе синтеза белков.
Кодон – единица генетической информации, закодированной в генах. Представляет собой
группу из трех нуклеотидов, иначе называемую триплетом. Всего существует 4 3=64
различных кодонов.
Трансляция – процесс синтеза белка, при котором последовательность нуклеотидов в ДНК
переводится в соответствующую последовательность аминокислот.
УБК (универсальный биологический код) – это система расположения нуклеотидов в нити
ДНК, обусловливающая соответствующую последовательность расположения
аминокислот в белке. Каждой аминокислоте в белке соответствует кодон в ДНК. Все
синтезируемые в процессе трансляции белки построены из остатков 20 аминокислот.
Какой именно кодон ответственен за включение той или иной аминокислоты, можно
определить по таблице приложения 1.
УБК специфичен: каждый кодон кодирует только одну аминокислоту.
УБК называют вырожденным, поскольку 61 кодон кодирует всего 20 аминокислот
(остальные 3 кодона является «сигналами» остановки синтеза белка).
УБК неперекрывающийся – кодоны транслируются всегда целиком; для кодирования
невозможно использование элементов одного из них в сочетании с элементами
соседнего.
УБК обладает также свойством однонаправленности – кодоны информативны только
в том случае, если они считываются только в одном направлении – от первого
нуклеотида к последующим.
УБК универсален для всех живых существ. Возможны только небольшие видовые
изменения, большинство из которых связано с вырожденностью кода.
4
ẑ и ~z - реальная и мнимая части комплексного числа z  Re z  i  Im z  zˆ  i  ~
z.
N – длина “окна анализа” – участка нуклеотидной последовательности.
w – относительная частота.
T – период.
4. Объект исследования.
Основным объектом исследования в данной работе является ДНК, которая представляет
собой цепочку более чем из 108 нуклеотидов. Из курса биологии известно, что ДНК является
носителем наследственной информации всех живых организмов, включая человека, и
отвечает за развитие (рост и размножение) клеток.
«Строительными блоками» нуклеиновых кислот служат нуклеотиды. Известно по
меньшей мере десять их видов, но основным материалом служат всего 4 из них: аденин – A,
гуанин – G, тимин – T (в РНК урацил – U) и цитозин – C. Связываясь друг с другом,
нуклеотиды образуют очень длинные полинуклеотидные цепочки. Последовательность
нуклеотидов в нити ДНК называется первичной структурой (пример – …AGTAACTGAC…).
Установлено, что молекула ДНК представляет собой совокупность генов, регуляторных
участков, районов, участвующих в организации генов в хромосомах, а также
последовательностей, функции которых еще не известны. Ген – функциональная единица
ДНК, содержащая информацию для синтеза полипептида (белка) и РНК. Средняя длина гена
около 1000 пар оснований. Сам ген не принимает непосредственного участия в синтезе, а
служит лишь матрицей для построения молекулы мРНК (в которую передается код гена),
или предшественников рРНК и тРНК (из них после промежуточных реакций получаются
готовые рРНК и тРНК).
Существует множество литературы, посвященной строению и свойствам генетического
аппарата. Для получения дополнительных сведений об объекте исследования обратитесь к
литературе [2-5].
Для того, чтобы проводить исследования ДНК, необходимо знать ее первичную
структуру. Процесс определения последовательности нуклеотидов в ДНК называется
секвенированием. В настоящее время секвенировано уже очень много ДНК самых разных
организмов и проведен их анализ, заключающийся в определении местонахождения генов и
других функциональных участков и определении их свойств. Для обеспечения возможности
широкого доступа к информации об уже исследованных ДНК были созданы банки данных
(БД). В данной работе используется информация из двух таких БД – "GenBank" [6] и
"EMBL" (Европейская Молекулярно-Биологическая Лаборатория в Гейдельберге, Германия).
Записи в этих банках имеют схожий друг с другом формат. Помимо самой нуклеотидной
последовательности, в них содержится подробная информация о ее свойствах и приводятся
ссылки на источники данных. Формат базы EMBL приведен в приложении 2.
Рассмотрим нуклеотидную последовательность на примере ДНК генома митохондрий
человека (файл HUMMTCG.SEQ, БД GenBank, см. приложение 3). Первые два поля
представляют краткую информацию о последовательности (размер, принадлежность к
организму). Следующее поле определяет ключи поиска данной записи в БД. В четвертом,
пятом и шестом полях приводятся ключевые слова и описание организма – источника ДНК
(РНК).
Следующая группа полей представляет собой ссылки на литературу, содержащую
информацию о представленной последовательности. Затем идет поле FEATURES,
представляющее наибольший интерес. В нем приводится уже известная информация о
структуре ДНК (РНК): тип и расположение участков ДНК, и краткие комментарии
(антикодон для тРНК, название гена для мРНК и т.п.).
Последним полем является поле ORIGIN, содержащее саму последовательность. Каждая
строка содержит порядковый номер первого нуклеотида в строке. Нуклеотидная
последовательность в строке размещена шестью группами (по десять нуклеотидов в каждой),
разделенными пробелами.
5
5. Краткие теоретические сведения о спектральном анализе последовательностей.
x ( n)
Рассмотрим произвольный числовой ряд
комплексных чисел x(n)  xˆ (n)  i  ~
конечной длины N, 0  n  N 1 . Число N носит название длины окна анализа. В математике
[7] доказано, что его можно разложить в ряд Фурье с коэффициентами
N 1
S ( k , N )   x ( n)  e
j
2
kn
N
~
 Sˆ (k , N )  i  S (k , N )
(1), где
n 0
1
1
, 1
 T  .
N
N 1
1
k
Здесь w 
– относительная частота, T  – период.
N
w
N 1

 2

 2

Sˆ (k , N )    xˆ (n)  cos
kn  ~
x (n)  sin 
kn
(2),
 N

 N

n 0 
0  n  N  1, 0  k  N  1, 0  w  1 
N 1

~
 2

 2

S (k , N )    xˆ (n)  sin 
kn  ~
x (n)  cos
kn (3).
 N

 N

n 0 
Совокупность коэффициентов Фурье S(k, N) называют спектром ряда x(n).
Если ряд x(n) вещественный, то формулы (2)-(3) приобретают вид:
N 1
 2

Sˆ (k , N )   xˆ (n)  cos
kn 
(2а),
 N

n 0
N 1
~
 2

S (k , N )   xˆ (n)  sin 
kn 
(3а).
 N

n 0
В настоящей работе и программной системе используются простейшие способы
кодирования нуклеотидов ДНК- и РНК-последовательностей вещественными числами.
Из формул (2а)-(3а) видно, что спектр вещественного ряда симметричен относительно
N
1 1

точки k = N / 2, поэтому можно ограничиться интервалом 0  k   1  0  w    .
2
2 N

Если известен спектр S(k,N) какой-либо последовательности x(n), то вычисление ее
элементов производится при помощи обратного преобразования Фурье:
1
x ( n) 
N
N 1
 S (k , N )  e
k 0
j
2
kn
N
(4).
Более подробную информацию о свойствах спектров смотрите в [7-9].
Приведем пример спектрального анализа периодической последовательности периода 3
длиной N=999: 023023023


023

 (рис.1).
999
Рис.1. Спектр периодической последовательности с периодом 3 длиной 999
6
Из рисунка 1 видно, что спектр имеет пик при w = 0.33 (T = 3), что говорит о наличии в
последовательности только периода 3. Как увидим далее (см. Приложение 4), пик на периоде
3, окруженный "шумовым фоном", есть у спектров ДНК-последовательностей.
6. Методики применения спектрального анализа в исследовании генетических текстов.
Для возможности вычисления спектра какого-либо участка нуклеотидной
последовательности определенной длины (в "окне анализа") необходимо представить этот
участок числовым рядом вида x(n) – закодировать последовательность. Каждому нуклеотиду
в цепочке ДНК нужно сопоставить его значение, являющееся элементом ряда.
Здесь возникает важный вопрос о выборе способа кодирования: разные подходы к
кодировке нуклеотидов могут дать совершенно разные картины спектров. При анализе
функциональных участков-генов оптимальная кодировка дает сильное отличие при
сравнении с другими участками – в картинах спектров генов резко выделяется пик на
периоде 3. За примерами графиков спектров генов можно обратиться к приложению 4.
Хорошие результаты при анализе спектров генов получаются, например, при следующих
способах кодировки:
1) соответствие более высокого кода нуклеотиду с более высокой молекулярной массой
(столбец Код 1 табл. 1);
2) обозначение одним и тем же кодом нуклеотидов одинакового класса соединений; A и G
– пурины, U и C – пиримидины (столбец Код 2 табл. 1);
3) обозначение одним и тем же кодом комплементарных нуклеотидов (столбец Код 3
табл. 1);
Таблица 1.
нуклеотидов
Нуклеотид
U
C
A
G
Способы
Код 1
0
1
2
3
кодировки
Код 2
0
0
1
1
Код 3
1
0
1
0
При выборе длины последовательности нужно учитывать следующие факты:
1) средняя длина гена, равна примерно 1000 нуклеотидов;
2) у высших организмов ген в ДНК имеет прерывистую структуру: участки гена,
называемые экзонами, прерываются интронами – некодирующими участками,
удаляемыми в процессе синтеза мРНК;
3) средняя длина участков ДНК, из которых синтезируется тРНК, равна 100 нуклеотидам;
4) средняя длина участков ДНК, из которых синтезируется рРНК, может варьироваться от
200 до 5000 нуклеотидов. Такой широкий диапазон обусловлен существованием
различных видов рРНК – существуют молекулы длиной примерно 120, 950÷1900 и
2000÷4800 нуклеотидов.
Полученные спектры могут иметь резко выделяющиеся пики на каких-либо периодах,
например, на периоде 3. Для нахождения этого периода необходимо профильтровать
полученный спектр узкополосным фильтром так, чтобы в результате фильтрации остался
лишь нужный пик, а затем к профильтрованному спектру применить обратное
преобразование Фурье.
7
7. Описание алгоритма и программы.
В настоящей работе для исследования спектров нуклеотидных последовательностей
используется специально разработанная для этого программа analys.exe.
Основные возможности программной системы:
1) поддержка файлов форматов EMBL и GenBank – нахождение в файлах и загрузка
самой нуклеотидной последовательности; ее длина должна быть не более 20000
нуклеотидов; при загрузке из файла произвольного формата должно быть выполнено
требование – начало последовательности должно содержать 10 нуклеотидов подряд
без пробелов в одной строке;
2) программа кодирует нуклеотиды целыми положительными числами; при запуске
программы имеется возможность изменения таблицы кодировки нуклеотидов; для
этого после указания имени загружаемого файла с последовательностью в ответ на
запрос об изменении кодировки нужно ответить Y и затем ввести код для каждого
нуклеотида, завершая ввод клавишей <Enter>;
3) программа позволяет выполнить спектральный анализ подпоследовательности с
выбором окна анализа с произвольными началом (но не более, чем длина
загруженной последовательности) и длиной (но не более, чем разность между длиной
последовательности и координатой начала окна); при нажатии <F1> нужно ввести
начало окна и нажать <Enter>, затем ввести длину окна и также нажать <Enter>; при
смене атрибутов окна нужно сначала нажать <F2>, затем <F1> и снова выполнить
вышеперечисленные действия;
4) просмотр и запись в файл формата .PCX графика спектра с автомасштабированием по
оси Y в фиксированном диапазоне относительных частот (0÷0.5, или периоды
2 ÷ + ∞); для записи графика в файл необходимо нажать клавишу <G>, затем указать
имя файла в формате имя.pcx, где имя должно удовлетворять стандартному
соглашению DOS;
5) возможность плавного движения окна по последовательности вперед и назад с шагом
1 (клавиши <стрелка вправо> и <стрелка влево>) и 10 (клавиши <PgUp> и
<PgDn>);; возможность плавного увеличения/уменьшения длины окна с шагом 1
(клавиши <стрелка вверх> и <стрелка вниз>);
6) вычисление обратного преобразования Фурье с фильтрацией спектра фильтром с
прямоугольной характеристикой; для этого нужно после вычисления спектра нажать
<F6>, переместить стрелками вертикальную черту, указав середину фильтруемого
участка и нажать <Enter>; после появления числа-координаты черты ввести
координаты левого и правого концов фильтра;
Приведем пример сеанса работы с программой analys.exe – спектральный анализ
нуклеотидной подпоследовательности ДНК генома митохондрий человека (файл
hummtcg.seq), начало – 4470 нуклеотид, длиной N=1042 нуклеотида.
Нужно запустить программу analys.exe. В ответ на приглашение ввести имя файла
последовательности – hummtcg.seq и нажать <Enter>. На предложение изменить кодировку
ответить N (нет).
После этого Вы увидите экран, соответствующий рис.2.
8
Рис.2. Основной экран программы analys.exe
При нажатии клавиши <F1> будет выдан запрос о начале окна анализа. Необходимо
набрать 4470 и нажать <Enter>. Потом в ответ на запрос о длине окна ввести, например,
1042 и нажать <Enter>. После этого программа сосчитает и выведет в нижней половине
экрана спектр, соответствующий рис.3.
Рис.3. Спектр участка ДНК генома митохондрий человека, начало
– 4470 нуклеотид, длина 1042 нуклеотида
Спектр имеет резкий пик на периоде 3. Полученный результат можно интерпретировать
следующим образом: это спектр промодулированного сигнала с частотой несущей,
равной 3.
8. Контрольные вопросы (для допуска к работе).
1. Какую литературу, относящуюся к спектральному анализу генетических текстов, Вы
читали?
2. Где и как хранится наследственная информация?
3. Что такое геном, ДНК, РНК, ген, кодон, функциональный участок ДНК, экзон, интрон?
4. Что такое аминокислотная последовательность?
5. Какие существуют типы структур ДНК и белков и количественные характеристики их и
их частей?
6. Почему "алфавиты" генетических текстов имеют 4 и 20 символов?
7. Что такое "УБК"? каковы его основные свойства?
8. Как получить информацию о генетическом тексте?
9. Какие существуют потоки генетической информации?
10. Как подготовить файл для спектрального анализа с помощью программы?
9. Ориентировочные направления и темы лабораторных работ.
11. Как выбрать длину последовательности?
12. Пронаблюдать, как зависит спектр последовательности от ее посимвольной кодировки
целыми числами с q =0, 1, 2, 3, 4, …
9
13. Что может дать другая кодировка последовательностей: отрицательными и
положительными целыми числами, вещественными числами; комплексными числами;
кодировка двоек, троек (покодонная), четверок и др.
14. Как изменится спектр при кодировке последовательности целыми числами по пуринам
(A, G) и пиримидинам (U, C)?
15. Что такое оптимальная кодировка и как ее найти?
16. Как выбрать начало и длину анализируемой последовательности?
17. Что дает обратное преобразование полученного спектра?
18. Что дает обратное преобразование спектра, профильтрованного узкополосным
фильтром?
19. Как с помощью спектрального анализа определить функциональные участки
генетических текстов?
20. Какие методы компьютерной обработки генетических текстов Вы могли бы
порекомендовать?
10. Задание к работе.
1. Перед выполнением работы необходимо ознакомиться с данным руководством и
рекомендованной литературой. Ответить на контрольные вопросы, которые являются
допуском к работе.
2. Ознакомиться с приемами работы с программой analys.exe на примере файла
HUMMTCG.SEQ;
3. Получить у преподавателя файлы с последовательностями и указания к составлению
отчета.
4. Обосновать экспериментально выбор границ и размеров участков для спектрального
анализа.
5. Провести
спектральный
анализ
выбранных
преподавателем
участков
последовательности.
6. Предложить, обосновать и проверить экспериментально другую кодировку нуклеотидов.
7. Предложить варианты использования спектральной информации для выбора
функциональных участков ДНК и РНК. Провести экспериментальное обоснование
методов.
8. Оформить отчет по результатам работы в соответствии с разделом 11.
11. Содержание отчета.
1.
2.
3.
4.
5.
6.
Название работы.
Согласованную с преподавателем формулировку задания и дату его получения.
Выбор и обоснование параметров метода решения задачи.
Полученные в ходе исследования результаты и их анализ.
Приложение, содержащее необходимые распечатки и доказательства.
Выводы.
12. Рекомендуемая литература.
1.
2.
3.
4.
5.
6.
Шредингер Э. Что такое жизнь. М.: Гос. изд-во иностранной литературы, 1947
Ичас. Биологический код. М.: Мир, 1971
Шапвиль Ф., Энни А.-Л. Биосинтез белка. М.: Мир, 1977.
Зенгбуш Л. Молекулярная и клеточная биология (в трех томах). М.: Мир, 1982.
Льюин Б. Гены. М., Мир, 1987.
Кирьянов К.Г., Лебедев О.Л. Почему биологические алфавиты имеют 4 и 20 букв?
Биофизика, том 40, вып. 3, 1995, с. 536-538.
10
7. GenBank. National Center for Biotechnology Information. National Library of Medicine,
National Institutes of Health. 8600 Rockville Pike, Bethesda, MD 20894. 301-496-2475. Rel.
77.0. June 15, 1993.
8. Марпл - мл., Стэнли Лоренс. Цифровой спектральный анализ и его приложения. М.: Мир,
1990.
9. Кривошеев В.И. ДПФ и БПФ.
10. Кирьянов К.Г., Кривошеев В.И. Цифровой спектральный анализ (периодограммный и
коррелеграммный методы). Методическое пособие. Нижегородский госуниверситет, 1993.
11. M. S. Gelfand. Global Methods for the Computer Prediction of Protein-Coding Regions in
Nucleotide Sequences (A Review).
12. Александров А.А., Александров Н.Н., Бородовский М.Ю. и др. Компьютерный анализ
генетических текстов. М.: Наука, 1990.
13. Макеев В.Ю., Франк Г.К., Туманян В.Г. Статистика периодических закономерностей в
последовательностях интронов человека М., Наука. Биофизика, том 41, вып. 1., 1996.
11
8. Приложения.
Приложение 1. Таблица универсального биологического кода (генетического кода).
I
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Классы эквивалентности кодонов в строках
таблицы УБК
UUU UUC
UUA UUG CUU CUC CUA CUG
UCU UCC UCA UCG AGU AGC
UAU UAC
UGU UGC
UGG
CCU CCC CCA CCG
CAU CAC
CAA CAG
CGU CGC CGA CGG AGA AGG
AUU AUC AUA
AUG
ACU ACC ACA ACG
AAU AAC
AAA AAG
GUU GUC GUA GUG
GCU GCC GCA GCG
GAU GAC
GAA GAG
GGU GGC GGA GGG
UAA UAG UGA
i
2
6
6
2
2
1
4
2
2
6
3
1
4
2
2
4
4
2
2
4
3
Кодируемые
аминокислоты
Phe F
Leu L
Ser S
Tyr Y
Cys C
Trp W
Pro P
His H
Gln Q
Arg R
Ile I
Met M
Thr T
Asn N
Lys K
Val V
Ala A
Asp D
Glu E
Gly G
Stop
Приложение 2. Описание формата базы данных EMBL.
В формате EMBL каждая запись (последовательность и описание) разбита на поля. Поле
может состоять из одной или более строк длиной не более 72 символов. Строка всегда
начинается с двухсимвольной метки, характеризующей данное поле, после метки идут три
пробела. Запись может включать следующие поля:
ID
AC
CR
DT
DE
DR
KW
OS
OD
OC
HS
HD
HC
(identifier) идентификатор, краткое описание, тип и длина последовательности;
(accession number) регистрационный номер последовательности;
(cross reference) ссылки на записи этой или других БД, имеющих отношение к данной
последовательности;
(date) даты ввода и редактирования записи;
(description) описание последовательности;
(data reference) ссылка на другие базы данных;
(keywords) ключевые слова;
(organism species) название организма;
(organism description) дополнительная информация об организме, штамме, ткани и
т.д.;
(organism classification) таксономия организма;
(host species) название организма-хозяина вируса, фага, органеллы;
(host description) дополнительная информация об организме, штамме, ткани и т.д. для
хозяина;
(host classification) таксономия организма хозяина;
12
RN
(reference number) номер библиографической ссылки;
RA
(reference authors) авторы работы;
RT
(reference title) название работы;
RL
(reference location) библиографическая ссылка;
CC
(comment) дополнительные комментарии для пользователя;
VR
(variances) неопределенности, вариации, мутации и т.д.;
FH
(feature header) заголовок таблицы особенностей;
FT
(feature table) таблица особенностей;
XX
пустые строки (вводятся для удобства чтения документа)
SQ
(sequence statistics) длина и нуклеотидный состав последовательности;
(пробелы)
сама последовательность;
//
конец записи.
Приложение 3. Пример записи из базы данных GenBank (сокращенный вариант).
LOCUS
DEFINITION
ACCESSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
STANDARD
REFERENCE
AUTHORS
TITLE
JOURNAL
STANDARD
REFERENCE
AUTHORS
TITLE
JOURNAL
STANDARD
REFERENCE
HUMMTCG 16569 bp ds-DNA Circular PRI 19-APR-1991
Human mitochondrion, complete genome.
J01415 M12548 M58503 M63932 M63933
12S ribosomal RNA; 16S ribosomal RNA; ATPase; circular;
complete genome; cytochrome; cytochrome oxidase; displacement loop;
oxidase; ribosomal RNA; transfer RNA; transfer RNA-Ala;
transfer RNA-Arg; transfer RNA-Asn; transfer RNA-Asp;
transfer RNA-Cys; transfer RNA-Gln; transfer RNA-Glu;
transfer RNA-Gly; transfer RNA-His; transfer RNA-Ile;
transfer RNA-Leu; transfer RNA-Lys; transfer RNA-Met;
transfer RNA-Phe; transfer RNA-Pro; transfer RNA-Ser;
transfer RNA-Thr; transfer RNA-Trp; transfer RNA-Tyr;
transfer RNA-Val; unidentified reading frame.
Human placenta mitochondrial DNA; HeLa cells mtDNA; HeLa cells mt
mRNA; KB cells mtDNA (see comment).
Mitochondrion Homo sapiens
Eukaryota; Animalia; Chordata; Vertebrata; Mammalia; Theria;
Eutheria; Primates; Haplorhini; Catarrhini; Hominidae.
1 (bases 105 to 323)
Crews,S., Ojala,D., Posakony,J., Nishiguchi,J. and Attardi,G.
Nucleotide sequence of a region of human mitochondrial DNA
containing the precisely identified origin of replication
Nature 277, 192-198 (1979)
full automatic
2 (bases 1 to 16569)
Anderson,S., Bankier,A.T., Barrell,B.G., de Bruijn,M.H.,
Coulson,A.R., Drouin,J., Eperon,I.C., Nierlich,D.P., Roe,B.A.,
Sanger,F., Schreier,P.H., Smith,A.J., Staden,R. and Young,I.G.
Sequence and organization of the human mitochondrial genome
Nature 290, 457-465 (1981)
full automatic
3 (bases 1 to 16569)
Montoya,J., Ojala,D. and Attardi,G.
Distinctive features of the 5'-terminal sequences of the human
mitochondrial mRNAs
Nature 290, 465-470 (1981)
full automatic
4 (bases 16015 to 16214)
13
AUTHORS
TITLE
JOURNAL
STANDARD
REFERENCE
AUTHORS
TITLE
JOURNAL
STANDARD
REFERENCE
AUTHORS
TITLE
JOURNAL
STANDARD
REFERENCE
AUTHORS
TITLE
JOURNAL
STANDARD
REFERENCE
AUTHORS
TITLE
JOURNAL
STANDARD
REFERENCE
AUTHORS
TITLE
JOURNAL
STANDARD
COMMENT
Simmons,J.N., Wright,C.T. and Clayton,D.A.
Elongation of displacement-loop strands in human and mouse
mitochondrial DNA is arrested near specific template sequences
Proc. Natl. Acad. Sci. U.S.A. 78, 6116-6120 (1981)
full automatic
5 (bases 324 to 743)
Bogenhagen,D.F., Applegate,E.F. and Yoza,B.K.
Identification of a promoter for transcription of the heavy strand
of human mtDNA: in vitro transcription and deletion mutagenesis
Cell 36, 1105-1113 (1984)
full automatic
6 (bases 15888 to 15954)
Mita,S., Monnat,R.J.Jr. and Loeb,L.A.
Direct selection of mutations in the human mitochondrial Thr-tRNA
gene: Reversion of an 'unclonable' phenotype
Mutat. Res. 199, 183-190 (1988)
full automatic
7 (bases 1 to 16569)
Johns,D.R. and Cornblath,D.R.
Molecular insight into the asymmetric distribution of pathogenetic
human mitochondrial DNA deletions
Biochem. Biophys. Res. Commun. 174, 244-250 (1991)
full automatic
8 (sites)
Rotig,A., Cormier,V., Koll,F., Mize,C., Saudubray,J.-M.M.,
Veerman,A., Pearson,H. and Munnich,A.
Site-specific deletions of the mitochondrial genome in Pearson's
marrow-pancreas syndrome
Unpublished (1991)
full automatic
9 (sites)
Moraes,C.T., Andreetta,F., Bonilla,E., Shanske,S., DiMauro,S. and
Schon,E.A.
Replication-competent human mitochondrial DNA lacking the
heavy-strand promoter region
Mol. Cell. Biol. 11, 1631-1637 (1991)
full automatic
[1] replication initiation site.
[4] d-loop signals.
[6] mutations found in HeLa cells.
L-strand is shown. Numbered RNAs are polyadenylated, presumed
messengers.
Several termination codons utilize 'a' or 'aa' in poly-A tail [2].
Alternative termination codons are 'aga' and 'agg'. Alternative
initiation codons are 'ata' and 'att'.
The H-chain D-loop contains a 7S RNA, starting at base 191
leftward, which is approximately 680 bases long [2].
Complete source information:
14
Human placenta mitochondrial DNA [2]; HeLa cells mtDNA [2],[1],[5];
HeLa cells mt mRNA [3]; KB cells mtDNA [4].
FEATURES
Location/Qualifiers
D-loop
complement(join(16104..16569,1..191))
/note="origin H-strand replication (D-loop)"
rep_origin
1..191
misc_feature 471..483
repeat_unit 471..478
/note="5' first direct repeat of the deletion junction"
repeat_unit 480..483
/note="5' second direct repeat of the deletion junction"
misc_signal 531..568
/note="H-strand transcription promoter [5]"
mRNA
556..>556
/note="H-strand mRNA [5]"
mutation
573..4415
/citation=[9]
/note="3843 bp deletion causing external ophthalmoplegia"
tRNA
577..647
/anticodon=(pos:611..613,aa:Phe)
/note="Phe-tRNA (NAR: 1455)"
rRNA
648..1601
/note="12S rRNA"
tRNA
1602..1670
/anticodon=(pos:1633..1635,aa:Val)
/note="Val-tRNA (NAR: 2053)"
rRNA
1671..3229
/note="16S rRNA"
tRNA
3230..3304
/anticodon=(pos:3265,aa:Leu)
/product="transfer RNA-Leu"
/gene="tRNA-Leu"
/note="NAR: 1054"
mRNA
3305..4262
/note="RNA 13 mRNA"
tRNA
4263..4331
/anticodon=(pos:4292..4294,aa:Ile)
/note="Ile-tRNA (NAR: 0997)"
tRNA
complement(4329..4400)
/anticodon=(pos:4365..4367,aa:Gln)
/note="Gln-tRNA (NAR: 0597)"
tRNA
4402..4469
/anticodon=(pos:4432..4434,aa:Met)
/note="Met-tRNA-f (NAR: 1297)"
mRNA
4470..5511
/note="RNA 12 mRNA"
misc_feature 5152..5163
repeat_unit 5152..5159
/note="3' first direct repeat of the deletion junction"
repeat_unit 5160..5163
/note="3' second direct repeat of the deletion junction"
tRNA
5512..5579
15
tRNA
tRNA
rep_origin
tRNA
tRNA
mRNA
tRNA
tRNA
mRNA
tRNA
mRNA
mutation
mRNA
tRNA
mutation
mRNA
mutation
tRNA
/anticodon=(pos:5544..5546,aa:Trp)
/note="Trp-tRNA (NAR: 1897)"
complement(5587..5655)
/anticodon=(pos:5623..5625,aa:Ala)
/note="Ala-tRNA (NAR: 0097)"
complement(5657..5729)
/anticodon=(pos:5694..5696,aa:Asn)
/note="Asn-tRNA (NAR: 0297)"
5741..5752
/note="(contains) origin L-strand replication"
complement(5761..5826)
/anticodon=(pos:5796..5798,aa:Cys)
/note="Cys-tRNA (NAR: 0497)"
complement(5826..5891)
/anticodon=(pos:5860..5862,aa:Tyr)
/note="Tyr-tRNA (NAR: 1997)"
5901..7517
/note="RNA 9 mRNA"
complement(7445..7516)
/anticodon=(pos:7482..7484,aa:Ser)
/note="Ser-tRNA-ucn (NAR: 1697)"
7518..7585
/anticodon=(pos:7548..7550,aa:Asp)
/note="Asp-tRNA (NAR: 0397)"
7586..8294
/note="RNA 16 mRNA"
8295..8364
/anticodon=(pos:8323..8325,aa:Lys)
/note="Lys-tRNA (NAR: 1197)"
8365..9206
/note="RNA 14 mRNA"
8470..13446
/citation=[8]
/note="Nucleotides deleted in Pearson marrow-pancreas
syndrome"
9207..9990
/note="RNA 15 mRNA"
9991..10058
/anticodon=(pos:10021..10023,aa:Gly)
/note="Gly-tRNA (NAR: 0797)"
9996..15896
/citation=[8]
/note="Nucleotides deleted in Pearson marrow-pancreas
syndrome"
10059..>10404
/note="RNA 17 mRNA"
10191..13752
/citation=[8]
/note="Nucleotides deleted in Pearson marrow-pancreas
syndrome"
10405..10469
/anticodon=(pos:10435..10437,aa:Arg)
16
mRNA
mutation
mutation
tRNA
tRNA
tRNA
mRNA
tRNA
mRNA
mutation
mutation
tRNA
mutation
mutation
mutation
mutation
mutation
mutation
mutation
mutation
mutation
/note="Arg-tRNA (NAR: 0197)"
10470..12137
/note="RNA 7 mRNA"
10666..14855
/citation=[8]
/note="Nucleotides deleted in Pearson marrow-pancreas
syndrome"
11233..13979
/citation=[8]
/note="Nucleotides deleted in Pearson marrow-pancreas
syndrome"
12138..12206
/anticodon=(pos:12168..12170,aa:His)
/note="His-tRNA (NAR: 0897)"
12207..12265
/anticodon=(pos:12226..12228,aa:Ser)
/note="Ser-tRNA-agy (NAR: 1656)"
12266..12336
/anticodon=(pos:12298..12300,aa:Leu)
/note="Leu-tRNA-cun (NAR: 1097)"
12337..>14148
/note="RNA 5 mRNA"
complement(14674..14742)
/anticodon=(pos:14710..14712,aa:Glu)
/note="Glu-tRNA (NAR: 0697)"
14747..15887
/note="RNA 11 mRNA"
15855
/note="g in wt; a in some HeLa cells [3]"
15880
/note="g in wt; c in some HeLa cells"
15888..15953
/anticodon=(pos:15919..15921,aa:Thr)
/note="Thr-tRNA (NAR: 1797)"
15889
/note="a in wt; g in some HeLa cells"
15919..15922
/note="tata in wt; ta in some HeLa cells"
15920
/note="a in wt; g in some HeLa cells"
15924
/note="t in wt; c in some HeLa cells"
15935..15937
/note="ctt in wt; ct in some HeLa cells"
15936
/note="t in wt; c or g in some HeLa cells"
15937
/note="t in wt; c in some HeLa cells"
15938..15940
/note="tac in wt; tc in some HeLa cells"
15938..15942
/note="tacaa in wt; ta in some HeLa cells"
17
tRNA
rep_origin
misc_signal
CDS
CDS
CDS
CDS
complement(15955..16023)
/anticodon=(pos:15990..15992,aa:Pro)
/note="Pro-tRNA (NAR: 1597)"
16104..16569
16158..16172
/note="D-loop termination signal"
3307..4262
/transl_except=(pos:4261..4262,aa:other)
/note="stop"
/product="protein 1"
/codon_start=1
/translation="MPMANLLLLIVPILIAMAFLMLTERKILGYMQLRKGPNVVG
PYGLLQPFADAMKLFTKEPLKPATSTITLYITAPTLALTIALLLWTPLPMP
NPLVNLNLGLLFILATSSLAVYSILWSGWASNSNYALIGALRAVAQTISY
EVTLAIILLSTLLMSGSFNLSTLITTQEHLWLLLPSWPLAMMWFISTLAET
NRTPFDLAEGESELVSGFNIEYAAGPFALFFMAEYTNIIMMNTLTTTIFLG
TTYDALSPELYTTYFVTKTLLLTSLFLWIRTAYPRFRYDQLMHLLWKNF
LPLTLALLMWYVSMPITISSIPPQTX"
4470..5511
/transl_except=(pos:5511..5511,aa:other)
/note="stop"
/product="protein 2"
/codon_start=1
/translation="INPLAQPVIYSTIFAGTLITALSSHWFFTWVGLEMNMLAFIP
VLTKKMNPRSTEAAIKYFLTQATASMILLMAILFNNMLSGQWTMTNTT
NQYSSLMIMMAMAMKLGMAPFHFWVPEVTQGTPLTSGLLLLTWQKLA
PISIMYQISPSLNVSLLLTLSILSIMAGSWGGLNQTQLRKILAYSSITHMG
WMMAVLPYNPNMTILNLTIYIILTTTAFLLLNLNSSTTTLLLSRTWNKLT
WLTPLIPSTLLSLGGLPPLTGFLPKWAIIEEFTKNNSLIIPTIMATITLLNLY
FYLRLIYSTSITLLPMSNNVKMKWQFEHTKPTPFLPTLIALTTLLLPISPFM
LMILX"
5904..7445
/transl_except=(pos:7443..7445,aa:other)
/note="stop"
/product="cytochrome oxidase subunit 1"
/codon_start=1
/translation="MFADRWLFSTNHKDIGTLYLLFGAWAGVLGTALSLLIRAE
LGQPGNLLGNDHIYNVIVTAHAFVMIFFMVMPIMIGGFGNWLVPLMIGA
PDMAFPRMNNMSFWLLPPSLLLLLASAMVEAGAGTGWTVYPPLAGNY
SHPGASVDLTIFSLHLAGVSSILGAINFITTIINMKPPAMTQYQTPLFVWS
VLITAVLLLLSLPVLAAGITMLLTDRNLNTTFFDPAGGGDPILYQHLFWF
FGHPEVYILILPGFGMISHIVTYYSGKKEPFGYMGMVWAMMSIGFLGFIV
WAHHMFTVGMDVDTRAYFTSATMIIAIPTGVKVFSWLATLHGSNMKW
SAAVLWALGFIFLFTVGGLTGIVLANSSLDIVLHDTYYVVAHFHYVLSM
GAVFAIMGGFIHWFPLFSGYTLDQTYAKIHFTIMFIGVNLTFFPQHFLGLS
GMPRRYSDYPDAYTTWNILSSVGSFISLTAVMLMIFMIWEAFASKRKVL
MVEEPSMNLEWLYGCPPPYHTFEEPVYMKSX"
7586..8269
/product="cytochrome oxidase subunit 2"
/codon_start=1
/translation="MAHAAQVGLQDATSPIMEELITFHDHALMIIFLICFLVLYAL
FLTLTTKLTNTNISDAQEMETVWTILPAIILVLIALPSLRILYMTDEVNDPS
18
CDS
CDS
CDS
CDS
CDS
CDS
LTIKSIGHQWYWTYEYTDYGGLIFNSYMLPPLFLEPGDLRLLDVDNRVV
LPIEAPIRMMITSQDVLHSWAVPTLGLKTDAIPGRLNQTTFTATRPGVYY
GQCSEICGANHSFMPIVLELIPLKIFEMGPVFTL"
8366..8572
/note="putative"
/product="protein A6L"
/codon_start=1
/translation="MPQLNTTVWPTMITPMLLTLFLITQLKMLNTNYHLPPSPKP
MKMKNYNKPWEPKWTKICSLHSLPPQS"
8527..9209
/transl_except=(pos:9208..9209,aa:other)
/note="stop"
/product="ATPase 6"
/codon_start=1
/translation="MNENLFASFIAPTILGLPAAVLIILFPPLLIPTSKYLINNRLIT
TQQWLIKLTSKQMMTMHNTKGRTWSLMLVSLIIFIATTNLLGLLPHSFTP
TTQLSMNLAMAIPLWAGTVIMGFRSKIKNALAHFLPQGTPTPLIPMLVIIE
TISLLIQPMALAVRLTANITAGHLLMHLIGSATLAMSTINLPSTLIIFTILIL
LTILEIAVALIQAYVFTLLVSLYLHDNTLX"
9207..9987
/transl_except=(pos:9987..9987,aa:other)
/note="stop"
/product="cytochrome oxidase subunit 3"
/codon_start=1
/translation="MTHQSHAYHMVKPSPWPLTGALSALLMTSGLAMWFHFHS
MTLLMLGLLTNTLTMYQWWRDVTRESTYQGHHTPPVQKGLRYGMILFI
TSEVFFFAGFFWAFYHSSLAPTPQLGGHWPRTGITPLNPLEVPLLNTSVL
LASGVSITWAHHSLMENNRNQMIQALLITILLGLYFTLLQASEYFESPFTI
SDGIYGSTFFVATGFHGLHVIIGSTFLTICFIRQLMFHFTSKHHFGFEAAA
WYWHFVDVVWLFLYVSIYWWGX"
10059..10404
/transl_except=(pos:10404..10404,aa:other)
/note="stop"
/product="protein 3"
/codon_start=1
/translation="MNFALILMINTLLALLLMIITFWLPQLNGYMEKSTPYECGF
DPMSPARVPFSMKFFLVAITFLLFDLEIALLLPLPWALQTTNLPLMVMSS
LLLIIILALSLAYEWLQKGLDWTEX"
10470..10766
/note="putative"
/product="protein 4L"
/codon_start=1
/translation="MPLIYMNIMLAFTISLLGMLVYRSHLMSSLLCLEGMMLSLF
IMATLMTLNTHSLLANIVPIAMLVFAACEAAVGLALLVSISNTYGLDYV
HNLNLLQC"
10760..12137
/transl_except=(pos:12137..12137,aa:other)
/note="stop"
/product="protein 4"
/codon_start=1
/translation="MLKLIVPTIMLLPLTWLSKKHMIWINTTTHSLIISIIPLLFFNQ
INNNLFSCSPTFSSDPLTTPLLMLTTWLLPLTIMASQRHLSSEPLSRKKLY
19
LSMLISLQISLIMTFTATELIMFYIFFETTLIPTLAIITRWGNQPERLNAGTY
FLFYTLVGSLPLLIALIYTHNTLGSLNILLLTLTAQELSNSWANNLMWLA
YTMAFMVKMPLYGLHLWLPKAHVEAPIAGSMVLAAVLLKLGGYGMM
RLTLILNPLTKHMAYPFLVLSLWGMIMTSSICLRQTDLKSLIAYSSISHMA
LVVTAILIQTPWSFTGAVILMIAHGLTSSLLFCLANSNYERTHSRIMILSQ
GLQTLLPLMAFWWLLASLANLALPPTINLLGELSVLVTTFSWSNITLLLT
GLNMLVTALYSLYMFTTTQWGSLTHHINNMKPSFTRENTLMFMHLSPIL
LLSLNPDIITGFSSX"
CDS
12337..14148
/note="putative"
/product="protein 5"
/codon_start=1
/translation="MTMHTTMTTLTLTSLIPPILTTLVNPNKKNSYPHYVKSIVAS
TFIISLFPTTMFMCLDQEVIISNWHWATTQTTQLSLSFKLDYFSMMFIPVA
LFVTWSIMEFSLWYMNSDPNINQFFKYLLIFLITMLILVTANNLFQLFIGW
EGVGIMSFLLISWWYARADANTAAIQAILYNRIGDIGFILALAWFILHSNS
WDPQQMALLNANPSLTPLLGLLLAAAGKSAQLGLHPWLPSAMEGPTPV
SALLHSSTMVVAGIFLLIRFHPLAENSPLIQTLTLCLGAITTLFAAVCALT
QNDIKKIVAFSTSSQLGLMMVTIGINQPHLAFLHICTHAFFKAMLFMCSG
SIIHNLNNEQDIRKMGGLLKTMPLTSTSLTIGSLALAGMPFLTGFYSKDHI
IETANMSYTNAWALSITLIATSLTSAYSTRMILLTLTGQPRFPTLTNINEN
NPTLLNPIKGLAAGSLFAGFLITNNISPASPFQTTIPLYLKLTALAVTFLGL
LTALDLNYLTNKLKMKSPLCTFYFSNMLGFYPSITHRTIPYLGLLTSQNL
PLLLLDLTWLEKLLPKTISQHQISTSIITSTQKGMIKLYFLSFFFPLILTLLLI
T"
CDS
complement(14148..14673)
/transl_except=(pos:14673..14673,aa:other)
/note="stop"
/product="protein 6"
/codon_start=1
/translation="MMYALFLLSVGLVMGFVGFSSKPSPIYGGLVLIVSGVVGCV
IILNFGGGYMGLMVFLIYLGGMMVVFGYTTAMAIEEYPEAWGSGVEVL
VSVLVGLAMEVGFVLWVKEYDGVVVVVNFNSVGSWMIYEGEGSGFIR
EDPIGAGALYDYGRWLVVVTGWPLFVGVYIVIEIARGNRX"
CDS
14747..15881
/transl_except=(pos:15881..15881,aa:other)
/note="stop"
/product="cytochrome b"
/codon_start=1
/translation="MTPMRKINPLMKLINHSFIDLPTPSNISAWWNFGSLLGACLI
LQITTGLFLAMHYSPDASTAFSSIAHITRDVNYGWIIRYLHANGASMFFIC
LFLHIGRGLYYGSFLYSETWNIGIILLLATMATAFMGYVLPWGQMSFWG
ATVITNLLSAIPYIGTDLVQWIWGGYSVDSPTLTRFFTFHFILPFIIAALAT
LHLLFLHETGSNNPLGITSHSDKITFHPYYTIKDALGLLLFLLSLMTLTLFS
PDLLGDPDNYTLANPLNTPPHIKPEWYFLFAYTILRSVPNKLGGVLALLL
SILILAMIPILHMSKQQSMMFRPLSQSLYWLLAADLLILTWIGGQPVSYPF
TIIGQVASVLYFTTILILMPTISLIENKMLKX"
BASE COUNT 5123 a 5175 c 2177 g 4094 t
ORIGIN
MboI site in D-loop (H-strand replication) region
1
61
121
181
gatcacaggt
cgtctggggg
gcagtatctg
acaggcgaac
ctatcaccct
gtatgcacgc
tctttgattc
atacttacta
attaaccact
gatagcattg
ctgcctcatc
aagtgtgtta
20
cacgggagct
cgagacgctg
ctattattta
attaattaat
ctccatgcat
gagccggagc
tcgcacctac
gcttgtagga
ttggtatttt
accctatgtc
gttcaatatt
cataataata
241
301
361
421
481
581
601
661
721
781
841
901
961
1021
1081
1141
1201
1261
1321
1381
1441
1501
1561
1621
1681
1741
1801
1861
1921
1981
2041
2101
2161
2221
2281
2341
2401
2461
2521
2581
2641
2701
2761
2821
2881
2941
3001
3061
3121
3181
3241
3301
3361
3421
3481
3541
3601
3661
3721
3781
3841
3901
3961
4021
acaattgaat
aaccccccct
acaaagaacc
ttttaacagt
ctcatcaata
ccccgaacca
gcaatacact
ctagcctttc
tcaccctcta
aaaacgctta
acgaaagttt
ggtcacacga
tccccaataa
tacgaaagtg
taccccacta
cactacgagc
agcctgttct
ccgccatctt
acgttaggtc
aaaactacga
agtagagtgc
aagtatactt
cgtaacatgg
aagcacccaa
gccccaaacc
agtataggcg
aaaaattata
ttaactagaa
acctaagaac
ggtagaggcg
ttcaacttta
caaagaggaa
acacccatag
ctacctaaaa
accctataga
ctgcgtcaga
aagtcattat
aaagtaaaag
atcaccagta
aaccgtgcaa
acgagggttc
ggcataacac
cctaacaaac
cctcggagca
ctactatact
gcgcaatcct
ggacatcccg
gtgatctgag
ctgtacgaaa
tatcatctca
agagcccggt
aacaacatac
ttcctaatgc
gtggtaggcc
gagcccctaa
ctcaccatcg
aacctaggcc
tcagggtgag
acaatctcat
tcctttaacc
tgacccttgg
gaccttgccg
cccttcgccc
actacaatct
gtctgcacag
cccccgcttc
ctaacaccag
caccccccaa
caacccccgc
accaaacccc
gaaaatgttt
tattagctct
aatcaccacg
gcctagccac
aactaagcta
ttaacccaag
agctaaaact
gctttaacat
tgcttagccc
cacagcttaa
gtaatcgata
cagcaaaccc
aaggtgtagc
tagcccttat
ttagttgaac
caaaggacat
taagtgtact
cttacactta
cactccacct
atagaaattg
accaagcata
ataactttgc
agctaaaaga
acaaacctac
aatttgccca
cagctctttg
taggcctaaa
aatcccaaac
agaactaatg
ttaaaacact
taccctcact
gaactcggca
ttagaggcac
aggtagcata
agctgtctct
agcaagacga
ccacaggtcc
gaacccaacc
caattgatcc
attctagagt
atggtgcagc
ttcagaccgg
ggacaagaga
acttagtatt
aatcgcataa
ccatggccaa
ttaccgaacg
cctacgggct
aacccgccac
ctcttctact
tcctatttat
catcaaactc
atgaagtcac
tctccaccct
ccataatatg
aaggggagtc
tattcttcat
tcctaggaac
ccactttcca
tggccacagc
cctaaccaga
ctaacacatt
ccatcctacc
aaagacaccc
agacgggctc
tagtaagatt
atcaaaagga
acccccacgg
tactaacccc
tcaatagaag
cacctgagtt
atctgaacac
taaacctcaa
aactcaaagg
aaccccgatc
tgatgaaggc
ccatgaggtg
gaaacttaag
agggccctga
ttaactaaaa
ggaaagtgca
ggagatttca
tactaccaga
aaacctggcg
atatagcaag
aaggagagcc
gcacacccgt
cgagcctggt
cagaaccctc
gacactagga
agcagccacc
atataactga
ttagtataag
gaactgacaa
gtcaacccaa
aatcttaccc
cgcctgccca
atcacttgtt
tacttttaac
gaagacccta
taaactacca
tccgagcagt
aataacttga
ccatatcaac
cgctattaaa
agtaatccag
aataaggcct
atacccacac
aacttaaaac
cctcctactc
aaaaattcta
actacaaccc
atctaccatc
atgaaccccc
tctagccacc
aaactacgcc
cctagccatc
tatcacaaca
atttatctcc
cgaactagtc
agccgaatac
aacatatgac
21
cacagacatc
acttaaacac
tttcaaattt
attttcccct
cagcacacac
cccacagttt
acatcacccc
acacatgcaa
acaagcatca
gaaacagcag
agggttggtc
ccggcgtaaa
gtaaaaaact
acaatagcta
cagttaaatc
acctggcggt
aacctcacca
tacaaagtaa
gcaagaaatg
ggtcgaaggt
agcgcgtaca
cccctacgca
cttggacgaa
acttaacttg
caaccttagc
caatagatat
gactaacccc
aaagctaaga
ctatgtagca
gatagctggt
taaatcccct
aaaaaccttg
aattaagaaa
actcctcaca
taacatgaaa
ttaacagccc
cacaggcatg
cgcctgttta
gtgacacatg
ccttaaatag
cagtgaaatt
tggagcttta
aacctgcatt
acatgctaag
ccaacggaac
aatagggttt
ggttcgtttg
gtcggtttct
acttcacaaa
ccacccaaga
tttacagtca
ctcattgtac
ggctatatac
ttcgctgacg
accctctaca
ctccccatac
tctagcctag
ctgatcggcg
attctactat
caagaacacc
acactagcag
tcaggcttca
acaaacatta
gcactctccc
ataacaaaaa
atctctgcca
tatcttttgg
cccactccca
acaccgctgc
atgtagctta
ataaacaaat
gcatccccgt
agcacgcagc
tgattaacct
aatttcgtgc
gagtgtttta
ccagttgaca
agacccaaac
aacaaaactg
gcttcatatc
cctcttgctc
gcgcaagtac
ggctacattt
ggatttagca
caccgcccgt
tttatataga
ccagagtgta
accgctctga
caaaccattt
agtaccgcaa
tataccttct
cccccgaaac
aaatagtggg
tgtccaagat
tgtaaattta
tagagagagt
gcgttcaagc
cccaattgga
acattctcct
aatatctaca
ctcataagga
ccaaaaacat
tttaacggcc
ggacctgtat
gacctgcccg
atttattaat
aaaaatttcg
acttcaccag
aagttaccct
acgacctcga
ttcaacgatt
atctaccttc
gcgccttccc
acagggtttg
gaggttcaat
ccattctaat
aactacgcaa
ccataaaact
tcaccgcccc
ccaaccccct
ccgtttactc
cactgcgagc
caacattact
tctgattact
agaccaaccg
acatcgaata
ttataataaa
ctgaactcta
atttccacca
aaccccaaaa
cggtatgcac
tactactaat
taaccccata
cctcctcaaa
aggtttggtc
tccagtgagt
aatgcagctc
ttagcaataa
cagccaccgc
gatcaccccc
caaaatagac
tgggattaga
ctcgccagaa
cctctagagg
agcctatata
ccacgtaaag
tctaccccag
gtaaactaag
caccctcctc
ggagacaagt
gcttaacaca
gctaaaccta
acccaaataa
gggaaagatg
gcataatgaa
cagacgagct
aagatttata
agaatcttag
actgttagtc
aaaaaattta
tcaacaccca
ccaatctatc
ccgcataagc
atcaaccaac
aaggttaaaa
cacctctagc
gcggtaccct
gaatggctcc
tgaagaggcg
gcaaacagta
gttggggcga
tcaaagcgaa
agggataaca
tgttggatca
aaagtcctac
aaattcctcc
ccgtaaatga
ttaagatggc
tcctcttctt
cgcaatggca
aggccccaac
cttcaccaaa
gaccttagct
ggtcaacctc
aatcctctga
agtagcccaa
aataagtggc
cctgccatca
aacccccttc
cgccgcaggc
caccctcacc
cacaacatat
4081
4141
4201
4261
4321
4381
4441
4501
4561
4621
4681
4741
4801
4861
4921
4981
5041
5101
5161
5221
5281
5341
5401
5461
5521
5581
5641
5701
5761
5821
5881
5941
6001
6061
6121
6181
6241
6301
6361
6421
6481
6541
6601
6661
6721
6781
6841
6901
6961
7021
7081
7141
7201
7261
7321
7381
7441
7501
7561
7621
7681
7741
7801
7861
tttgtcacca
cgattccgct
gcattactta
taagaaatat
ccttatttct
acctatcaca
aaaatgttgg
ctaccatctt
taggcctaga
gttccacaga
taatagctat
atcaatactc
ttcacttctg
tcacatgaca
taagccttct
accagaccca
tagcagttct
taactactac
ctcgcacctg
taggaggcct
caaaaaacaa
acttctacct
taaaaataaa
cccttaccac
ggttaaatac
aacagctaag
ttaagctaag
aagcacccta
aagccccggc
ggagctggta
gccattttac
aagacattgg
taagcctcct
tctacaacgt
tcataatcgg
cgtttccccg
tcgcatctgc
cagggaacta
caggtgtctc
cccctgccat
tcctacttct
gcaacctcaa
acctattctg
taatctccca
tggtctgagc
ttacagtagg
ctatccccac
aatgatctgc
tgactggcat
ttgtagccca
tcattcactg
atttcactat
tatccggaat
tatcatctgt
gagaagcctt
agtgactata
ctagacaaaa
tccatgactt
tataggctaa
tacttcccct
ccttatctgc
tactaacatc
cctagtcctc
tccctccctt
agaccctact
acgaccaact
tatgatatgt
gtctgataaa
aggactatga
ccccatccta
ttataccctt
tgcaggcaca
aataaacatg
agctgccatc
cctcttcaac
atcattaata
agtcccagag
aaaactagcc
cctcactctc
gctacgcaaa
accgtacaac
cgcattccta
aaacaagcta
gcccccgcta
tagcctcatc
acgcctaatc
atgacagttt
gctactccta
agaccaagag
gactgcaaaa
cccttactag
atcaactggc
aggtttgaag
aaaagaggcc
ctcaccccca
aacactatac
tattcgagcc
tatcgtcaca
aggctttggc
cataaacaac
tatagtggag
ctcccaccct
ctctatctta
aacccaatac
cctatctctc
caccaccttc
atttttcggt
tattgtaact
tatgatatca
aatagacgta
cggcgtcaaa
tgcagtgctc
tgtattagca
cttccactat
atttccccta
catattcatc
gccccgacgt
aggctcattc
cgcttcgaag
tggatgcccc
aaggaaggaa
tttcaaaaag
atcctatata
atcatagaag
ttcctagtcc
tcagacgctc
atcgccctcc
accatcaaat
tctaacctcc
catacacctc
ctccataccc
agagttactt
gaatcgaacc
aagtaaggtc
cccgtactaa
ctcatcacag
ctagctttta
aagtatttcc
aatatactct
atcataatag
gttacccaag
cccatctcaa
tcaatcttat
atcttagcat
cctaacataa
ctactcaact
acatgactaa
accggctttt
atccccacca
tactccacct
gaacatacaa
cctatctccc
ccttcaaagc
ccccactctg
accaatggga
ttcaatctac
ctgcttcttc
taacccctgt
ctgatgttcg
ctattattcg
gagctgggcc
gcccatgcat
aactgactag
ataagcttct
gccggagcag
ggagcctccg
ggggccatca
caaacgcccc
ccagtcctag
ttcgaccccg
caccctgaag
tactactccg
attggcttcc
gacacacgag
gtatttagct
tgagccctag
aactcatcac
gtcctatcaa
ttctcaggct
ggcgtaaatc
tactcggact
atttctctaa
cgaaaagtcc
ccaccctacc
tcgaaccccc
gtattagaaa
tcttaatggc
agcttatcac
tgtatgccct
aggaaataga
catccctacg
caattggcca
22
ctgttcttat
ctatgaaaaa
attacaatct
tgatagagta
catccctgag
agctaaataa
ttaatcccct
cgctaagctc
ttccagttct
tcacgcaagc
ccggacaatg
ctatagcaat
gcacccctct
tcatatacca
ccatcatagc
actcctcaat
ccattcttaa
taaactccag
cacccttaat
tgcccaaatg
tcatagccac
caatcacact
aacccacccc
cttttatact
cctcagtaag
catcaactga
cttaaaccca
ttctcccgcc
gaatttgcaa
ctttagattt
ccgaccgttg
gcgcatgagc
agccaggcaa
ttgtaataat
ttcccctaat
gactcttacc
gaacaggttg
tagacctaac
atttcatcac
tcttcgtctg
ctgctggcat
ccggaggagg
tttatattct
gaaaaaaaga
tagggtttat
catatttcac
gactcgccac
gattcatctt
tagacatcgt
taggagctgt
acaccctaga
taactttctt
accccgatgc
cagcagtaat
taatagtaga
acacattcga
caaagctggt
aaccatttca
acatgcagcg
ctttcatgat
tttcctaaca
aaccgtctga
catcctttac
ccaatggtac
gaattcgaac
acttcctacc
ccagcattcc
aataatagga
aatccaaaat
gctatcgggc
ggcccaaccc
gcactgattt
aaccaaaaaa
aaccgcatcc
aaccataacc
aaaactagga
gacatccggc
aatctctccc
aggcagttga
tacccacata
tttaactatt
caccacgacc
tccatccacc
ggccattatc
catcaccctc
actccccata
attcctcccc
aataatctta
ttgcaatact
acgcaaatca
caaacactta
gccgggaaaa
ttcaatatga
acagtccaat
actattctct
tggagtccta
ccttctaggt
cttcttcata
aatcggtgcc
tccctctctc
aacagtctac
catcttctcc
aacaattatc
atccgtccta
cactatacta
agaccccatt
tatcctacca
accatttgga
cgtgtgagca
ctccgctacc
actccacgga
tcttttcacc
actacacgac
atttgccatc
ccaaacctac
cccacaacac
atacaccaca
attaataatt
agaaccctcc
agaacccgta
ttcaagccaa
taactttgtc
caagtaggtc
cacgccctca
ctcacaacaa
actatcctgc
ataacagacg
tgaacctacg
agcatacccc
actcacccta
ccctcaaacc
gcttaaaccc
tctccgtgcc
ccataccccg
gtcatctact
tttacctgag
ataaaccctc
ataatccttc
aatactacca
atagccccct
ctgcttcttc
tcactaaacg
ggtggattaa
ggatgaataa
tatattatcc
ctactactat
ctcctctccc
gaagaattca
cttaacctct
tctaacaacg
acactcatcg
tagaaattta
taatttctgt
gccactttaa
gttaacagct
aaggcgggag
aaatcacctc
gcttcactca
acaaaccaca
ggcacagctc
aacgaccaca
gtaataccca
cccgatatgg
ctactcctgc
cctcccttag
ttacacctag
aatataaaac
atcacagcag
ctaacagacc
ctataccaac
ggcttcggaa
tacataggta
caccatatat
ataatcatcg
agcaatatga
gtaggtggcc
acgtactacg
ataggaggct
gccaaaatcc
tttctcggcc
tgaaacatcc
ttcatgattt
ataaacctgg
tacataaaat
ccccatggcc
aaagttaaat
tacaagacgc
taatcatttt
aactaactaa
ccgccatcat
aggtcaacga
agtacaccga
7921
7981
8041
8101
8161
8221
8281
8341
8401
8461
8521
8581
8641
8701
8761
8821
8881
8941
9001
9061
9121
9181
9241
9301
9361
9421
9481
9541
9601
9661
9721
9781
9841
9901
9961
10021
10081
10141
10201
10261
10321
10381
10441
10501
10561
10621
10681
10741
10801
10861
10921
10981
11041
11101
11161
11221
11281
11341
11401
11461
11521
11581
11641
11701
ctacggcgga
cctgcgactc
aataattaca
agatgcaatt
ctacggtcaa
attaattccc
ccccctctag
agaaccaaca
aattaccccc
ctaccaccta
accaaaatga
gccgcagtac
aacaaccgac
accatacaca
attgccacaa
tctataaacc
tctaagatta
cccatactag
cgcctaaccg
ctagcaatat
ctgactatcc
agcctctacc
aacccagccc
ccatgtgatt
taaccatata
caccacctgt
ttttcttcgc
taggagggca
taaacacatc
tagaaaacaa
attttaccct
tctacggctc
caactttcct
actttggctt
tgtatgtctc
tccaattaac
taatcaacac
acggctacat
gcgtcccttt
aaattgccct
ttatgtcatc
aaaaaggatt
cattaaatta
catttaccat
tatgcctaga
cccactccct
cagcggtggg
ataacctaaa
gacatgactt
tagcatcatc
aaccttttcc
cctcacaatc
ctacctctct
actaatcata
ccgatgaggc
agtaggctcc
aaacattcta
aatatgacta
atgactccct
actcttaaaa
aaaacacata
catctgccta
agccctcgta
tctcataatc
ctaatcttca
cttgacgttg
tcacaagacg
cccggacgtc
tgctctgaaa
ctaaaaatct
agcccactgt
cctctttaca
atactcctta
cctccctcac
acgaaaatct
tgatcattct
taatcaccac
acactaaagg
ctaacctcct
tagccatggc
aaaatgccct
ttattatcga
ctaacattac
caaccattaa
tagaaatcgc
tgcacgacaa
atgaccccta
tcacttccac
ccaatgatgg
ccaaaaaggc
aggatttttc
ctggccccga
cgtattactc
ccgaaaccaa
cctacaagcc
aacatttttt
cactatctgc
cgaagccgcc
catctattga
tagttttgac
cctcctagcc
agaaaaatcc
ctccataaaa
ccttttaccc
cctcttatta
agactgaacc
tgataatcat
ctcacttcta
aggaataata
cttagccaat
cctagcccta
cctactccaa
tccaaaaaac
cctctactat
tccgaccccc
atggcaagcc
atactaatct
ttttatatct
aaccagccag
cttcccctac
ctactcactc
gcttacacaa
aaagcccatg
ctaggcggct
gcctacccct
cgacaaacag
gtaacagcca
gcccacgggc
actcctacat
acaatcgagt
tcttgcactc
taaaccaaac
tctgtggagc
ttgaaatagg
aaagctaact
gtgaaatgcc
cactattcct
caaagcccat
gttcgcttca
atttccccct
ccaacaatga
acgaacctga
cggactcctg
catcccctta
agcccacttc
aaccatcagc
tgcaggccac
ccttccctct
tgtcgcctta
cacataatga
acaggggccc
tccataacgc
cgcgatgtaa
cttcgatacg
tgagcctttt
acaggcatca
gcatcaggag
ataattcaag
tcagagtact
gtagccacag
ttcatccgcc
gcctgatact
tgagggtctt
aacattcaaa
ttactactaa
accccttacg
ttcttcttag
ctaccatgag
atcatcatcc
gaattggtat
atttaccaaa
ggaatactag
ctatcgctgt
attgtgccta
ctagtctcaa
tgctaaaact
acataatttg
tttttaacca
taacaacccc
aacgccactt
ccctacaaat
tcttcgaaac
aacgcctgaa
tcatcgcact
tcactgccca
tagcttttat
tcgaagcccc
atggtataat
tccttgtact
acctaaaatc
ttctcatcca
ttacatcctc
23
acttccccca
agtactcccg
atgagctgtc
cactttcacc
aaaccacagt
gcccgtattt
tagcattaac
ccaactaaat
catcacccaa
aaaaataaaa
ttcattgccc
ctattgatcc
ctaatcaaac
tctcttatac
cctcactcat
tgagcgggca
ttaccacaag
ctactcattc
ctactcatgc
acacttatca
atccaagcct
cccaccaatc
tctcagccct
tcctcatact
cacgagaaag
ggataatcct
accactccag
ccccgctaaa
tatcaatcac
cactgcttat
tcgagtctcc
gcttccacgg
aactaatatt
ggcattttgt
actcttttag
aaagagtaat
taattattac
agtgcggctt
tagctattac
ccctacaaac
tagccctaag
atagtttaaa
tgcccctcat
tatatcgctc
tcattatagc
ttgccatact
tctccaacac
aatcgtccca
aatcaacaca
aatcaacaac
cctcctaata
atccagtgaa
ctccttaatt
cacacttatc
cgcaggcaca
aatttacact
agaactatca
agtaaagata
catcgctggg
acgcctcaca
atccctatga
gctcattgca
aaccccctga
attactattc
ttattcctag
attgaagccc
cccacattag
gctacacgac
ttcatgccca
accctatagc
cttttaagtt
actaccgtat
ctaaaaatat
aattataaca
ccacaatcct
ccacctccaa
taacctcaaa
tagtatcctt
ttacaccaac
cagtgattat
gcacacctac
aaccaatagc
acctaattgg
tcttcacaat
acgttttcac
acatgcctat
cctaatgacc
aggcctacta
cacataccaa
atttattacc
cctagcccct
tcccctagaa
ctgagctcac
tacaatttta
cttcaccatt
acttcacgtc
tcactttaca
agatgtggtt
tataaatagt
aaacttcgcc
attttgacta
cgaccctata
cttcttatta
aactaacctg
tctggcctat
caaaacgaat
ttacataaat
acacctcata
tactctcata
agtctttgcc
atatggccta
acaattatat
accacccaca
aacctattta
ctaactacct
ccactatcac
ataacattca
cccaccttgg
tacttcctat
cacaacaccc
aactcctgag
cctctttacg
tcaatagtac
ctcattctca
ggcataatta
tactcttcaa
agcttcaccg
tgcctagcaa
aaccaggcga
ccattcgtat
gcttaaaaac
cgggggtata
tcgtcctaga
accccctcta
aaagattaag
ggcccaccat
taaacacaaa
aaccctgaga
aggcctaccc
atatctcatc
acaaatgata
aatcattttt
cacccaacta
aggctttcgc
accccttatc
cctggccgta
aagcgccacc
tctaattcta
acttctagta
catatagtaa
tccggcctag
accaacacac
ggccaccaca
tcagaagttt
accccccaat
gtcccactcc
catagtctaa
ctgggtctct
tccgacggca
attattggct
tccaaacatc
tgactatttc
accgttaact
ttaattttaa
ccacaactca
tcccccgccc
tttgatctag
ccactaatag
gagtgactac
gatttcgact
attatactag
tcctccctac
accctcaaca
gcctgcgaag
gactacgtac
tactaccact
gcctaattat
gctgttcccc
gactcctacc
gaaaaaaact
cagccacaga
ctatcatcac
tctacaccct
taggctcact
ccaataactt
gactccactt
ttgccgcagt
accccctgac
taacaagctc
tcagccacat
gcgcagtcat
actcaaacta
11761
11821
11881
11941
12001
12061
12121
12181
12241
12301
12361
12421
12481
12541
12601
12661
12721
12781
12841
12901
12961
13021
13081
13141
13201
13261
13321
13381
13441
13501
13561
13621
13681
13741
13801
13861
13921
13981
14041
14101
14161
14221
14281
14341
14401
14461
14521
14581
14641
14701
14761
14821
14881
14941
15001
15061
15121
15181
15241
15301
15361
15421
15481
15541
cgaacgcact
aatagctttt
cctactggga
acttacagga
acaatggggc
caccctcatg
taccgggttt
cagaggctta
catgtctaac
gccccaaaaa
accctaaccc
aaaaactcat
ttccccacaa
gccacaaccc
ttcatccctg
aactcagacc
ctaatcttag
attatatcct
attcaagcaa
tttatcctac
agcctcaccc
ctccacccct
tcaagcacta
aatagcccac
gcagtctgcg
caactaggac
atctgtaccc
aaccttaaca
acttcaacct
ttctactcca
ctatctatta
ctcaccctaa
accctactaa
actaacaaca
acagccctcg
aacaaactta
taccctagca
cccctactcc
caccaaatct
ctctctttct
agcaatctca
tcaacgccca
cccctctcct
cccatcatac
actcaccaag
tgtagtatat
catataacct
tactaaaccc
acccacactc
caatgatatg
caaaattaac
caacatctcc
caccacagga
aatcgcccac
tggcgcctca
atcatttctc
aacagccttc
aattacaaac
aggaggctac
gcccttcatt
aaacaacccc
aatcaaagac
ctcaccagac
tccccacatc
cacagtcgca
tgatgacttc
gaactctctg
ctcaacatac
tcactcaccc
ttcatacacc
tcctcttgta
cgacccctta
aacatggctt
ttttggtgca
tgacttccct
acccccatta
caatattcat
aaacaaccca
tagcattgtt
caaacattaa
ttaccgctaa
tcttgctcat
tcctatacaa
actccaactc
cactactagg
gactcccctc
tagttgtagc
taatccaaac
cccttacaca
tcataatagt
acgccttctt
atgaacaaga
ccctcaccat
aagaccacat
ctctcatcgc
caggtcaacc
accccattaa
tttcccccgc
ctgtcacttt
aaataaaatc
tcacacaccg
tcctagacct
ccacctccat
tcttcccact
attacaatat
taatcataca
tcataaatta
tctttcaccc
acctcaaccc
ccaaagacaa
cccccaaaat
ccataaatag
aacagaaaca
aaaaaccatc
cccctaataa
gcatgatgaa
ctattcctag
atcactcgag
atattcttta
tactcagaaa
ataggctatg
ttactatccg
tcagtagaca
attgcagccc
ctaggaatca
gccctcggct
ctcctaggcg
aagcccgaat
tcataatcct
tagcaagcct
tgctagtaac
tagtcacagc
accacattaa
tatcccccat
aatatagttt
tttaccgaga
tctcaacttt
actccaaata
aattcccccc
tgtaaaatcc
gtgcctagac
gctctcccta
cgttacatgg
tcagttcttc
caacctattc
cagttgatga
ccgtatcggc
atgagaccca
cctcctccta
agccatagaa
aggaatcttc
tctaacacta
aaatgacatc
tacaatcggc
caaagccata
tattcgaaaa
tggcagccta
catcgaaacc
tacctccctg
tcgcttcccc
aggcctggca
atcccccttc
cctaggactt
cccactatgc
cacaatcccc
aacctgacta
catcacctca
catcctaacc
atacaccaac
aagcccccgc
ttcagcttcc
acaggacgaa
ctgaccccca
ccatcattcc
tcagaataat
gagaaggctt
aagcatacat
gttgtatttc
aattaattaa
acttcggctc
ccatgcacta
acgtaaatta
tctgcctctt
cctgaaacat
tcctcccgtg
ccatcccata
gtcccaccct
tagcaacact
cctcccattc
tacttctctt
acccagacaa
gatatttcct
24
ctctcaagga
cgctaacctc
cacgttctcc
cctatactcc
caacataaaa
tctcctccta
aaccaaaaca
aagctcacaa
taaaggataa
aaagtaataa
atccttacca
attgtcgcat
caagaagtta
agcttcaaac
tccatcatag
aaatatctac
caactgttca
tacgcccgag
gatatcggtt
caacaaatag
gcagcagcag
ggccccaccc
ttactcatcc
tgcttaggcg
aaaaaaatcg
atcaaccaac
ctatttatgt
ataggaggac
gcattagcag
gcaaacatat
acaagcgcct
acccttacta
gccggaagcc
caaacaacaa
ctaacagccc
acattttatt
tatctaggcc
gaaaagctat
acccaaaaag
ctactcctaa
aaacaatggt
accaatagga
tacactatta
tcctacctcc
tgcctcagga
ccctaaataa
aacacacccg
agaagaaaac
cattattctc
aactacaaga
ccactcattc
actccttggc
ctcaccagac
tggctgaatc
cctacacatc
cggcattatc
aggccaaata
cattgggaca
cacacgattc
ccacctccta
cgataaaatc
ccttctctcc
ttatacccta
attcgcctac
cttcaaactc
gccttacccc
tgatcaaata
ctctacatat
ccctcattca
tccctcaacc
tcagattgtg
gaactgctaa
cagctatcca
ccatgcacac
ccctcgttaa
ccacctttat
ttatctcgaa
tagactactt
aattctcact
tcatcttcct
tcggctgaga
cagatgccaa
tcatcctcgc
cccttctaaa
gcaaatcagc
cagtctcagc
gcttccaccc
ctatcaccac
tagccttctc
cacacctagc
gctccgggtc
tactcaaaac
gaataccttt
catacacaaa
atagcactcg
acattaacga
tattcgcagg
tccccctcta
tagacctcaa
tctccaacat
ttcttacgag
tacctaaaac
gcataattaa
tcacataacc
caaccagtaa
tcctcccgaa
aagtttacca
atcgctaacc
tactcctcaa
attaaaaaaa
accacaccgc
cccacaaacc
gcacggacta
acaccaatga
atcgacctcc
gcctgcctga
gcctcaaccg
atccgctacc
gggcgaggcc
ctcctgcttg
tcattctgag
gacctagttc
tttacctttc
ttcttgcacg
accttccacc
ttaatgacat
gccaacccct
acaattctcc
tactcccact
ccactattaa
tcactctcct
ttaccacaac
cacgagaaaa
ccgacatcat
aatctgacaa
ctcatgcccc
ttggtcttag
tactataacc
ccctaacaaa
tatcagtctc
ctgacactga
ctccataata
gtgatatata
aattaccata
gggcgtagga
cacagcagcc
cttagcatga
cgctaatcca
ccaattaggt
cctactccac
cctagcagaa
tctgttcgca
cacttcaagt
attcctgcac
catcatccac
catacctctc
cctcacaggt
cgcctgagcc
aataattctt
aaataacccc
atttctcatt
cctaaaactc
ctacctaacc
actcggattc
ccaaaacctg
aatttcacag
actttacttc
tattcccccg
ctactactaa
tgaaccctga
caaccaccac
ccactaaaac
tagccatcgc
ctattaaacc
taacaatcaa
ccattactaa
caaccacgac
ccccaatacg
ccaccccatc
tcctccaaat
ccttttcatc
ttcacgccaa
tatattacgg
caactatagc
gggccacagt
aatgaatctg
acttcatctt
aaacgggatc
cttactacac
taacactatt
taaacacccc
gatccgtccc
15601
15661
15721
15781
15841
15901
15961
16021
16081
16141
16201
16261
16321
16381
16441
16501
16561
taacaaacta
catcctccat
ttgactccta
cccttttacc
aataccaact
aaactaatac
gaaaaagtct
ctgttctttc
accgctatgt
acttgaccac
caagcaagta
cctcacccac
catttaccgt
tcagataggg
actctcctcg
ctggttccta
atcacgatg
ggaggcgtcc
atatccaaac
gccgcagacc
atcattggac
atctccctaa
accagtcttg
ttaactccac
atggggaagc
atttcgtaca
ctgtagtaca
cagcaatcaa
taggatacca
acatagcaca
gtcccttgac
ctccgggccc
cttcagggtc
ttgccctatt
aacaaagcat
tcctcattct
aagtagcatc
ttgaaaacaa
taaaccggag
cattagcacc
agatttgggt
ttactgccag
taaaaaccca
ccctcaacta
acaaacctac
ttacagtcaa
caccatcctc
ataacacttg
ataaagccta
actatccatc
aatatttcgc
aacctgaatc
cgtactatac
aatactcaaa
atgaaaacct
caaagctaag
accacccaag
ccaccatgaa
atccacatca
tcacacatca
ccacccttaa
atcccttctc
cgtgaaatca
ggggtagcta
aatagcccac
ctcatcctag
ccactaagcc
ggaggacaac
ttcacaacaa
tgggcctgtc
ttttccaagg
attctaattt
tattgactca
tattgtacgg
aaaccccctc
actgcaactc
cagtacatag
gtccccatgg
atatcccgca
aagtgaactg
acgttcccct
caataatccc
aatcacttta
cagtaagcta
tcctaatcct
cttgtagtat
acaaatcaga
aaactattct
cccatcaaca
taccataaat
cccatgctta
caaagccacc
tacataaagc
atgacccccc
caagagtgct
tatccgacat
taaataagac
Приложение 4. Результаты анализа участков-генов из файла HUMMTCG.SEQ
Молекула полинуклеотида HUMMTCG.SEQ (длина 16569 нуклеотидов)
Местонахождение
Длина
Функции участка
Графики спектра
участка
участка
1
2
3
4
1. 3305- 4262
958
мРНК, протеин 1
2. 4470- 5511
1042
мРНК, протеин 2
3. 5901- 7517
1617
мРНК, цитохром C оксидаза
1
4. 7586- 8294
709
мРНК, цитохром C оксидаза
2
5. 8365- 9206
841
мРНК, протеин A6L
6. 9207- 9990
784
мРНК, цитохром C оксидаза
3
7. 10059-10404
346
мРНК, протеин 3
8. 10470-12137
1668
мРНК, протеин 4
9. 12337-14148
1812
мРНК, протеин 5
10. 14747-15887
1141
мРНК, цитохром B
25
Download