gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca aattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgaga tgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattg agtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccg actctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagt tgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatc aagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaaggga tcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgacttgc gagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtagcacct tgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatg ccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagc gctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaag aagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttgc gcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacacca ttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttag aaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctс aaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatc ttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgc tcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttg atctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacct gatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttat tgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcg atggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgt ctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagccagcaagtgccagggtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaa agggctattttaccggcgcagtatcgccgccaggattgcattgcgcacgggcgacatctggcaggcttcattcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatg gatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcgcggcaggcggtcgcggaaatcggcgcggtagcgagcggtatctccggctccggcccgaccttg gctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaactacctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgggcgcacga ctggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgcgcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctg gaattcagcctgactgaaattgatgagatgctgaagctggattttgtcacccgcagtgcgaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgc gcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcaccgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggat ccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccgattttgctgcgttgcgtaaattgatgatgaatcatcagtaaaatctattcattatctca aggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatgacagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcgga taacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgataaaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctg gctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggc gctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggc gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca Нуклеотидные последовательности (номенклатура, правила записи и чтения) А.Б.Рахманинова, 2007 г. Повторяем... Нуклеиновые кислоты - линейные гетерополимеры нуклеотидов Азотистое основание цитозин Нуклеозид цитидин 1 Нуклеотид цитидинмонофосфат (ЦМФ) 9 N-гликозидная связь 5' 4' 3' 1' 2' Нумерация атомов углерода в остатке рибозы Аденозин-5'-монофосфат (АМФ), Аденозин-5'-дифосфат (АДФ), Аденозин-5'-трифосфат (АТФ) Номенклатура стандартных азотистых оснований, нуклеозидов и нуклеотидов РНК: Азотистое Рибонуклеозид основание Рибонуклеотид = рибонуклеозид-5'-фосфат Aденин(A) Аденозин (Adenosine) аденозин-5'-фосфат, адениловая кислота, АМФ (Adenylate, AMP) Гуанин (G) Гуанозин (Guanosine) гуанозин-5'-фосфат, гуаниловая кислота, ГМФ (Guanylate, GMP) Урацил (U) Уридин (Uridine) уридин-5'-фосфат, уридиловая кислота, УМФ (Uridylate, UMP) Цитозин (C) Цитидин (Cytidine) цитидин-5'-фосфат, цитидиловая кислота, ЦМФ (Cytidylate, CMP) ДНК: Азотистое Дезоксирибонуклеотид = 2'-дезоксирибонуклеозид основание 2'-дезоксирибонуклеозид-5'-фосфат Aденин(A) 2'-дезоксиаденозин (Deoxyadenosine) 2'-дезоксиаденозин-5'-фосфат, 2'-дезоксиадениловая кислота, (Deoxyadenylate. dAMP) Гуанин (G) 2'-дезоксигуанозин (Deoxyguanosine) 2'-дезоксигуанозин-5'-фосфат, 2'-дезоксигуаниловая кислота (Deoxyguanylate, dGMP) Тимин (Т) Тимидин (Thymidine) тимидиловая кислота (Thymidylate, TMP) Цитозин (C) 2'-дезоксицитидин (Deoxycytidine) 2'-дезоксицитидин-5'-фосфат, 2'-дезоксицитидиловая кислота, (Deoxycytidylate, dCMP) Повторяем: ДНК 3' фосфодиэфирные связи, сахарофосфатный остов, антипараллельные цепи, 3'- и 5'- конец, канонические пары. OH N H2N OH N O O N H3C O A N O NH 5' OH O P N T O N O O O O HN G N O P N O O NH2 HN OH N O A N O T N O N O P O O H2N O N N O P O O OH O O O H2N O N P P N OH O O CH3 C O OH N NH2 OH O O P NH O OH N N OH N O G O C O NH2 O P HO 5' OH 3' O Разработка эффективных методов секвенирования привела к быстрому росту известных последовательностей Как записывают последовательности нуклеиновых кислот ? 1. Последовательность = последовательность однобуквенных символов. Никаких дефисов и обозначений фосфодиэфирных связей. 2. Одни и те же однобуквенные символы для последовательностей РНК и ДНК (при записи РНК обычно ‘U’ ‘T’ ). Любая последовательность по умолчанию считается ДНК (т.е. полимером 2'-дезоксирибонуклеотидов). 3. Одни и те же символы используются для обозначения азотистых оснований, нуклеозидов и нуклеотидов Допустимы заглавные и строчные буквы, хотя рекомендованы заглавные. 4. Последовательность записывается в направлении 5'→3' Пример: 5'-CTCGAC-3' Nomenclature Committee of the International Union of Biochemistry (NC-IUB) Nomenclature for incompletely specified bases in nucleic acid sequences Recommendations 1984 Biochem. J. (1985) 229, 281-286 Описание сайтов связывания с регуляторными белками Описание сайтов рестрикции Восстановление предковой последовательности Описание вырожденности генетического кода 1 ----TGGtACAGCATTTGCA 2 ----TGGCACAGCcTTcGCA 3 ----TGGCAttaGcTTTGCA 4 ----TGGCACgatAgTcGCA 5 ----TGGCACAGGcTgTGCt 6 ----TGGCACAGatTTcGCt 7 ----TGGtACAaGAccTGCA 8 ----TGGCACgattTTTtCA 9 ----TGGCAagcaAaTTGCA 10 ----gGGCgCAGCcTTcGCA 11 ----TGGtAtcGCAaTTGCt 12 ----TGGagCgcGAaTTGCA 13 ----TGGtAtgttcccTGCA CONSENSUS.......TGGCACrrsmtTTGCA Общепринятые однобуквенные обозначения для стандартных азотистых оснований (остатков нуклеозидов и нуклеотидов) и вырожденных позиций в выравниваниях нуклеиновых кислот Символ G A T C R Y M K S W H B V D N Расшифровка Происхождение обозначения G, guanine (гуанин) A, adenine, (аденин) T/U, thymine/uracyl (тимин в ДНК и урацил в РНК) C, cytosine (цитозин) A или G, purine(пурины) C или T или U, pyrimidine (пиримидин) A или C G или T G или C A или T A или C или T , но не G G или T или C, но не A G или C или A , но не T или U G или A или T , но не C G или A или T или C puRine pYrimidine aMino K eto Strong interaction (3 H bonds) Weak interaction (2 H bonds) в алфавите 'H' следует за 'G' 'B' следует за 'A' 'V' следует за 'U' 'D' следует за 'C' aNy Образец теста: 1. Нарисовать структурную формулу аденина 2. Назвать соединение _____________________________________ 3. Дан фрагмент последовательности и-РНК Написать последовательность ДНК, которая послужила матрицей при синтезе этой и-РНК. b. Написать, как, скорее всего, будет записан соответствующий фрагмент гена в EMBL. Подсказка: не забудьте отметить концы! 5’-atgtccaccgatggc-3’ a. 4. *Написать консенсус для выравнивания ___________________________ ___________________________ сagcagattaatc tagcatttttatc tagcatttttgtc cagcaatttaatc tagccatttaatc ============= Консенсус: ___________________________ ttttacctctttttagtgatattgtgatatagagcaaaaatcccgacattgtgtcgggattgtttttaaactcttgttgattttaatttttcaatcgcttctttattaaagaagtagtgtgtgcc acaacactcacattgcatatcaatacggcctttatgttcggctaatatttcgtcaatttcttcatcagagatgagcagtagatgcagaactagaacgctcagcagagcagccaca gaaaaattgtacatcttgtgctggataaagattaacggtttcttcgtgatataaacgataggagtaactcttctgcagggagaccaaataattcttcatcttttactgttgctgcgagc gtagttaaatgctcaaaatcttctggtgtaccagaaccatcaggcataatttgtaataacatacctgctgccactggcttgccttcatattctccagtacgaataattaattgagtttg aagactcatattttcagtgaagtttcgatcgcccttaggaggggccgcgctttctctttcaa GenBank EMBL DDBJ компьютерный поиск гена, трансляция и компьютерная аннотация Базы данных научной литературы ~2 500 000 последовательностей UniParc Экспертиза UniRef (UniProt Archive) 200 000 последовательностей PIR-PSD (UniProt non-redundant Reference databases) The EMBL Nucleotide Sequence Database (также просто БД EMBL) http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html Статистика EMBL Total nucleotides (current 182,255,914,181) Number of entries (current 103,223,161) Статистика EMBL Homo sapiens Mus musculus Rattus norvegicus marine metagenome Bos taurus Pan troglodytes Canis lupus familiaris Zea mays Macaca mulatta Monodelphis domestica Other Класс данных 3.1 Data Class The data class of each entry, representing a methodological approach to the generation of the data or a type of data, is indicated on the first (ID) line of the entry. Each entry belongs to exactly one data class. Class ----------CON ANN PAT EST GSS HTC HTG MGA WGS TPA STS STD Definition ----------------------------------------------------------Entry constructed from segment entry sequences, drawing annotation from segment entries Entry constructed from segment entry sequences with its own annotation Patent Expressed Sequence Tag Genome Survey Sequence High Thoughput CDNA sequencing High Thoughput Genome sequencing Mass Genome Annotation Whole Genome Shotgun Third Party Annotation Sequence Tagged Site Standard (all entries not classified as above) ID AC PR DT DE KW OS OC OG RN RC RP RX RG RA RT RL DR CC AH AS FH FT XX SQ CO bb // - identification (begins each entry; 1 per entry) accession number (>=1 per entry) project identifier (0 or 1 per entry) date (2 per entry) description (>=1 per entry) keyword (>=1 per entry) organism species (>=1 per entry) organism classification (>=1 per entry) organelle (0 or 1 per entry) reference number (>=1 per entry) reference comment (>=0 per entry) reference positions (>=1 per entry) reference cross-reference (>=0 per entry) reference group (>=0 per entry) reference author(s) (>=0 per entry) reference title (>=1 per entry) reference location (>=1 per entry) database cross-reference (>=0 per entry) comments or notes (>=0 per entry) assembly header (0 or 1 per entry) assembly information (0 or >=1 per entry) feature table header (2 per entry) feature table data (>=2 per entry) spacer line (many per entry) sequence header (1 per entry) contig/construct line (0 or >=1 per entry) (blanks) sequence data (>=1 per entry) termination line (ends each entry; 1 per entry) FT FT Key Location/Qualifiers=value FT CDS 1..1000 /codon=(seq:"cug",aa:Ser) /codon=(seq:"tga",aa:Trp) http://www.ebi.ac.uk/embl/WebFeat/index.html