Гены — это участки ДНК, несущие какую

advertisement
МОТИВЫ ДНК. ЧТО ЭТО ТАКОЕ?
Шкурат Татьяна
Павловна
Работа выполняется в рамках федеральной целевой программы
«Научные и научно-педагогические кадры инновационной России» теме
«Создание биоинформационной технологии поиска взаимосвязанных
сценариев организации в геномах животных и человека
некодирующей ДНК и кодирующей белок ДНК»
государственный контракт от 01 сентября 2010 г. № 14.740.11.0006
Гены — это участки ДНК, несущие какую-либо целостную информацию — о
строении одной молекулы белка или одной молекулы РНК.
Свойства генов
(или кодирующих участков ДНК)
•
•
•
•
•
•
•
•
•
•
дискретность — несмешиваемость генов;
стабильность — способность сохранять структуру;
лабильность — способность многократно мутировать;
множественный аллелизм — многие гены существуют в
популяции во множестве молекулярных форм;
аллельность — в генотипе диплоидных организмов только две
формы гена;
специфичность — каждый ген кодирует свой признак;
плейотропия — множественный эффект гена;
экспрессивность — степень выраженности гена в признаке;
пенетрантность — частота проявления гена в фенотипе;
амплификация — увеличение количества копий гена.
Усредненные данные о структуре белок–
кодирующих
генов генома человека
•
•
•
•
•
В реальности размеры разных генов, а также их экзонов и интро–нов сильно
отличаются. И основной вклад в эту вариабельность вносят интроны.
Максимальный по размерам ген дистрофина занимает в геноме человека 2,4
млн. п. н.
Подавляющая часть занята именно интронами (их редний размер составляет
несколько десятков тысяч п. н.).
Наибольшую кодирующую последовательность в геноме человека имеет ген
по имени титин. Его размер равен около 81 000 п. н. Этот ген – чемпион и по
числу интронов (178 штук!), и по длине единичного экзона (17106 п. н.).
• Важно отметить, что разбивка генов на отдельные экзоны неслучайна.
Индивидуальный экзон часто кодирует не просто какую- то часть белковой
молекулы, а определенный фрагмент белка, выполняющий в целом белке
отдельную функцию. Такой отдельный структурно–функциональный
фрагмент, входящий в состав целого белка, называют доменом.
Genes and Gene Structures
•Presently estimated Gene Number: 24.000 (reference: )
•Average Gene Size: 27 kb
•The largest gene: Dystrophin 2.4 Mb - 0.6% coding – 16 hours to transcribe.
•The shortest gene: tRNATYR 100% coding
•Largest exon:
ApoB exon 26 is 7.6 kb
•Average exon number:
Smallest: <10bp
9
•Largest exon number: Titin 363
Smallest: 1
•Largest intron: WWOX intron 8 is 800 kb
•Largest polypeptide: Titin 38.138
Smallest: 10s of bp
smallest: tens – small hormones.
•Intronless Genes: mitochondrial genes, many RNA genes, Interferons,
Histones,..
Jobling, Hurles & Tyler-Smith (2004) HEG p 29 + HMG chapt. 9
Гены не равномерно распределены между
разными хромосомами
У человека около
10 генов на 1,0 млн. п.н.
у червя C. elegans
200 на 1,0 млн. п. н.
у дрожжей около
450 генов на 1,0 млн. п. н.
в геноме бактерий содержится
свыше 1000 генов на 1,0 млн. п. н.
Следовательно, плотность расположения генов
на единицу длины генома заметно падает по
мере
эволюционного
усложнения
организмов.
1
2
3 4
5
6 7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 Х У
средняя плотность
один ген на 100 т. п. н. генома их содержание в
хромосоме 19 составляет около 2 на 100 т.п.н.,
а в хромосомах 2, 13 и Y – хромосоме – от 0,15 до 0,7.
Если сравнить плотность генов с плотностью
расселения людей, то Y – хромосома напоминает нашу
Сибирь, а хромосома 19 – Европейскую часть России.
1 хромосома - 8% of the human genome, 3,141 gene structures and 991 pseudogenes
6 хромосома - 6 % от общего генома и 1,557 genes and 633 pseudogenes
20 хромосома 633 gene structures and 296 pseudogenes
Х хромосома -1098 genes in the sequence, of which 99 encode proteins expressed in testis and in various tumour types
www.sanger.ac.uk
Human and mouse chromosomes:
global orthology
Расшифрован ли геном?
Перехватить зашифрованное сообщение — еще не значит его
понять
•
•
•
•
•
•
Ген интерферона выделен курсивом. Подчеркнут
участок, кодирующий белок, состоящий из 188
аминокислот.
Жирным шрифтом выделены знаки пунктуации в
этом гене, обеспечивающие его правильную
транскрипцию с образованием мРНК и
последующую правильную трансляцию этой
мРНК
Фермент, называемый РНК–полимеразой, узнает
эти сигналы и осуществляет синтез
«правильных» молекул мРНК (со строго
запрограммированными в геноме концами).
Одним из таких знаков препинания в ДНКовом
тексте, отмечающим начало процесса
транскрипции, служит короткая
последовательность нуклеотидов: ТАТА
Место, с которого начинается кодирование
белка, – старт–сигнал – триплет АУТ. Далее
следуют триплеты, которые кодируют
аминокислоты в белке. А в конце текста имеется
специальный стоп–сигнал (триплет УГА).
ATG - это начало гена, первый кодон, сам ген будет дальше, а перед
этим есть последовательность, которая опознается рибосомой
.
Последовательность Шайна-Дальгарно
AGGAGG
Участок связывания рибосом мРНК прокариот, обычно на расстоянии около 10 нуклеотидов до стартового кодона AUG
Комплементарная последовательность CCUCCU, называемая
последовательностью анти-Шайна-Дальгарно,
располагается на 3'-конце молекулы 16S рибосомной РНК
Два сайта связывания для РНКполимеразы
• ТАТААТ
• АТАТТА (ТАТА бокс Блок Прибнова) (нуклеотидная последовательность
у прокариот, расположенная за 10 нуклеотидов от точки инициации транскрипции и
обычно состоящая из 6 (иногда до 9) оснований, каноническая последовательность Б. П.
- ТАТААТ;
• а другой —
• TTGAC
• AACTG
Расположена за 35 (область —35) нуклеотидов до сайта инициации
транскрипции (нуклеотид +1)
Бокс Хогнесса
ТАТА(АТ)А(АТ)
Специфическая последовательность нуклеотидов,
присутствующая в промоторных областях генов
эукариот (часто в положении -25);
обобщенная структура Б.Х. - ТАТА(АТ)А(АТ);
выполняет регуляторную функцию - участвует в
инициации
транскрипции,
обеспечивая
ориентацию
РНК-полимеразы
относительно
промотора, функционально эквивалентен боксу
Прибнова у прокариот.
Консервативные последовательности перед генами рибофлавинового пути
из очень разных бактерий
•
•
•
Последовательности
транспортеры легко
идентифицировать.
Во-первых, они образуют
большие семейства схожих
белков, и иногда их можно
просто опознать
по сходству с уже
известными
транспортерами.
Во-вторых, даже если это
что-то новое, белок,
который проходит
несколько раз через
мембрану, точнее, его
трансмембранные участки,
имеют довольно
характерный
аминокислотный состав, и
поэтому их легко
опознавать.
красное — это абсолютно консервативные позиции, и их
много. А бактерии самые разные
Консервативная вторичная структура RFN-элемента
ФУНКЦИОНАЛЬНАЯ КЛАССИФИКАЦИЯ
НЕКОДИРУЮЩИХ БЕЛОК РНК
РНК домашнего хозяйства
Трансляция генетической информации
Компонент рибосом;
Пре-мРНК сплайсинг; компонент
слайсеосомы
snoРНК
Модификация РНК, включая 2'-Oметилирование и псевдоуридилинирование
РНКаза Р РНК
Созревание 5' концов пре-tРНК
Теломеразная РНК Синтез теломерной ДНК; компонент
теломеразы
7 SL РНК
Экспорт белков у эукариот
tm РНК
Транс-трансляция
Y РНК
Компонент Ro рибонуклеопротеина;
функция неизвестна
РНКаза МРП
Процессинг митохондриальной РНК
tРНК
rРНК
snРНК
НЕКОДИРУЮЩАЯ БЕЛОК ДНК,
ДНК кодирующая функциональные РНК
• Noncoding functional RNA
•
•
ribosomal RNA, transfer RNA, Piwi-interacting RNA and microRNA.
MicroRNAs are predicted to control the translational activity of approximately 30% of all
protein-coding genes in mammals and may be vital components in the progression or
treatment of various diseases including cancer, cardiovascular disease, and the immune
system response to infection.[6]
• Cis-regulatory elements
•
•
•
Cis-regulatory elements are sequences that control the transcription of a gene. Cis-elements
may be located in 5' or 3' untranslated regions or within introns
Promoters facilitate the transcription of a particular gene and are typically upstream of the
coding region.
Enhancer sequences may exert very distant effects on the transcription levels of genes.[7]
Introns
Interns are non-coding sections of a gene, transcribed into the precursor
mRNA sequence, but ultimately removed by RNA splicing during the
processing to mature messenger RNA.
Many introns appear to be mobile genetic elements.
Studies of group I introns from Tetrahymena indicate that some introns
appear to be selfish genetic elements, neutral to the host because they
remove themselves from flanking exons during RNA processing and do not
produce an expression bias between alleles with and without the intron.
Some introns do appear to have significant biological function, possibly
through ribozyme functionality that may regulate tRNA and rRNA activity
as well as protein-coding gene expression, evident in hosts that have
become dependent on such introns over long periods of time; for
example, the trnL-intron is found in all green plants and appears to have
been vertically inherited for several billions of years, including more than a
billion years within chloroplasts and an additional 2–3 billion years prior in
the cyanobacterial ancestors of chloroplasts
Перевод: английский > русский
Стажеры некодирующих участках гена, транскрибируется в РНК последовательности
предшественника, но в конечном счете удалены сплайсинг РНК во время обработки для
зрелой РНК.
Многие интроны по всей видимости, мобильных генетических элементов.
Исследования группы я интроны из Tetrahymena показывают, что некоторые интроны по
всей видимости, эгоистичных генетических элементов, нейтральные к принимающей
потому что они снимают себя от флангового экзонов при обработке РНК и не производят
выражение смещения между аллелями с и без интронов.
Некоторые интроны делать по всей видимости, имеют значительные биологические
функции, возможно, через рибозим функциональность, которая может регулировать тРНК
и рРНК деятельности, а также белок-кодирующих генов, очевидно в хосты, которые
попали в зависимость от таких интронов в течение длительного периода времени,
например, trnL-интрон содержится во всех зеленых растений и, кажется, были
унаследованы вертикально в течение нескольких миллиардов лет, в том числе более
миллиарда лет в хлоропластах и дополнительные 2-3 миллиарда лет до в цианобактерий
предков хлоропластов
Pseudogenes
Pseudogenes are DNA sequences, related to known genes, that have lost their
protein-coding ability or are otherwise no longer expressed in the cell.
Pseudogenes arise from retrotransposition or genomic duplication of functional
genes, and become "genomic fossils" that are nonfuctional due to mutations
that prevent the transcription of the gene, such as within the gene promoter
region, or fatally alter the translation of the gene, such as premature stop
codons or frameshifts.
Pseudogenes resulting from the retrotransposition of an RNA intermediate are
known as processed pseudogenes; pseudogenes that arise from the genomic
remains of duplicated genes or residues of inactivated are nonprocessed
pseudogenes.
While Dollo's Law suggests that the loss of function in pseudogenes is likely
permanent, silenced genes may actually retain function for several million
years and can be "reactivated" into protein-coding sequences and a substantial
number of pseudogenes are actively transcribed.Because pseudogenes are
presumed to evolve without evolutionary constraint, they can serve as a useful
model of the type and frequencies various spontaneous genetic mutatio
•
Транспозоны и ретротранспозонов мобильные генетические элементы. Ретротранспозона
повторяющихся последовательностей, которые включают в себя длинный перемежаются ядерных
элементов (линии) и краткое перемежаются ядерных элементов (SINEs), составляют значительную
часть геномных последовательностей у многих видов. Alu последовательностей, классифицируются
как краткое перемежаются ядерного элемента, являются самыми распространенными в мобильных
элементов генома человека. Некоторые примеры были найдены синусов оказывают
транскрипционным контролем некоторых белков-генов. [12] [13] [14]
Эндогенного ретровируса последовательности произведение обратной транскрипции ретровирусов
геномов в геномах половых клеток. Мутации в этих ретро-расшифрованы последовательности могут
инактивировать вирусного генома.
Более 8% генома человека состоит из (в основном распались) эндогенный ретровирус
последовательности, как часть более 42% долей, что является производным узнаваемо
ретротранспозонов, а еще 3% могут быть идентифицированы быть остатки ДНК транспозонов.
Большая часть оставшейся половины генома, которая в настоящее время не объяснил
происхождение, как ожидается, нашли свое начало в мобильных элементов, которые были активны
так давно (> 200 млн. лет), что случайные мутации сделали их неузнаваемыми. [15] размер генома
изменения, по крайней мере два вида растений в основном результатом ретротранспозона
последовательностей [16].
Repeat sequences, transposons
and viral elements
•
•
•
Transposons and retrotransposons are mobile genetic elements. Retrotransposon repeated sequences,
which include long interspersed nuclear elements (LINEs) and short interspersed nuclear elements (SINEs),
account for a large proportion of the genomic sequences in many species. Alu sequences, classified as a
short interspersed nuclear element, are the most abundant mobile elements in the human genome. Some
examples have been found of SINEs exerting transcriptional control of some protein-encoding
genes.[12][13][14]
Endogenous retrovirus sequences are the product of reverse transcription of retrovirus genomes into the
genomes of germ cells. Mutation within these retro-transcribed sequences can inactivate the viral
genome.
Over 8% of the human genome is made up of (mostly decayed) endogenous retrovirus sequences, as part
of the over 42% fraction that is recognizably derived of retrotransposons, while another 3% can be
identified to be the remains of DNA transposons. Much of the remaining half of the genome that is
currently without an explained origin is expected to have found its origin in transposable elements that
were active so long ago (> 200 million years) that random mutations have rendered them
unrecognizable.[15] Genome size variation in at least two kinds of plants is mostly the result of
retrotransposon sequences.[16]
Telomeres
• Telomeres are regions of repetitive DNA at the
end of a chromosome, which provide
protection from chromosomal deterioration
during DNA replication.
Гены построены из «кусков»
имеют прерывистую структуру
Темп замен в некодирующих
участках ДНК
Chimpanzee-human divergence
Hominids or
hominins
6-8
million
years
Chimpanzees
Humans
Поиски последовательностей (мотивов) гомологичных участкам интронов и экзонов в
некодирующей белок ДНК расположенной с левого (-) и правого края (+-) от кодирующей
белок ДНК
Последовательность
ДНК
АТG
Функциональное
значение
Начало гена
ТАА
ТАG
TGA
AGGAGG
Стоп кодон
Стоп кодон
Стоп кодон
Участок связывания
рибосом
Участок связывания
рибосом
(Бокс Прибнова)
Мотивы перед кэп
сайтами
полиндром
TAATAA
ТАТААА
СААТ или CCGCCC
Примечание
Cтартовый кодон ATG — он
одновременно кодирует аминокислоту
метионин и может также встретиться
в середине гена
Признак конца гена
Признак конца гена
Признак конца гена
Могут совпадать только 4 из 6
Могут совпадать только 4 из 6
В районе 100п перед генами
АААТТТ
ТААТТА
5'-TAATGARAT-3'
( "tat-garat" )
Энхансеры (включатели
генов)
энхансерные модули которые варьируют
в размерах от 50 по до 1,5 кб и могут
быть расположены как рядом с геном так
на расстоянии до 1000 пн
5'-CGGAAR-3'
( "cigar")
Энхансеры (включатели
генов)
энхансерные модули которые варьируют
в размерах от 50 по до 1,5 кб и могут
быть расположены как рядом с геном так
на расстоянии до 1000 пн
Регуляторные элементы сплайсинга в премРНК и полиморфизмы, нарушающие процесс
Y –пиримидины (С/Т); ESE – экзонные энхансеры сплайсинга; ESS –
экзонные сайленсеры сплайсинга; ISE - интронные энхансеры сплайсинга;
ISS - интронные сайленсеры сплайсинга; GV – геномный вариант; U1 и U2
– малые ядерные рибонуклеопротеиновые частицы; SR – серин/аргинин
богатые белки; hpRNP – гетерогенные ядерные рибонуклеопротеиновые
Noncoding- некодирующие участки ДНК
СПЛАЙСИНГ
•
Образование молекул мРНК на РНК–предшественнике в результате сплайсинга. Из
РНК–предшественника вырезаются фрагменты, синтезированные с интронных
последовательностей гена, а участки, синтезированные на экзонах, соединяются
друг с другом, что в конечном итоге приводит к формированию зрелой
функционально активной мРНК
• НА ПОЛЕ ОН КОСИЛ ТРАВУ ПОЛЯ КИПЕЛИ
СОЛОВЬЯМИ
• НАПОЛЕОН КОСИЛ ТРАВУ ПОЛЯКИ ПЕЛИ
СОЛОВЬЯМИ.
Схематическое изображение
альтернативного сплайсинга.
Прямоугольниками разного оттенка
обозначены экзоны, черными линиями –
интроны.
Показаны лишь две из множества
возможных мРНК, образующихся на
одном гене
Download