obzornaya_lekciya

advertisement
Идеи, набирающие силу
Биология 2010-2020
http://nature-wonder.livejournal.com/192600.html
Егор Воронин
Global HIV Vaccine Enterprise (США)
1. Меняется роль модельных организмов в изучении биологии человека. Человек – идеальный организм для
исследований деталей человеческой биологии. Экспериментам на мышах, приматах и пр. отводится более
базовая роль – изучение общих принципов устройства организмов. Среди иммунологов даже ходит поговорка
«мыши врут, обезьяны преувеличивают». Никакой модельный организм не заменит нам знаний, полученных
напрямую из экспериментов человеческого организма.
2. Биологические системы требуют передачи сигналов на разных уровнях, от молекулы к молекуле, от клетки к
клетке и т.д. Начальный подход к описанию таких систем, который до сих пор доминирует во многих
областях, брал за основу детерминистскую систему: «молекула А передает сигнал молекуле Б, которая
выполняет некую функцию в ответ на сигнал». Общее видение такой системы можно уподобить шестеренкам,
которые все жестко связаны друг с другом, или бильярдным шарам в ньютоновской механике. Однако
практически все процессы, лежащие в основе передачи сигналов, имеют стохастическую природу. Регулятор
транскрипции не является жестким переключателем с абсолютными состояниями «Вкл-Выкл» - это белок, чьи
параметры связывания с ДНК меняются количественно, а не качественно. При таком подходе молекула А не
передает сигнал молекуле Б, она меняет вероятность того, что молекула Б выполнит некую функцию. Нужная
функция может быть выполнена, а может и нет. Стохастичность этих процессов ведет к тому, что в сложных
системах, вроде иммунной, мы имеем дело не с четко определенными событиями, а с вероятностными
распределениями. Не существует «идеальной» CD4 клетки с четко-определенным набором функций,
существует распределение CD4 клеток с разными фенотипами. У этого распределения есть максимум,
который мы обычно ассоциируем с «типичной» CD4 клеткой, но вокруг максимума есть и очень длинные
хвосты, в которых CD4 клетки имеют нетипичные фенотипы. Эти концепции до сих пор не нашли своего
применения на практике. Отчасти это связано с тем, что до сих пор «первое приближение» было достаточным
для описания исследуемых процессов, а отчасти с тем, что такие системы очень сложны и не было
технических возможностей их моделировать и предсказывать. Но сейчас это начинает меняться и, я думаю, в
ближайшие лет десять серьезно изменит то, как подобные системы изучаются – иммунология существенно
преобразится.
Евгений Кунин
National Center for Biotechnology Information (NCBI) (США)
1. Самые удивительные достижения в микробиологии связаны с изучением мира вирусов, а
также бактериальных механизмов антивирусной защиты, которые оказались на удивление
сложны и разнообразны. Новые данные в области метагеномики вирусов и иммунных
систем микроорганизмов приобретают первостепенное значение для нашего понимания
эволюции.
Прежде всего, вирусы оказались самыми распространенными объектами в биосфере, а их
генетическое разнообразие намного превосходит разнообразие клеточных форм жизни.
Большая часть этого разнообразия - генетическая «темная материя», то есть состоит из
генов, не имеющих явных гомологов. Более того, среди генов, для которых гомологи все же
найдены, большая часть выглядит как более или менее случайные комбинации генов
бактерий. Природа этой темной материи, доминирующей в мире вирусов, неизвестна.
Выяснение этого вопроса будет целью ближайших лет.
Чрезвычайно интересны особые частицы, похожие на вирусы – агенты переноса генов (gene
transfer agents, GTAs). В этих частицах упакованы случайные фрагменты бактериальных
хромосом. Было показано, что GTAs весьма эффективно заражают бактериальные маты и
служат средством горизонтального переноса генов. Таким образом, масштабы
горизонтального переноса в природе могут оказаться намного больше, чем считают
сегодня. Можно предположить, что «темная материя» состоит преимущественно из GTAs.
Подробности биологии этих частиц и природа «темной материи» будут выяснены в
ближайшие годы. Результатом этого, вероятно, станет серьезная ревизия наших взглядов на
структуру биосферы.
Евгений Кунин
National Center for Biotechnology Information (NCBI) (США)
GTAs в качестве специализированных агентов горизонтального переноса помогут разрешить
фундаментальный спор в эволюционной биологии: может ли способность к эволюции
эволюционировать? В мире микробов горизонтальный перенос является главным механизмом
эволюции. Эволюция оптимальной интенсивности горизонтального переноса может оказаться
условием выживания микроорганизмов, обходящихся без полового размножения.
На противоположной стороне вечного противостояния вирусов и клеток находятся механизмы
адаптивной иммунной защиты - CRISPR/Cas система. Пока остается загадочной стадия
встраивания чужеродной ДНК в CRISPR локусы. Да и про следующий этап избавления от вируса
нам известно немногое. В ближайшие годы появится подробная картина молекулярных
взаимодействий CRISPR/Cas системы, и мы узнаем о ее новых, возможно, очень необычных
механизмах. Что менее очевидно, есть ли у этой системы дополнительные функции, скажем,
регуляции экспрессии генов или их репарации? CRISPR/Cas система представляет особый
интерес с точки зрения понимания эволюции, поскольку реализует ламарковский принцип
наследования, что до сих пор рассматривается как табу в эволюционной биологии. В мире
бактерий и архей существуют и другие системы антивирусной защиты, но еще большее
количество таких систем будет открыто в ближайшем будущем.
Сочетание исследований вирусов в масштабах всей биосферы с изучением внутриклеточных
защитных механизмов позволит нам взглянуть на глобальную картину гонки вооружений между
паразитами и их хозяевами, которая идет с самого возникновения жизни и, весьма вероятно,
является одним из ключевых эволюционных факторов. Для меня красота этих открытий, помимо
удивительных молекулярных механизмов, в том, что они видоизменяют наши
основополагающие
идеи
относительно
эволюции.
СRISPR/Cas система
The CRISPR System Protects Microbes
against Phages, Plasmids
Palindromic DNA repeat sequences immunize
microorganisms against phages and plasmids, while
also directing their evolution.
Rodolphe Barrangou and Philippe Horvath
Сочетание исследований вирусов в
масштабах всей биосферы с изучением
внутриклеточных защитных механизмов
позволит нам взглянуть на глобальную
картину гонки вооружений между
паразитами и их хозяевами, которая идет
с самого возникновения жизни и, весьма
вероятно, является одним из ключевых
эволюционных факторов. Для меня
красота
этих
открытий,
помимо
удивительных
молекулярных
механизмов,
в
том,
что
они
видоизменяют наши основополагающие
идеи относительно эволюции. Е. Кунин.
Руслана Радчук
The Leibniz Institute of Plant Genetics and Crop Plant Research (Германия)
Если говорить о глобальной тенденции в молекулярной биологии растений, то мы
столкнулись с парадоксальным фактом, когда технологические возможности,
связанные с секвенированием геномов и генноинженерными методами переноса
генов в растения, существенно опережают знания о конкретной роли тех или иных
генов. Таким образом, развитие отрасли идет в двух направлениях, которые на
самом деле дополняют друг друга, причем одно из них значительно отстает.
-Удешевление секвенирования приводит к накоплению огромного количества
генных и геномных последовательностей. Громадные массивы полученных данных
зачастую остаются необработанными и невостребованными. Прочитано большое
количество геномов, причем по нескольку раз, но последовательности не
скомпилированы и не доступны для работы. Причин этому несколько – наличие
большого числа повторов, которые не поддаются обработке стандартными
алгоритмами, отсутствие технических мощностей. Проблема также кроется в
особой роли биоинформатиков. Сегодняшняя специфика работы биоинформатиков
заключается в том, что перед ними ставится задача формирования принципиально
нового научного знания. До сих пор таким считалась разработка алгоритмов и
статистических методов обработки нуклеотидных последовательностей. Но,
похоже, в этой области происходит насыщение знаниями, поэтому роль
бионформатиков будет сдвигаться в сторону сервиса.
Руслана Радчук
The Leibniz Institute of Plant Genetics and Crop Plant Research (Германия)
Подобная участь постигла в свое время специалистов в культуре in vitro. Еще какихто 15 лет тому назад культуральщики занимали важную нишу в растительной
биологии. Открытие нового состава среды и введение нового растения in vitro
считалось научным прорывом. Этому предшествовало осознание роли гормонов в
регуляции клеточной дифференциации и формированию целого ряда
основополагающих биологических принципов. Однако сейчас эта отрасль
справедливо перекочевала из науки в технологию. То же самое произойдет в
будущем и с биоинформатикой.
Другое направление в молекулярной биологии – изучение роли отдельных генов.
Треть генов растений вообще не изучены никак. Еще у половины генов роль можно
теоретически предсказать, но пока экспериментальных подтверждений нет. При
этом речь идет всего о нескольких видах растений. Больше всего изучен геном
арабидопсиса, а черпать оттуда сведения для пшеницы малопродуктивно.
Постепенно будет сворачиваться арабидопсисная эра, и это происходит уже сейчас.
Будет продолжаться изучение роли и функций отдельных генов у разных видов
растений и генные взаимодействия. Насколько прорывными будут знания, зависит
от многого.
Руслана Радчук
The Leibniz Institute of Plant Genetics and Crop Plant Research (Германия)
Мода на тотальное секвенирование через некоторое время пройдет, во всяком случае
в академических учреждениях, но при этом наберет обороты в коммерческих
фирмах. Уже сейчас государственные фонды, финансирующие науку, неохотно
финансируют технологичные и дорогие проекты и делают упор на оригинальные
исследования. При этом все больше фирм предлагают готовое технологичное
решение, от ученых требуется осознание и интерпретация полученных
результатов.
Прорыв произойдет там, где наткнутся на важный решающий ген, причем вероятнее
всего случайно. Это может быть расшифровка механизма фиксирования азота.
Похоже, что молекулярные компоненты для этого процесса присутствуют у
многих растений, но или поломаны, или рассинхронизированы во времени. Есть
еще один селекционный парадокс, связанный с соотношением углерода и азота в
композиции семени и отражающий содержания белка. Селекция на повышение
урожайности зерновых приводит к повышению содержания углеводородов, как
менее энергозатратных запасающих веществ и коррелирует с понижением
содержания белка. И наоборот, злаковые с повышенным содержанием белка, как
правило, малоурожайные. Регуляция соотношения C к N - ключевая задача не
только в производстве зерна, но также очень важна для контроля биодоступности
биомассы для энергопроизводства или при компостировании. Молекулярный
механизм, регулирующий это соотношение, неизвестен.
Владимир Фридман
Биологический ф-т МГУ
В общем случае можно сказать, что «идеи, которые набирают силу», связаны с поиском
альтернатив в решении тех до сих пор не решённых общебиологических проблем, которые
уже 30-40 лет как пытаются решить при помощи, условно говоря, «программы ГамильтонаВилсона-Докинза» - радикального редукционизма, пытающегося понять разные
эволюционные феномены (как возможны групповые адаптации? устойчивые системы вроде
организма и популяции? и т.п.) «снизу вверх», через отбор «эгоистических» и
«независимых» элементов, которые могут быть «склеены» им в некое общее целое, но
каким-то метафизическим образом сохраняют эту самую «эгоистичность».
1. Идея радикального редукционизма в этологии, популяционной и эволюционной биологии,
будучи радикально высказанной, после короткого периода торжества начинает отрицать
самоё себя. Это видно уже по попыткам отказаться от отдельных частных концепций, вроде
родственного отбора, которые явно не подтверждаются фактами. Явно не оправдываются
утверждения Бэйтмена и Трайверса об универсальности различий инвестирования разных
полов в половое поведение и заботу о потомстве, на котором покоятся господствующие
сейчас представления о половом отборе. Какой пол инвестирует больше, какой меньше (и
соответственно, самки конкурируют за внимание самцов, а самцы выбирают, или наоборот),
определяется конкретной "конструкцией" социальной системы разных видов и
филогенетической историей группы, определяющей не общие, а локальные причины
перехода от одной "конструкции" к другой. Более общая идея – социальный отбор.
Владимир Фридман
Биологический ф-т МГУ
После таких работ как 1 и 2, по генным сетям и гомологическим рядам Вавилова
на молекулярном уровне, станет всё более ясно, что генотип – это отнюдь не
стохастическая система, вроде людей в толпе, а иерархически организованная
система. И в плане жёсткости-многоэтажности организации и управления
«сверху вниз» (от организма к генам разных органов и тканей, но не
наоборот) генные сети, в общем, не отличаются от прочих морфоструктур,
скажем, «рассеянных тканей». Так что будет набирать силу представление,
что ген не существует как некая отдельность, которую можно выделить
независимо от организма и его функционирования, от напряжений/стрессов,
которые
испытывает
организм
в
борьбе
за
существование.
1. К.В. Гунбин, В.В. Суслов, Н.А. Колчанов. АРОМОРФОЗЫ И АДАПТИВНАЯ МОЛЕКУЛЯРНАЯ ЭВОЛЮЦИЯ
Вестник ВОГиС, 2007, Том 11, № 2
2. В.В. Cуслов, Н.А. Колчанов. ДАРВИНОВСКАЯ ЭВОЛЮЦИЯ
И РЕГУЛЯТОРНЫЕ ГЕНЕТИЧЕСКИЕ СИСТЕМЫ. Вестник ВОГиС, 2009, Том 13, № 2
Владимир Фридман
Биологический ф-т МГУ
2.
Поскольку
«программа
Гамильтона-Вилсона-Докинза»
интеллектуально
привлекательна – стройна, логична, красива, последовательна, как всякая замкнутая
концепция, её легко принять и отказываться от неё не хочется, то приведение её в
соответствие с новыми данными позволит понять её действительно полезную роль –
не онтологии и не теории, а аналитического инструмента и нулевой гипотезы. То
есть если задать себе вопрос: откуда столь высокая популярность идей
«эгоистичных генов» и «отбора генов», высказанных людьми, которые никогда
исследований генов не проводили, почему многие биологи так держатся за их
концепцию, несмотря на множество частных опровержений, то единственный
разумный ответ будет то, что они предложили хорошую методологическую идею.
Необходимо продумать в чём действительно она состоит, и продумав, сменить
способ её использования – не как рабочей гипотезы, а как гипотезы нулевой,
которую надо опровергать, чтобы убедиться в том, что перед нами «хорошо
выделенная система», с которой происходит нечто существенное в плане
функционирования и/или эволюции. То есть «программа Гамильтона-ВилсонаДокинза» не исчезнет совсем, но сохранится как полезный приём, позволяющий
допущением предельной «эгоистичности частей» «проверить на излом»
соответствующую биосистему – сохранит ли она хороший устойчивость и
целостности при такой интенсивности «обмана» и такой концентрации
«обманщиков», справятся ли с ними существующие механизмы регуляции и
контроля?
Владимир Фридман
Биологический ф-т МГУ
3. Будет набирать силу «морфологический подход» к стохастическими
системам, прежде всего к популяциям, социуму и виду как системе
популяций, определённым образом структурированной в пространстве ареала
и отграниченной от аналогичных популяционных систем, составляющих
другие виды. Это даст новую жизнь исследованиям процессов регуляции каким образом система управляет своими элементами - вроде бы
независимыми индивидами, чтобы иметь возможность устойчиво
воспроизводить присущий ей специфический паттерн системной структуры
вопреки возмущениям извне и напряжениям изнутри? Это позволит
распространить на популяцию и социум те представления о структуре,
архетипе, форме и гомологии, которые оказались исключительно плодотворны
для идеалистической морфологии.
……………………….
Биоинформатика – это способ заниматься биологией, не наблюдая живые
существа, как зоологи, не делая опытов в пробирке, как экспериментальные
биологи, а анализируя результаты массовых данных или целых проектов.
Там есть два аспекта. Один – чисто практический. Оказывается, глядя на
буковки, или на структуры белков, или на карты белковых взаимодействий,
которые получены из таких массовых экспериментов, вы можете делать
совершенно конкретные, проверяемые биологические утверждения.
…………………
Вторая вещь. Это началось с чистой техники. Размер генома человека – 3
миллиарда нуклеотидов, 3 миллиарда букв. Их надо где-то хранить, ими
надо уметь манипулировать. Это чисто техническая сторона. Но очень
важная. ……… Этими колоссальными объемами данных надо уметь
манипулировать. Кроме того, оказалось, что можно делать утверждения
уже не настолько частные, что «этот белок делает это», а строить
утверждения о системе взаимодействия белков в клетке. Описания общих
свойств на уровне целой клетки.
М.Гельфанд.
Третий аспект биоинформатики, с моей точки зрения, самый интересный, потому
что самая правильная биоинформатика – это биоинформатика эволюционная.
Интереснее всего описывать не то, как клетка устроена сейчас, а то, как она
такой получилась. Что происходило, что породило такие механизмы внутри
клетки и т. д. Эволюционная биология - наука очень старая, а молекулярная
эволюция, то есть использование молекулярных данных для реконструкции
эволюционных событий, – вещь более новая. Она стала возможной, когда такие
данные стали приходить в эволюционную биологию. Происходят, повидимому, некие культурные войны между классическими эволюционными
биологами и молекулярными эволюционистами. Причем они происходят в одну
сторону.
М.Гельфанд.
Bio-Informatics Tools Laboratory
Bio-Informatics (overview).
15
Bioinformatics - A New Discipline
Large scale analysis and interpretation of genomics data.
Computing
Math&
Stats
Life
sciences
Physical
sciences
Taken from: D. Gilberts & C. Tan, 2002
16
http://www.brc.dcs.gla.ac.uk/~drg/courses/bioinformatics_city/slides/slides1/sld018.htm
Large scale
DNA sequencing
From
Chromosomes to
Sequence Data
CGCCAGCTGGACGGGCACACCATGAGGCTGCTGACCCTCCTGGGCCTTCTG
TGTGGCTCGGTGGCCACCCCCTTAGGCCCGAAGTGGCCTGAACCTGTGTTC
GGGCGCCTGGCATCCCCCGGCTTTCCAGGGGAGTATGCCAATGACCAGGAG
CGGCGCTGGACCCTGACTGCACCCCCCGGCTACCGCCTGCGCCTCTACTTC
ACCCACTTCGACCTGGAGCTCTCCCACCTCTGCGAGTACGACTTCGTCAAG
http://www.ornl.gov/hgmis/graphics/slides/images/01-0085.tif
17
Different Eukaryotic Cell Types
Different genes are activated in different cells, creating the
specific proteins that give a particular cell type its character.
http://www.accessexcellence.org/AE/AEPC/NIH/gene03.html
18
DNA
Eukaryotic Genome
Structure
4 Nucleotides (bases)
Sequence data =
Strings of letters
Adenine (A)
Cytosine (C)
triplet codons
Guanine (G)
genetic code
Thymine (T)
20 amino acids
(A, L, V, S etc.)
Translation in Eukaryotes
http://www1.imim.es/courses/Lisboa01/slide1.6_translation.html
Animation: http://cbms.st-and.ac.uk/academics/ryan/Teaching/medsci/Medsci6.htm
Proteins Determines Cell
Structure and Function
• Unique protein expression
by each cell type.
• Proteins are ~60% of
dry mass of living cell.
• Proteins determine function.
http://www.library.csi.cuny.edu/~davis/Bioinfo_326/lectures/centralDogmaProteins/centralDogma.html
The Central Dogma
Transcription
Translation
mRNA
Gene (DNA)
DNA
RNA
Cells express different subset of the
genes in different tissues and under
different conditions.
Protein
Protein
Symptomes
(Phenotype)
The BIG Goal
“The greatest challenge, however, is analytical. … Deeper
biological insight is likely to emerge from examining datasets
with scores of samples.”
Eric Lander, “array of hope” Nat. Gen.
volume 21 supplement pp 3 - 4, 1999.
Bio-informatics:
Provide methodologies for
elucidating biological knowledge
from biological data.
23
What is Bio-Informatics ?
Computational methods for
global understanding of biological data.
Data produced by
bio-labs and
stored in database.
Bio-Informatics
Algorithms
and Tools
Better biological
and medical
understanding.
Goal: Enable the discovery of new
biological insights and create a global
perspective for life sciences.
24
Computer Science Tools are Crucial
•
New bio-technologies create huge amounts of data.
•
It is impossible to analyze data
by manual inspection.
•
Novel mathematical, statistical,
algorithmic and computational
tools are necessary !
•
An emerging interdisciplinary
research area, bringing together
experimental and computational
approaches to biology and biomedicine.
•
Deals with the computational management
and analysis of biological information:
genes, genomes, proteins, cells, clinical information.
•
Used terms: Bioinformatics, Computational biology.
http://www.library.csi.cuny.edu/~davis/Bioinfo_326/lectures/lect14/lect_14.html
Bio-Informatics working
definition (NIH; National
Institute of Health, USA)
Bioinformatics:
Research, development, or application of computational tools and
approaches for expanding the use of biological, medical, behavioral
or health data, including those to acquire, store, organize, archive,
analyze, or visualize such data.
Computational biology:
The development and application of data-analytical and theoretical
methods, mathematical modeling and computational simulation
techniques to the study of biological,behavioral, and social systems.
Important Bio-Info. Topics
• Sequence comparison and alignment.
• Gene finding analysis.
• Finding regulatory motifs.
• Structural biology: 3D protein structure,
correlated to function.
• Constructing phylogeny trees from sequences.
Why Use Bio-Informatics ?
• A more global view of experimental design.
(from “one scientist = one gene/protein/
disease” paradigm to whole organism
consideration).
• Data mining - functional/structural
information is important for studying
the molecular basis of diseases,
diagnostics, developing drugs
(personal medicine), evolutionary
patterns, etc.
http://www.sanger.ac.uk/PostGenomics/S_pombe/presentations/EMBOCopenhagenWebsite.pdf
28
The Next Step
Locate all the genes
and describe their function.
This will probably take another 15-20 years !
Future of
Bio-Informatics
29
The Job of Biologists is Changing…
One can efficiently find information:
• E-mail.
• Web - information and software.
How likely are you to use a
free bio-informatics library
of accessible software ?
http://www.cryst.bbk.ac.uk/classlib/BBSRC_poster/potential.html
30
Primary (Raw) Databases
Types of
Data
Publications
Secondary
(analyzed)
Databases
(Databases)
ibbons
Cylinders
31
NCBI
ENTREZ –
PubMed
The Globin Story
Bio-informatics
Tour: Highlights
33
Red Blood Cells
• Carry oxygen from the lungs.
• Carry carbon dioxide back to the lungs.
• Contain hemoglobin.
• Made from iron, folic acid and
vitamin B12, in the bone marrow.
Similarity / Analogy
Examples:
If looks like an elephant,
and smells like an elephant–
it’s an elephant.
If walks like a duck,
and quacks like a duck–
it’s a duck.
35
http://cbms.st-and.ac.uk/academics/ryan/Teaching/molbiol/Bioinf_files/v3_document.htm
Similarity Search in Databanks
Find similar sequences
to a working draft.
Pairwise alignment:
As databanks grow,
homologies get harder,
and quality is reduced.
Alignment Tools:
BLAST & FASTA
(time saving
heuristicsapproximations).
36
The Globin Family:
Multiple Sequence Alignment (MSA)
Multiple alignment:
find protein families and functional domains.
All globin molecules have a similar 3D structure, despite large sequence
differences. Globins amino acid sequence identities range from 99% (very similar)
to 16% (very different).
37
The Structural Prediction Problem
“Given a protein sequence, compute its structure”.
GCTCCTCACTGTCTGTGT
TTATTCTTTTAGCTTCTTC
AGATCTTTTAGTCTGAGG
AAGCCTGGCATGTGCAAA
TGAAGTTAACCTAA...
• Possible in principle.
• Astronomical, highly under-constrained search space.
• Biophysics complex and incomplete.
• Next to impossible in practice.
Structure - Function
Relationships
structure
sequence
function
3D Structure of Globins
Human a-Globin
Whale Myoglobin
Yellow Lupine
Leghemoglobin
40
Phylogeny
Evolution - a process in
which small changes occur
within species over time.
These changes could be
monitored today using
molecular techniques.
The Tree of Life:
A classical, basic
science problem,
since Darwin’s 1859
“Origin of Species”.
41
How Did the Globin Gene Family Evolve ?
42
Tree of Life:
Searching Protein Sequence Databases How far can we see back ?
Mammalian
radiation
Invertebrates/
vertebrates
Plant/
animals
Prokaryotes/
eukaryotes
First self replicating
systems
Formation of the
solar system
Origin of the universe ?
43
What is a Gene ?
promotor
Un-coded
region
Transcribed region
Un-coded
region
exon
exon
intron
Start codon
DNA contains various recognition sites:
• Promoter signals.
• Transcription start signals.
• Start codon.
• Exon, intron boundaries.
• Transcription termination signal.
exon
intron
Terminal codon
Gene Finding
• Only 2% of the human genome encodes for
functional genes.
• Genes are found along large non-coding
DNA regions.
• Repeats, pseudo-genes, introns, contamination
of vectors, are confusing.
45
Gene Finding
Existing programs for locating genes within
genomic sequences utilize a number of statistical
signals and employ statistical models such as
hidden Markov models (HMMs).
The problem is
not solved yet !
46
47
Genomic Mapping
A map - graphic representation that provides information about the location
of sites and the spacing between them.
Maps for the genome provide the relative order of items (“markers”) along
the chromosome.
Two Major Types of
Genomic Maps :
• Genetic maps.
• Physical maps.
48
49
Microarrays (“DNA Chips”)
Leading edge, future technologies (since 1988):
In a single experiment, measure expression level of
thousands of genes.
•
Find informative genes that may
have predictive power for
medical diagnosis.
•
Potential for personalized
medicine, e.g. kits for identifying
cancer types and prescribe
“personal” treatment.
50
Microarray (“DNA Chip”) Analysis
Discover meaningful relationships among genes:
Clustering algorithms:
Identify:
1.
Biological function.
2.
Similar regulation.
51
Pharmaco-genomics
• Use DNA information to measure and predict
the reaction to drugs.
• Personalized medicine.
• Faster clinical trials: selected populations.
• Less drug side-effects.
Putting it all together: Bio-Informatics
SEQUENCE
ALIGNMENT
ORTHOLOG
GENES
(Taxonomy)
CODING
REGIONS
CONSERVED
DOMAINS
3-D
STRUCTURE
SEQUENCES
& LITERATURE
SIGNAL
PEPTIDE
CELLULAR
LOCATION
GENE
FAMILIES
GENOME
MAPS
MUTATIONS &
POLYMORPHISM
53
Putting it all together: Bio-Informatics
SEQUENCE
ALIGNMENT
ORTHOLOG
GENES
(Taxonomy)
CODING
REGIONS
3-D
STRUCTURE
SIGNAL
PEPTIDE
GENE EXPRESSION,
GENES FUNCTION,
DRUG & PERSONAL
THERAPY
CELLULAR
LOCATION
GENOME
MAPS
CONSERVED
DOMAINS
GENE
FAMILIES
MUTATIONS &
POLYMORPHISM
54
Download