Функциональная аннотация

Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2007 Массовые негеномные данные • • • • • (ко)-экспрессия Белок-ДНКовые взаимодействия Состав и концентрации белков Белок-белковые взаимодействия Одинарные и двойные мутанты (жизнеспособность, фенотипы) • Всякие разные эксперименты (text mining) • Много баз данных • Мало удобных средств анализа Expression arrays (a.k.a. олигонуклеотидные чипы) • Олигонуклеотиды (зонды) нанесены на подложку • Туда же льют (радиоактивно или флуоресцентно – можно 2 метки) меченую РНК или кДНК (например – один раунд с затравкой полиТ) – получаем (комплементарные цепи) 3’-концы генов • Меряем в каждой лунке интенсивность – она пропорциональна концентрации «техническая» биоинформатика • Как подобрать зонды – Геномные соображения • Не участок малой сложности (прилипнет к чему угодно) • Не повтор (прилипнет ко мноим копиям) • Уникальность (семейства генов) – Физические соображения • • • • • • Одинаковые температуры плавления Отсутствие комплементарности между зондами Отсутствие вторичной структуры в олигонуклеотиде Отсутствие вторичной структуры в мишени Как переделать интенсивности в концентрации (анализ изображений) Нормировка измерений в одном эксперименте / однородной серии экспериментов – – – – – Учет различий в условиях гибридизации и т.п. Учет неравномерности по полю Вычитание фона Нормировка интенсивностей флуоресцентных меток (регрессия) Логарифмы, потому что хотим • • • • нормального распределения ошибок приблизительно равномерного разброса наблюдений по шкале приблизительно колоколообразного распределения наблюдений вычитать, а не делить при анализе (статистические методы так лучше работают) До и после логарифмирования (две метки; фибробласты, инфицированные Toxoplasma) гистограммы после до Виды чипов • кДНКовые – ПЦР-амплификация известных генов – (можно сколь угодно либерально – брать все сомнительные гены) – Надо учитывать альтернативный сплайсинг, полиаденилирование, промоторы (трудно) – В зависимости от способа приготовления меченой кДНК, можно предпочитать 3’-концы • Выстилающие (tiling) – Весь геном – по ~30 нуклеотидов со сдвигом ~10 нуклеотидов… – … за исключением повторов, микросателлитов и т.п. Нормировка • Для применения статистических методов надо, чтобы распределения были сравнимы (одинаковые средние и среднеквадратичные отклонения) • для этого для каждого массива (первоначальных) данных вычитают среднее и делят на среднеквадратичное отклонение • у получившегося распределения среднее равно 0, среднеквадратичное отклонение равно 1 Типичные задачи • классификация измерений (например, диагностика) • выбор генов, дифференциально экспрессирующихся в двух классах (диагностика, до/после) • поиск групп ко-регулируемых генов один ген, много измерений в двух независимых группах – одинаков ли уровень экспрессии? • стандартные методы сравнения двух распределений – параметрические (t-тест) – предполагается нормальность распределений, но: • выборки неоднородные, • распределения не только не нормальные, но могут быть бимодальные, • Outliers => ложно-положительные результаты (принимаем желаемое за действительное) – непараметрические (Уилкоксона-Манна-Уитни) • небольшая статистическая сила => ложно-отрицательные результаты (можно пропустить значимый эффект) bootstrapping • берем те же данные, распределяем случайным образом по группам того же объема, и проводим такой же тест на сравнение распределений (например, вычисляем t-статистику) • но теперь не смотрим в таблицу tраспределения, а производим эту операцию очень много раз и получаем распределение статистики на имеющихся данных • и смотрим, какова же значимость один ген, много пар измерений – есть ли разница? • вычитаем первое измерение из второго и проверяем «среднее=0?» • те же тесты, что и раньше множественное тестирование • статистическая значимость 1% означает, что в случайных данных 1 из 100 измерений (генов) будет иметь такое значение • тысячи генов • консервативный подход – поправка Бонферрони (умножать уровень значимости на количество генов) – слишком консервативно – ничего не значимо bootstrapping • альтернативный подход – посчитать, сколько генов пройдет данный порог на p-value в случайных данных того же объема • эта доля генов – false positives • выбрать уровень значимости с приемлемым уровнем false positives • поправка Бонферрони соответствует 0% false positives классификация выборок (тканей, диагнозов и т.п.): распознавание образов • k ближайших соседей • перцептрон и линейный дискриминантный анализ: измерения (скажем, пациенты) – точки в многомерном пространстве (координаты – уровни экспрессии генов); проводим плоскость, которая наилучшим образом разделяет выборки • нейронный сети (обобщение) • квадратичный анализ • support vector machines (другое обобщение) понижение размерности и over-interpretation • можно обойтись меньшим числом измерений (гены-маркеры) • не следует трактовать различия в уровне экспрессии как непосредственные причины (скажем, болезни) • можно выбрать другой набор генов, который даст такое же качество диагноза валидация • стандартные правила гигиены теории распознавания образов • обучающая выборка – подбор параметров • тестирующая выборка – подбор модели • экзамен – ОДИН РАЗ корреляции между уровнями экспрессии генов сильная положительная r = 0.97 слабая отрицательная r = –0.43 никакой r = 0.054 временные ряды • клеточный цикл (синхронизированные культуры) или последствия вмешательства • измерения уровней экспрессии через фиксированные отрезки времени • кластеризация полученных профилей экспрессии Кластеризация профилей мера сходства между профилями: нужна нормировка (корреляция нормирует автоматически) методы иерархической кластеризации • ближнего соседа (single linkage) • дальнего соседа (complete linkage) • средневзвешенное расстояние (average linkage) мера близости – корреляция, метод кластеризации – среднеевзвешенное кластеризация k-средних k-means clustering • • • • количество кластеров задается заранее создать случайные кластеры найти центроиды перераспределить точки – отнести точку к тому кластеру, к центроиду которого эта точка ближе • повторить пока не сойдется • не получается иерархической системы: система кластеров при k+1 не сводится к разделению одного из k кластеров на два разнообразные условия – двойная кластеризация (biclustering) • если по столбцам – не времена, а различные условия (да еще и из разных экспериментов), то не обязательно корреляция должна наблюдаться на всем множестве условий • двойная кластеризация: выделение групп генов и групп условий, т.ч. экспрессия этих генов скоррелирована в этих условиях базы данных результатов экспериментов по анализу экспрессии • ArrayExpress http://www.ebi.ac.uk/microarray/ArrayExpress/arrayxpress.html • Stanford Microarray Database http://genome-www5.stanford.edu/MicroArray/NDEV/index.shtml • GEO (Gene Expression Omnibus) http://www.ncbi.nlm.nih.gov/geo/ • Стандартизованная форма данных об эксперименте (MIAME: Minimal Iinformation About a Microarray Experiment) GEO Развитие цветка резухи Таля двойная кластериза ция – на генах и на условиях Один ген – разные условия (времена, мутанты) программы • R (GNU) • Matlab • Expression Profiler (EBI) http://www.ebi.ac.uk/microarray/ExpressionProfiler/ep.html Expression Profiler http://string.embl-heidelberg.de:8080/ prophecies_html/prophecies.html STRING: trpB co-expression протеомика – двумерный форез • двумерный форез – пятна (масса/заряд) • масс-спектрометрия – пептиды • в обоих случаях нужен геном. Для фореза – точные гены (старты! точнее даже белки без сигнальных пептидов) Pride протеомика – белковые чипы • белки наносятся на подложку, потом можно измерять активность (например, связывание) белок-белковые взаимодействия • комплексы – масс-спектрометрия • дрожжевые двугибридные системы – GAL4 – два домена: димеризационный (связывает галактозу) и ДНК-связывающий – димер связывается с оператором – димеризационный и ДНК-связывающий домены могут быть в разных белках (связь через тестируемые белки) Protein-protein interactions • MIPS, mammals: http://mips.gsf.de/proj/ppi/ • MIPS, yeast: http://mips.gsf.de/ proj/yeast/CYGD/interaction/ • MRC, links: http://www.hgmp.mrc.ac.uk/ GenomeWeb/prot-interaction.html • DIP, many model organisms: http://dip.doe-mbi.ucla.edu/ dip/Main.cgi STRING: trpB highthroughput experiments ChIP-chip (chromatin immunoprecipitation) Briefly, cells are fixed with formaldehyde, harvested by sonication, and DNA fragments that are crosslinked to a protein of interest are enriched by immunoprecipitation with a specific antibody. After reversal of the crosslinking, the enriched DNA is amplified and labeled with a fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of DNA that has not been enriched by immunoprecipitation is subjected to LM-PCR in the presence of a different fluorophore, and both IP-enriched and unenriched pools of labeled DNA are hybridized to a single DNA microarray containing all yeast intergenic sequences. фенотипы • essentiality – 18.7% non-essential genes in yeast – 14.4% non-essential genes in E. coli – … в «богатых» условиях • RNAi • synthetic lethals MIPS Как это используют • Так же, как любые слабые соображения Ингибитор РНКазы L [Huynen, Gabaldon] • COG1245 – присутствует во всех эукариотах и археях • У человека RPLI1 – ингибитор РНКазы L (интерферонзависимый путь деградации (вирусных) РНК) • Но РНКазы L у архей нет. Что же там делает этот белок? • Филогенетический профиль (присутствие во всех археях и эукариотах, отсутствие во всех бактериях) => 55 COGов – Трансляция, биогенез рибосом, транскрипция, репликация, рекомбинация, репарация • В эукариотах – коэкспрессия с рибосомными белками и белками процессинга рРНК • В дрожжах – белок-белковое взаимодействие с HCR1 (процессинг рРНК) • Эксперимент (трипаносома): слабая экспрессия RLI1 => уменьшение общего уровня синтеза белков • N-концевой домен содержит 4 цистеина – связывание с РНК? • Предсказание: RLI1 – фактор процессинга рРНК • Эксперимент: и впрямь – мутанты по RLI1 имеют дефект процессинга пре-рРНК – в дрожжах RLI1 связан с незрелыми и зрелыми малыми субъединицами рибосом Систематический анализ генов дрожжей [Kemmeren et al. 2005] • Белок-белковые взаимодействия • Корреляция профилей экспрессии • Ко-локализация • Сходство фенотипов KRE33 “killer toxin resistant”, no GO annotation • 20 связанных генов • 13: часть комплекса U3 snoRNP (процессинг рРНК) • 4: метаболизм мРНК FUN11: “function unknown now” • Все 5 соседей – инициация трансляции YDR091c: “putative member of the ATP-binding cassette superfamily of non-transporters” • 10 из 15 соседей – инициация трансляции YGR205w – HSP104 (ppi+exp+loc) • HSP104: белок теплового шока; мутанты термочувствительны. Шаперон. • Коэкспрессия HSP104 и YGR205w наблюдается при разных шоках • Предсказание: YGR205w тоже участвует в ответе на стресс • Эксперимент: мутанты по YGR205w имеют повышенную термоустойчивость • Та же система, противоположное действие – разные фенотипы ASC1 (no annotation) • • • • 4 гена – процессинг рРНК 6 факторов инициации трансляции Ydj1 и ZUO1 имеют домены, гомологичные DnaJ (шаперон, работает при тепловом и (другом) шоке), ZUO1 – шаперон, связанный с рибосомой Предсказания: – Ydj1 – шаперон – ASC1 – “a role in stressinduced misfolding” • Эксперимент: мутанты по Ydj1 и ASC1 плохо растут при повышенной концентрации NaCl и KCl Путь синтеза лейцина в дрожжах • Начинается в митохондрии, заканчивается в цитоплазме • Транспортер изопропилмалата (промежуточный продукт) не известен • Кандидат: YOR271cp. Мотивировка: – Локализован в митохондрии – 4 трансмембранных сегмента – Консервативный сайт связывания лейцинового регулятора Leu3p – Регуляторная область YOR271c связывает Leu3p в ChIP-chip эксперименте (специфичность и чувствительность эксперимента примерно по 50%, других кандидатов с консервативными сайтами нет) – Гомологичен транспортеру трикарбоксилатов крысы (хотя эксперимент был подвернут сомнению; вторая возможная функция – сидерофлексин, белок, участвующий в гомеостазе железа) Aspergillus nidulans FGSC A4 Cryptococcus neoformans var. neoformans B-3501A Sideroflexin 2 Ustilago maydis 521 Bos taurus Mus musculus Gallus gallus Xenopus laevis Tetraodon nigroviridis Yor271c p orthologs Gibberella zeae PH-1 Neurospora crassa Magnaporthe grisea 70-15 Yarrowia lipolytica Debaryomyces hansenii CBS767 Candida albicans SC5314 Kluyveromyces lactis Ashbya gossypii ATCC 10895 Candida glabrata CBS138 Saccharomyces cerevisiae Schizosaccharomyces pombe Rattus norvegicus Sideroflexin 1 Mus musculus Homo Bos taurus sapiens rerio (Tric arboxylate TetraodonDanio nigroviridis Gallus gallus c arrier protein) Xenopus laevis Sideroflexin 3 Homo sapiens Rattus norvegicus Mus musculus Canis familiaris Schistosoma japonicum Dictyostelium discoideum Caenorhabditis briggsae Caenorhabditis elegans Tetraodon nigroviridis Mus musculus Homo sapiens Rattus norvegicus Xenopus tropicalis Gallus gallus Anopheles gambiae str. PEST Sideroflexin 5 Drosophila melanogaster

Функциональная аннотация

Related documents

Products

Support

Функциональная аннотация

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib