BLAST Задание №1. Создание индексных файлов для программ пакета BLAST Цель: создать индексные файлы пакета BLAST для поиска по геномам различныз бактерий Краткое описание работы: при выполнении задания были задействованы файлы pm_genome.fasta - полный геном бактерии Pasteurella multocida, pm_genome.fasta - полный геном бактерии Salmonella typhimurium, pm_genome.fasta - полный геном бактерии Xanthomonas campestris. Индексные файлы, требуемые в задании, были созданы с помощью команды formatdb. Используемые параметры: -i - файл, подаваемый на вход -p тип последовательности, записанной в файле (T - аминокислотная, F - нуклеотидная) -n название файлы (без расширения) Строка запроса в Unix: formatdb -i pm_genome.fasta -p F -n pm полученный файл лежит здесь. formatdb -i st_genome.fasta -p F -n st полученный файл лежит здесь. formatdb -i xc_genome.fasta -p F -n st полученный файл лежит здесь. Для поиска по трем геномам сразу была создана новая переменная: g_s="$genpath/st_genome.fasta $genpath/xc_genome.fasta $genpath/pm_genome.fasta". Строка запроса в Unix: formatdb -i $g_s.fasta -p F -n 3g полученный файл лежит здесь. Результаты: получены требуемые индексные файлы. Задание №2. Поиск в геноме участков, кодирующих белки, похожие на заданный Цель: выяснить, не закодированы ли белки, похожие на белок Malk_ecoli из организма Escherichia coli K-12 в неаннотированном геноме бактерий Pasteurella multocida, Salmonella typhimurium и Xanthomonas campestris. Краткое описание работы: для решения поставленной задачи была выбрана программа TBLASTN. Строка запроса в Unix: для Pasteurella multocida: blastall -p tblastn -d pm -i malk_ecoli.fasta -o pmres.txt для Salmonella typhimurium: blastall -p tblastn -d st -i malk_ecoli.fasta -o stres.txt для Xanthomonas campestris: blastall -p tblastn -d xc -i malk_ecoli.fasta -o xcres.txt Результаты: результаты сведены в Таблицу 1 Поиск гомологов Malk_ecoli Pasteurella multocida Salmonella typhimurium Xanthomonas campestris Число находок с 44 Е-value<0,001 55 32 AE006213 Pasteurella multocida subsp. multocida str. m70 section 180 of 204 of the complete genome. Характеристика Length = 10860 Score = лучшей находки: 290 bits (743) Expect = 7e-80 Identities = 164/354 (46%), Positives = 220/354 (62%), Gaps = 7/354 (1%) Frame = -1 AE008897| Salmonella typhimurium LT2, section 201 of 20 of the complete genome. Length = 20409 Score = 693 bits (1789), Expect = 0.0 Identities = 353/371 (95%), Positives = 364/371 (98%) Frame = +3 AE012320| Xanthomonas campestris pv. campestris str. ATCC 33913, section 228 of 460 of the complete genome. Length = 13110 Score = 320 bits (821), Expect = 1e-88 Identities = 182/363 (50%), Positives = 236/363 (65%), Gaps = 8/363 (2%) Frame = -1 E-value находки 7e-80 0.0 1e-88 AC соответствующей записи EMBL AE006213 AE008897 AE012320 Координаты выравнивания в записи EMBL 6846-5794 17748- 18854 6081- 5029 Координаты CDS complement(5740..6846) 17748..18857 complement(4987..6081) в записи EMBL AC UniProt в записи EMBL P19566 Q9CK71 Q8P8U9 Выводы: исходя из полученных результатов, можно сделать вывод, что во всех трех геномах есть белки, гомологичные белку Malk_ecoli из организма Escherichia coli K-12. В Таблице1 проанализирована первые из списков находок. Но всё же самым близким гомологом является - гомолог Malk_ecoli из организма Salmonella typhimurium выравнивание по длине равно 1106 остатков при e-value = 0.0 - довольно неплохой результат, если учесть, что мы искали в полном геноме. Задание №3. Аналогичный поиск сразу в нескольких геномах Цель: выяснить, не закодированы ли белки, похожие на белок Malk_ecoli из организма Escherichia coli K-12 в неаннотированных геномах бактерий Pasteurella multocida, Salmonella typhimurium или Xanthomonas campestris Краткое описание работы: индексные файлы для поиска по трем геномам сразу были созданы ранее (см. первое задание) С помощью программы TBLASTN был проведен поиск сразу по трем геномам бактерий Pasteurella multocida, Salmonella typhimurium и Xanthomonas campestris. Строка запроса в Unix: blastall -p tblastn -d 3g -i malk_ecoli.fasta -o 3gres.txt Результаты: результаты сведены в Таблице 2 . Количество находок с E-value<0.001 131 Характеристика лучшей находки AE008897| Salmonella typhimurium LT2, section 201 of 220 of the complete genome. Length = 20409 Score = 693 bits (1789), Expect = 0.0 Identities = 353/371 (95%), Positives = 364/371 (98%) Frame = +3 E-value лучшей находки 0.0 AC соответствующей записи EMBL AE008897 Координаты выравнивания в записи EMBL 17748- 18854 Координаты CDS в записи EMBL 17748..18857 AC UniProt в записи EMBL Q9CK71 Выводы: прежде всего стоит заметить, что во всех трех организмах достаточно много гомологов белка Malk_ecoli. Неудивительно, что суммарное количество находок с заданным e-value при поиске сначала по одному, потом по второму и третьему организму равно количеству находок при поиске в трех геномах сразу. Лучшей находкой как был, так и остался белок с АС=AE008897 из организма Salmonella typhimurium. В принципе это неудивительно, потому что значение e-value у этого белка минимальное - 0.0. Таким образом, эта находка по определению лучшая, поэтому она и осталась первой при поиске по трем геномам сразу. Задание №4. Поиск гомологов с помощью программы BLASTN Цель: поиск гомологов определенного гена белка Malk_ecoli из организма Escherichia coli с помощью программы BLASTN. Краткое описание работы: использовался файл gen_malk.fasta с геном белка Malk_ecoli. Поиск гомологов во всех трех геномах (pm_genome.fasta, st_genome.fasta и xc_genome.fasta) был произведен следующим образом: blastall -p blastn -d 3g -i gen_malk.fasta -o MALK_ECOLI.txt Результаты: Описание лучшей находки. Выводы: Наверное, главным наблюдением можно считать, что разброс E-value и Score меньше при поиске с помощью программы TBLASTN, нежели с помощью программы BLASTN. Это свидетельствует о том, что BLASTN хорошо подходит для поиска самых близких гомологов, ас помощью TBLASTN можно искать и не самые близкие гомологи. Это связано со многими параметрами, которые лежат в основе работы обеих программ. В принципе работы TBLASTN лежит поиск по аминокислотной последовательности с учетом нескольких соответствующих нуклеотидных последовательностей (вырожденность генетического кода, чаще всего в 3 позиции). А в BLASTN такого нет. Поэтому получили больше гомологов с несильно различающимся и достаточно маленьким значением e-value. Все эти факты на практике подтвердили то, что мы уже знаем в теории - TBLASTN подходит для поиска всех гомологов (с разной степенью гомологии, не обязательно очень близкие). А BLASTN подходит для поиска очень близких гомологов.