Uploaded by Эдуард Пузин

Пузин Эдуард ОТЧЕТ

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ
БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
БИОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ
Кафедра молекулярной биологии
Отчет по практическим занятиям
Пузин Эдуард Валентинович
студент 4 курса,
специальность «биология (научнопроизводственная деятельность)»
Проверила:
Старший преподаватель
Левданская А.И.
Минск, 2024
Приступаем к работе.
Занятие 1-2
Первое, что нам нужно сделать это скачать на портале с файлом
имеющую последовательность ДНК, включающую какие-то белки, в моем
случаи это 40 последовательность. Скачанную последовательность загружаем
на сайт Galaxy и запускаем, дальше нас ждет ожидание пока файлы
обработаются с оранжевого индикатора до зеленого. Сайт может зависнуть,
поэтому может потребоваться несколько раз обновить и повторно загрузить
нашу последовательностью. Далее нам потребуется несколько вкладок, первая
*.gff на рисунке 1, в ней мы обнаруживаем нашу таблицу, в которой указаны
последовательности
белков,
обнаруженные
из
всех
большой
последовательности. Для работы далее нам нужно скачать файл с
расширением *.gbk.
Рисунок 1 – Изображение таблицы с обнаруженными белками в последовательности.
Следующим действием нам нужно скачать программу SnapGene-Viewer,
для этого заходим на сайт вводим свою почту, спускаемся ниже на сайте и
нажимаем скачать SnapGene-Viewer и в принципе можно приступать к работе,
загружаем файл в программу, как указано в методичке и получаем ней
аннотацию по нашим белкам, программа вполне может ошибаться о
полученных результатах, поэтому приступаем к проверке и исправлению
нашей работы, чтобы получить красивый результат. Также отметим, что
обнаружено всего 6 белков и это очень хорошо, потому что нам не придется
долго возится с ними, данные можем увидеть на рисунке 2. После нам уже
нужно перейти во вкладку Features, там мы найдем информацию о наших
последовательностях и сможем продолжить работу, проверяя эти
2
аминокислотные последовательности на разных сайтах, чтобы опровергнуть
или подтвердить правильность проаннотированных последовательностей и
уже принять решение в каком виде они будут указаны в нашей программе.
Рисунок 2 – Проаннотированная последовательность белков в программе SnapGene-Viewer.
Перед
началом
работы
условимся,
рисунки
в
каждой
последовательности будут обозначатся а,б,в – сопоставимо с сайтами далее,
для более простого ориентирования во всем этом безумии:
А – https://papers.genomics.lbl.gov/cgi-bin/litSearch.cgi;
Б - https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYP
E=BlastSearch&BLAST_SPEC=&LINK_LOC=blasttab&LAST_PAGE=blastp;
В – https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi;
Приступим в нашей работе, при анализе данных и определении, что за
последовательность перед нами, мы должны учитывать, что все
последовательности у нас рода Pectobacterium, поэтому при выборе нужно
понимать, если называть белок, то уже называть его правильно, а не белком
какого-нибудь случайного белка другого рода и т.д. Давать новые названия в
аннотации следует, если на первом сайте бластинга есть более 80% совпадения
либо, если у нас на первом сайте низкое совпадение ниже 60%, тогда нужно
обращаться ко второму и третьему сайт, на которых мы можем найти названия
и обосновать новое название. Исходя из ниже представленной работе, когда
второй и третий сайт дают одно и тоже, это очень хороший результат, даже
несмотря на то, что на первом может быть ниже 40%.
3
Начинаем проверку наших последовательностей:
1. Первый проверяемый белок из аннотации, делаем проверку на
сайтах и принимаем решение:
Рисунок 3А
Рисунок 3Б-1
4
Рисунок 3Б-2
Рисунок 3В
Получили 4 рисунка с описанием нашей аминокислотной
последовательности, на первом сайте (рисунок 3А) указаны статьи с белками,
которые также проаннотировали люди, но идентичность не превышает 70%,
да и в списке нет даже Pectobacterium, поэтому точное название скорее всего
5
мы дать не сможем. На втором сайте (рисунок 3Б-1 3Б-2) указано, что это
isochorismatase и принадлежит она роду Pectobacterium, приемлемо. Третий же
сайт (рисунок 3В) тоже подтверждает, что это isochorismatase. Исходя из
полученных данных, я могу назвать его лишь isochorismatase и не могу дать
какого-то определенного названия, которое бы принадлежало именно
определенной бактерии, поэтому оставим это так и продолжим изучать
следующие последовательности.
2. Проверяем вторую аминокислотную последовательность
Рисунок 4А
Рисунок 4Б-1
6
Рисунок 4Б-2
Рисунок 4В
Получили снова 4 результата, в первом результате бластинга (рисунок
4а), мы видим, что достоверность очень низкая, да и нет отношения к
Pectobacterium. Смотрим рисунок 4Б-1-2, там вы уже видим, что наша
7
последовательность точно относится к Pectobacterium, это хорошо, но мы не
умеем названия, но видим, что это за пептид. На рисунке 4В уже видим, как и
на втором сайте этот пептид, но и его название, учитывая, что он совпадает с
данными второго сайта и полностью последовательность совпала на третьем
сайте, дадим название для последовательность entF, меняя название в
SnapGene.
3. Проверяем третью аминокислотную последовательность
Рисунок 5А
Рисунок 5Б-1
8
Рисунок 5Б-2
Рисунок 5В
Смотря на рисунок 5А, у нас имеется очень высокое совпадение с
последовательностью, а именно 95%! Также отметим, что подпадает, что это
наша Pectobacterium carotovorum, ссылаясь на этот сайт мы уже можем дать
название нашей последовательности, но мы проверим и другие сайты. Второй
сайт (рисунок 5б-1-2) подтверждает, что это Pectobacterium carotovorum и
продукт, который синтезируется. Третий же сайт (рисунок 5В) тоже
подтверждает, наш продукт и последовательность, однако больше доверия
9
отходит первому сайту и поэтому мы дадим название в SnapGene, согласно
первому сайту, рисунок 5А и получим название ECA0481
4. Проверяем четвертую аминокислотную последовательность
Рисунок 6А
Рисунок 6Б-1
10
Рисунок 6Б-2
Рисунок 6В
Мы обнаружили, что это за последовательность на рисунке 6А, снова же
имеет очень высокий показатель совпадения, целых 93% и тоже связан с
Pectobacterium, но уже другой вид и также говорится, что это дикая мутация
прошлой последовательности, на это в принципе мы можем сказать, что мы
нашли снова золото, но нужно идти дальше и проверять последовательность
на других сайта, кстати говоря, это последовательность очень похожа на
прошлую, может быть они даже связаны между собой. На рисунке 6Б-1-2 мы
видим, что это какая-то пептид синтаза, которая принадлежит Pectobacterium,
это хорошо. Проверяем на третьем сайте (рисунок 3В), этот сайт тоже
11
подтверждает нашу аминокислотную последовательность, и как из прошлого
сайт и указывает что от так же относится к enterobacterium synthetase
component, но только уже F.
5. Проверяем пятую аминокислотную последовательность
Рисунок 7А
Рисунок 7Б-1
12
Рисунок 7Б-2
Рисунок 7В
Проанализировав все 3 ресурса, хочется плакать, но не время. На первом
рисунке 7А, мы видим, что подходящих вариантов мы вряд ли найдем, ввиду
очень низкого совпадения (ниже даже 50%), поэтому переходим к следующим
рисункам и начнем рассуждать. На рисунках 7Б-1-2, видно, что это какой-то
аминооксид, который слава науке, хотя бы относится к Pectobacterium, но
больше никакой информации мы здесь не найдем, поэтому перейдем к
рисунку 7В и попробуем проработать еще один вариант. Здесь нас ждут два
варианта, однако первый вариант AFD_I, совпадает со вторым ресурсом,
13
конечно не с полной уверенностью, но мы можем дать название согласно
третьему сайту, т. к. уже два сайта нам выдают что это Discription Adenylate,
как и на втором ресурсе.
6. Проверяем шестую аминокислотную последовательность
Рисунок 8А
Рисунок 8Б-1
14
Рисунок 8Б-2
Рисунок 8В
Анализируем нашу последнюю последовательность. На рисунке 8А в
результате бластинга, мы не нашли ничего подходящего для нас, поэтому
будет работать с другими сайтами. Смотря на 8Б-1-2 и 8В, мы видим, что
определило нашу последовательность как TolC семейство белков, в принципе
это нас утраивает и мы меняем название в SnapGene.
15
Рисунок 9 – Проаннотированная последовательность белков в программе SnapGeneViewer после редактирования.
Проверив автоматическую аннотацию, мы получили полностью новые
названия, которые полностью отличаются. Изменив все названия, вероятнее
всего мы получили более правильную аннотацию и как сказано в методичке
можем выдохнуть обнять себя и соседа.
Закончили эту работу и ждем следующую.
16
Приступаем к работе
Занятие 3-4
Итак, в этой работе нам нужно взять одну аминокслотную
последовательность из ранее проаннотированных последовательностей,
скажем так, методом тыка и подброра. Для начала мы берем
последовательность и выбираем для какой есть хорошие последовательности,
с которыми в будущем у нас получится дерево. Анализируя данные, мы будет
использовать dhbF (после проделанной работы выше entF).
Приступаем к работе, для этого создаем файл в виде блокнота и
сохраняем его в формате Fasta. Первой последовательностью у нас будет наша
исходная из программы SnapGene:
Рисунок 10 – Исходная аминокислотная последовательность.
И так, эту последовательность мы копируем и вставляем в блокнот с обозначением >40_entF(dhbF) и
начинаем дальше читать методичку и делать работу.
Рисунок 11 – Требования к созданию файла.
По методичке от нас требуется найти последовательности, которые не
будут относится к определенным группам, это нужно для того, чтобы у нас
получилось красивое дерево. Приступим к поискам:
Группы Pectobacterium у нас есть сразу при первом поиске изначальной
нашей последовательности, мы просто выбираем разные виды бактерий этого
рода и вставляем их в файл, последовательность можно найти, нажав на
крайнюю правую строчку на название последовательности и перейдя во
вкладку Fasta:
17
Рисунок 12 – Поиск аминокислотных последовательностей, подходящих в работе.
Рисунок 13 – Поиск нужных последовательностей в формате Fasta.
Далее мы просто копируем последовательности и вставляем их в наш
блокнот и уже ищем похожие последовательности дальше. Для того чтобы
найти нужные отдельные группы, нам нужно убрать из поиска нашу группу,
из которой мы уже выбрали последовательности, для этого в формате поиска,
нам нужно нажать на exclude и вписать, что мы не хотим видеть и тогда у нас
будет все хорошо и мы будем двигаться быстро и безболезненно:
Рисунок 14 – Вкладка для условий поиска.
Получим в итоге группы, которые уже не похожи на нашу исходную,
которые были все сходи на 99%, а теперь на 90% и менее, из этой группы мы
берем 2-3 как указано, дальше делаем все по аналогии, исходя из требований
выше.
18
Важно!!! Для проверки, правильно ли мы выбрали группу, нам нужно
воспользоваться хотя бы википедией, чтобы не набрать не правильные
варианты, это требуется все ради одного, чтобы получить НОРМАЛЬНОЕ
дерево.
Рисунок 15 – Вторая группа для создания файла.
Рисунок 16 – Третья группа для создания файла.
Проверка наших выбранных аминокислот, это нужно делать до момента
вставления их в наш блокнот, просто для удобства они вынесены все ниже,
чтобы было проще понять, как вы руководствуемся:
Первая группа Группа enterobacteriales:
1. https://en.m.wikipedia.org/wiki/Brenneria;
2. https://en.m.wikipedia.org/wiki/Samsonia.
19
Рисунок 17-18 – Систематика организмов, для внесения их аминокислотных
последовательностей в список.
В этой группе, я допустил ошибку, входе чего, в дереве в место нужного
количества в одной группе, у нас больше оказалось в другой (просьба к
преподавателю понять и простить), поэтому стоит более внимательно
прорабатывать материал. Также представлены ссылки на эти виды, чтобы не
было фальсификации.
Вторая группа Группа Gammaproteobacteria не относящийся к прошлой:
1. https://en.m.wikipedia.org/wiki/Pseudomonas_anguilliseptica;
2. https://en.m.wikipedia.org/wiki/Photobacterium_profundum;
3. https://en.m.wikipedia.org/wiki/Aeromonas_popoffii.
Рисунок 19-21 – Систематика организмов, для внесения их аминокислотных
последовательностей в список.
20
Снова же с горем пополам мы выбрали наши новые группы и добавили
их в блокнот. Продолжаем дальше, стараясь соблюдать условие.
Третья же группа наша аут-группа – Отдельная группа от всех:
1. https://en.m.wikipedia.org/wiki/Oligoflexia.
Рисунок 22 – Систематика организмов, для внесения их аминокислотных
последовательностей в список.
Что ж, самую рутинную работу мы выполнили, теперь остается самая
долгая работа, которая будет требовать долгого времени обработки.
Сохраняем наш файл в нужном формате и приступаем к работе.
Открываем программу Mega11 и там загружаем наш файл, с собранными
аминокислотами. Далее нажимаем на ALLGN и выбираем первую строчку в
итоге вы получим вот такую красивое выравнивание, в котором мы видим, где
различаются последовательности, а в местах, где они одинаковые мы видим *.
Рисунок 23 – Различия нуклеотидов в выбранных аминокислотных
последовательностях.
Как только мы налюбовались нашей прекрасной работе, мы начинаем
делать работу далее. Для этого нам нужно войти во вкладку Data b выбрать
филогенетический анализ (Phylogenetic Analysis).
Рисунок 23 – Филогенетический анализ наших последовательностей.
21
Сверху прописана полностью наша исходная аминокислота, а в местах,
где есть буквы, программа показывает, в каком месте произошли
эволюционные события с заменной нуклеотида. Так же можно заметить, что
чем больше букв в местах вместо прочерков, тем более отдалена группа от
исходной.
Теперь для создания нашего дерева требуется найти наилучшую модель,
которая будет подходить нашему дереву, для этого нам нужно войти во
вкладку Models и запустить Find Best DNA/Proteins Models, сие действие
продлится по полутора часа, и ждем.
Рисунок 24 – Таблица с моделями для построения филогенетического дерева.
Далее после анализа мы видим очень много моделей, но самая нужная
нам это самая первая из списка и наименьшим значением BIC, это значение
будет самым правдоподобным для создания нашего дерева.
Далее для создания дерева мы входим во вкладку PHYLOGENY и там
делаем выбор по нашему набору:
22
Рисунок 25 – Настройки для запуска построения филогенетического дерева.
И вот наше заветное дерево совсем близко от него нас отделяет кнопка «ОК»
и примерно 4 часа времени ожидания… Приступим.
Рисунок 26 – Филогенетическое дерево до вынесения корня.
Что ж, для вас это опустить ниже страницу, а для меня это радостный
момент, что все не накрылось (иногда просто идет загрузка времени, а в итоге
мы получаем ошибку). Мы видим наше дерево, во вкладках слева можно
играть с деревом как угодно, но этот вариант наиболее вменяемей, далее по
23
методички от требуется только одно действие, после которого наш труд можно
назвать успешным.
Последние действие — это перейти во вкладку Subtree и вы брать там
Root Tree и нажать на нашу отдельную группу (аут-группу), деревце наше
немного поменялось, но за то мы видим от куда как говорится корни растут.
Рисунок 27 – Филогенетического дерево после вынесения корня.
В дереве мы видим, если правильно проделана работа и как отличаются
группы и насколько, по поводу достоверности результатов там, где мы видим
более 80-90%, их можем мы назвать достоверными, ветви, имеющие
достоверность 40-70%, мы называем «Сомнительно, но окэээй…». В лекции
еще много способов построения и вида их, но ограничимся «самым
красивым».
На этом работа выполнена, не идеально сделана, но надеюсь для первого
раза неплохо, учитывая, что мы обучаемся и теперь по крайней мере знаем,
как это делать. Довольно интересно, но требует практики и внимательности, а
главное времени.
Спасибо за ваш труд при проверке работы Анастасия Игоревна, надеюсь
вы будете снисходительны к нашим попыткам сделать все хорошо.
24
Download