Вводная лекция Курс «Биоинформатика» ф-т биоинженерии и биоинформатики МГУ А.Б.Рахманинова, 3/IX – 2007, использованы материалы лекции С.А.Спирина, 2006 Что такое биоинформатика? Не так давно....... "Эта область, недавно признанная научной дисциплиной, имела много названий: в Германии и США - парапсихология, во Франции мета-психика, в СССР - биоинформатика" /Годфруа Ж. Что такое психология? Т.1, 1992/ "...современные целители-сенситивы в основном подразделяются на две категории: биоэнергетики и биоинформатики. Информатики, ..., при диагностике не применяют энергию, не тратят ее....... " /Интернет.../ Что такое биоинформатика? Совсем не давно....... Биоинформатика. Биоинформационные и биоэнергоинформационные технологии ("БЭИТ-2001"): Докл. 4-го Междунар. конгр. Т.1, ч.1. Барнаул: Изд-во АлтГТУ, 2001. Названия некоторых статей: "Способ и устройство для усиления интуиции" "Биолокационный портрет человека" Из рекламы книги издания 2005г.: "...основные сведения в области современной биоинформатики науки, изучающей низкоинтенсивные полевые взаимодействия вещества (преимущественно электромагнитные) на взаимосвязанных иерархических уровнях - от субклеточного до организменного и межорганизменного. " Что такое биоинформатика? • Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции) • Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.) • Применение компьютерных методов для решения биологических задач Биоинформатика = вычислительная молекулярная биология Что такое биоинформатика? Почему так сузился смысл термина? В конце 1970-х годов был открыт относительно быстрый и дешёвый метод расшифровки последовательности оснований в ДНК выделение Организм секвенирование ДНК «в пробирке» ...CGCCATAAATCAC... Последовательность gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa Для хранения все возрастающей информации о последовательностях ДНК в 1982 году был основан GenBank GenBank — хранилище последовательностей нуклеиновых кислот в виде компьютерных файлов. Genbank growth (base pairs) 90000000000 80000000000 Объем GenBank’а: 1982 – 680 338 букв в 606 последовательностях 70000000000 60000000000 50000000000 Август 2007 – 79 525 559 650 букв в 76 146 236 последовательностях, 40000000000 30000000000 20000000000 только файлы с последовательностями "весят" 299 Gb 10000000000 2006 2005 2003 2001 2000 1998 1996 1995 1993 1991 1988 1986 1982 0 Банки структурной биологической информации GenBank, EMBL, DDBJ Архивные базы последовательностей нуклеиновых кислот TrEMBL Автоматическая база предсказаний последовательностей белков RefSeq Автоматическая база различных последовательностей НК SwissProt Курируемая база последовательностей белков Pfam, ProSite, InterPro, ... Банки семейств белков PDB Архивная база пространственных структур макромолекул И многие другие... Задачи биоинформатики Создание компьютерных программ для облегчения работы с биологическими данными. Разработка алгоритмов для анализа большого объема биологических данных. – Создание банка данных аминокислотных последовательностей – Алгоритм поиска генов в геноме gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa Задачи биоинформатики Создание компьютерных программ для облегчения работы с большими объемами биологических данных. – Создание банка данных аминокислотных последовательностей Анализ и интерпретация данных о нуклеотидных и аминокислотных последовательностях. – Алгоритмы сравнения (выравнивания) последовательностей – Реконструкция филогенетических деревьев Задачи биоинформатики Создание компьютерных программ для облегчения работы с большими объемами биологических данных. – Создание банка данных аминокислотных последовательностей Анализ и интерпретация данных о нуклеотидных и аминокислотных последовательностей. – Алгоритмы сравнения (выравнивания) последовательностей – Реконструкция филогенетических деревьев Анализ и интерпретация данных о структуре молекул белков, структуре комплексов молекул белков с другими молекулами. – Изучение структуры активного центра белка Основные объекты современной биоинформатики • Последовательности нуклеиновых кислот • Последовательности белков • Пространственные структуры макромолекул (белков, ДНК и РНК) и их комплексов (друг с другом и с малыми молекулами) Методы работы • Доступ к банкам через Интернет • Использование специальных программ on-line (через web-интерфейс) • Использование стандартных (e.g. Excel) и специальных программ на сервере института или на персональном компьютере • Создание собственных скриптов («сценариев») и программ Биоинформатика и её связи с другими дисциплинами Информатика (в том числе теория алгоритмов) Теория вероятностей и математическая статистика Биоинформатика (компьютерная молекулярная биология) Молекулярная биология Две составных части биоинформатики как учебного предмета: Практическая биоинформатика: что надо знать о компьютерных методах биологуэкспериментатору Профессиональная подготовка компьютерных биологов (последние могут быть как исследователями накопленного экспериментального материала, так и разработчиками алгоритмов) Структура курса Семестр Информатика Биоинформатика I Компьютерная грамотность — II — Последовательности белков III — Последовательности нукл. кислот IV Программирование Эволюция нукл. кислот и белков V Теория алгоритмов + программирование Трёхмерные структуры VI — Алгоритмы биоинформатики VII — Геномика Курсовые проекты 3 проекта — (II-III, IV-V, VI-VII семестры) Курсовой проект не обязательно биоинформатический Темы проектов будут объявлены в декабре Куратор проектов – А.В.Алексеевский Поговорите со студентами старших курсов, с теми, кто уже защищал свои проекты :) Дополнительно учебный сайт: http://kodomo.fbb.msu.ru/FBB есть научный семинар для студентов, следите за объявлениями... Внимание! Вам необходимо к следующему занятию получить учётную запись для работы в домене компьютерного класса. Для этого придумайте себе пользовательское имя (например, «tanya_s» или «greatlion89») и пароль. Требования к имени: только строчные латинские буквы, цифры, знак подчеркивания, точка и дефис. Первым символом должна быть буква. Требования к паролю: 1) без русских букв (иначе будут проблемы, связанные с кодировками!); 2) не короче 8 символов; 3) не должен содержать в себе пользовательское имя или его заметную часть; 4) не должен являться английским словом; 5) желательно включать хотя бы одну цифру и хотя бы одну букву. Чем будем заниматься в этом семестре • Выравнивать уровень владения компьютером • Приобретать необходимый минимум навыков работы с наиболее употребительными программами (Far, MS-Excel, MS-Word) • Привыкать к биологическим объектам (последовательностям и 3D-структурам белков), выполняя простейшие работы с ними • Приобретать необходимый минимум навыков работы в Интернете Структура первого семестра Блок 1 Блок 2 Блок 3 Темы Число занятий Форма отчета Дата предъявления отчета FAR Manager 1 Миниконтрольная на занятии №3 17.09 Internet 2 — HTML 2 Отчет в формате HTML до 10.10 Excel 4 Миниконтрольная Отчет в формате *.xls 29.10 до 7.11 ChemSketch 1 — 5 1.Контрольное занятие по RasMol 2. Отчет в формате HTML RasMol 3.12 до 17.12 24 декабря— получение зачета Официальный зачёт по итогам семестра проставляется «автоматом» при наличии зачётов по всем блокам. Ведётся рейтинг студентов (неофициальный, но кое-где будет учитываться...) Внимание! Большую часть работы придётся выполнять самостоятельно! Тем не менее рекомендуется делать возможно больше на занятиях — чтобы иметь возможность спрашивать преподавателей в случае затруднений. Не стесняйтесь спрашивать! Мы здесь для того, чтобы вам помогать. Из чего состоит персональный компьютер • • • • Системный блок Монитор Клавиатура Мышь Главные функциональные детали компьютера • • • • • • • Блок питания Материнская плата Процессор Оперативная память Жёсткий диск BIOS Адаптеры внешних устройств C D HDD AGP (видеокарта) BIOS Super I/O South bridge North bridge (ROM,ПЗУ) CPU (процессор) Сетевая карта CMOS (ОЗУ) USB RAM (ОЗУ) Работа компьютера состоит в выполнении (последовательном или одновременном) различных компьютерных программ (по-английски software, в отличие от hardware — «материальный состав» компьютера). На жаргоне компьютерщиков программы называются «софт», а материальный состав — «железо». Те программы, которые выполняют какую-то нужную для человека работу (то есть ту работу, для которой, собственно, и предназначен компьютер), называются обычно «приложения» Для успешной работы компьютера необходим ряд системных программ, в том числе операционная система. Операционная система (ОС) — программа, управляющая запуском приложений и позволяющая человеку («пользователю») общаться с компьютером Мы будем иметь дело с двумя различными операционными системами: • Windows XP (семейство Microsoft Windows) • Linux (семейство UNIX) Первое время — в основном с Windows.