Что такое биоинформатика?

реклама
Вводная лекция
Курс «Биоинформатика»
ф-т биоинженерии и
биоинформатики МГУ
А.Б.Рахманинова,
3/IX – 2007,
использованы материалы лекции С.А.Спирина, 2006
Что такое биоинформатика?
Не так давно.......
"Эта область, недавно признанная научной дисциплиной, имела
много названий: в Германии и США - парапсихология, во Франции мета-психика, в СССР - биоинформатика"
/Годфруа Ж. Что такое психология? Т.1, 1992/
"...современные целители-сенситивы в основном подразделяются на
две категории: биоэнергетики и биоинформатики. Информатики, ...,
при диагностике не применяют энергию, не тратят ее....... "
/Интернет.../
Что такое биоинформатика?
Совсем не давно.......
Биоинформатика. Биоинформационные и биоэнергоинформационные
технологии ("БЭИТ-2001"): Докл. 4-го Междунар. конгр. Т.1, ч.1. Барнаул: Изд-во АлтГТУ, 2001.
Названия некоторых статей:
"Способ и устройство для усиления интуиции"
"Биолокационный портрет человека"
Из рекламы книги издания 2005г.:
"...основные сведения в области современной биоинформатики науки, изучающей низкоинтенсивные полевые взаимодействия
вещества (преимущественно электромагнитные) на взаимосвязанных
иерархических уровнях - от субклеточного до организменного и
межорганизменного. "
Что такое биоинформатика?
• Исследование информационных процессов в биологических системах
(клетках, органах, организме, популяции)
• Изучение и внедрение в компьютерную науку «биологических»
методов анализа информации (нейросетей, генетических алгоритмов,
нечеткой логики и др.)
• Применение компьютерных методов для решения биологических задач
Биоинформатика = вычислительная
молекулярная биология
Что такое биоинформатика?
Почему так сузился смысл термина?
В конце 1970-х годов был открыт относительно быстрый и дешёвый
метод расшифровки последовательности оснований в ДНК
выделение
Организм
секвенирование
ДНК «в пробирке»
...CGCCATAAATCAC...
Последовательность
gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
Для хранения все возрастающей информации о
последовательностях ДНК в 1982 году был основан GenBank
GenBank — хранилище
последовательностей нуклеиновых
кислот в виде компьютерных файлов.
Genbank growth (base pairs)
90000000000
80000000000
Объем GenBank’а:
1982 – 680 338 букв в 606
последовательностях
70000000000
60000000000
50000000000
Август 2007 –
79 525 559 650 букв в
76 146 236 последовательностях,
40000000000
30000000000
20000000000
только файлы с последовательностями
"весят" 299 Gb
10000000000
2006
2005
2003
2001
2000
1998
1996
1995
1993
1991
1988
1986
1982
0
Банки структурной биологической информации
GenBank, EMBL, DDBJ
Архивные базы
последовательностей
нуклеиновых кислот
TrEMBL
Автоматическая база
предсказаний
последовательностей белков
RefSeq
Автоматическая база
различных
последовательностей НК
SwissProt
Курируемая база
последовательностей белков
Pfam, ProSite, InterPro, ...
Банки семейств белков
PDB
Архивная база пространственных
структур макромолекул
И многие другие...
Задачи биоинформатики
 Создание компьютерных программ для облегчения работы с
биологическими данными. Разработка алгоритмов для анализа
большого объема биологических данных.
– Создание банка данных аминокислотных последовательностей
– Алгоритм поиска генов в геноме
gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
Задачи биоинформатики
 Создание компьютерных программ для облегчения работы с большими
объемами биологических данных.
– Создание банка данных аминокислотных последовательностей
 Анализ и интерпретация данных о нуклеотидных и аминокислотных
последовательностях.
– Алгоритмы сравнения (выравнивания) последовательностей
– Реконструкция филогенетических деревьев
Задачи биоинформатики
 Создание компьютерных программ для облегчения работы с
большими объемами биологических данных.
– Создание банка данных аминокислотных последовательностей
 Анализ и интерпретация данных о нуклеотидных и
аминокислотных последовательностей.
– Алгоритмы сравнения (выравнивания) последовательностей
– Реконструкция филогенетических деревьев
 Анализ и интерпретация данных о структуре молекул белков,
структуре комплексов молекул белков с другими молекулами.
– Изучение структуры активного центра белка
Основные объекты современной
биоинформатики
• Последовательности нуклеиновых
кислот
• Последовательности белков
• Пространственные структуры
макромолекул (белков, ДНК и РНК) и
их комплексов (друг с другом и с
малыми молекулами)
Методы работы
• Доступ к банкам через Интернет
• Использование специальных программ
on-line (через web-интерфейс)
• Использование стандартных (e.g. Excel) и
специальных программ на сервере
института или на персональном
компьютере
• Создание собственных скриптов
(«сценариев») и программ
Биоинформатика
и её связи с другими дисциплинами
Информатика
(в том числе теория алгоритмов)
Теория вероятностей
и математическая статистика
Биоинформатика
(компьютерная молекулярная биология)
Молекулярная биология
Две составных части
биоинформатики как учебного
предмета:
Практическая биоинформатика: что надо
знать о компьютерных методах биологуэкспериментатору
Профессиональная подготовка
компьютерных биологов
(последние могут быть как исследователями
накопленного экспериментального материала,
так и разработчиками алгоритмов)
Структура курса
Семестр
Информатика
Биоинформатика
I
Компьютерная
грамотность
—
II
—
Последовательности
белков
III
—
Последовательности
нукл. кислот
IV
Программирование
Эволюция нукл.
кислот и белков
V
Теория алгоритмов +
программирование
Трёхмерные
структуры
VI
—
Алгоритмы
биоинформатики
VII
—
Геномика
Курсовые проекты
 3 проекта — (II-III, IV-V, VI-VII семестры)
 Курсовой проект не обязательно
биоинформатический
 Темы проектов будут объявлены в декабре
 Куратор проектов – А.В.Алексеевский
Поговорите со студентами
старших курсов,
с теми, кто уже защищал
свои проекты :)
Дополнительно
 учебный сайт:
http://kodomo.fbb.msu.ru/FBB
 есть научный семинар для студентов,
следите за объявлениями...
Внимание!
Вам необходимо к следующему занятию получить учётную запись для
работы в домене компьютерного класса.
Для этого придумайте себе пользовательское имя (например, «tanya_s»
или «greatlion89») и пароль.
Требования к имени:
только строчные латинские буквы, цифры, знак подчеркивания, точка и
дефис. Первым символом должна быть буква.
Требования к паролю:
1) без русских букв (иначе будут проблемы, связанные с кодировками!);
2) не короче 8 символов;
3) не должен содержать в себе пользовательское имя или его заметную
часть;
4) не должен являться английским словом;
5) желательно включать хотя бы одну цифру и хотя бы одну букву.
Чем будем заниматься в этом
семестре
• Выравнивать уровень владения компьютером
• Приобретать необходимый минимум навыков
работы с наиболее употребительными
программами (Far, MS-Excel, MS-Word)
• Привыкать к биологическим объектам
(последовательностям и 3D-структурам
белков), выполняя простейшие работы с ними
• Приобретать необходимый минимум навыков
работы в Интернете
Структура первого семестра
Блок 1
Блок 2
Блок 3
Темы
Число
занятий
Форма
отчета
Дата предъявления
отчета
FAR Manager
1
Миниконтрольная
на занятии №3
17.09
Internet
2
—
HTML
2
Отчет в формате HTML
до 10.10
Excel
4
Миниконтрольная
Отчет в формате *.xls
29.10
до 7.11
ChemSketch
1
—
5
1.Контрольное занятие по
RasMol
2. Отчет в формате HTML
RasMol
3.12
до 17.12
24 декабря— получение зачета
Официальный зачёт по итогам семестра проставляется
«автоматом» при наличии зачётов по всем блокам.
Ведётся рейтинг студентов (неофициальный, но кое-где будет
учитываться...)
Внимание!
Большую часть работы придётся выполнять
самостоятельно!
Тем не менее рекомендуется делать возможно
больше на занятиях — чтобы иметь
возможность спрашивать преподавателей в
случае затруднений.
Не стесняйтесь спрашивать! Мы здесь для
того, чтобы вам помогать.
Из чего состоит персональный
компьютер
•
•
•
•
Системный блок
Монитор
Клавиатура
Мышь
Главные функциональные
детали компьютера
•
•
•
•
•
•
•
Блок питания
Материнская плата
Процессор
Оперативная память
Жёсткий диск
BIOS
Адаптеры внешних устройств




C
D
HDD
AGP
(видеокарта)
BIOS
Super
I/O
South
bridge
North
bridge
(ROM,ПЗУ)
CPU
(процессор)
Сетевая карта
CMOS
(ОЗУ)
USB
RAM
(ОЗУ)
Работа компьютера состоит в выполнении
(последовательном или одновременном) различных
компьютерных программ (по-английски software, в
отличие от hardware — «материальный состав»
компьютера).
На жаргоне компьютерщиков программы называются «софт»,
а материальный состав — «железо».
Те программы, которые выполняют какую-то нужную для
человека работу (то есть ту работу, для которой, собственно,
и предназначен компьютер), называются обычно
«приложения»
Для успешной работы компьютера необходим ряд
системных программ, в том числе операционная система.
Операционная система (ОС) — программа,
управляющая запуском приложений и позволяющая
человеку («пользователю») общаться с компьютером
Мы будем иметь дело с двумя различными операционными системами:
• Windows XP (семейство Microsoft Windows)
• Linux (семейство UNIX)
Первое время — в основном с Windows.
Скачать