Лекция 1. Введение - Институт общей генетики

advertisement
Биостатистика
1. Вводная лекция
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН
Самая смешная наука




http://www.xs4all.nl/~jcdverha/scijokes/1_2.html#subindex
http://my.ilstu.edu/~gcramsey/Gallery.html
http://davidmlane.com/hyperstat/humor.html
http://www.gdargaud.net/Humor/QuotesScience.html#Statistics
 «There are three kinds of lies: lies, damned lies, and statistics».
Б. Дизраэли (1804-81)
 The average human has about one breast and one testicle
 33.3% студенток Гарварда выходят замуж за профессоров
(из 3 одна вышла замуж за профессора)
 «If experimentation is the queen of the sciences, surely statistical methods must
be regarded as the guardian of the royal virtue». М. Tribus
 «Statistics - servant of all science».
Jerzy Neyman. Science, 1955, Vol. 122, 3166, p. 401-406.
Прислуге всегда достается
Ресурсы: оnline-учебники (free!)
 A New View of Statistics, by Will G. Hopkins,
http://sportsci.org/resource/stats/
 NIST/SEMATECH e-Handbook of Statistical Methods
http://www.itl.nist.gov/div898/handbook/
 http://www.itl.nist.gov/div898/handbook/toolaids/pff/index.htm
 Online Statistics: An Interactive Multimedia Course of Study
by David Lane, Joan Lu, Camille Peres, Emily Zitek, et al.
http://onlinestatbook.com/index.html
 The Little Handbook of Statistical Practice, by Gerard E. Dallal,
http://www.jerrydallal.com/LHSP/LHSP.HTM
 StatSoft Electronic Textbook
http://www.statsoft.com/textbook/
 HyperStat Online Statistics Textbook
http://davidmlane.com/hyperstat/index.html
Сайт «Биометрика» - автор и многолетний редактор
В. П. Леонов: http://www.biometrica.tomsk.ru/
Ресурсы: свободно-распространяемые программы
http://en.wikipedia.org/wiki/List_of_statistical_packages
Abramson,J.H. WINPEPI updated: computer programs for
epidemiologists, and their teaching potential.
Epidemiologic Perspectives & Innovations 2011, 8:1
Ресурсы: книги (можно скачать с моего компьютера)
8 томов,
1300 статей,
6300 страниц
816 стр., около 400
методов
Букварь по биостатистике
S. Glantz,
Primer of Biostatistics
6 edition, McGraw-Hill,
2005, 500 pp.
Русский перевод доктора физ.-мат. наук
Ю. А. Данилова
Доступен в Интернете! Можно скачать у меня.
Два авторитетных противоположных
мнения
Если для Вашего эксперимента
требуется статистика, то Вы
должны переделать его более
тщательно
(Эрнест Резерфорд)
Те, кто игнорируют статистику,
обречены изобрести ее заново
(Бредли Эфрон).
Изобретаем статистику:
Мы с вами играем в «орлянку».
Я ставлю на «орла», и бросаю раз, два, три …
- все время выпадает «орел»!
Вопрос: сколько вы будете это терпеть?
С какого раза Вы заподозрите, что я мошенник?
Выпишем вероятности:
1 «орел» в 1 бросании:
2 «орла» в 2 бросаниях:
………………………
1
2
Астрагалы, V тыс. лет до н.э.
2
1
   0.25
2
4
4 «орла» в 4 бросаниях:
1
   0.0625
2
5 «орлов» в 5 бросаниях:
1
   0.03125
2
5
Со времен астрагалов!
Бросок Венеры – 5%
События с вероятностью менее
5% принято считать
«маловероятным».
Биологи обычно используют 5%-й уровень значимости
Статистика отвечает на вопрос :
случайно ли то, что мы наблюдаем?
Например: 2 «орла» в 10 бросаниях монеты – такое бывает?
Подобные вероятности описывает «биномиальное распределение»
N k
P( X  k )    p (1  p) N  k ,
k 
Моя задача
- убедить
в том, что это
просто
которое
является частным
случаемвас
«гипергеометрического
распределения»
 m  N  m 
 

k  n  k 

P( X  k ) 
N
 
n 
Правда, страшно!
Исчисление комбинаций
 Перестановки
Сколькими способами можно расставить 3 предмета?
1-й предмет можно выбрать 3 способами
2-й предмет можно выбрать 2 способами
3-й предмет можно выбрать 1 способом
Итого = 321=3!=6
6 способов
Число перестановок из n предметов = n (n-1) (n-2)….  21=n!
 Размещения
Набираем в Excel:
=ФАКТР(6)
Сколькими способами можно выбрать 3 предмета из 10?
Например, число победителей из 10 спортсменов (т.е. с учетом места – 1, 2, 3)
1-го спортсмена можно выбрать 10 способами
2-го спортсмена можно выбрать 9 способами Итого 1098=720 способов
3-го спортсмена можно выбрать 8 способами
Число способов выбрать k из n предметов = n (n-1) (n-2)….(n-k+1)
Исчисление комбинаций
 Перестановки
Число перестановок из n предметов = n (n-1) (n-2)….  21=n!
 Размещения
Число способов выбрать k из n предметов = n (n-1) (n-2)….(n-k+1)
(с учетом места - 1-ый, 2-ый и т.д.)
 Сочетания
Сколькими способами можно отобрать 3 предмета из 10 без учета места?
(без учета 1-ый, 2-ый 3-ий)
Число способов выбрать 3 предмета
Число перестановок из 3 предметов
10  9  8

 120
1 2  3
 n  n(n  1)...( n  k  1)
n!
Число сочетаний «из n по k» =   

k!
k!(n  k )!
k 
=ЧИСЛКОМБ(10; 3)
Упражняемся…
 У меня в библиотеке 100 книг.
Сколькими способами я могу выбрать самую любимую и самую нелюбимую
книгу? Сколькими способами я могу взять 2 книги с собой в поездку?
Любимая и нелюбимая: 10099=9900 способов
2 с собой:
100  100  99
 
 4950способов
1 2
2 
 Из 10 друзей я могу пригласить в поездку только 2. Сколько вариантов?
10  10  9
  
 45 вариантов
 2  1 2
 2 «орла» в 10 бросаниях монеты – сколько возможно последовательностей?
Сколько существует различных последовательностей из 2 «орлов» и 8 «решек»?
10  10  9
Из 10 мест выбираем 2:   
 45 вариантов
 2  1 2
 У меня в гостинице сейф с кодом из 4 цифр. Я забыл введенный шифр.
Сколько комбинаций цифр (0, 1, 2, …, 9) я должен перебрать, чтобы открыть
сейф?
10101010=104 комбинаций
 Сколько можно написать стихотворений? Бесконечно много?
3040010600
Статистика отвечает на вопрос :
случайно ли то, что мы наблюдаем?
Например: 2 «орла» в 10 бросаниях монеты – такое бывает?
2
8
Теперь мы можем посчитать
45
1 1
вероятность «2 орла в 10 бросаниях» = 45      
 0.044
2 2
1024
Вроде маловероятно, менее 5%.
Но….что-то здесь не так! Раскладов много, и они все маловероятны
Например, если бросить монету 100 раз, сколько будет «орлов»? 50?
Давайте посчитаем
100  99  98...52  51  1   1 
100!
= 0,0796
    
2 100
50!
(50!) 2
2 2
50
50
Всего лишь 8% !!!
Набираем в Excel:
=(0,5)^100*ФАКТР(100)/(ФАКТР(50))^2
Вероятность 50или
из 100
Но вероятность 4060 из 100 равна 95%.
ещемала.
проще
=ЧИСЛКОМБ(100;50)/2^100
Мораль:
для проверки случайности надо оценивать вероятность
наблюдаемого расклада и еще более «крутых» аномалий!
Статистика отвечает на вопрос :
случайно ли то, что мы наблюдаем?
Например: 2 «орла» в 10 бросаниях монеты – такое бывает?
Вычисляем суммарную вероятность «2 орла в 10 бросаниях» и еще
более «крутых» аномалий:
10
2 орла в 10 бросаниях:
1 орел в 10 бросаниях:
0 орлов в 10 бросаниях:
=БИНОМРАСП(2;10;0,5;2)
45
1
45    
 0.044
1024
2
10
5
1
10    
 0.0096
512
2
10
1
1
 
 0.0001
  
1024
2
Итого:  0.055 > 0.05
По принятым нормам «2 орла в 10 бросаниях» не является
значимым указанием на жульничество!
Реальный пример: ассоциативные исследования
полиморфизма гена CCR5 у ВИЧ-инфицированных
Хемокиновый рецептор
CCR5 (ко-рецептор к
Мутация
CCR5-32
рецептору
CD4) : делеция 32 п.н. (Хр. 2),
обнаружена у здоровых лиц, практикующих
незащищенный
Поверхность секс с ВИЧ-инфицированными
(N. Samson et. al., Nature, 1996)
Т-лимфоцита
/ : сильная защита от заражения ВИЧ и оспой
w/ : задержка развития СПИДа (на  2 года)
Частота встречаемости
делеции CCR5-32
Северная Европа 14-17%
4-8%
Южная Европа
Африка, Азия
0%
10-25% европейцев гетерозиготны по делеции 32.
Обеспечена ли им хотя бы частичная
защита от ВИЧ-инфицирования?
Частота гетерозигот CCR5-delta 32
Частота гетерозигот по CCR5-32 среди защищенных
от ВИЧ-инфицирования (по данным 18 авторов)
30%
Только в 3 выборках из 18 частота
гетерозигот w/ у ВИЧ+ выше, чем у ВИЧ20%
10%
0%
«Монета» значимо несимметрична!
Гетерозиготы w/ чаще встречаются среди ВИЧ-
ВИЧ+
ВИЧ-
Если ассоциации нет, то случаи «больше-меньше» должны появляться с вероятностью ½
Вероятность выпадения 3 (и менее) орлов в 18 бросаниях монеты равна
18
18
18
18
18  1  18  1  18  1  18  1 
p                 =БИНОМРАСП(3;18;0,5;2)
0.0038
 3  2   2  2  1  2   0  2 
Мы познакомились с биномиальным
распределением Бернулли
Пусть вероятность события равна р. Тогда в N испытаниях это
событие произойдет k раз с вероятностью
Примеры:
N k
P(k )    p (1  p) N  k
k 
 Популяционная частота мутаций равна 10%. Вылавливаем 10 особей.
Какова вероятность обнаружить 1 мутанта?
10  1
P(1)   0.1 (1  0.1)9  10  0.1 0.99  0.387
1 
 Какова вероятность обнаружить хотя бы 1 мутанта?
P( 1)  P(1)  P(2)  ...  P(10)  1  P(0)  1  0.910  0.651
Выборка объемом 1/p, где р – частота мутаций, обеспечивает поимку мутанта
только на 65%!
 Шевалье де Мере (1601-1665) всегда ставил на «хотя бы одна 6-ка на 4
кубиках». Почему он выигрывал?
Вероятность проиграть (5/6)4 0.48
Опыты по выявлению людей с
паранормальными способностями:
Joseph Rhine (1950)
Вывод Д. Райна:
1000 человек угадывали
последовательность
из 10сообщать
карт: красная
или черная?
«нельзя
подопытным
людям
об их паранормальных способностях»
12 человек угадали 9 из 10 карт, двое все 10 карт
Все выявленные «экстрасенсы» в последующих опытах не
подтвердили свои способности
Что произошло?
1- Р(100 раз не найти)
Шансы найти «экстрасенса»
среди 100 человек =
Шансы найти «экстрасенса»
среди 1000 человек =
Теория вероятностей построена на костях
(к счастью, игральных!)
Статистика возникла из праздных игр английских аристократов:
Сэр Рональд Фишер. Задача о леди, пробующей чай (1922).
Мнение леди
Налито
Чай + молоко
Молоко + чай
Чай + молоко
5
2
Молоко +Чай
3
6
Можно ли считать, что леди способна определить способ приготовления чая?
D. Sasburg. The Lady Tasting Tea: How Statistics Revolutionized
Science in the Twentieth Century (2001)
Включаем:
 Р=0.347 !!!
Точный тест Фишера для таблиц 2х2
 Цитогенетический мониторинг
Число
клеток с
аберрациями
Контроль
Опыт
n0
n1
Число
клеток без
аберраций
Частота
N0- n0
n0
p0 
N0
N1-n1
p1 
n1
N1
 Ассоциативные генетические исследования
Число
больных
Носители
мутации
Нормальный
генотип
n0
n1
Число
здоровых
Частота
N0- n0
n0
p0 
N0
N1-n1
p1 
n1
N1
Точный тест Фишера для таблиц 2х2
 Цитогенетический мониторинг
Число
клеток с
аберрациями
Контроль
Опыт
n0
n1
 n0
Вычисляется вероятность P
n
 1
Число
клеток без
аберраций
Частота
N0- n0
n0
p0 
N0
N1-n1
p1 
N 0  n0 

N1  n1 
n1
N1
 N 0  N1 



n0  n1p = p

при
условии
0
1

 N 0  N1 


 n0  n1 
Если выборки велики и равны (N0=N1>100), то эта вероятность равна
 n0
P
 n1
N 0  n0   n0  n1  1  n0  n1
 
  
N1  n1   n0  2 
т.е. вероятность выпадения n0 орлов в (n0+n1) бросаниях монеты. Почему?
Точный тест Фишера с помощью монеты
Контроль:
1 дицентрик на 1000 клеток
против
Облучение:
9 дицентриков на 1000 клеток
Если различий нет, или
то эти 10 мутаций должны
распределиться случайно между опытом и контролем
Control:
1 мутация на 100 здоровых
против
Case:
9 мутаций на 100 больных
Если объемы выборок равны и велики, то
…и неразличий
зависит от
самих только
объемов
значимость
зависит
отвыборок!!!
числа событий
(напр., числа мутаций в выборках)
Значимость различий 9 против 1 равна вероятности выпадения
9 или 10 «орлов» в 10 бросаниях монеты
Дурацкий вопрос: что больше нуля?
Или сколько событий в опыте значимо превышают
отсутствие событий в контроле?
Выпишем вероятности:
1 против 0:
2 против 0:
………………………
n n
n
n
 n0  n1  1  0 1  n1  1  1  1  1

 
      
2
 0  2 
 n0  2 
1
2
2
1
   0.25
2
4
4 против 0:
1
   0.0625
2
5 против 0:
1
   0.03125
2
5
5 значимо больше 0
Упражняемся…
 При -облучении лимфоцитов крови in vitro обнаружили 3 клетки с
дицентриками на 500 просмотренных метафаз. В контроле дицентриков не было.
Можно ли считать частоту дицентриков повышенной?
3 против 0: вероятность 3 орлов в 3 бросаниях
3
1
   0.125
2
???
Exact tests: Fisher's P
One-tailed: P = 0.125
Two-tailed: P = 0.249
 Каждый 2-ой из нас гомозиготен по делеции ( 48 кб) гена GSTM1
(детоксикация ксенобиотков). В азиатских популяциях частота этого генотипа
обычно выше, чем в европейских.
Например: Москва - 98 из 220, Алма-Ата - 99 из 180.
Значимы ли различия частот?
Здесь фокусы с орлами
не проходят! Поэтому…
Москва
Алма-Ата
GSTM1 del/del
98
122
GSTM1 +
99
81
Exact Fisher's P two-tailed: P = 0.044
Одностронние и двусторонние тесты
 При -облучении лимфоцитов крови in vitro обнаружили 3 клетки с
дицентриками на 500 просмотренных метафаз. В контроле дицентриков не было.
Можно ли считать частоту дицентриков повышенной?
3 против 0: вероятность 3 орлов в 3 бросаниях
Exact tests: Fisher's P
One-tailed: P = 0.125
Two-tailed: P = 0.249
3
1
   0.125
2
 Каждый 2-ой из нас гомозиготен по делеции ( 48 кб) гена GSTM1
(детоксикация ксенобиотков). В азиатских популяциях частота этого генотипа
обычно выше, чем в европейских.
Например: Москва - 98 из 220, Алма-Ата - 99 из 180.
Значимы ли различия частот?
Здесь фокусы с орлами
не проходят! Поэтому…
Москва
Алма-Ата
GSTM1 del/del
98
122
GSTM1 +
99
81
Exact Fisher's P two-tailed: P = 0.044
Одностронние и двусторонние тесты
One-tailed vs. Two-tailed
Контроль:
1 дицентрик на 1000 клеток
против
Облучение:
9 дицентриков на 1000 клеток
Значимость различий 9 против 1 равна вероятности выпадения
9 или 10 «орлов» в 10 бросаниях монеты
(one-tailed)
В симметричном случае P2-tailed= 2P1-tailed
… плюс значимость различий 1 (облучение) против 9 (контроль),
Двусторонний
тест ввсегда
предпочтительней!
т.е. 0 или 1 «орел»
10 бросаниях
монеты
(two-tailed)
Дурацкий вопрос: что больше нуля?
Или сколько событий в опыте значимо превышают
отсутствие событий в контроле?
Выпишем вероятности:
1 против 0:
2 против 0:
………………………
n n
n
n
 n0  n1  1  0 1  n1  1  1  1  1

 
      
2
 0  2 
 n0  2 
1
2
2
1
   0.25
2
4
4 против 0:
5 против 0:
6 против 0:
1
   0.0625
2
5
1
   0.03125
2
6
1
   0.015625
2
One-tailed
Two-tailed
Сравнение частот при равных объемах выборок в
опыте и контроле и уровне значимости 5%
Число
событий в
контроле
1-сторонний
тест
2-сторонний
тест
0
5
6
1
7
8
2
9
10
Односторонний тест
3
10
12
Двусторонний тест
4
12
13
5
13
15
6
15
17
7
16
18
8
18
20
9
19
21
10
20
23
Число событий в опыте
25
20
15
10
5
0
0
1
2
3
4
5
6
Минимальное число
событий в опыте при
значимом отличии от
контроля
7
8
9
Число событий в контроле
Будьте бдительны!
0 значимо отличается только от 6
10
На сегодня это все
Еще раз напомню:
 Есть смысл запомнить правила подсчета числа комбинаций
(перестановки, размещения, сочетания)
 Биномиальное распределение вероятностей – это наше все.
Постарайтесь его прочувствовать!
 Сравнивать частоты событий лучше всего с помощью точного
теста Фишера
 Односторонние тесты можно использовать лишь в исключительных случаях
 При равных объемах выборок 0 значимо отличается только от 6
Download