Лекция 5. Анализ зависимостей

advertisement
Биостатистика
5. Анализ зависимостей
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН
Чем мы занимались на предыдущем занятии?
 В основном методами сравнения дискретных распределений,
например теоретического с экспериментальным
 Мы припомнили, что такое критерий «хи-квадрат» и для каких
целей его можно использовать
 Таковых мы определили три:
- проверка согласования данных с ожидаемым распределением
- проверка независимости 2 признаков
- проверка однородности совокупности выборок
 Пора перейти к рассмотрению характеристик степени
сопряженности признаков
Регрессионный анализ
Вернемся к количественным признакам и для нашего учебного файла построим
зависимость веса от роста
140
Среднее
Вес
120
182
112
76
100
155
81
…
…
60
179
86
40
155
76
20
Вес
Рост
80
100
120
140
160 155180
Рост
200
Ясно, что существует тенденция: чем больше рост, тем больше вес человека.
Можно попытаться выразить эту зависимость линейным уравнением:
y = a + bx ,
где в x – рост, y – вес человека.
Вопрос в том, как провести эту прямую. Ясно, что д. б.
y  a  bx
Но каков наклон?
Регрессионный анализ
Строгий ответ но этот вопрос дает
Метод наименьших квадратов Гаусса
x
y
x1
y1
x2
y2
…
…
xn
yn
xy 
n
2
(
a

bx

y
)
 min

i
i
i 1
b
 xi yi
n
xy  x  y
 
2
x

a  y  bx
2
x
2
(
x

x
)
 i
x

x
i
n
n
Запоминать не нужно, но постарайтесь прочувствовать: если x и y не связаны, то
xy   pxy xy   px p y xy  px x p y y  x  y
x, y
x, y
Если x и y независимы, то
x
xy  x  y,
y
откуда b = 0
Уравнение линейной регрессии
Наклон линейной регрессии b = 0.505
=НАКЛОН(массив y; массив x)
Свободный член a = -2.90
=ОТРЕЗОК(массив y; массив x)
140
120
Теперь мы можем нарисовать:
Вес
100
80
60
40
20
0
100
120
140
160
180
Рост
В статье указываем: Вес = -2,9 + 0,5 Рост
Уравнение регрессии можно использовать для прогнозов:
При росте 220 прогноз веса = -2,9 + 0,5  220 = 107.1
200
Уравнение линейной регрессии
Построение средствами
Excel
Строим график «Мастером диаграмм»,
Мастер диаграмм / Точечная / Ряды
а затем добавляем линию тренда:
Диаграмма / Линия тренда
140
120
Вес
100
y = 0,5054x - 2,9011
R2 = 0,3566
80
60
40
20
0
100
120
140
160
Рост
180
200
Уравнение линейной регрессии
Ошибки коэффициентов уравнения
WinStat / Stattistics / Regression / Multiple
Multiple Regression
X-variables: Рост
Y-Variable: Вес
Equation
95%
Coefficie
nt
Conf. (±) Std.Error
a
b
Constant
Рост
T
P
-2,90113 21,41167 10,78789 -0,268925 0,788559
0,505426 0,13682 0,068934 7,332006 6,85E-11
Значим только
наклон b
Обобщения
Регрессия может быть:
 многомерной:
y = a + b1x1 + b2x2
WinStat / Stattistics / Regression / Multiple
 нелинейной:
y = a + b1x+ b2x2
WinStat / Stattistics / Regression / Polynomial
Корреляционный анализ
Коэффициент корреляции – самый удобный и популярный
показатель сопряженности количественных признаков
r
Свойства:
 -1 ≤ r ≤ 1
xy  x  y
 x y
x
b
y
Карл Пирсон
 r = 0 при отсутствии линейной связи между признаками
 r = 1 при линейной положительной связи между признаками
 r = -1 при линейной отрицательной связи между признаками
 r2 - доля изменчивости признака y, которая определяется
признаком x (коэффициент детерминации)
Корреляционный анализ
r=1
r = -1
r = 0.8
r = -0.8
r=0
Упражняемся …
 Чему равна корреляция оценок по физике и физкультуре
Физика
Физку
льтура
Физика
Физку
льтура
Физика
Физку
льтура
4
4
3
4
4
5
3
3
2
3
3
5
5
5
4
5
5
5
4
4
3
4
4
5
r=1, a=0, b=1
r=1, a=1, b=1
r=0, a=5, b=0
 Для файла «Примеры» посчитаем корреляцию между весом
и ростом
0.6 =КОРРЕЛ(массив 1; массив 2)
Корреляционный матрица
Bird-view обзор взаимосвязей между признаками
WinStat / Stattistics / Correlations / Pearson
Возраст
Вес
Рост
Болезнь
АберХр
GSTP
1
99
0
0,081031343
99
0,212631308
0,102742805
99
0,155774789
0,411338313
99
1,1706E-05
-0,039707473
99
0,348186691
0,129775505
99
0,100224658
Correlation coefficient
valid cases
one-sided significance
0,081031343
99
0,212631308
1
99
0
0,597148266
99
3,42389E-11
0,048280271
99
0,317550821
-0,013515914 -0,034468782
99
99
0,447183784 0,367415964
Рост
Correlation coefficient
valid cases
one-sided significance
0,102742805
99
0,155774789
0,597148266
99
3,42389E-11
1
99
0
0,074449181
99
0,231971561
-0,003411387
99
0,486633195
0,047342958
99
0,320845774
Болезнь
Correlation coefficient
valid cases
one-sided significance
0,411338313
99
1,1706E-05
0,048280271
99
0,317550821
0,074449181
99
0,231971561
1
99
0
0,16720552
99
0,049042182
0,30957366
99
0,000910186
АберХр
Correlation coefficient
valid cases
one-sided significance
-0,039707473 -0,013515914 -0,003411387
99
99
99
0,348186691 0,447183784 0,486633195
0,16720552
99
0,049042182
1
99
0
0,440207969
99
2,56444E-06
GSTP
Correlation coefficient
valid cases
one-sided significance
0,129775505
99
0,100224658
0,30957366
99
0,000910186
0,440207969
99
2,56444E-06
1
99
0
Возраст
Correlation coefficient
valid cases
one-sided significance
Вес
-0,034468782
99
0,367415964
0,047342958
99
0,320845774
Важные предупреждения
 Наличие корреляции не является указанием на причинно следственные связи!
Например, систолическое давление у преподавателей КазГУ
наверняка коррелирует с их зарплатой.
Но не означает, что подвышенное давление приводит к
повышению зарплаты!
 Отсутствие корреляции означает отсутствие линейной связи.
Но связь может быть нелинейной, причем такой, что r = 0.
r=0
r=0
 Неоднородность выборки может привести к парадоксальным
выводам!
Неоднородные выборки
Отрицательная корреляция между
температурой и расходом энергии!
Температура в комнате, оС
30
Август
25
Сентябрь
Температура на даче в зависимости
Октябрь
от расхода электроэнергии
20
15
10
0
5
10
15
20
Расход
энергии,
25 кВт/день
Неоднородные выборки
Не следует считать корреляции для таких случаев:
r = 0.6
r = -0.6
При работе с неоднородными данными возникают
невероятные ситуации. Всегда ищите страты!
Стратификация – разбиение выборки на страты, т.е на группы,
объединенные неким признаком (время проведения опыта, возраст,
образование, национальность, курение и т.д.)
Этот признак может быть незримым конфаундером, т.е. признаком,
создающим ложный эффект за счет неоднородности выборки
Неоднородные выборки
Отрицательная корреляция между
температурой и расходом энергии!
Температура в комнате, оС
30
Август
25
Сентябрь
Октябрь
20
15
10Осторожно,
0
5
страты!
10
15
20
Расход
энергии,
25 кВт/день
Чем чревато объединение выборок?
При объединении гетерогенных выборок возможно все!
Эффект может:
Появиться
Исчезнуть
Осторожно, страты!
У студентов РУДН 70% высоко полиморфных SNP
«ассоциированы» с успеваемостью (p<0.05)
Конфаундер - цвет кожи!
Приобрести противоположное направление!
Парадокс Симпсона
Парадокс Симпсона (1951)
Мальчики поступали лучше девочек!
10 выпускников (5 мальчиков
и 5 девочек)
поступают в КазГУ:
Мальчики поступали
хуже девочек
5 девочек
5 мальчиков
Мехмат
Поступили 3 из 4 (75%) < Поступили 1 из 1 (100%)
Биофак
Поступили 0 из 1 (0%) <
Всего
3 из 5 (60%)
>
Поступили 1 из 4 (25%)
2 из 5 (40%)
Первые сообщения о парадоксе:
Карл Пирсон (1899), Джордж Юле (1903)
Это не статистка! Это геометрия …
Объединяем данные двух экспериментов…
Число лиц с эффектом
25
Опыты 1+2
(контроль)
Опыт 2
(контроль)
20
Опыт 2
(больные)
15
10
Опыты 1+2
(больные)
В обоих экспериментах среди
После
слияния
выборок
больных
частота
лиц с эффектом
частотавыше,
лиц счем
эффектом
в контроле
в контроле выше!
Опыт 1
(больные)
5
Опыт 1
(контроль)
0
50
100
Наклон равен частоте лиц
с наблюдаемым эффектом
(в данном случае 3/100)
150
200
Объем
выборки
Сравнение двух групп по частотам аберраций
Контрольная группа
100
Нет аберраций
Экспонированная группа
99
+
1
Анализируем по
100 метафаз
на человека
# людей
Нет аберраций
6 аберраций
# метафаз # аберраций Частота
Контроль
100
10 000
0
0
Экспонированные
100
10 000
6
0.0006
0 от 6
По частоте людей
аберрациями: числе просмотренных метафаз
При содинаковом
1 от 9
«1 из 100» против
«0 из 100»:
p=0.5только
(one-tailed
значимость
отличий
зависит
отFisher)
числа аберраций: 2 от 10
..........
По частоте аберраций:
«6 на 10 000» против «0 на 10 000»: p=0.014 (one-tailed Fisher)
Многие исследователи, определяя групповую частоту
Сравнение индивидуальных частот аберраций по тесту Манна-Уитни: p=0.317
аберраций, складывают все аберрации в группе
и делят на общее число просмотренных метафаз
Показатели степени сопряженности признаков
 Для количественных признаков:
r - коэффициент корреляции
 Для качественных признаков:
OR - отношение шансов
Сопряженность качественных признаков
И снова таблица сопряженности 22
Больные
Case
Здоровые
Control
D
D
Носители
маркера
M
a
b
Свободны от
маркера
M
c
d
Отношение шансов (Odd Ratio):
ad
OR 
bc
Случаи, когда маркер
не сработал
Случаи, когда
маркер сработал
Упражняемся …
10 больных
10 здоровых
7 9
OR 
 21
3 1
Больные Здоровые
Носители
маркера
Свободны
от маркера
D
D
M
7
M
3
1
9
Заодно посчитаем значимость:
р = 0.02
Свойства показателя OR
 OR = 1 - нет эффекта (маркер не сопряжен с заболеванием)
 OR >> 1 - сильный эффект, сильная положительная
ассоциация (маркер сопряжен с заболеванием)
 OR << 1 - сильный эффект, сильная отрицательная ассоциация
(маркер сопряжен со здоровьем).
Например, в случае генетического маркера, говорят о
протективном действии гена
И все-таки, что такое OR ? И почему шансы?
Отношение
шансов
и относительный риск
Карточный
термин:
вероятность выиграть к
Вероятность
и проиграть
шанс – в чем разница?
вероятности
Частота (доля)
Шанс (odd)
Больные Здоровые
Носители
маркера
Свободны
от маркера
D
D
Сумма
Частоты
Шансы
M
a
b
a+b
р1=a/(a+b)
a/b
M
c
d
c+d
р0=c/(c+d)
c/d
Отношение рисков
(Risk Ratio)
Отношение шансов
(Odd Ratio)
Всегда OR ≥ RR .
OR  RR при p0, p1< 0.1
FAQ: почему OR, а не RR ?
 Отношение рисков наглядно, но не симметрично
Частота Частота
гибели выживания
Погибли
Выжили

Облучение
5
95
100
0.05
0.95
Контроль
1
99
100
0.01
0.99
По смертности:
отношение рисков RR = 0.05/0.01=5
По выживаемости: отношение рисков RR = 0.99/0.95=1.04
Отношение шансов в любом случае равно OR = 599/951 =5.21
Напомню, всегда OR ≥ RR
 Но главная причина не в этом. Дело в том, что в ассоциативных
генетических исследованиях берут выборки больных и здоровых
(т.н. «case-control»). В этом случае непосредственно оценить RR
невозможно
Парадокс Симпсона при использовании OR
Повышенное давление у больных диабетом:
Больные
Здоровые
Молодые
Пожилые
Все вместе
50 из 150 (33.3%)
OR=25
1 из 51 (2%)
50 из 51 (98%)
OR=25
100 из 150 (66.7%)
100 из 201 (49.8%)
OR=0.98
101 из 201 (49.8%)
OR=25 + OR=25  OR=0.98 !!!
Если бы мы игнорировали стратификацию по возрасту,
то обнаружили, что у здоровых повышенное давление
бывает чаще, чем у диабетиков
Осторожно, страты!
На сегодня это все
Напоследок хочу посоветовать:
 Прикиньте с помощью 2 – соотношение мальчиков и девочек в
вашей группе отличается значимо от 1:1 ?
 Классифицируйте своих знакомых на 4 группы:
красивый умный, красивый неумный,
некрасивый умный, некрасивый неумный.
Постройте таблицу 2х2 и посчитайте OR, 2, p .
Как по вашим данным связаны красота и ум?
 Пристально рассматривайте свою выборку. Ищите страты!
Неоднородная выборка – источник фальшивых открытий и
упущенных возможностей!
Download