ROC-анализ - Институт общей генетики

advertisement
Биостатистика
6. ROC-анализ
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН
Бинарные и количественные маркеры (тесты)

Бинарный тест:
маркер «есть-нет»
M
M
Количественный тест:
маркер является
количественным
показателем
приходим к
таблице 2х2
0.25
D
b
d
Контроль
Больные
0.2
Частота

D
a
c
0.15
0.1
0.05
0
0
После выбора
порогового
значения маркера
5
10
15
Признак - маркер
20
Количественный тест: выбор порога
Частота
0.25
Контроль
Больные
0.2
0.15
низкая
0.1
специфичность
высокая
чувствительность
0.05
Признак маркер
0
Низкий
порог
Количественный тест: выбор порога
Порог
Частота
0.25
Контроль
Больные
0.2
высокая
специфичность
Специфичность
0.15
Чувствительность
низкая
чувствительность
0.1
0.05
Признак маркер
0
Низкий
порог
Высокий
порог
Как выбрать порог, чтобы соотношение
чувствительность/специфичность было оптимальным?
ROC – анализ
Receiver Operator Characteristics
Термин времен 2-ой мировой
войны, который придумали
операторы первых радарных
установок
Как отличить шум и помехи от
вражеского самолета?
Современные применения ROC-анализа:
Медицинская диагностика, радиология и
физиология
Распознавание образов,
машинное обучение
Погода и любые
прогнозы по
приметам
Борьба со спамом
ROC – кривая: зависимость SE от (1-SP)
при плавном изменении порога
Частота
SE
0.25
0.2
Контроль
Больные
1
0.15
0.5
0.1
0.05
0
Пороговое
значение
Признак - маркер
0
0.5
1
1 - SP
Оптимальный выбор порога: выбирается точка на ROC-кривой,
которая ближе всех к левому верхнему углу (0,1), т.е.
(1  SP) 2  (1  SE ) 2  min
Форма ROC-кривых
1

Маркер не работает
SE
0
1 - SP
1
0
1
1 - SP
1
0
1 - SP
1
1


Идеальный маркер
1-ый тест лучше, чем 2-ой
SE
SE
AUC – интегральный показатель
прогностической эффективности маркера
1
AUC - это площадь под ROC-кривой
(Area Under Curve)
SE
AUC = Вероятность того, что значение
признака-маркера у случайно выбранного
больного больше, чем у случайно
выбранного здорового
AUC
0
1 - SP
1
AUC
0.5
Случайный классификатор
0.5-0.6
Плохой классификатор
0.6-0.7
Средний классификатор
0.7-0.8
Хороший классификатор
>0.8
Отличный классификатор
U=N1·N2·AUC - непараметрический критерий Манна-Уитни
ROC-анализ используют для проверки
эффективности внедрения
маркеров
Мы их не знаем, новых
но они должны
быть, судя по «близнецовой
5241 больных раком простаты: PSA +наследуемости»
35 подтвержденных SNP, в основном:
8q24: OR=1.40; p<10-4
19q13: OR=1.31; p<10-4
Гипотетическая модель, включающая
1.0
неизвестные генетические
маркеры:
AUC0.8 (дальше не улучшить)
0.8
Традиционные маркеры
(PSA, семейная история):
AUC=0.64
0.6
Традиционные + генетические
маркеры: AUC=0.67
0.4
0.2
0.0
0.2
0.4
0.6
0.8
1.0
Aly M, et al. Polygenic Risk Score Improves Prostate Cancer Risk Prediction: Results from the
Stockholm-1 Cohort Study. Eur Urol (2011)
«ROC-кривая» в случае одного бинарного теста
Для единичного бинарного теста балансовая точность – это AUC
SE  SP
BA  AUC 
2
1
SE
0
AUC 
1 - SP
1
1
1
SE  SP
SE  (1  SP)  (1  SE ) SP 
2
2
2
Вычисления при ROC-анализе
Значения признака-маркера
3
2
1
0
Контроль
Больные
Вычисления при ROC-анализе
Контроль
25
Больные
Частота, %
20
15
10
5
0
0- 0.25- 0.5- 0.75- 1- 1.25- 1.5- 1.75- 2- 2.25- 2.5- 2.75- 30.25 0.5 0.75
1
1.25 1.5 1.75
2 2.25 2.5 2.75
3
3.25
Значения признака (маркера)
Все делается в Excel:
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1-1.25
1.25-1.5
1.5-1.75
1.75-2
2-2.25
2.25-2.5
2.5-2.75
2.75-3
3-3.25
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0
0
0
0
0
0
0
0
0
Больные
# Доля
0
0
3
0.03
9
0.09
15 0.15
11 0.11
15 0.15
16 0.16
10 0.10
11 0.11
5
0.05
3
0.03
2
0.02
0
0
SE
SP
0.88
0.58
Все делается в Excel:
Чувствительность
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1.0
1-1.25
1.25-1.5
0.8
1.5-1.75
0.61.75-2
2-2.25
0.4
2.25-2.5
2.5-2.75
0.2
2.75-3
0.03-3.25
0.0
0.2
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0
0
0
0
0
0
0
0
0
0.4
0.6
1-Cпецифичность
Больные
# Доля
0
0
3
0.03
9
0.09
15 0.15
11 0.11
15 0.15
16 0.16
10 0.10
11 0.11
5
0.05
3
0.03
2
0.02
0
0
0.8
1.0
SE
SP
1
0,97
0,88
0,73
0,62
0,47
0,31
0,21
0,1
0,05
0,02
0
0
0,22
0,44
0,58
0,77
0,88
0,95
1
1
1
1
1
1
1
Все делается в Excel:
Чувствительность
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1.0
1-1.25
1.25-1.5
0.8
1.5-1.75
0.61.75-2
2-2.25
0.4
2.25-2.5
2.5-2.75
0.2
2.75-3
0.03-3.25
0.0
0.2
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0
0
0
0
0
0
0
0
0
0.4
0.6
1-Cпецифичность
Больные
SE
SP
# Доля
1
0,22
0
0
3
0.03 0,97 0,44
0.09
(91  SP
) 2  (10,88
 SE ) 20,58
15 0.15 0,73 0,77
11 0.11 0,62 0,88
15 0.15 0,47 0,95
16 0.16 0,31
1
10 0.10 0,21
1
11 0.11
0,1
1
5
0.05 0,05
1
3
0.03 0,02
1
2
0.02
0
1
0
0
0
1
0.8
1.0
L(0,1)
Все делается в Excel:
Чувствительность
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1.0
1-1.25
1.25-1.5
0.8
1.5-1.75
0.61.75-2
2-2.25
0.4
2.25-2.5
2.5-2.75
0.2
2.75-3
0.03-3.25
0.0
0.2
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0
0
0
0
0
0
0
0
0
0.4
0.6
1-Cпецифичность
Больные
# Доля
0
0
3
0.03
9
0.09
15 0.15
11 0.11
15 0.15
16 0.16
10 0.10
11 0.11
5
0.05
3
0.03
2
0.02
0
0
0.8
1.0
SE
SP
L(0,1)
1
0,97
0,88
0,73
0,62
0,47
0,31
0,21
0,1
0,05
0,02
0
0
0,22
0,44
0,58
0,77
0,88
0,95
1
1
1
1
1
1
1
0,780
0,561
0,437
0,355
0,398
0,532
0,690
0,790
0,900
0,950
0,980
1,000
1,000
Наименьшее
расстояние до
точки (0,1)
Все делается в Excel:
Контроль
Больные
SE
#
Доля
# Доля
1
0-0.25
22
0.22
0
0
Оптимальное
0.25-0.5
22пороговое
0.22
3
0.03 0,97
значение
0.5-0.75
14
0.14
9
0.09 0,88
0.75-1
19
0.19
15 0.15 0,73
1-1.25
11
0.11
11 0.11 0,62
1.25-1.5
7
0.07
15 0.15 0,47
При выборе
этого
мы
1.5-1.75
5
0.05 этого
16 порога,
0.16 0,31
правильно
идентифицируем
73%
1.75-2
0
0
10 0.10 0,21
больных и 77% здоровых
2-2.25
0
0
11 0.11
0,1
2.25-2.5
0
0
5
0.05 0,05
2.5-2.75
0
0
3
0.03 0,02
2.75-3
0
0
2
0.02
0
3-3.25
0
0
0
0
0
Интервал
SP
L(0,1)
0,22
0,44
0,58
0,77
0,88
0,95
1
1
1
1
1
1
1
0,780
0,561
0,437
0,355
0,398
0,532
0,690
0,790
0,900
0,950
0,980
1,000
1,000
Наименьшее
расстояние до
точки (0,1)
Все делается в Excel:
Чувствительность
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1.0
1-1.25
1.25-1.5
0.8
1.5-1.75
0.61.75-2
2-2.25
0.4
2.25-2.5
2.5-2.75
0.2
2.75-3
0.03-3.25
0.0
0.2
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0AUC
0
0
0
0
0
0
0
0
0.4
0.6
1-Cпецифичность
Больные
# Доля
0
0
3
0.03
9
0.09
15 0.15
11 0.11
15 0.15
16 0.16
10 0.10
11 0.11
5
0.05
3
0.03
2
0.02
0
0
0.8
1.0
SE
SP
L(0,1)
 AUC
1
0,97
0,88
0,73
0,62
0,47
0,31
0,21
0,1
0,05
0,02
0
0
0,22
0,44
0,58
0,77
0,88
0,95
1
1
1
1
1
1
1
0,780
0,561
0,437
0,355
0,398
0,532
0,690
0,790
0,900
0,950
0,980
1,000
1,000
0,220
0,217
0,130
0,153
0,072
0,038
0,020
0
0
0
0
0
0
0.85
AUC =
Вычисления AUC в STATISTICA
На сегодня это все
Download