презентация - MachineLearning.ru

advertisement
Формирование однородных обучающих выборок
в задачах классификации
Ефимова Ирина
Московский физико-технический институт
Факультет управления и прикладной математики
Кафедра интеллектуальных систем
Научный руководитель д.ф.-м.н. К. В. Воронцов
1 июля 2015
Постановка задачи
Решение
Вычислительный эксперимент
Цель работы
Задача пополнения обучающей выборки
Цель исследования
Имеются две размеченные выборки двух классов.
Первая выборка эталонная, вторая выборка содержит
неизвестную долю выбросов — объектов с неверной
классификацией.
Цель исследования: построить алгоритм, позволяющий
очищать вторую выборку от выбросов, для получения одной
однородной выборки.
Ефимова Ирина
Пополнение обучающих выборок
2 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цель работы
Задача пополнения обучающей выборки
Литература
Aggarwal C. C. Outlier Analysis. Springer, 2013.
Chandola V., Banerjee A., Kumar V. Anomaly detection:
A survey // ACM Computing Surveys (CSUR), July 2009.
Vol.41(3), No.15.
Hodge V. and Austin J. A survey of outliers detection
methodologies //Artificial Intelligence Review, 2004.
Vol. 22(2), Pp. 85–126.
Успенский В.М. Информационная функция сердца //
Клиническая медицина. 2008. Т.86, №5. С. 4–13.
Ефимова Ирина
Пополнение обучающих выборок
3 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цель работы
Задача пополнения обучающей выборки
Задача пополнения обучающей выборки
Дано: две выборки P = {xpi , ypi }li=1 , U = {xui , yui }ki=1 ,
где yvi ∈ {0, 1} — класс объекта xvi , v = {p, u}.
Предположения:
выборка P — эталонная: для объекта xpi метка класса ypi
поставлена верно, i = 1, ..., l ;
выборка U содержит некоторую долю выбросов
N = {xni , yni }m
i=1 ⊂ U с инвертированной меткой yni .
Пусть Q = U \ N.
Требуется: построить вычислительно эффективный алгоритм
очистки выборки U от выбросов:
g : (P, U) −→ Q.
Ефимова Ирина
Пополнение обучающих выборок
4 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цель работы
Задача пополнения обучающей выборки
Задача пополнения обучающей выборки
Критерий
Качество классификации на независимой контрольной выборке
при обучении на объединенной выборке P ∪ Q выше по сравнению
с обучением только по выборке P.
Пример задачи из области медицинской диагностики:
первая выборка состоит из обследований с надежно
установленными диагнозами; во второй выборке диагнозы не
были подтверждены лабораторными и инструментальными
исследованиями.
Ефимова Ирина
Пополнение обучающих выборок
5 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Алгоритм
Методы пополнения
Алгоритм
Для осуществления пополнения выборки P объектами из
выборки U в обычную процедуру построения классификатора
добавляются шаги 2 и 3:
1
обучиться на Ptrain ;
2
отфильтровать выборку U, то есть получить Q;
3
обучиться на Ptrain ∪ Q;
4
классифицировать Ptest .
Ефимова Ирина
Пополнение обучающих выборок
6 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Алгоритм
Методы пополнения
ROC-кривая
Качество классификатора a : X → Y , Y = {0, 1},
a(x) = [f (x, w ) ≥ θ] определяется площадью под
ROC-кривой (AUC).
X l = (xi , yi )li=1 ⊂ X × Y — выборка.
ROC-кривая — зависимость доли верных положительных
классификаций (True Positive Rate) от доли ложных
положительных классификаций (False Positive Rate)
при варьировании порога классификатора θ.
l
P
TPR =
l
P
a(xi )yi
i=1
l
P
, FPR =
yi
i=1
Ефимова Ирина
a(xi )(1 − yi )
i=1
l
P
(1 − yi )
i=1
Пополнение обучающих выборок
7 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Алгоритм
Методы пополнения
Предлагаемые методы
метод сближения AUC двух выборок;
метод сближения ROC-кривых;
метод выделения объектов, влияющих на переобучение.
Ефимова Ирина
Пополнение обучающих выборок
8 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Алгоритм
Методы пополнения
Метод сближения AUC двух выборок
Введём обозначения для площадей под ROC-кривыми,
вычисленными по следующим выборкам:
AUC1 — по выборке Ptrain ,
AUC2 — по выборке U,
AUC2,t — по выборке Ut , полученной из U на t-ом шаге
методом сближения AUC двух выборок.
Для выравнивания кривых ROC1 и ROC2 предлагается на t-ом
шаге алгоритма исключать объект из выборки Ut−1 ,
минимизирующий разность AUC:
(xt , yt ) = arg
min
(xd ,yd )∈Ut−1
Ефимова Ирина
|AUC1 − AUC2,d |.
Пополнение обучающих выборок
9 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Алгоритм
Методы пополнения
Метод сближения ROC-кривых
Введём обозначения для ROC-кривых, вычисленных
по следующим выборкам:
ROC1 — по выборке Ptrain ,
ROC2 — по выборке U,
ROC2,t — по выборке Ut , полученной из U на t-ом шаге
методом сближения ROC-кривых.
Для выравнивания ROC1 и ROC2 кривых предлагается на t-ом
шаге алгоритма исключать объект из выборки Ut−1 ,
минимизирующий площадь между ROC1 и ROC2,t−1 кривыми:
(xt , yt ) = arg
min
(xd ,yd )∈Ut−1
Ефимова Ирина
∆(ROC1 , ROC2,d ).
Пополнение обучающих выборок
10 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Алгоритм
Методы пополнения
Эффективный способ вычисления площади между
ROC-кривыми
1
1
1
0.9
0.8
0.8
0.6
0.6
0.8
0.6
0.4
0.5
0.4
обучающая выборка
вторая выборка
здоровые
больные
0.2
0
0
T PR
T PR
T PR
0.7
0.2
0.4
0.6
0.8
1
0.4
0.3
обучающая выборка
вторая выборка
больные
0.2
0
0
0.2
FPR
0.4
0.6
0.8
0.2
0.1
1
0
0
0.1
0.2
0.3
0.4
(a)
(b)
Ефимова Ирина
0.5
0.6
0.7
0.8
0.9
1
FPR
FPR
(c)
Пополнение обучающих выборок
11 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Алгоритм
Методы пополнения
Метод выделения объектов, влияющих на переобучение
Введём обозначения для площадей под ROC-кривыми,
вычисленными по следующим выборкам:
AUC1 — по выборке Ptrain , AUC2 — по выборке U;
AUC1,t — по выборке Ptrain,t = P ∪ (xt , yt ),
AUC2,t — по выборке Ut = U \ (xt , yt ), xt ∈ U.
Переобученность:
d0 = AUC1 − AUC2 , dt = AUC1,t − AUC2,t .
Влияние на переобучение:
Impactt = |d0 − dt |, t = 1, ..., |U|.
Выбросами объявляются объекты, для которых Impactt ≥ δ,
где δ — заданный порог.
Ефимова Ирина
Пополнение обучающих выборок
12 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Цели эксперимента
Оценить достаточную длину обучающей выборки.
Очистить вторую выборку от выбросов.
Повысить качество классификации на пополненной
выборке.
Сравнить методы отсева выбросов и пополнения выборки.
Ефимова Ирина
Пополнение обучающих выборок
13 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Задача диагностики заболеваний по ЭКГ
Использовались данные, полученные с помощью
технологии информационного анализа ЭКГ-сигналов.
Каждому обследованию соответствует вектор из 216
числовых признаков и метка класса:
0 — здоров, 1 — болен.
Известно, что синдромный алгоритм с отбором признаков
дает хорошее качество классификации, не переобучается.
Ефимова Ирина
Пополнение обучающих выборок
14 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Кривые обучения
Для обучения достаточно ≈ 50 объектов.
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.5
контрольная выборка
здоровые объекты
больные объекты
50
100
150
200
Длина обучающей выборки
(d) Болезнь А, |Ptest | = 235
Ефимова Ирина
0.6
0.5
20
контрольная выборка
здоровые объекты
больные объекты
40 60 80 100 120 140
Длина обучающей выборки
(e) Болезнь Б, |Ptest | = 470
Пополнение обучающих выборок
15 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Сравнение методов отсева выбросов
1
0.8
0.8
T PR
T PR
1
0.6
0.6
первая выборка
вторая выборка
метод
ROC метод
0.4
0.2
0
0.2
0.4
FPR
0.6
0.8
первая выборка
вторая выборка
метод
ROC метод
0.4
0.2
0
0.2
0.4
FPR
(f) Болезнь А,
(g) Болезнь Б,
|Ptrain | = 1878, |U| = 1304
|Ptrain | = 803, |U| = 1108
0.6
0.8
Вывод: Метод сближения AUC приводит к явной
неоднородности двух выборок, так как в первую очередь
удаляет объекты с отрицательными отступами.
Ефимова Ирина
Пополнение обучающих выборок
16 / 25
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Постановка задачи
Решение
Вычислительный эксперимент
Метод сближения ROC-кривых
Несколько промежуточных шагов.
1
0.8
0.8
0.6
0.6
T PR
T PR
1
0.4
0.4
первая выборка
вторая выборка
очищенная вторая выборка
промежут. вторая выборка
0.2
0
0
0.2
0.4
0.6
0.8
1
0.2
0
0
0.2
FPR
(h) Болезнь А,
|Ptrain | = 1878, |U| = 1304
первая выборка
вторая выборка
очищенная вторая выборка
промежут. вторая выборка
0.4
0.6
0.8
1
FPR
(i) Болезнь Б,
|Ptrain | = 803, |U| = 1108
Вывод: Данному методу удается добиться идентичности
ROC-кривых двух выборок.
Ефимова Ирина
Пополнение обучающих выборок
17 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Полумодельные данные
P = P0 ∪ P1 , P0 — эталонная выборка здоровых,
P1 — эталонная выборка больных.
Получение:
P случайно разбить на две равные части
со стратификацией классов: P 1 , P 2 ;
в P 2 случайным образом переставить местами метки
классов «больной/здоровый» (10-20%);
использовать P 1 в качестве первой выборки (P := P 1 ),
P 2 — в качестве второй (U := P 2 ).
Ефимова Ирина
Пополнение обучающих выборок
18 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Precision-Recall кривая
Точность обнаружения классификатором b : X → Y ,
Y = {0, 1}, b(x) = [f (x, w ) ≥ t] выбросов (y = 1) определяется
площадью под Precision-Recall кривой (AUPRC).
X l = (xi , yi )li=1 ⊂ X × Y — выборка.
Precision — доля выбросов среди объектов, найденных
классификатором;
Recall — доля выбросов, найденных классификатором.
l
P
Precision =
l
P
b(xi )yi
i=1
l
P
, Recall =
b(xi )
i=1
Ефимова Ирина
b(xi )yi
i=1
l
P
.
yi
i=1
Пополнение обучающих выборок
19 / 25
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Постановка задачи
Решение
Вычислительный эксперимент
Метод сближения ROC-кривых
Точность обнаружения выбросов. Кривые Precision-Recall.
1
1
е
больные
0.8
Precision
Precision
0.8
0.6
0.4
AUPRC: 0.774
0.2 AUPRC
AUPRC
0
0
е
больные
0.2
0.4
AUPRC: 0.613
0.2 AUPRC
AUPRC
: 0.825
: 0.553
0.4
0.6
Recall
0.6
0.8
1
0
0
0.2
: 0.678
: 0.489
0.4
0.6
Recall
0.8
(j) Болезнь А,
(k) Болезнь Б,
|Ptrain | = 211, |Ptest | = 25, |U| = 235
|Ptrain | = 239, |Ptest | = 28, |U| = 266
1
Вывод: Часть выбросов не идентифицируются.
Ефимова Ирина
Пополнение обучающих выборок
20 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Метод сближения ROC-кривых
Зависимость значения AUC на различных выборках от числа
удаленных объектов из выборки U.
1
1
0.95
0.95
0.9
0.85
обучающая выборка
контрольная выборка
пополненная выборка
вторая выборка
вторая очищенная выборка
площадь между ROC-кр.
50
100
150
200
Число удаленных объектов
0.9
0.85
обучающая выборка
контрольная выборка
пополненная выборка
вторая выборка
вторая очищенная выборка
площадь между ROC-кр.
50
100
150
200
250
Число удаленных объектов
(l) Болезнь А,
(m) Болезнь Б,
|Ptrain | = 211, |Ptest | = 25, |U| = 235
|Ptrain | = 239, |Ptest | = 28, |U| = 266
Вывод: Качество классификации на контрольной выборке не
изменилось ввиду достаточной длины обучающей выборки.
Ефимова Ирина
Пополнение обучающих выборок
21 / 25
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Постановка задачи
Решение
Вычислительный эксперимент
Метод выделения объектов, влияющих на переобучение
Зависимость значения AUC на различных выборках от числа
удаленных объектов из U и кривые Precision-Recall для бол. А.
1
1
е
больные
0.8
Precision
0.95
0.6
0.4
0.9
AUPRC: 0.818
0.2 AUPRC
AUPRC
: 0.841
: 0.637
0.85
0
0
0.2
0.4
0.6
Recall
0.8
(n)
обучающая выборка
контрольная выборка
пополненная выборка
вторая выборка
вторая очищенная выборка
50
100
150
200
Число удаленных объектов
1
(o)
|Ptrain | = 211, |Ptest | = 21, |U| = 235 |Ptrain | = 211, |Ptest | = 25, |U| = 235
Вывод: Часть выбросов не идентифицируются.
Ефимова Ирина
Пополнение обучающих выборок
22 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Метод сближения ROC-кривых
Зависимость значения AUC на различных выборках от числа
удаленных объектов из U при различной длине обучающей
выборки для бол. А.
1
1
1
0.9
0.9
0.9
0.8
0.8
0.8
0.7
0.7
0.6
0.5
обучающая выборка
контрольная выборка
пополненная выборка
вторая выборка
вторая очищенная выборка
площадь между ROC-кр.
50
100
150
200
Число удаленных объектов
(p) |Ptrain | = 20,
|Ptest | = 118, U = |235|
0.6
0.5
0.7
обучающая выборка
контрольная выборка
пополненная выборка
вторая выборка
вторая очищенная выборка
площадь между ROC-кр.
50
100
150
200
Число удаленных объектов
0.6
0.5
обучающая выборка
контрольная выборка
пополненная выборка
вторая выборка
вторая очищенная выборка
площадь между ROC-кр.
50
100
150
200
Число удаленных объектов
(q) |Ptrain | = 30,
(r) |Ptrain | = 40,
|Ptest | = 118, U = |235|
|Ptest | = 118, U = |235|
Вывод: Нет значимых улучшений в классификации
независимой контрольной выборки.
Ефимова Ирина
Пополнение обучающих выборок
23 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Анализ точности обнаружения выбросов
Болезнь
А
Б
В
Г
Д
Е
Ж
З
И
К
Л
М
Н
О
Метод сближения
кривых
0.774
0.613
0.661
0.429
0.617
0.565
0.854
0.817
0.668
0.776
0.696
0.591
0.484
0.738
AUPRC
ROC- Метод выделения объектов,
влияющих на переобучение
0.818
0.658
0.796
0.460
0.862
0.626
0.819
0.804
0.778
0.803
0.783
0.720
0.568
0.786
Ефимова Ирина
Пополнение обучающих выборок
24 / 25
Постановка задачи
Решение
Вычислительный эксперимент
Цели эксперимента
Задача диагностики заболеваний по ЭКГ
Результаты
Полумодельные данные
Заключение
Заключение
Для решения задачи пополнения обучающей выборки
предложены:
метод сближения ROC-кривых;
метод выделения объектов, влияющих на переобучение.
Разработанные методы предполагается использовать в рамках
технологии информационного анализа электрокардиосигналов
для повышения качества диагностики заболеваний.
Публикация: Ефимова И. В. Формирование однородных обучающих
выборок для задач медицинской диагностики // Труды 57-ой
международной научной конференции МФТИ, 2014, c. 91–92.
Ефимова Ирина
Пополнение обучающих выборок
25 / 25
Download