Задачи классификации и дискриминации

реклама
Задачи
классификации и
дискриминации
Родионова Оксана Евгеньевна
[email protected]
Институт химической физики РАН,
Российское хемометрическое общество
1
Два класса решаемых задач
X11
X21
.
.
.
…
Xn1
…
…
X12
X22
.
.
.
…
Y1
Y2
X
X1m
Метод- МГК
Задачи
.
.
.
.
.
.
…
Xnm
Классификация
и
1. Анализ структуры, поиск
латентных переменных
дискриминация
Классификация и
SIMCA
, PLS-D
дискриминация
2.
Методы : РГК, РЛС
Задачи
Y
.
.
.
…
Yn
1.
Построение модели Y(X)
2.
Прогнозирование
2
Распознавание образов
(pattern recognition)
Без обучения
( Unsupervised)
Не известно
существуют ли скрытые
группы и сколько их
Основной механизм –
поиск аналогий в
свойствах объектов
Основная цель –
установить наличие
групп (классов), а также
выявить причины
кластеризации
C обучением
(Supervised)
Известно о том, какой
группе принадлежат
объекты из исходного
набора данных
Основной механизм –
построение модели, для
той или иной группы
Основная цель
классификации новых
образцов
3
Геометрическая интерпретация
Вектор признаков –
переменные (степени свободы)
образующие p-мерную систему
координат (p – число
переменных в векторе
признаков)
Объекты / образцы/ измерения –
точки в пространстве признаков
Группы или классы – ограниченные подпространства в пространстве
признаков: гиперкуб, гиперсфера и т.п.
4
Возможные ситуации
Идеальный случай
разделения
Имеются выбросы
5
Возможные ситуации
X2
X1
Один из классов не имеет
четкой структуры
Классы перекрываются
6
Этапы классификации
• МГК
I.
Выявление различных
групп
• Факторный анализ
• Кластерный анализ
• ...
II. Построение модели
III. Классификация
новых образцов
}
• SIMCA
• PLS-D
• ...
7
Метод SIMCA
Soft Independent Modeling of Class Analogy
Метод формального независимого моделирования
аналогий классов
X2
1. Каждый класс
моделируется отдельно с
помощью МГК
X1
2. Новый образец
проверяется на
принадлежность каждому
построенному классу
(Svante Wold, 1976)
8
Этап-1. Моделирование
Каждый класс из
обучающего набора
независимо
моделируется МГК с
разным числом главных
компонент.
1. Предварительная подготовка данных
2. Удаление выбросов
3. Проверка модели и оценка значимости выбранного числа ГК
9
Этап -2. Построение контрольных
уровней и анализ модели
Размах h:
расстояние
внутри модели
Отклонение d:
расстояние
до модели
10
Этап – 3. Сравнение моделей
Вычисление
расстояний между
классами и оценка
влияние переменных
на разделение по
классам
11
Этап классификации новых
образцов
Расстояние от образца
до класса
*
Расстояние от образца
до центра модели
12
Результаты классификации
методом SIMCA
• Классификационная таблица
• График Si vs hi
• График Si/S0 vs hi
• График Кумана
}
Расстояние от образца
до одной модели
Расстояние от образца
до 2-х разных моделей
• Расстояние между моделями
• Модельная мощность переменных
• Дискриминационная мощность переменных
13
Распознавание фальсифицированных
лекарств - I
0.6
Пищеварительный фермент.
Образцы - таблетки в оболочке
AU
0.5
Всего: 55 образцов
3 серии подлинных образцов 30 таб.
0.4
4 серии поддельных образцов 25 таб.
0.3
0.2
см-1
0.1
4000
4500
5000
5500
6000
6500
подлинные образцы;
7000
Измерения: спектры диффузнного
рассеяния 4000 –7500 см-1. (1750
длин волн).
7500
поддельные
14
Предварительный МГК анализ
55 образцов
0.3
PC2
F15
0.2
F06
F14
0.1
0.0
-0.2
PC1
0.0
G
-0.1
-0.2
0.2
F08
Обучающий набор:
25 подлинных образцов
Проверочный набор:
• 25 поддельных образцов
• 5 подлинных образцов
15
Построение модели для одного
класса
PC2
F08
F15
F08
F08
F08
F15
0.10
F15
F15
F06
F08
F15
-0.30
-0.20
-0.10
0.00
F06
0.00
F06
F06
-0.10
F06
F06
PC1
0.10
F14 0.20
F14
F06
F06
F06
F14
F14
F14
F06
-0.20
16
SIMCA - классификация
График Si vs hi
(Si/S0 vs hi)
Si
F06
0.015
F14
Si , hi
0.010
F15
0.005
F08
G-test
Leverge
0.000
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
Scrit
hcrit
17
Распознавание фальсифицированных
лекарств - II
Бактерицидное средство.
Образцы - таблетки в оболочке
Всего: 30 образцов
2 серии подлинных образцов 10 таб.
1 серия «дженерик» образцов 10 таб.
1 серия поддельных образцов
10 таб.
Измерения: спектры диффузного
рассеяния 1140 –2300 nm. ( 580
длин волн).
18
Предварительный МГК анализ
20.0
30 образцов
PC2
15.0
10.0
F
F08
V
5.0
Обучающий набор:
PC1
0.0
-40.0
-20.0
-5.0
-10.0
0.0
20.0
G
8 подлинных образцов
40.0
9 «дженерик» образцов
-15.0
Проверочный набор:
-20.0
• 10 поддельных образцов
• 2 подлинных образца
•
1 «дженерик»
19
График Кумана
(Cooman’s plot )
Расстояние от
образца до 2-х
классов
20
Расстояние между классами
( Model Distance )
Расстояние от одного класса
до всех остальных классов.
ModelDistance(q,q) = 1
ModelDistan(q,m) > 3 – хорошее
разделение
21
Дискриминационная мощность
переменной
(Discrimination Power )
Способность j-ой
переменной разделять
два класса.
Dj>3 - j-ая переменная
сильно влияет на
разделение классов.
Dj 
classA mod elB 2
s jresid  classB mod elAs 2jresid
classA mod elA 2
s jresid  classB mod elB s 2jresid
22
Модельная мощность переменной
( Modeling Power )
Показывает насколько сильное влияние
оказывает j-ая переменная на построение
модели (класса)
Mj : 1  0
Mj > 0.3 - сильное влияние на модель
M j  1  s jresid / s jraw
23
данных о процессе
Ключевые переменные процесса (датчики) X1, X2, ... , X17
s1
s2
s3
s4
s5
s6
s7
s8
s9
s10
s11
s12
s13
s14
s15
s16
s17
s54
t1  t69
Реализации процесса s1, s2, ... ,s54
Пример
X1
-1.19E-01
-1.37E-01
2.51E-02
-1.14E-01
-7.93E-02
1.51E-02
7.44E-02
3.65E-02
1.36E-01
-2.74E-02
7.47E-02
-1.17E-01
1.06E-01
7.39E-02
-9.87E-03
-1.06E-01
-4.76E-02
X2
7.28E-01
7.28E-01
-9.15E-02
6.70E-01
4.14E-01
-6.38E-02
-5.24E-01
-2.66E-01
-7.06E-01
3.60E-01
-3.31E-01
7.02E-01
-2.82E-01
-5.28E-01
1.02E-01
7.68E-01
2.66E-01
X3
-2.15E-02
-2.89E-02
6.73E-03
-2.18E-02
-1.69E-02
3.74E-03
1.11E-02
5.12E-03
2.89E-02
1.82E-03
1.80E-02
-2.16E-02
3.23E-02
1.07E-02
-3.21E-04
-1.52E-02
-9.52E-03
X4
5.22E-01
6.08E-01
-1.13E-01
5.04E-01
3.51E-01
-6.75E-02
-3.24E-01
-1.59E-01
-6.01E-01
1.12E-01
-3.34E-01
5.13E-01
-4.82E-01
-3.21E-01
4.17E-02
4.62E-01
2.10E-01
X5
7.06E-04
7.09E-04
-9.07E-05
6.50E-04
4.04E-04
-6.28E-05
-5.06E-04
-2.56E-04
-6.88E-04
3.42E-04
-3.25E-04
6.81E-04
-2.85E-04
-5.09E-04
9.75E-05
7.41E-04
2.59E-04
X6
7.32E-01
7.02E-01
-7.58E-02
6.65E-01
3.98E-01
-5.67E-02
-5.45E-01
-2.78E-01
-6.77E-01
4.12E-01
-2.99E-01
7.03E-01
-1.87E-01
-5.50E-01
1.13E-01
8.03E-01
2.61E-01
…
X7
3.10E-04
6.58E-04
-2.29E-04
3.83E-04
3.96E-04
-1.15E-04
-1.73E-05
1.43E-05
-6.83E-04
-4.31E-04
-5.30E-04
3.40E-04
-1.25E-03
2.49E-06
-8.29E-05
-2.54E-05
1.92E-04
X8
-6.13E-04
-1.22E-03
4.10E-04
-7.34E-04
-7.35E-04
2.07E-04
7.92E-05
-3.95E-07
1.26E-03
7.24E-04
9.62E-04
-6.63E-04
2.21E-03
4.48E-05
1.36E-04
-2.68E-05
-3.61E-04
X9
-5.92E-05
-1.49E-04
5.65E-05
-7.96E-05
-9.05E-05
2.78E-05
-1.07E-05
-1.14E-05
1.56E-04
1.22E-04
1.28E-04
-6.76E-05
3.14E-04
-1.59E-05
2.44E-05
2.88E-05
-4.19E-05
6.61E-02 -5.40E-01 7.19E-03 -2.85E-01 -5.19E-04 -5.78E-01 1.81E-04 -2.67E-04 -6.23E-05
…
X17
9.74E-03
1.01E-02
-1.43E-03
9.07E-03
5.78E-03
-9.49E-04
-6.79E-03
-3.42E-03
-9.86E-03
4.18E-03
-4.84E-03
9.44E-03
-4.99E-03
-6.81E-03
1.23E-03
9.90E-03
3.65E-03
-6.78E-03
новая реализация
24
Файл Wines
(Riccardo Leardi, Genoa, Italy)
178 образцов
13 переменных
3 классa
Обучающий набор: 148 образцов
Проверочный набор: 30 образцов
25
Предварительный МГК анализ
Методы многомерной
классификации
График счетов T1 vs. T2
26
План упражнения
1. Предобработка исходных данных
2. Построение общей МГК модели
3. Построение индивидуальных МГК моделей для каждого
класса. Сохранение моделей
4. Классификация новых образцов :
Таблица результатов, график Si vs. hi , график Кумана
5. Анализ результатов
27
ПЛС дискриминация
PLS-D
X-переменные
(дескрипторы)
Матрица
измерений
Y-переменные
(индикаторы)
Y1 Y2 YN
Класс 1 (I1)
Класс 2 (I2)
Класс N (IN)
1
1
1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
1
1
1
1
Матрица
принадлежности
классу
28
Влияние ванадиевой пыли на людей
(Prof. Pentti Minkkinen, Lappeenranta University of Technology, Finland)
Испытательная
группа 18 человек
подверженных
пыли V2O5 на
фабрике
Контрольная
группа 17 человек
Измерялись 26
клинических
показателей
плазмы крови
29
График счетов
5
4
3
V
ГК2 (17.5 %)
2
V V
1
V C
V
0
V
C
-1
-2
-5
-5
V V
V
V
C
C V
C
C V
V
VC
C
C
C
C
C C
-3
-4
V
V VV
C C
C
C
0
ГК1 (29.9 %)
5
30
Дискриминация (PLS-D)
Матрица дескрипторов X
Матрица индикаторов Y
x11
x12
…
…
x1k
1
x21
x22
…
…
x2k
1
…
…
…
…
1
…
…
…
…
1
xi1
xi2
…
…
xik
xi+1,
xi+1,
…
…
xi+1,k
1
2
…
…
CLASS
CLASS
C
V
PLS1
1
-1
-1
…
-1
-1
…
…
…
xn1
xn2
xnk
-1
31
График счетов в PLS-D
3
ГК2
C
2
C
C
C
C
C
V
C
1
C
C
C
C
0
V V
VV V
V
C
C
C
-1
V
C
C
V
VV
V
V
C
VV V
V
V
-2
ГК1
-3
-5
-4
-3
-2
-1
0
1
2
3
4
32
Файл Wines_PLS
178 образцов
13 переменных
3 классa
Обучающий набор: 148 образцов
Проверочный набор: 30 образцов
Файл WINES_DPLS
Матрица X
Матрица Y
17813
1783
33
Скачать