a, b

реклама
Функция конкурентного сходства
и компактность
Загоруйко Н.Г.
Борисова И.А., Дюбанов В.В.,
Кутненко О.А., Леванов Д.А.
Институт математики СО РАН
[email protected]
Онтология Data Mining
PRIA, 2007. Vol. 17, No.3
Цель анализа данных – приведение информации к виду,
удобному для восприятия.
Главное средство достижения этой цели повышение компактности описания наблюдений.
Главный элемент технологии анализа данных –
мера сходство между объектами
Алгоритмы АД на базе FRiS-функции.
Примеры решения задач
.
Обилие методов – не мускулы,
а раковая опухоль.
Человек постоянно решает задачи классификации,
распознавания, выбора признаков,
прогнозирования и т.д. и не меняет свои методы от
задачи к задаче
• Базовая психофизиологическая функция,
которую человек использует при решении
этих задач, состоит в оценке
сходства
Меры сходства
1) FS1 ( a, b)  1 
n
a
b 2

(
x

x
 i i i) ,
i 1
n
2) FS 2 ( a, b)  1    i | xia  xib |
i 1
3) FS3 ( a, b)  1  max | x  x |,
a
i
b
i
min( xia , xib )
4) FS 4 ( a, b)    i
,
a
b
max( xi , xi )
i 1
n
5) FS ( a, b)  1  e

n

i 1
( xia  xib ) 2
,....
(a, b): близки или далеки?
b похож на а или нет?
a
b
(a, b): близки или далеки?
b похож на а или нет?
a
b
a
b
c
Сходство – относительная категория
(a, b): близки или далеки?
b похож на а или нет?
a
b
a
b
a
c
d
b
По сравнению с чем?
.
Загоруйко Н.Г., Кутненко О.А.
Функция конкурентного сходства
(FRiS-функция)
2001
r ( z , b)  r ( z , a )
F ( z , a | b) 
r ( z , a )  r ( z , b)
b
a
r(z,a)
r(z,b)
z
.
RELIEF
K. Kira, L. Rendell.,
1992
r ( z , b)  r ( z , a )
W ( z , a | b) 
rmax  rmin
b
a
r(z,a)
r(z,b)
z
.
Rousseeuw, P.J.
Withd Silhouettes
1987
r ( z , b)  r ( z , a )
WS ( z, a | b) 
max[ r ( z, a), r ( z, b)]
b
a
r(z,a)
r(z,b)
z
Профили функций сходства
1
WS
FRiS
b
a
-1
10.75556
FRiS
11.88889
WS
Эталоны для описания и для распознавания
Распознавание
Описание
Выбор эталонных объектов (столпов)
FRiS-Stolp
r2
r1
i
r1
r2
r 2  r1
Fi 
,.......Fi max
r 2  r1
FRiS и таксономия
FRiS-Tax
Выборка М объектов
k=2,3,…,kmax, r*- порог сходства
r1
r*
r1
r*
F*(aj, ai|r*)=[r*-min(r*,r1)] /[r*+min(r*,r1)]
j=1,2,3…М
Примеры применения FRiS-Tax
k=5
K=2
k=10
K=3
k=10
k=10
K=2
K=2
Сравнение FRiS-Class
с другими алгоритмами таксономии
0,9
0,8
0,7
FRiS-Cluster
Kmeans
0,6
Forel
Scat
0,5
FRiS-Tax
0,4
K
0,3
2
3
4
5
6
7
8
9
10 11 12 13 14 15
Универсальная классификация
FRiS-UC
A
X
B
Поиск столпов для (А,Х) и В
A,X
B
Поиск столпов для А и (В,Х)
A
B,X
Поиск столпов для А и (В,Х)
A
B,X
Гипотеза компактности
Фишер для норм. распр.: F=|m1-m2|/(d1+d2)
Аркадьев А.Г., Браверман Э.М.
Простому образу соответствует компактное
множество точек, если
• 1) число граничных точек мало по сравнению с их
общим числом;
• 2) почти каждая внутренняя точка образа имеет в
достаточно обширной окрестности только точки
этого же множества.
• Простыми или компактными называются такие
образы, которые отделяются друг от друга
«не слишком вычурными» границами.
Компактность и сложность границ
B
B
A
B
A
A
B
A
Оценка компактности
1
CA 
MA
MA
1 MB
Fi ...............CB 
Fi


M B i 1
i 1
1 K
C  C j
K j 1
B
A
r1
r2
C = -1, …0…+1
Роль компактности
Все виды формальных преобразований
делаются для приведения исходной
информации к виду,
удобному для восприятия человеком.
В задачах анализа данных –
путем повышения компактности
(7)
Применение FRiS-функции
в задачах выбора
информативных признаков
Движок
GRAD
и
Критерий
K
C  (1 / k ) K  Ci
i 1
Сокращение перебора
Гранулы n<<N
GRAD- Granulated AdDel
• Addition-Deletion
Количество, состав и вес признаков
определяется автоматически
T=С*(N+n3/6)*M3
Сравнение критериев информативности
(Errors
FRiS)
1,05
1
0,95
0,9
Fs
0,85
U
0,8
Fs
0,75
U
0,7
0,65
0,6
0,05
0,1
0,15
0,2
0,25
0,3
Guyon I., Weston J., Barnhill S., Vapnik V: Gene Selection for Cancer Classification using Support
Vector Machines. Machine Learnin, 2002, 46 (1-3): 389-422.
N=7129, K=2, Mo = 38, Mk =34
Pentium T=15 sec
Pentium T=3 hours
Training set 38
Test set 34
N g Vsuc Vext Vmed
Tsuc Text Tmed
P
7129 0,95 0,01 0,42 0,85 -0,05 0,42 29
4096 0,82 -0,67 0,30 0,71 -0,77 0,34 24
2048 0,97 0,00 0,51 0,85 -0,21 0,41 29
1024 1,00 0,41 0,66 0,94 -0,02 0,47 32
512 0,97 0,20 0,79 0,88 0,01 0,51 30
256 1,00 0,59 0,79 0,94 0,07 0,62 32
128 1,00 0,56 0,80 0,97 -0,03 0,46 33
64 1,00 0,45 0,76 0,94 0,11 0,51 32
32 1,00 0,45 0,65 0,97 0,00 0,39 33
16 1,00 0,25 0,66 1,00 0,03 0,38 34
8
1,00 0,21 0,66 1,00 0,05 0,49 34
4
0,97 0,01 0,49 0,91 -0,08 0,45 31
2
0,97 -0,02 0,42 0,88 -0,23 0,44 30
1
0,92 -0,19 0,45 0,79 -0,27 0,23 27
I.Guyon, J.Weston, S.Barnhill, V.Vapnik
FRE
FRiS
0,72656
0,71373
0,71208
0,71077
0,70993
0,70973
0,70711
0,70574
0,70532
0,70243
Decision Rules
537/1 , 1833/1 , 2641/2 , 4049/2
1454/1 , 2641/1 , 4049/1
2641/1 , 3264/1 , 4049/1
435/1 , 2641/2 , 4049/2 , 6800/1
2266/1 , 2641/2 , 4049/2
2266/1 , 2641/2 , 2724/1 , 4049/2
2266/1 , 2641/2 , 3264/1 , 4049/2
2641/2 , 3264/1 , 4049/2 , 4446/1
435/1 , 2641/2 , 2895/1 , 4049/2
2641/2 , 2724/1 , 3862/1 , 4049/2
P
34
34
34
34
34
34
34
34
34
34
Name of gene Weight
2641/1 , 4049/1
2641/1
33
32
Zagoruiko N., Borisova I., Dyubanov V., Kutnenko O.
Best features
SVM
FRiS
803,4846
30(88%)
33(97%)
27(79%)
30(88%)
4846
Jeffery I., Higgins D., Culhane A.: Comparison and evaluation of methods for generating differentially
expressed gene lists from microarray data, BMC Bioinformatics, 2006, 7:359.
(http://www.biomedcentral.com/1471-2[9]5/7/359)
10 методов выбора * 4 типа реш. правил
•
•
•
•
•
•
•
•
•
•
•
Задача
ALL1
ALL2
ALL3
ALL4
Prostate
Myeloma
ALL/AML
DLBCL
Colon
……. 40 решений 9 задач
N0
m1/m2 max of 40
12625 95/33
100.0
12625 24/101
78.2
12625 65/35
59.1
12625 26/67
82.1
12625 50/53
90.2
12625 36/137
82.9
7129 47/25
95.9
7129 58/19
94.3
2000 22/40
88.6
average
85.7
GRAD
100.0
80.8
73.8
83.9
93.1
81.4
100.0
93.5
89.5
88.4
Jeffery I., Higgins D., Culhane A.: Comparison and evaluation of methods for generating differentially
expressed gene lists from microarray data, BMC Bioinformatics, 2006, 7:359.
(http://www.biomedcentral.com/1471-2[9]5/7/359)
10 методов выбора * 4 типа реш. правил
•
•
•
•
•
•
•
•
•
•
•
Задача
ALL1
ALL2
ALL3
ALL4
Prostate
Myeloma
ALL/AML
DLBCL
Colon
……. 40 решений 9 задач
N0
m1/m2 max of 40 GRAD New
12625 95/33
100.0 100.0 99.8
12625 24/101
78.2 80.8 86.6
12625 65/35
59.1 73.8 81.9
12625 26/67
82.1 83.9 87.4
12625 50/53
90.2 93.1 92.6
12625 36/137
82.9 81.4 86.8
7129 47/25
95.9 100.0 98.5
7129 58/19
94.3 93.5 95.7
2000 22/40
88.6 89.5 90.4
average
85.7 88.4 91.1
Рейтинг методов выбора
Methods of feature selection
Rating
Fold change
Between group analysis
Analysis of variance (ANOVA)
Significance analysis of microarrays
Rank products
Welch t-statistic
Template matching
Area under the ROC curve
maxT
Empirical Bayes t-statistic
FRiS-GRAD
47
43
43
42
42
39
38
37
37
32
12
Рейтинг решающих правил
Решающее правило
Рейтинг
Between group analysis (BGA)
35
K-nearest neighbours (kNN)
32
Naïve bayes classification (NBC)
25
Support vector machines (SVM)
19
FRiS-Stolp
12
Цензурирование выборки
FRiS-Censor
1.Строятся столпы. Оценивается компактность С0
2.Выбираются кандидаты на исключение (m<4).
3. Кластеры исключаются по одному и
вычеркивается тот, без которого C* max

M 
 C1 *C 2
H  
4.Оценивается результат
 M 
5. Цикл пп 3-4
6. Остановка в точке перегиба Н
Цензурирование выборки
k=27
k=6
D=12.7%
Надежность Р распознавания
до цензурирования – 1, и после -2
1000 эксп.
Ошибок: 8.4%
4.1%
Заключение
FRiS-функция:
Унифицирует подходы и методы CDA
Позволяет количественно оценивать
относительную меру сходства, компактность и
информативность
Обеспечивает инвариантность к параметрам задач
(законам распределения, отношению M:N)
Обеспечивает прозрачность процесса решения и
результатов
Качество решений не уступает качеству,
получаемому другими методами
http://math.nsc.ru/~wwwzag/
• Загоруйко Н.Г.
Когнитивный анализ данных.
Академическое издание ГЕО,
Новосибирск, 2013 г.
Спасибо!
• Вопросы, please?
Программа FRiS-GRAD
• OOO Экспософт
• expasoft.ru
• Дюбанов Владимир Владимирович
Заполнение пробелов
FRiS-ZET
j
i
bij
…
k
bik
…
l
m
n
j
i
…
k
bij
bik
blj
blk
…
blj
blk
l
m
n
Прогноз книжной торговли
1, 2…. 1856
Обуч
2394
Контр
2418
1,2 ...8
19152
19344 ?
618 команд из 42 стран
№
1
2
3
4
5
6
7
8
9
Teams
Uni Karlsruhe TH_ II
TU Dortmund
TU Dresden
Novosibirsk State University
KTH Royal Institute of Technol.
University of Southampton
University of Central Florida
Indian Institute of Technology
University of Edinburgh
231 решение
Score
17260
17912
18163
18353
21195
25694
26254
28517
45096
Скачать