Коломиец Э.И. Линейные классификаторы

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«САМАРСКИЙ ГОСУДАРСТВЕННЫЙ АЭРОКОСМИЧЕСКИЙ
УНИВЕРСИТЕТ имени академика С.П.КОРОЛЕВА
(НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)»
Линейные классификаторы
Электронные методические указания
к лабораторной работе № 3
САМАРА
2010
2
Составители:
КОЛОМИЕЦ Эдуард Иванович,
МЯСНИКОВ Владислав Валерьевич
В лабораторной работе № 3 по дисциплине «Математические методы распознавания
образов и понимания изображений» изучаются методы построения линейных
классификаторов, основанные на критериях минимума суммарной вероятности ошибочной
классификации, минимума среднеквадратической ошибки решения, максимума критерия
Фишера, а также базирующиеся на методе стохастической аппроксимации.
Методические указания предназначены для магистров направления 010400.68
“Прикладная математика и информатика”, обучающихся по программе «Математические и
компьютерные методы обработки изображений и геоинформатики».
3
Цель работы - изучение теоретических основ и экспериментальное исследование
методов построения линейных классификаторов для распознавания образов.
1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЛАБОРАТОРНОЙ РАБОТЫ
1.1. Постановка задачи построения линейного классификатора
Классификатор называется линейным, если его дискриминантная функция
является линейной, то есть допускает представление в следующем виде:
T
d ( x ) = W x + wN
где
x = (x0 ,..., x N −1 )T
(1)
- вектор признаков, который определяет образ объекта,
подлежащего классификации, W = (w0 ,..., wN −1 )T - вектор весовых коэффициентов
классификатора, w N - пороговое значение. При этом процесс принятия решения о
номере класса текущего объекта производится в соответствии со следующим
правилом:
N −1
( ) ∑ wi xi + wN <> 0
d x =
i =0
⇒
Ω 0
X ∈
 Ω1
(2)
Задача синтеза линейного классификатора заключается в поиске вектора
коэффициентов W и порогового значения wN оптимальным в каком-либо смысле
образом.
Известно [4,5,7], что байесовский классификатор в случае нормальных
распределений с равными корреляционными матрицами является линейным. Однако
часто равенство корреляционных матриц является неприемлемым предположением,
и, более того, возникает необходимость построения линейного классификатора
вообще отказываясь от нормальности распределений.
1.2. Линейный классификатор, минимизирующий суммарную вероятность
ошибочной классификации
( )
Предположим, что случайная величина d X
вектора X )
распределена
по
нормальному
или
(как функция случайного
близкому
к
нему
закону
4
распределения в каждом из классов Ω 0 и Ω1 . В этом случае для вычисления
вероятностей ошибок достаточно знать лишь математические ожидания и дисперсии
( )
случайной величины d X в каждом из классов.
Действительно, параметры одномерных нормальных распределений случайной
( )
величины d X имеют вид:
(( ) )
T
(
)
(( ) )
T
ml = M d X Ω l = W M l + wN , σ l2 = D d X Ω l = W Bl W , l = 0,1 ,
(3)
где
M l = M X Ωl ,
(
)
Bl = M ( X − M l )(X − M l )
T
Ω l , l = 0,1
- вектор математических ожиданий и корреляционная матрица случайного вектора
X , соответственно. В силу же (2) вероятности ошибочной классификации первого и
второго рода [4,8] записываются следующим образом:
0
p1 =
∫ f d (u Ω1 )du ,
−∞
где
(
) (l = 0,1)
f d (u Ω l ) ~ N ml , σ2l ,
p0 =
∞
∫ f d (u Ω0 )du ,
(4)
0
- плотности вероятностей нормального закона
распределения с соответствующими параметрами.
Зададим критерий оптимальности линейной дискриминантной функции в виде:
R = P (Ω 0 ) p0 + P (Ω1 ) p1 → min ,
(5)
W , wN
где P (Ω 0 ), P (Ω1 ) - априорные вероятности появления объектов классов Ω 0 и Ω1 ,
соответственно. Критерий (5), таким образом, определяет оптимальную линейную
дискриминантную функцию, которая дает минимальное значение суммарной
вероятности ошибочной классификации.
С учетом (4) показатель качества критерия (5) может быть переписан в
следующем виде:
R = P (Ω 0 )
−
∞
∫
m0
σ0
−
m1
σ1
 u2 
1
du + P (Ω1 ) ∫
exp −
 2 
2π


−∞
 u2 
1
du .
exp −
 2 
2π


(6)
Необходимым условием минимума показателя (6), как известно, является
5
равенство нулю его частных производных по W и wN :

 m 2  ∂  m0 
 m 2  ∂  m1 
∂R
1
1
 −
 + P (Ω1 )
−
,
= − P (Ω 0 )
exp − 0  ⋅
exp − 1  ⋅
0 =
 2σ 2  ∂W  σ1 
 2σ 2  ∂W  σ 0 
∂W
2π
2π
0

1 



 m02  ∂  m0 
 m12  ∂  m1 

∂R
1
1


−
⋅


−
.
(
)
(
)
0
=
=
−
P
Ω
exp
−
⋅
−
+
P
Ω
exp
0
1



2
2

 ∂w N  σ1 


∂
w
∂
w
σ
2π
2
π
2
σ
2
σ

N
N
0


0
1 


(7)
Подставляя в (7) выражения для частных производных
∂
∂W
 ml
 −
 σl
T

M l W Bl ml
∂
 = −
,
+
3
∂w N
σl
σl

 ml 
1
 −
 = − , l = 0,1 ,
σl
 σl 
окончательно получим следующую систему уравнений:

 m 2 

 m 2 

T
T
m
1
m
1
exp − 12  M 1 − 21 W B1  = P (Ω 0 )
exp − 02  M 0 − 20 W B0 ,
 P (Ω1 )
 2σ 

 2σ 

2πσ1
2 πσ 0
σ1
σ0

1 
0 



 (8)

2
2
 m 
 m 
1
1

P (Ω1 )
exp − 12  = P (Ω 0 )
exp − 02 .
 2σ 
 2σ 

2πσ1
2 πσ 0
1 
0



При выполнении второго равенства в (8) первое уравнение системы можно
переписать в виде:
m

m
M 1 − M 0 =  21 B1 − 20 B0 W .
σ0 
 σ1
(9)
Решение уравнения (9) может быть получено с помощью следующей итеративной
процедуры (процедура Петерсона-Матсона):
(
)
W = [sB0 + (1 − s ) B1 ]−1 M 1 − M 0 ,
(10)
где
−
s=
Из выражения для
s
m0
σ 02
, 0 ≤ s ≤1
m1 m0
−
σ12 σ 02
следует справедливость равенства sσ02 m1 + (1 − s )σ12 m0 = 0 ,
откуда, учитывая соотношения (3), получаем выражение для w N :
6
T
wN = −
T
sσ 02 M 1 + (1 − s )σ12 M 0
sσ 02 + (1 − s )σ12
(11)
W
С использованием выражений (10) и (11) для W и wn можно построить график
зависимости суммарной вероятности ошибочной классификации R от единственного
параметра s
(0 ≤ s ≤ 1)
и в качестве окончательного ответа принять то значение
параметра, при котором R( s ) имеет минимум. Пример подобного решения приведен
на рис.1.
s = 0.5
s = 0.2
0,3
R
0,25
s = 0.8
0,2
0,15
0,1
0,05
0
s
0
0,2
0,4
0,6
0,8
1
Рис.1. Построение линейного классификатора, минимизирующего суммарную
вероятность ошибочной классификации.
1.3. Обобщенная формула построения линейных классификаторов
для различных критериев. Классификатор Фишера
Изложенный выше подход построения линейного классификатора можно
обобщить следующим образом. Рассмотрим некоторый критерий
f ( m0 , m1 , σ02 , σ12 ) ,
экстремум которого соответствует оптимальному набору параметров линейной
дискриминантной функции. Тогда справедливы следующие соотношения:

0 =



0 =

∂f ∂σ12
∂f ∂σ 02
∂f ∂m1
∂f ∂m0
∂f
=
⋅
+
⋅
+
⋅
+
⋅
,
∂W ∂σ12 ∂W ∂σ 02 ∂W ∂m1 ∂W ∂m0 ∂W
∂f
∂f ∂σ12
∂f ∂σ 02
∂f ∂m1
∂f ∂m0
=
⋅
+
⋅
+
⋅
+
⋅
.
2
2
∂wN ∂σ1 ∂w N ∂σ 0 ∂w N ∂m1 ∂wN ∂m0 ∂w N
Из соотношений (3) следует, что
(12)
7
∂σ l2
= 2 Bl W ,
∂W
∂σ l2
= 0,
∂wN
∂ml
= Ml ,
∂W
∂ml
= 1, l = 0,1 .
∂wN
Подставляя эти выражения для частных производных в (12), окончательно получаем
следующую общую систему уравнений:
  ∂f

∂f
∂f
,
2  2 ⋅ B0 + 2 ⋅ B1 W = M 0 − M 1
∂m1
  ∂σ 0
∂σ1


∂f
 ∂f
 ∂m = − ∂m .
1
 0
(
)
(13)
Задавая конкретный вид критерия f ( m0 , m1 , σ 02 , σ12 ) , из (13) можно определить вектор
весовых коэффициентов W и пороговое значение w N линейной дискриминантной
функции, оптимальные в смысле этого критерия.
Классификатор Фишера
Выберем в качестве критерия f ( m0 , m1 , σ 02 , σ12 ) функцию вида:
f
(
m1 − m0 )2
=
.
σ12 + σ 02
(14)
Критерий (14) называется критерием Фишера и представляет собой меру отличия
значений линейной дискриминантной функции в классах Ω1 и Ω 0 . Для наилучшего
разделения классов необходимо определить W и w N , которые доставляли бы этому
критерию максимум. Получаемый при этом линейный классификатор называется
классификатором Фишера.
Подставляя выражение (14) в общую систему уравнений (13) и игнорируя
масштабный множитель линейной функции, получим следующее выражение для
вектора весовых коэффициентов дискриминантной функции:
1

W =  (B1 + B2 )
2

Выражение (10) совпадает с
−1
(M 1 − M 0 )
(15)
(15) при значении параметра s = 0.5 . Делая
подстановку этого значения s в (11), получим выражение для порогового значения
дискриминантной функции wN :
8
(M 1 − M 0 )
−1
T1
wN = −

 (B1 + B0 )
2

2
σ1 + σ 02
(σ12 M 0 + σ02 M 1 )
.
(16)
Примечание.
Для ситуации равных корреляционных матриц B ≡ B1 = B0 выражения (15) и
(16) преобразуются к следующим:
(
)
W = B −1 M 1 − M 0 ,
wN = −
(
1
M1 − M 0
2
)T B −1 (M 0 + M 1 ).
(15’)
(16’)
Из (15’) и (16’) классификатор Фишера совпадает с байесовским классификатором
для нормального закона распределения с равными корреляционными матрицами и
равными априорными вероятностями классов:
(
d (x ) = M 1 − M 0
)T B −1 x − 12 (M 1 − M 0 )T B −1 (M 0 + M 1 ).
Пример классификатора Фишера приведен на рис.2.
а) равные корреляционные матрицы
б) неравные корреляционные матрицы
Рис.2. Классификатор Фишера
9
1.4. Линейный классификатор, минимизирующий СКО решения
При
нахождении
линейной
разделяющей
функции,
минимизирующей
суммарную вероятность ошибочной классификации предполагалось, что в классах
( )
Ω1 и Ω0 случайная величина d X имеет нормальный закон распределения. Метод,
основанный на минимизации среднеквадратического отклонения (СКО) решения
позволяет получить аналогичные результаты без этого предположения.
Пусть при построении классификатора нам для наблюдения доступен набор из
K значений векторов–реализаций x 1 ,..., x K
случайного вектора признаков
X,
относительно каждого из которых известно, какому из классов Ω1 и Ω0 он
принадлежит. В этом случае говорят, что задана обучающая выборка.
Примем далее следующие обозначения.
• Введем
в
рассмотрение
новый
вектор
z = ( z0 ,..., z N −1 ,1)T ,
формируемый
следующим образом. Для объектов класса Ω1 вектор z = ( x0 ,..., x N −1 , 1)T , а для
объектов класса Ω0 z = ( − x0 ,...,− x N −1 , − 1)T .
• Дополним вектор весовых коэффициентов значением пороговой величины, то есть
перейдем к пополненному вектору весовых коэффициентов:
W = ( w0 ,..., wN −1 , wN )T ,
Проведение таких преобразований позволяет записать линейную разделяющую
функцию в виде:
d (z) = W T z .
Построение классификатора при этом сводится к определению пополненного вектора
коэффициентов W так, чтобы для любых известных векторов z
справедливо неравенство:
k
(k = 1, K )
T
d (z) = W z ≥ 0 .
было
(17)
Обозначим γ (z ) наилучшую разделяющую функцию, то есть такую функцию, значения
которой
можно
дискриминантной
рассматривать
в
качестве
требуемого
выхода
функции. Как правило γ (z ) не известна, но
идеальной
ее можно
предположительно определить на основе обучающей выборки из условия (17).
Например, можно взять γ (z ) ≡ 1 , что соответствует случаю, когда на основе
обучающей выборки определяется переменная правильной классификации:
10
− 1, x ∈ Ω 0
r( x ) = 
 1, x ∈ Ω1
(18)
СКО между требуемым и действительным значением разделяющей функции
определяется выражением:
()
T
ε = M  γ Z − W Z 


2
2
(19)
(здесь математическое ожидание соответствует распределению случайного вектора
Z ). Если вместо математического ожидания используется среднее по обучающей
выборке, то имеем:
ε2 =
(
1
K
K
( )
(
)
2
W T z k − γ z k  = 1 W T U − Γ  ⋅ U T W − Γ ,
∑


N
k =1
(20)
)
где U = z 1 , z 2 , K z K - матрица выборочных данных, а Γ = (γ (z1 ),..., γ (z N ))T - вектор
требуемых значений выхода. Дифференцируя выражение (20) по пополненному
вектору коэффициентов и приравнивая частные производные нулю, получим
следующее выражение для W :
(
W = UU T
)−1UΓ .
Пример классификатора, минимизирующего СКО решения, приведен на рис.3.
а) равные корреляционные матрицы
б) неравные корреляционные матрицы
Рис.3. Линейный классификатор, минимизирующий СКО решения
11
1.5. Последовательная корректировка линейного классификатора
Рассмотрим алгоритм, использование которого для расчета вектора параметров
линейного классификатора не требует запоминания одновременно всех векторов
признаков. Вместо этого в памяти ЭВМ следует хранить только текущие оценки
параметров, которые обновляются всякий раз при поступлении очередного вектора
наблюдений. Система распознавания такого типа носит название перцептрон, а
процесс ее итерационной настройки – обучение. Основное преимущество подобных
алгоритмов в том, что они позволяют использовать бесконечное число наблюдений,
располагая конечным объемом памяти.
Итак, пусть решается задача распознавания объектов двух классов, заданных
своими пополненными векторами признаками:
x = ( x0 , x1 ,K, x N −1 , 1)T .
Предположим, что в качестве дискриминантной функции выбрана линейная, и
классификатор работает в соответствии со следующим правилом:
T
d (x) = W x =
N
<
∑ wi xi > 0
i =0
Ω
⇒ x∈ 0 ,
 Ω1
где W = (w0 , w1 , K, wN −1 , wN )T - пополненный вектор весовых коэффициентов.
1.5.1. Алгоритм перцептрона
Пусть
{x k }kK=1 - обучающая выборка объемом
K. Обозначим x (k ) - элемент
выборки, используемый на k-ом шаге алгоритма настройки, W (k ) - оценка искомого
вектора W на k-ом шаге алгоритма.
Классический алгоритм обучения перцептрона, предложенный Розенблатом в
[5], выглядит следующим образом:
W ( k ) ,
x ( k ) ∈ Ω1 и W T (k )x ( k ) > 0 или

W ( k + 1) = W ( k ) + cx (k ) , x ( k ) ∈ Ω1 и W T (k ) x ( k ) < 0,
W ( k ) - cx (k ), x ( k ) ∈ Ω и W T (k ) x (k ) > 0.
0

x ( k ) ∈ Ω 0 и W T (k )x ( k ) < 0,
Выбор параметра с в алгоритме обучения перцептрона производится в соответствии
с одним из нижеследующих правил.
12
Правило1. Правило фиксированного приращения
Выбирается произвольное постоянное значение с>0.
Правило2. Правило полной коррекции
Значение параметра с выбирается таким, чтобы текущий вектор признаков
был проклассифицирован верно. А именно:
c>
W T (k )x ( k )
x T (k )x ( k )
.
В этом случае параметр c является переменным: c = c (k ) .
Правило 3. Градиентное правило коррекции
Данное правило используется, если качество линейной дискриминантной
функции
определяется
максимизацию
некоторым
которого
функционалом
необходимо
минимизацию
J (W ) ,
произвести
в
процессе
или
настройки
классификатора. Экстремум функционала может быть найден, если двигаться вдоль
градиента функции качества, то есть использовать градиентное правило коррекции
коэффициентов:
W (k + 1) = W (k ) − ρ
∂J (W )
,
∂W W =W (k )
где ρ > 0 - параметр градиентного алгоритма. Например, при минимизации СКО,
когда
J (W ) =
(
)
2
1
γ (x ) − W T x ,
2
алгоритм обучения выглядит следующим образом:
(
)
W (k + 1) = W (k ) + ρx (k ) γ (x (k )) − W T (k )x (k ) .
В этом случае параметр c, очевидно, равен:
(
)
c = −ρ γ ( x (k )) − W T (k )x (k )
и также, как и в предшествующем случае, зависит от k: c = c (k ) .
13
Примечание
Алгоритм обучения перцептрона сходится за конечное число итераций (то есть
строится
классификатор,
безошибочно
классифицирующий
все
элементы
выборочных данных), если классы являются линейно разделимыми (см. рис.4). В
противном случае алгоритм обучения зацикливается.
б) линейно неразделимые классы
а) линейно разделимые классы
Рис.4. Иллюстрация линейной разделимости классов
1.5.2. Стохастическая аппроксимация. Процедура Роббинса-Монро
Алгоритм обучения перцептрона не сходится, если классы, заданные
обучающими выборками, не являются линейно разделимыми. Этот факт выдвигает
задачу построения алгоритма оценивания вектора коэффициентов линейной
разделяющей функции W , сходимость которого была бы гарантирована всегда. Такой
алгоритм может быть построен с помощью метода стохастической аппроксимации.
Идея метода состоит в том, что критерий J (W ) рассматривают как функцию
( )
(
)
(
регрессии вида: J W = MF W , X , где F W , X
наблюдаемого в случайной точке X
)
- значение функционала качества,
. Метод стохастической аппроксимации
позволяет определять по результатам наблюдений корень следующего уравнения,
называемого уравнением регрессии:
M
∂F (W , X )
≡ Mh (W , X ) = 0 .
∂W
14
Процедура Роббинса-Монро
Процедура Роббинса-Монро – это итеративная процедура поиска корня
~
уравнения регрессии. Обозначим W (1) произвольную начальную оценку корня W и
W (k ) - оценку этого корня, полученного на k-ом шаге итерации. Тогда решение
уравнения регрессии может быть получено в результате следующего итерационного
процесса:
W (k + 1) = W (k ) − α k h(W (k ), X ( k )) ,
(21)
где α k - элемент последовательности положительных чисел, удовлетворяющий
следующим условиям:
∞
lim α k = 0 ,
∑ αk = ∞ ,
k →∞
k =1
∞
∑ αk2 < ∞ .
(22)
k =1
Утверждение [8]: Если последовательность {αk }∞
k =1 удовлетворяет условиям (22) и
~
выполнены некоторые дополнительные условия, то оценка (21) сходится к корню W
в среднеквадратическом и с вероятностью равной единице, то есть
(
~
lim M W (k ) − W
k →∞
Примером
последовательности,
) = 0,
2
(
)
~
lim P W (k ) = W = 1
k →∞
удовлетворяющей
условиям
(22),
является
последовательность {αk }k∞=1 с
αk =
1
k
,
β
1
< β ≤ 1.
2
1.5.3. Общая схема построения линейных классификаторов,
основанная на методе стохастической аппроксимации
Зададимся критерием J (W ) вида:
J (W ) = MF (W T X − γ ( X ))
где F (K) - некоторая выпуклая функция (например, модуль), γ ( X ) - требуемый выход
разделяющей функции. После дифференцирования по W получим:
15
T
∂F W X − γ ( X ) 
∂J (W )

 = 0.
=M
∂W
∂W
Полученное уравнение является уравнением регрессии. Воспользовавшись теперь
процедурой Роббинса-Монро, можно получить последовательность оценок вектора
коэффициентов линейного классификатора, положив:
( )
T
∂F W X − γ X 


h W (k ), X (k ) =
∂W
(
)
W =W ( k ), X = X (k )
и записав алгоритм в виде:
( )
T
∂F W X − γ X 


W (k + 1) = W (k ) − α k
∂W
W =W ( k ), X = X (k )
где начальный вектор W (1) выбирается произвольно, а последовательность {α k }∞
k =1
удовлетворяет условиям (22). Рассмотрим два из возможных алгоритмов, основанных
на методе стохастической аппроксимации.
Алгоритм корректирующих приращений (АКП-алгоритм)
В АКП–алгоритме критерий качества классификатора задается в виде:
J (W ) = M r ( X ) − W T X ,
где
 1, X ∈ Ω1
r( X ) = 
 − 1, X ∈ Ω 0
- случайная переменная правильной классификации.
Поскольку производная критерия:
( )
(
)
∂J W
= − M X sgn r ( X ) − W X ,
∂W
то в соответствии с общей схемой получаем следующий алгоритм настройки
коэффициентов линейной дискриминантной функции:
(
)
W (k + 1) = W (k ) + α k x (k )sgn r ( x (k )) − W T (k )x (k ) .
Алгоритм можно переписать также в более наглядном виде:
16
W (k ) + α k x (k ), r ( x (k )) ≥ W T ( k ) x (k ),
W (k + 1) = 
T
W (k ) − α k x (k ), r (x (k )) < W ( k ) x (k ).
Очевидно,
полученный
алгоритм
корректирует
текущую
оценку
вектора
коэффициентов на каждом шаге.
В случае линейной разделимости классов АКП-алгоритм сходится к точному
решению, то есть получающийся в результате классификатор все векторы признаков
обучающей выборки классифицирует верно. В случае, когда классы линейно
разделимыми не являются, в пределе получается решение, оптимальное в смысле
минимизации абсолютной величины его расхождения с переменной правильной
классификации.
Алгоритм наименьшей СКО (НСКО-алгоритм)
В НСКО–алгоритме критерий качества классификатора имеет вид:
J (W ) =
T
1
M (r( X ) − W X )2
2
Поскольку производная критерия:
( )
(
)
∂J W
= − M X r( X ) − W X ,
∂W
то в этом случае имеется следующий алгоритм настройки коэффициентов линейного
классификатора:
(
)
W (k + 1) = W (k ) + α k x (k ) r ( x (k )) − W T (k )x (k ) .
Аналогично АКП-алгоритму, в НСКО-алгоритме коррекции также производятся на
каждом шаге. Отличие заключается только в величине этих коррекций. Для линейно
неразделимых классов алгоритм сходится в смысле минимизации величины СКО
между решением и переменной правильной классификации.
Проблемы алгоритмов и способы их разрешения
Одной
из
основных
проблем
алгоритмов
построения
линейных
классификаторов на основе метода стохастической аппроксимации является очень
медленная скорость сходимости. Основные приемы, используемые для ускорения
сходимости следующие:
17
• выбор медленно убывающей последовательности {α k }∞
k =1 ,
(
)
• изменение значения αk , если только величина r ( x (k )) − W T (k )x (k ) на соседних
итерациях изменила знак,
• использование «перцептронного приема», при котором коррекция вектора
коэффициентов
производится
только
в
случае
неверной
классификации
поступившего вектора признаков.
2. ЛИТЕРАТУРА
1. Анисимов Б.В., Курганов В.Д., Злобин В.К. Распознавание и цифровая обработка
изображений. - М.: Высшая школа, 1983. - 295 с.
2. Горелик А.Л., Скрипкин В.А. Методы распознавания. - М.: Высшая школа, 1984. 208с.
3. Дуда Р., Харт П. Распознавание образов и анализ сцен: Пер. с англ. - М.: Мир,
1976. - 512 с.
4. Коломиец Э.И.,
Мясников В.В.
Байесовская
классификация:
Методические
указания к лабораторной работе № 2 по курсу «Методы распознавания образов».
5. Розенблатт Ф. Принципы нейродинамики. – М.: Мир., 1965.
6. Ту Дж., Гонсалес Р. Принципы распознавания образов: Пер. с англ. - М.: Мир,
1978. - 412с.
7. Фомин Я.А., Тарловский Г.Р. Статистическая теория распознавания образов. – М.:
Радио и связь, 1986. – 264с.
8. Фукунага К. Введение в статистическую теорию распознавания образов: Пер. с
англ. - М.: Наука, 1979. - 368с.
18
3. ПОРЯДОК ВЫПОЛНЕНИЯ ЛАБОРАТОРНОЙ РАБОТЫ
3.1. Исходные данные
два файла данных, полученных в процессе выполнения лабораторной работы №1 и
содержащих наборы двумерных нормально распределенных векторов признаков
для ситуации равных корреляционных матриц; параметры этих законов
распределения; параметры байесовского классификатора для ситуации равных
корреляционных матриц из лабораторной работы №2;
два файла данных, полученных в процессе выполнения лабораторной работы №1 и
содержащих наборы двумерных нормально распределенных векторов признаков
для ситуации неравных корреляционных матриц; параметры этих законов
распределения; параметры байесовского классификатора для ситуации неравных
корреляционных матриц из лабораторной работы №2;
исполняемые в системе MathCad файлы, необходимые при выполнении
лабораторной работы: Lab3.mcd (предоставляются преподавателем).
3.2. Общий план выполнения работы
1. Построить линейный классификатор, максимизирующий критерий Фишера, для
классов Ω 0 и Ω1 двумерных нормально распределенных векторов признаков для
случаев равных и неравных корреляционных матриц. Сравнить качество
полученного классификатора с байесовским классификатором.
2. Построить линейный классификатор, минимизирующий среднеквадратичную
ошибку, для классов Ω 0 и Ω1 двумерных нормально распределенных векторов
признаков для случаев равных и неравных корреляционных матриц. Сравнить
качество полученного классификатора с байесовским классификатором и
классификатором Фишера.
3. Построить линейный классификатор, основанный на процедуре Роббинса-Монро,
для классов Ω 0 , и Ω1 двумерных нормально распределенных векторов признаков
для
случаев
зависимость
равных
скорости
и
неравных
сходимости
корреляционных
итерационного
матриц.
процесса
Исследовать
и
качества
классификации от выбора начальных условий и выбора последовательности
корректирующих
коэффициентов.
Сравнить
классификатора с байесовским классификатором.
качество
полученного
19
3.3. Содержание отчета
Отчет по работе должен содержать:
1. Аналитические выражения для классификаторов, полученных в результате
выполнения пп.1-2, и графическое изображение соответствующих им решающих
границ вместе с элементами обучающих выборок.
2. Параметры классификатора, полученного в результате выполнения п.3 и его
графическое изображение.
3. Вероятности ошибочной классификации построенных в пп.1-3 классификаторов,
найденные
экспериментально.
Результаты
сравнения
построенных
классификаторов с байесовским классификатором.
4. Графическая
иллюстрация
классификатора
с
работы
помощью
итерационного
процедуры
процесса
построения
Роббинса-Монро;
результаты
исследования скорости сходимости этого процесса и качества классификации в
зависимости от начальных условий и последовательности корректирующих
коэффициентов.
4. КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Процедура Петерсона-Матсона построения линейной дискриминантной функции,
минимизирующей суммарную вероятность ошибочной классификации.
2. Классификатор Фишера.
3. Линейная разделяющая функция, минимизирующая СКО решения.
4. Алгоритм перцептрона.
5. Стохастическая аппроксимация. Идея метода.
6. Процедура Роббинса-Монро.
7. Схема построения линейных классификаторов, основанная на методе
стохастической аппроксимации.
8. АКП-алгоритм.
9. НСКО-алгоритм.
10. Способы
ускорения
сходимости
алгоритмов
построения
линейных
классификаторов, основанных на методе стохастической аппроксимации.
20
СОДЕРЖАНИЕ
1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЛАБОРАТОРНОЙ РАБОТЫ ....................................... 3
1.1. Постановка задачи построения линейного классификатора .................................. 3
1.2.
Линейный
классификатор,
минимизирующий
суммарную
вероятность
ошибочной классификации ............................................................................................... 3
1.3. Обобщенная формула построения линейных классификаторов для различных
критериев. Классификатор Фишера ................................................................................. 6
1.4. Линейный классификатор, минимизирующий СКО решения ............................... 9
1.5. Последовательная корректировка линейного классификатора.............................. 9
1.5.1. Алгоритм перцептрона ...................................................................................... 11
1.5.2. Стохастическая аппроксимация. Процедура Роббинса-Монро. ................... 13
1.5.3. Общая схема построения линейных классификаторов,
основанная на
методе стохастической аппроксимации. ................................................................... 14
2. ЛИТЕРАТУРА.................................................................................................................. 17
3. ПОРЯДОК ВЫПОЛНЕНИЯ ЛАБОРАТОРНОЙ РАБОТЫ..................................... 18
3.1. Исходные данные ...................................................................................................... 18
3.2. Общий план выполнения работы ............................................................................ 18
3.3. Содержание отчета ................................................................................................... 19
4. КОНТРОЛЬНЫЕ ВОПРОСЫ ......................................................................................... 19
Download