Бериков В. Б. Байесовская модель распознавания по конечному

реклама
Знания-Онтологии-Теории (ЗОНТ-09)
Байесовская модель распознавания по
конечному множеству событий и ее применение
в задачах классификации и прогнозирования
Бериков В.Б.1
Институт математики им. С.Л.Соболева СО РАН, пр. Коптюга, 4, 630090, Новосибирск, Россия.
1
[email protected]
Аннотация. Рассматривается байесовская модель распознавания образов по конечному множеству
событий, которая применяется при решении задач классификации и прогнозирования с
использованием логических функций. В рамках модели вводится понятие ожидаемого количества
информации, содержащегося в выборке, приводится аналитическое выражение для вычисления
данной величины. Рассматривается также задача прогнозирования порядковой переменной; с
помощью байесовской модели находится апостериорное математическое ожидание риска.
Найденные выражения могут использоваться как критерии качества логических решающих
функций.
Ключевые слова: распознавание
информационный критерий
образов,
прогнозирование,
байесовская
модель,
1 Введение
При обработке информации в различных трудноформализуемых областях исследований (генетике,
археологии, медицине и т.д.) возникает проблема решения задач анализа данных, характеризующихся
следующими особенностями: недостаточностью знаний об изучаемых объектах, что затрудняет
формулировку их математических моделей; требованием представления результатов анализа в форме,
понятной специалисту прикладной области. Одними из наиболее перспективных методов решения
такого рода задач являются методы, основанные на классе логических решающих функций (ЛРФ) [1].
Часто используемая форма представления ЛРФ – дерево решений.
Проблема построения решающих функций, обладающих минимальным риском ошибочного
прогноза, является одной из важнейших при решении прикладных задач как методами, основанными
на ЛРФ, так и другими методами анализа данных. Известно, что сложность класса решающих
функций является существенным фактором, влияющим на качество решений. Для наилучшего
качества должен достигаться определенный компромисс между сложностью класса и эмпирическим
риском на обучающей выборке. Таким образом, возникает проблема выбора оптимальной сложности
класса.
Этой проблеме посвящены работы многих известных авторов (В.Н. Вапник, А.Я. Червоненкис,
Ш.Раудис, H.Akaike, O.Bousquet, L.Breiman, W.Buntine, P.Grunwald, L.Valiant и др.). Однако эта
проблема, в силу ее сложности, еще далека от решения.
Ранее в работах [2,3] был предложен подход к построению оптимальных по сложности логических
функций, основанный на байесовской модели распознавания. В отличие от других подходов,
предлагаемый не ориентирован на наиболее ”неблагоприятное” распределение и на асимптотический
случай; позволяет учитывать экспертные знания о решаемой задаче. В данной работе
рассматриваются некоторые свойства модели, связанные с информационным критерием качества
логической функции, а также с задачей порядковой регрессии.
2 Основные обозначения
Пусть определена генеральная совокупность  объектов, которые входят в круг интересов
исследователя. Предположим, что каждый объект можно описать набором переменных
X 1 … X j … X n . Множество всевозможных значений, которые может принимать X j , обозначим через
D j . Набор X  ( X1  X n ) может содержать как количественные, так и качественные переменные.
Множество всевозможных значений, которые может принимать X , обозначим DX  D1 … Dn . Для
произвольного объекта
набор наблюдений его характеристик – это набор
a 
X (a)  x  ( x1 … x j … xn ) , где x j  X j (a ) обозначает значение характеристики X j для объекта a .
Дополнительно к набору X определена целевая (предсказываемая) переменная Y . Множество
значений Y обозначим через DY . Будем полагать, что переменные X  Y – случайные.
Предположим, что на множестве DZ  DX  DY задана вероятностная мера p( Z ) (закон
распределения величины Z  ( X  Y ) ). Если переменная Y – качественная, то задачу предсказания ее
значения по произвольному набору значений X назовем задачей распознавания образов. В этом
случае DY  { (1) …  ( K ) } , где K  2 – число образов. Далее, для удобства, закодируем образы через
соответствующие им номера.
Отображение f  DX  DY называется решающей функцией. Пусть  0 – множество
всевозможных решающих функций. Обычно вводится некоторое ограничение на класс решающих
функций, т. е. f   ,    0 .
Предполагается, что задана неотрицательная функция потерь Li  q , возникающих в случае
f ( x)  i , когда истинный класс есть q . Будем называть функцию потерь
индикаторной, если Li i  0 и Li  q  1 при i  q , i q  1… K .
Если перейти на язык теории игр, то можно считать, что природа играет против нас стратегией
  p( x y) из множества  , а мы играем стратегией f из  . Тогда паре (  f ) сопоставляются
ожидаемые потери (риск) при прогнозировании произвольного наблюдения
(1)
R f ( )  EL f ( X )Y   L f ( x ) y dp( z )
принятия решения
DZ
Для индикаторной функции потерь риск совпадает с вероятностью ошибки распознавания.
Оптимальной байесовской решающей функцией назовем такую решающую функцию f B   0 , для
которой выполняется
R fB ( )  inf0 R f ( ) .
f 
Эту функцию можно найти, если известно распределение p( x y ) . Однако в практических задачах
это распределение неизвестно, поэтому решающая функция выбирается из  на основе анализа
выборки наблюдений над X и Y (обучающей выборки).
Будем полагать, что выборка v  ( x ( i )  y ( i ) ) , где x ( i )  X (a ( i ) ) , y (i )  Y (a (i ) ) , i  1… N формируется
в результате случайного независимого отбора некоторых представителей a(i ) совокупности  . Число
N называют объемом обучающей выборки.
Будем называть методом построения решающих функций (методом обучения) некоторую
процедуру  , которая на основе обучающей выборки v и ограничений на класс стратегий природы
 или (и) на класс решающих функций  строит решающую функцию f . Метод  можно
рассматривать как функцию, задающую отображение множества всевозможных выборок V во
множество решающих функций  : f   (v) . Будем полагать, что при построении решающих
функций метод  использует некоторый критерий оптимальности функции f на заданной выборке.
В идеале требуется по обучающей выборке найти такую решающую функцию, для которой риск
минимален. Взамен неизвестного риска может быть использована найденная некоторым способом по
выборке оценка. Как правило, критерий совпадает с оценкой риска. Например, оценка эмпирического
риска основана на замене оператора математического ожидания в (1) усреднением по обучающей
выборке:
1 N
ý
R f (v)   L f ( x( i ) ) y( i ) .
N i 1
Для формулировки метода построения решающих функций необходимо также указать алгоритм
A поиска оптимальной по заданному критерию решающей функции f   .
Логическую решающую функцию можно представить в виде набора высказываний вида
«Если x  E ( m) , то y  Y ( m ) »,
где Y ( m )  DY , E (1) … E ( M ) – разбиение пространства DX ,
E ( m )  E1( m ) 
 En( m ) , E (j m)  D j , E (j m )
есть интервал в случае количественной переменной X j , либо произвольное подмножество значений в
случае номинальной или булевой X j , m  1 2… M , j  1 2… n .
Удобная форма представления логической решающей функции – дерево решений. В дереве
решений (не обязательно дихотомическом) каждой внутренней вершине (узлу) соответствует
некоторая характеристика X j , а ветвям, выходящим из данной вершины соответствует истинность
определенного высказывания вида
« x j  E (ji ) »,
(l )
где i  1… l , l  2 – число ветвей, выходящих из данной вершины, причем набор E (1)
есть
j … E j
разбиение D j . Каждому m -му листу дерева приписывается решение (номер соответствующего
класса) Y ( m ) , m  1 2…M , где M – число листьев дерева.
Цепочке ветвей дерева, ведущих из корневой вершины в m -й лист, можно сопоставить логическое
утверждение вида
(i )
(i )
(i )
И x j  E j qm , то Y  Y ( m ) »,
J ( m)  «Если x j  E j 1 И x j  E j 2 И
1
1
2
2
qm
q
m
где qm – длина данной цепочки.
3 Задание байесовской модели распознавания по конечному
множеству событий
Задача распознавания по конечному множеству событий возникает при рассмотрении
фиксированного разбиения пространства переменных на некоторое число подобластей (под событием
понимается принятие переменными значений из некоторой подобласти). Если ввести новую
переменную, значениям которой соответствуют данные подобласти, то получим случай
распознавания по значениям одной дискретной неупорядоченной переменной. Конечное множество
различных вариантов разбиения можно сформировать, предварительно проведя дискретизацию
исходных количественных переменных. Логические решающие функции определены на разбиениях
пространства переменных и поэтому для них естественен подход, основанный на применении модели
распознавания по конечному множеству событий.
Итак, рассмотрим две дискретные случайные переменные: входную переменную X с множеством
неупорядоченных значений DX  {c1 … cM } , где c j – j -е значение (ячейка) и выходную
переменную Y с множеством неупорядоченных значений DY  {1… K } . Для удобства, закодируем
значения переменной X через номера ячеек.
Пусть p (ji ) - вероятность совместного события « X  j Y  i », при этом выполняется p(ji )  0 ,
j  1… M , i  1… K ,
p
i j
(i )
j
 1 . Обозначим   ( p1(1)  p1(2) … pM( K ) ) .
Каждой решающей функции f из  можно сопоставить ожидаемые потери (риск) при
распознавании произвольного наблюдения
M
K
R f ( )    p (ji ) L f ( j )i 
j 1 i 1
В прикладных задачах распознавания вектор  обычно неизвестен. Решающая функция
выбирается из  с помощью некоторого заданного метода  на основе случайной выборки
наблюдений над X и Y (обучающей выборки). Пусть n(ji ) - число наблюдений i -го образа,
соответствующих j -й ячейке;
n
i j
(i )
j
 N . Обозначим вектор частот через s  ( s1 … s j … sM ) , где
(2)
(K)
s j  (n(1)
j  n j … n j ) . Оценкой эмпирического риска для решающей функции f называют величину
1
L f ( j ) q n(jq ) 

N q j
Пусть S – случайный вектор частот. Этот вектор подчиняется полиномиальному распределению.
Рассмотрим семейство полиномиальных моделей распределения вектора частот с множеством
параметров   { } . Это семейство (класс распределений) будем также называть множеством
стратегий природы. Под сложностью класса понимается величина M . Используем байесовский
подход: предположим, что на  определена случайная величина
  ( P1(1) … PM( K ) )
R f ( s) 
с некоторым известным априорным распределением p ( ) при    . В этом случае риск является
функцией R f () , зависящей от случайного вектора параметров модели.
Будем полагать, что  подчиняется распределению Дирихле, 
Dir (d) :
1
d ( i ) 1
p( )   ( p (ji ) ) j ,
Z i j
где d (ji )  0 – некоторые заданные вещественные числа, выражающие экспертные знания о
распределении  , i  1… K , j  1…M , Z – нормализующая константа,
(i )
Z 
i, j
(d j )
,
( D)
D =  i  j d (j i ) , d  {d1(1)  d 2(1) … d M( K ) } .
В работе [2] предложен способ формализации экспертных знаний о задаче распознавания, который
дает возможность задать распределение на множестве стратегий природы, зависящее от достаточно
простой, интуитивно понятной оценки степени <<пересечения>> между образами. При отсутствии
знаний об априорных предпочтениях на множестве распределений, предлагаемый способ позволяет
использовать равномерное априорное распределение ( d (ji )  1 ).
В дальнейшем, при формулировке свойств модели, будем предполагать, что выполняются все
рассмотренные предположения.
4 Ожидаемое количество информации
Пусть задана некоторая логическая решающая функция, которой соответствует дерево разбиений
пространства переменных на M подобластей. Рассмотрим байесовскую модель распознавания по
конечному множеству событий, которым соответствуют подобласти разбиения. Зададим энтропию
вектора  как величину H ( )   p (ji ) ln p (ji ) . Рассмотрим математическое ожидание EH () данной
i j
величины, где усреднение проводится по всем стратегиям природы.
Утверждение 1. Выполняется следующее равенство:
1
EH ()   ( D  1)   d (j i )  (d (j i )  1)
D i j
где  ( z ) – ди-гамма функция: ( z) 
d
dz
ln ( z) .
Пусть имеется выборка s , тогда по свойству распределения Дирихле апостериорное
распределение на множестве стратегий природы   s Dir (d  s) . Из предыдущего утверждения
следует, что ожидаемая энтропия при условии известной выборки
1
EH (  s)   ( D  N  1) 
(d (j i )  n(ji ) ) (d (j i )  n(ji )  1)

D  N i j
Определение. Назовем ожидаемым количеством информации, имеющейся в выборке s , величину
(2)
I (s)  EH ()  EH (  s)
Введенное понятие может использоваться как критерий информативности разбиения,
соответствующего логической функции. Оптимальному варианту разбиения соответствует
максимальное значение критерия.
В литературе известен критерий качества разбиения, соответствующего дереву решений,
основанный на следующей оценке количества информации:
(3)
Iˆ(s)  Hˆ (0)  Hˆ (s)
где
Hˆ (0)  ln( KM )
– оценка энтропии без учета выборки:
1
Hˆ (0)   pˆ (ji )(0) ln pˆ (ji )(0) pˆ (ji )(0) 

KM
i j
Hˆ (s)  
n(ji )
ln
n(ji )
N
N
– соответствующая оценка с учетом выборки. Недостаток критерия (3) состоит в том, что он не
учитывает экспертных знаний вышеуказанного вида; частотные оценки соответствующих
вероятностей имеют большую погрешность при малом объеме выборки. В случае критерия (2),
экспертные знания учитываются путем подбора параметров распределения Дирихле. Кроме того, из
теории оценивания [4] известно, что апостериорное математическое ожидание является оптимальной
байесовской оценкой при квадратичной функции потерь.
i j
5 Порядковая регрессия
Задача порядковой регрессии в некотором смысле является ”промежуточной” между
распознаванием образов и регрессионным анализом. В качестве примера можно указать упорядочение
результатов обработки запросов поисковой системы по степени соответствия требованиям
пользователя. Задача такого рода рассматривалась в работе [1] (упорядочение шахт по их
пожароопасности). Обзор теории и имеющихся методов решения можно найти также в работах [5,6].
Пусть для каждой пары объектов a b  можно указать отношение нестрогого линейного порядка
a ° b . Требуется по выборке объектов {a (1)  a (2) , …, a ( N ) } построить оптимальную по некоторому
критерию решающую функцию f  D  N , которая любому объекту a по его описанию
x  X (a)  ( X1 (a)… X n (a)) приписывала бы соответствующий ранг. При этом будем считать, что
объект a имеет ранг выше, чем объект b , если f ( x)  f ( x ) , где x  X (a) , x  X (b) .
Рассмотрим следующую модификацию задачи. Пусть для каждого наблюдения x может быть
указан соответствующий ему ранг y , принимающий значения из множества {1 2… K} , где K –
общее число рангов. Для каждой пары x x с рангами y y  и соответствующих решений f ( x) , f ( x  )
определим функцию потерь L f ( x ) f ( x ) y  y . Например, можно задать функцию следующим образом:
L f ( x )  f ( x )  y  y 

1 åñëè ( f ( x)  f ( x ) è y  y  )

èëè ( f ( x)  f ( x ) è y  y  )

1
  åñëè y   y è ( f ( x)  f ( x ) èëè f ( x)  f ( x  ))
 2

0 åñëè ( f ( x)  f ( x ) è y  y  )

èëè ( f ( x)  f ( x ) è y  y  )


èëè ( f ( x)  f ( x ) è y  y  )

(4)
Будем полагать, что наблюдения получены случайно и независимо друг от друга в соответствии с
некоторым распределением  . Определим риск, соответствующий решающей функции f , как
математическое ожидание функции потерь:
R f ( )  E( X Y )( X  Y  ) L f ( X ) f ( X  )Y Y  
Эмпирический риск, соответствующий выборке наблюдений v , определяется для решающей
функции f как
R f (v ) 
ý
1
CN2
L
l  j
l j
f ( x( l ) ) f ( x( j ) ) y ( l )  y ( j )

Как легко заметить, в случае функции потерь (4) эмпирический риск совпадает с мерой
взаимосвязи порядковых признаков, известной как  Кендалла.
Пусть фиксирована некоторая логическая решающая функция f . В рамках введенной выше
байесовской модели распознавания по конечному множеству событий, рассмотрим для заданного
набора частот s апостериорное математическое ожидание риска ER f (  s) .
Утверждение 2. Выполняется следующее равенство:


1
ER f (   s ) 
 L  (d (ji )  n(ji ) )(d (ji )  n(ji ) )
( D  N )(2) i i j  j iji j
где x( n ) обозначает произведение x…( x  n  1) .
Полученное выражение можно применять как критерий качества решающей функции f . В
отличие от критерия эмпирического риска, при таком способе учитываются экспертные знания, а
также используются оптимальные с точки зрения байесовского подхода оценки.
6 Благодарности
Работа проведена при финансовой поддержке РФФИ, гранты № 08-07-00136а, 07-01-00331a.
Литература
[1] Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука,
1981.
[2] Лбов Г.С., Бериков В.Б. Устойчивость решающих функций в задачах распознавания образов и
анализа разнотипной информации. Новосибирск: Изд-во Ин-та математики, 2005.
[3] Berikov V.B., Lbov G.S. Bayesian model of recognition on a finite set of events // In: J. Darzentas et al.
(Eds.) Artificial Intelligence: Theories, Models and Applications (SETN-08). Lecture Notes in Artificial
Intelligence, LNAI 5138. Springer, Heidelberg. 2008. P. 339-344.
[4] Уилкс С. Математическая статистика. М.: Наука, 1967.
[5] Kramer S., Widmer G., Pfahringer B., DeGroeve M. Prediction of ordinal classes using regression trees
// Fundamenta Informaticae. 2000. V. 34. P.1-15.
[6] Agarwal S., Niyogi P. Generalization Bounds for Ranking Algorithms via Algorithmic Stability //
Journal of Machine Learning Research. 2009. N 10. P. 441-474.
Скачать