модель классификации на основе расширенной обучающей

advertisement
calculation of optimum time of carrying out of modernisation, overhaul , increase of reliability of
the equipment on 10, 20 either 40 %, or replacements of the out-of-date equipment by criterion of a
maximum of the net present value of operation of the equipment for all period of planning in Т
years is developed. The program written in language C ++, allows to define quantity of spent
actions, an order and time of their carrying out.
УДК 004.852
Лев Владимирович Уткин, доктор технических наук, профессор, lev.utkin@mail.ru
Иван Андреевич Селиховкин, соискатель
МОДЕЛЬ КЛАССИФИКАЦИИ НА ОСНОВЕ
РАСШИРЕННОЙ ОБУЧАЮЩЕЙ ВЫБОРКИ С ИСПОЛЬЗОВАНИЕМ
ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ
ВЕРОЯТНОСТЕЙ ПРИЗНАКОВ
Интеллектуальный анализ данных, классификация, функционал риска,
доверительные интервалы, метод Монте-Карло, минимаксная стратегия.
Data mining, classification, risk functional, confidence intervals, Monte Carlo
technique, minimax strategy.
Введение. Большое число методов было предложено в последние
десятилетия для решения задачи классификации как элемента интеллектуального
анализа данных. Это обусловлено тем, что классификация в той или иной
постановке применяется в самых различных областях. Это – распознавание
образов, задачи биоинформатики, идентификация объектов, управление базами
данных и т.д.
Основная цель задачи классификации сводится к определению правила
разделения объектов на классы, исходя из набора признаков при наличии
обучающей выборки, которая представляет собой множество пар примеров (x,y),
где x – наблюдаемый входной вектор, y – значение класса. В частности, когда речь
идет о двоичной классификации, то y = -1 и y = 1.
Правило разделения объектов на классы обычно представляется в виде
функции f, называемой разделяющей функцией.
Несмотря на наличие большого числа методов или моделей классификаций,
поиск наиболее подходящего классификатора – это задача, решение которой
полностью зависит от количества и качества информации в обучающей выборке.
Одним из наиболее простых и эффективных методов классификации является
предположение о нормальности распределения значений наблюдаемого входного
вектора x. Такое предположение действительно выполняется во многих случаях.
Однако это предположение может быть слишком строгим и не учитывает
возможные отклонения случайных значений признаков, которые, в свою очередь,
239
приводят к снижению точности классификации, особенно, когда объем
обучающей выборки мал.
Поэтому в работе предлагается новая модель классификации, которая также
предполагает нормальность случайных значений признаков. Однако в отличие от
существующих подходов для учета объема выборки и учета возможной
неточности в определении параметров распределения вероятностей предлагаемая
модель использует доверительные интервалы математического ожидания и
дисперсии нормального распределения с заданной доверительной вероятностью.
Это позволяет построить границы множества функций распределения
вероятностей, расстояние между которыми соответствует имеющейся
информации. Например, при малом объеме обучающей выборки доверительные
интервалы становятся большими, класс распределений вероятностей
увеличивается. Большой объем выборки, напротив, сужает интервалы и
уменьшает класс возможных распределений. При этом важно отметить, что класс
распределений вероятностей не является классом нормальных распределений с
различными параметрами. Это более широкий класс, образованный комбинацией
нормальных распределений вероятностей.
Одно распределение вероятностей выбирается из всего множества
распределений. Оно максимизируют функционал риска, являющегося показателем
ошибки классификации. Другими словами, известная минимаксная или
пессимистическая стратегия принятия решений используется для решения
классификационной задачи. Эта стратегия предполагает страховку против
наихудшего случая.
Вторая идея, лежащая в основе предлагаемой модели – искусственное
расширение обучающей выборки путем генерации новых примеров методом
Монте-Карло в соответствии с оптимальными (выбранными по минимаксной
стратегии) распределениями вероятностей.
Параметры классификации или параметры разделяющей функции в итоге
вычисляются путем минимизации верхней границы функционала риска с
использованием одного из известных стандартных методов классификации.
Стандартная задача классификации. Предположим,
эмпирические данные
что имеются
( x1 , y1 ), (x 2 , y2 ),..., (x n , yn ) д R n × {−1, +1}.
x1 , x 2 ,..., x n – некоторое непустое множество образцов, примеров,
входных переменных; y1 ,..., yn – выход или значения классов, принимающих
значения −1 и 1 . Задача двоичной классификации заключается в определении
класса для нового примера x .
Здесь
240
Для
решения
задачи
классификации
необходимо
определить
дискриминантную или разделяющую функцию f ( x, w ) , знак которой
определяет соответствующий класс, и которая зависит от параметров
w = ( w0 , w1 ,..., wl ) .
Простейший вид разделяющей функции – линейный.
Одним из наиболее распространенных способов решения этой задачи является
минимизация функционала риска [4]:
R ( w) = ∫
R l ×{ −1,1}
L( x, y )dF ( x, y ).
Здесь L( x, y ) – функция потерь, F – совместная функция
распределения вероятностей (ФРВ) вектора x и класса y . Минимизация
f (x, w ) . Другими
f (x, w opt ) обеспечивает минимум функционала R ( w ) .
функционала риска осуществляется по классу функций
словами, функция
Функционал риска можно переписать в следующем виде:
∑ P( y ) R ( w ),
R( w ) =
y
y =−1,1
где
Ry ( w )
– условный функционал риска для класса
известны условные ФРВ
F (x | y )
y
при условии, что
признаков при заданном классе
априорная вероятность того, что пример
x
принадлежит классу
простейшем виде определяется как отношение числа примеров
выборки, соответствующих классу
выборке, т.е.
y,
y ; P( y )
y , которая
ny
–
в
обучающей
к общему числу примеров в обучающей
P( y ) = n y / n .
Задача классификации при множестве ФРВ. Предположим, что ФРВ
F (x | y ) не известны.
Однако можно предположить, что известны некоторые границы для
множества F ( y ) всех ФРВ F ( x | y ) .
Нижняя граница обозначена
F (x | y )
и верхняя граница –
F (x | y ) .
241
Отсюда можно записать
F ( y ) = {F (x | y ) | ∀x, F (x | y ) ≤ F ( x | y ) ≤ F (x | y )}.
Другими словами, имеется некоторое неизвестное истинное распределение
вероятностей F ( x | y ) ∈ F ( y ) для каждого y , но оно неизвестно, и вся
информация о нем заключается в том, что оно принадлежит множеству F ( y ) .
Необходимо отметить, что рассматриваемое множество ФРВ не является
параметрическим множеством ФРВ одного типа, совпадающего с типом
граничных функций. Множество образуется из всех возможных ФРВ с заданными
границами. Это – важная особенность предлагаемого подхода, которая отличает
его от существующих методов, использующих только параметрические классы
ФРВ.
Так как вместо одной ФРВ известно только некоторое множество ФРВ, то
поиск параметров разделяющей функции зависит от того, какая ФРВ из множества
F ( y ) будет выбрана.
Ниже будет использоваться минимаксная (пессимистическая) стратегия [1].
В соответствии с минимаксной стратегией выбирается такое ФРВ из множества
F ( y) ,
что показатель риска
R y ( w)
достигает для каждого фиксированного
значения w своего максимального значения. Другими словами, нам следует
выбрать наихудшее распределение, приводящее к наибольшему значению
функционала риска. Так как множества F ( −1) и F (1) получены независимо,
то
R( w) = max R( w) =
F ( −1)×F (1)
Рассмотрим
детально
Большинство функций потерь
возрастают с
f
∑ P( y ) max R ( w).
y =−1,1
задачу
F ( y)
применяемых в классификации
. Отсюда следует, что верхняя граница
R−1 ( w ) по множеству распределений
F (x | −1) (см. для примера [5]). Отсюда
max F ( −1) R−1 ( w ) .
оптимизации
L(x, −1) ,
R−1 ( w ) , т.е. максимум
достигается на нижней границе
R −1 ( w ) = ∫ l L( x, −1)d F ( x | −1).
R
242
y
Так как множество
Fi ( y)
F ( y)
образуется из "маргинальных" множеств
F (x | −1)
~
Fi (xi y ) признаков, i = 1,..., l , где
каждого признака, то очевидно, что нижняя ФРВ
определяется граничными функциями
 F i ( xi | y ), L(x, y ) возрастает по xi ,
FF~i (i (xxii |y )y ) = 
L(x, y ) убывает по xi .
 F i ( xi | y ),
Данное условие можно переписать в виде:
 F i ( xi | −1),
~
FFii (xxi i −| 1−)1) = 
 F i ( xi | −1),
f (x ) возрастает по xi ,
f (x ) убывает по xi ,
Аналогичное условие можно записать и для второй задачи
~ x | 1) =  F i ( xi | 1),
i 1)
Fi (Fxii ( −
 F i ( xi | 1),
max F (1) R1 ( w ) :
f (x ) убывает по xi ,
f (x ) возрастает по xi .
Идея
рассмотрения
множества
распределений
вероятностей
и
использования минимаксной стратегии при наличии малой обучающей выборки
уже была предложена в работах [2, 3].
Следующая задача – определение граничных ФРВ признаков.
Построение множества распределений на основе доверительных
интервалов. Пусть имеется набор из
n
статистических наблюдений
z1 ,..., zn
случайной величины Z .
Также предполагается, что эта величина имеет нормальное распределение с
неизвестными математическим ожиданием µ и СКО s .
Можно получить несмещенные оценки параметров распределения по
выборке, используя следующие выражения для выборочного среднего и
выборочной дисперсии:
µ̂ =
µ
2
1 n
1 n
zi , s =
∑
∑((zzi −−µˆµ))2 2 .
n i =1
n − 1 i =1 i
Сами по себе представленные оценки не имеют смысла, если не
рассмотреть доверительные интервалы для них. Для построения множества
243
распределений на основе доверительных интервалов точечные оценки параметров
распределения расширяются на эти доверительные интервалы. Обычно
используется 95% уровень доверия. При этом значение 0,95 также называется
доверительной вероятностью.
Необходимо отметить, что любой уровень доверия 100% ⋅ (1 − α ) или
доверительная вероятность
(1 − α )
могут применяться в расчетах.
(1 − α )100% -доверительный интервал для среднего µ
вычисляется из
следующего выражения:
[µ, µ ] = [µ
µ̂ − tα /2,n −1 s / n , µ̂µ + tα /2,n −1 s / n ],
где tα /2,n −1 – верхняя граница квантиля
степенями свободы и вероятностью
t
– распределения Стьюдента с
n −1
α /2.
Доверительный интервал для дисперсии
2
2


 s 2 , s 2  =  (n − 1) s , (n − 1) s 
2
2

  χ α /2,n −1 χ 1−α /2,n −1 


определяется на основе
χ2
распределения с
n −1
степенями свободы. Таблицы
2
значений распределений Стьюдента и χ
можно найти в большинстве
справочников по теории вероятностей и статистике.
Зная интервалы
[µ, µ ]
и
 s 2 , s 2  , можно построить верхнюю и нижнюю


границы функций распределения вероятностей по формулам
F ( z ) = inf inf Φ ( ( z − µ ) / s ) , F ( z ) = sup sup Φ ( ( z − µ ) / s ) ,
µ ≤ µ ≤ µ s≤s ≤s
где
Φ
µ ≤µ ≤µ S ≤s≤s
– стандартная функция Лапласа.
Очевидно, что функция F ( z ) является убывающей по µ при
фиксированном s . Следовательно, границы функций распределения можно
записать в более простом виде:
244
(
)
F ( z ) = inf Φ ( z − µ ) / s , F ( z ) = sup Φ ( ( z − µ ) / s ) .
s≤ s≤ s
s ≤s≤ s
Достаточно просто показать, что граничные функции образуются следующим
более простым образом:
) (
)}
{ (
F ( z ) = max {Φ ( ( z − µ ) / s ) , Φ ( ( z − µ ) / s )}.
F ( z ) = min Φ ( z − µ ) / s , Φ ( z − µ ) / s ,
Более того, можно также записать
Φ ( z − µ ) / s , z < zl

F ( z) = 
,
Φ ( z − µ ) / s , z ≥ zl
(
)
(
)
Φ ( ( z − µ ) / s ) ,

F ( z) =
z < zu
.

Φ ( ( z − µ ) / s ) , z ≥ zu
Здесь
zl
уравнения
zl = µ
и
(
)
(
)
– корень уравнения Φ ( z − µ ) / s = Φ ( z − µ ) / s ,
(
zu
– корень
)
Φ ( z − µ ) / s = Φ ( ( z − µ ) / s ) . Достаточно просто доказать, что
zu = µ . При этом граничные ФРВ равны 0,5 в этих точках.
Таким образом, для каждого признака и для каждого класса можно построить
множество ФРВ
границы
Fi ( y)
определяются
при помощи представленных выше границ. Здесь
параметрами
µ i , µ i , si , s i .
Чем
больше
обучающей выборки, тем уже границы ФРВ и тем меньше множество
объем
Fi ( y) .
Генерация
случайных
значений
признаков.
Аналитическое
использование представленных границ наталкивается на определенные
сложности. Поэтому предлагается генерировать новые примеры для каждого
класса при помощи известного метода Монте-Карло. При этом случайные
значения признаков генерируются в соответствии с нижней или верхней ФРВ
~
Fi xi y , что определяется возрастанием или убыванием разделяющей функции по
( )
xi
(см. предыдущий раздел).
245
Рассмотрим, как генерировать случайные значения признаков в
соответствии с нижней ФРВ. Генерируется случайная величина r в соответствии
с равномерным распределением в интервале [0,1] . Если r больше 0,5, то
полученное значение
r
используется для вычисления случайного значения
имеющего распределение с параметрами
Далее решается уравнение
случайное число
для
вычисления
параметрами
xi . Если r
µ i , si .
µ i , si .
(
)
Φ ( z − µ i ) / si = r .
Его решение и есть
меньше 0,5, то полученное значение
случайного
значения
xi ,
Далее решается уравнение
решение и есть случайное число
xi .
xi ,
r
используется
имеющего
распределение
(
)
Φ ( z − µ i ) / si = r .
с
Его
Аналогичным образом осуществляется
генерация случайных чисел в соответствии с верхней ФРВ F ( z ) .
В результате генерации получаем дополнительное множество примеров для
каждого класса, которые могут использоваться для решения задачи
классификации стандартными методами, например, методом опорных векторов.
Заключение. В работе предложена модель задачи классификации, когда
учитывается размер обучающей выборки и принимается минимаксное или
пессимистическое решение о принадлежности объекта тому или иному классу. На
основе доверительных интервалов при заданной доверительной вероятности
обучающая выборка расширяется при помощи генерации случайных примеров в
соответствии с заданными ФРВ. Модель обладает рядом преимуществ. Во-первых,
она проста с точки зрения реализации.
Во-вторых, она учитывает количество априорной информации и является
робастной к возможным изменениям параметров данных.
В-третьих, модель настраивается на степень ответственности принимаемого
решения о классификации путем задания определенной доверительной
вероятности.
В-четвертых, результирующая расширенная обучающая выборка может
быть обработана любыми методами решения задач классификации.
Главным недостатком метода является необходимость знания зависимости
разделяющей функции от признаков, т.е. знания знаков параметров w . Эту
проблему можно обойти. Однако это приводит к необходимости решения
большого количества задач классификации.
В работе рассмотрена только одна минимаксная или пессимистическая
стратегия принятия решений о модели классификации, в соответствии с которой
выбирается, грубо говоря, "наилучшая" модель при "наихудшем" выборе
246
распределения вероятностей значений признаков. Оптимистическая и
"смешанная" или осторожная стратегии принятия решений являются темой для
дальнейших исследований.
Библиографический список
1. Robert , C. The Bayesian Choice [Text] / C. Robert. – New York: Springer, 1994. –
205с.
2. Utkin, L.V. Regression analysis using the imprecise Bayesian normal model [Text] /
L/V/ Utkin // Int. J. Data Analysis Techniques and Strategies. – 2010. – Vol. 2, № 4 – P. 356-372.
3. Utkin, L.V. On reliability growth models using Kolmogorov-Smirnov bounds [Text] /
L.V. Utkin, F.P.A. Coolen // International Journal of Performability Engineering. – 2011. – Vol. 7,
№ 1. – P. 5-19.
4. Vapnik, V. Statistical Learning Theory [Text] / V. Vapnik. – New York: Wiley, 1998. –
124 c.
5. Walley, P. Measures of uncertainty in expert systems [Text] / P. Walley // Artificial
Intelligence. – 1996. – Vol. 83. – P. 1-58.
__________
Большое число методов было предложено в последние десятилетия для решения
задачи классификации как элемента интеллектуального анализа данных. Это обусловлено
тем, что классификация в той или иной постановке применяется в самых различных
областях. Это – распознавание образов, задачи биоинформатики, идентификация объектов,
управление базами данных и т.д. Основная цель задачи классификации сводится к
определению правила разделения объектов на классы, исходя из набора признаков при
наличии обучающей выборки, которая представляет собой множество пар примеров (x,y),
где x – наблюдаемый входной вектор, y – значение класса. В частности, когда речь идет о
двоичной классификации, то y=-1 и y=1. Правило разделения объектов на классы обычно
представляется в виде функции f, называемой разделяющей функцией. Несмотря на наличие
большого числа методов или моделей классификаций, поиск наиболее подходящего
классификатора – это задача, решение которой полностью зависит от количества и качества
информации в обучающей выборке. Одним из наиболее простых и эффективных методов
классификации является предположение о нормальности распределения значений
наблюдаемого входного вектора x. Такое предположение действительно выполняется во
многих случаях. Однако это предположение может быть слишком строгим и не учитывает
возможные отклонения случайных значений признаков, которые, в свою очередь, приводят к
снижению точности классификации, особенно, когда объем обучающей выборки мал.
Поэтому в работе предлагается новая модель классификации, которая также предполагает
нормальность случайных значений признаков. Однако в отличие от существующих подходов
для учета объема выборки и учета возможной неточности в определении параметров
распределения вероятностей предлагаемая модель использует доверительные интервалы
математического ожидания и дисперсии нормального распределения с заданной
доверительной вероятностью. Это позволяет построить границы множества функций
распределения вероятностей, расстояние между которыми соответствует имеющейся
информации. Например, при малом объеме обучающей выборки доверительные интервалы
становятся большими, класс распределений вероятностей увеличивается. Большой объем
выборки, напротив, сужает интервалы и уменьшает класс возможных распределений. При
247
этом важно отметить, что класс распределений вероятностей не является классом
нормальных распределений с различными параметрами. Это более широкий класс,
образованный комбинацией нормальных распределений вероятностей. Одно распределение
вероятностей выбирается из всего множества распределений. Оно максимизируют
функционал риска, являющегося показателем ошибки классификации. Другими словами,
известная минимаксная или пессимистическая стратегия принятия решений используется
для решения классификационной задачи. Эта стратегия предполагает страховку против
наихудшего случая. Вторая идея, лежащая в основе предлагаемой модели – искусственное
расширение обучающей выборки путем генерации новых примеров методом Монте-Карло в
соответствии с оптимальными (выбранными по минимаксной стратегии) распределениями
вероятностей. Параметры классификации или параметры разделяющей функции в итоге
вычисляются путем минимизации верхней границы функционала риска с использованием
одного из известных стандартных методов классификации.
***
A lot of methods have been proposed last decades for solving classification problems as
components of data mining problems. This is due to the fact that classification in different
statements is applied to various fields. These are pattern recognition, bioinformatics, object
identification, database management, etc. A main goal of classification is to construct a rule for
separating objects in accordance with the corresponding classes based on a set of features and by
having learning data which are a set of pairs (x,y), where x is the observed input vector, y is the
class label. In particular, when we deal with the binary classification, then y=-1 and y=1. Правило
разделения объектов на классы обычно представляется в виде функции f, называемой
разделяющей функцией. In spite of many classification methods and models, choice of the most
preferable classifier is a problem whose solution totally depends on the amount and quality of
information in learning data. One of the most simple and efficient classification methods assumes
that the input vector x is governed by the normal probability distribution. This assumption is really
valid in many cases. However, it may be too strong, and it does not take into account possible
deviations of random features that, in turn, lead to classification accuracy decreasing especially
when the amount of learning data is small. Therefore, a new classification model is proposed in the
paper. It also assumes the normal distribution of random features. But in contrast to the available
approaches, it exploits the confidence intervals for expectations and variations with a predefined
confidence probability for taking into account the data amount and the possible errors in
determining the distribution parameters. This allows us to construct bounds for a set of probability
distributions. A distance between the bounds corresponds to the available information. For instance,
a small amount of learning data produces the wide confidence interval and the large set of
distributions. It is important to note that the set of distributions is not a set of normal distributions
with different parameters. This is a more large set produced by combinations of normal probability
distributions. A probability distribution is selected from the whole set of distributions which
maximizes the risk function as a measure of the classification error. In other words, the well-known
minimax strategy is applied for solving the classification problem, which appears as an insurance
against the worst case. The second idea underlying the proposed model is the artificial extension of
the learning set by generating new examples with using the Monte Carlo technique in accordance
with the selected optimal probability distribution. The classification parameters or the separating
function parameters are finally computed by minimizing the upper bound for the risk functional by
exploiting a standard classification method.
248
Download