Отбор информативных признаков

advertisement
Ергалиев Д.С.
ОТБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ РАСПОЗНАВАНИЯ
В статье рассмотрены некоторые подходы процедуры отбора информативных признаков, оптимальное решение которой даѐт полный перебор. Рассмотрены также некоторые из применяемых разумных процедур
направленного отбора.
Условно примем, что набор исходных признаков задан. Необходимо, чтобы в него вошли те признаки,
которые действительно несут различительную информацию. Если исходное признаковое пространство задано, то отбор меньшего числа наиболее информативных признаков поддаѐтся формализации. Пусть
X  x1, x2 ,..., xK 
– исходное признаковое пространство,
Y   y1, y2 ,..., yl  – преобразованное признаковое
пространство, Y  F  X  , l  k , F – некоторая функция.
Линейное преобразование координат представлено на рис. 1
K
yi   xk a jk .
k 0
После преобразования признак y2 не несѐт различительной информации и его использование для распознавания не имеет смысла.
Переход от декартовой системы координат к полярной показан на рис.2, что привело к целесообразности отбрасывания признака  .
Рис. 1. Линейное преобразование координат с последующим отбрасыванием одного из признаков
Такого рода преобразования приводят к упрощению решающих правил, т.к. их приходится строить в
пространстве меньшей размерности. Однако при этом возникает необходимость в реализации преобразования F    Поэтому суммарного упрощения может и не получиться, особенно при цифровой реализации преобразования признакового пространства.
Особо выделим следующий тип линейного преобразования:
K
y j   xk a jk ,
k 0
где
a jk
– диагональная матрица, причѐм еѐ элементы равны либо 0, либо 1.
Это означает, что из исходной системы признаков часть отбрасывается. Разумеется, остающиеся признаки должны образовывать наиболее информативную подсистему. Таким образом, нужно разумно организовать процедуру отбора по одному из ранее рассмотренных критериев информативности. Рассмотрим некоторые подходы.
Оптимальное решение задачи даѐт полный перебор. Если исходная система содержит K признаков, а
нам нужно выбрать наилучшую подсистему, содержащую
lK
признаков, то придѐтся рассмотреть
CKl
(число сочетаний из K элементов по l ) возможных в данном случае подсистем. Причѐм рассмотрение
каждой подсистемы состоит в оценке значения критерия информативности, что само по себе является трудоѐмкой задачей, особенно если в качестве критерия использовать относительное число ошибок распознавания.
Рис. 2. Переход к полярной системе координат с последующим отбрасыванием признака 
Для иллюстрации укажем, что для отбора из 20 исходных признаков пяти наиболее информативных приходится иметь дело примерно с 15,5103 вариантами. Если же количество исходных признаков – сотни, то
полный перебор становится неприемлемым. Переходят к разумным процедурам направленного отбора, которые в общем случае не гарантируют оптимального решения, но хотя бы обеспечивают не худший выбор.
Рассмотрим некоторые из применяемых процедур.
Оценивается информативность каждого из исходных признаков, взятого в отдельности. Затем признаки
ранжируются по убыванию информативности. После этого отбираются l первых признаков. Здесь число
рассматриваемых вариантов CK  K . При таком подходе оптимальность выбора гарантирована только в том
случае, если все исходные признаки статистически не зависят друг от друга. В противном случае (а они
чаще всего и встречаются на практике) решение может оказаться далеко не оптимальным.
Предполагается, что признаки статистически зависимы. Сначала отбирается самый индивидуально информативный признак (просматривается K вариантов). Затем к первому отобранному признаку присоединяется ещѐ один из оставшихся, составляющий с первым самую информативную пару (просматривается K  1
вариантов). После этого к отобранной паре присоединяется ещѐ один из оставшихся признаков, составляющий с ранее отобранной парой наиболее информативную тройку (просматривается K  2 вариантов) и т.д.
до получения совокупности из l признаков. Здесь число просматриваемых вариантов составляет величину
l
l 1

  K  i   l  K 
i 0
l 1
 . Для иллюстрации отметим, что для отбора 5 признаков из 20 при данном подходе
2 
требуется просмотреть 90 вариантов, что примерно в 170 раз меньше, чем при полном переборе.
Последовательное отбрасывание признаков. Этот подход похож на предыдущий. Из совокупности, содержащей K признаков, отбрасывается тот, который даѐт минимальное уменьшение информативности. Затем из
оставшейся совокупности, содержащей ( K  1) признаков, отбрасывается ещѐ один, минимально уменьшающий
информативность, и т.д., пока не останется l признаков. Из этих двух подходов (последовательное
присоединение признаков и последовательное отбрасывание признаков) целесообразно использовать первый
при l 
K
K
и второй при l 
, если ориентироваться на число просматриваемых вариантов. Что касается
2
2
результатов отбора, то он в общем случае может оказаться различным.
Случайный поиск. Случайным образом отбираются номера l признаков и оценивается информативность
этой подсистемы. Затем снова и независимо от предыдущего набора случайно формируется другая система
из l признаков. Так повторяется H раз. Из H наборов признаков отбирается тот, который имеет
наибольшую информативность. Чем H больше, тем выше вероятность выбора наилучшей подсистемы. При
H  2 можно, по крайней мере, утверждать, что наш выбор не оказался наихудшим (если, конечно, выбранные подсистемы не оказались одинаковыми по информативности).
Случайный поиск с адаптацией. Это последовательная направленная процедура, основанная на случайном поиске с учѐтом результатов предыдущих отборов. В начале процедуры шансы всех исходных признаков
на вхождение в подсистему, состоящую из l  K признаков, принимаются равными. Для случайного отбора
используется датчик равномерно распределѐнных в интервале
0,1
случайных (псевдослучайных) чисел.
Этот интервал разбивается на K равных отрезков. Первый отрезок ставится в соответствие признаку x1 ,
второй – x2 и т.д. Длина каждого отрезка равна вероятности pi включения j -го признака в информативную подсистему. Как уже отмечалось, сначала эти вероятности для всех признаков одинаковы. Датчиком случайных чисел выбирается l1 различных отрезков. Для тех l1 признаков из K , которые соответствуют этим отрезкам, определяется значение критерия информативности
группы из
H
случайно выбранных подсистем определяется
стоит в изменении вектора вероятностей

1
J max
 max J h
p  p1, p2 ,..., p j ,..., pK

h
J . После получения первой
и
1
J min
 min J h . Адаптация соh
выбора признаков на последующих этапах
поиска в зависимости от результатов предыдущих этапов: длина отрезка в интервале
0,1 ,
соответствую-
щая признаку, попавшему в самую плохую подсистему, уменьшается (признак "наказывается"), а попавшему
в самую хорошую подсистему – увеличивается (признак "поощряется"). Длины отрезков изменяются на величину 
1
. После перебора ряда групп вероятность выбора признаков, часто встречающихся в удачных
K
сочетаниях, становится существенно больше других, и датчик случайных чисел начинает выбирать одно и
то же сочетание из l признаков. Чем больше  , тем быстрее сходимость процедуры, но тем ниже вероятность "выхода" на наилучшую подсистему. И наоборот, чем меньше  , тем медленнее сходимость, но выше
вероятность выбора наилучшей подсистемы. Конкретный выбор значения 
цедура сходилась при общем числе выборов
H
CKi
должен быть таким, чтобы про-
, а вероятность нахождения наилучшей подсистемы
или близкой к ней по информативности была бы близка к единице.
ЛИТЕРАТУРА
1. М.Н. Вайнцвайг. Об одном алгоритме распознавания двоичных кодов. – «Проблемы передачи информации» 1966, т.2, вып. 3.
2. В.Н.Вапник, А.Я. Лернер, А.Я. Червоненкис. Системы обучения распознаванию образов при помощи
обобщенных портретов.- «Известия АН СССР. Техническая кибернетика», 1965, №1.
3. В.А.Якубович. Некоторые общие теоретические принципы построения обучаемых опознающих систем. –
В кн.: Вычислительная техника и вопросы программирования, вып.4. Л., Изд-во ЛГУ, 1965.
4. А.Н. Дмитриев, Ю.И.Журавлев, Ф.П.Кренделев. О математических принципах классификации предметов
и явлений. – В сб.: «Дискретный анализ». Вып. 7. Новосибирск, 1966.
5. В.Н.Вапник. Задача обучения распознаванию образов.- В сб.: «Новое в жизни, науке, технике. Серия «математика, кибернетика», №12. М., «Знание», 1971.
Download