Методы распознавания образов в подготовке нормативно

advertisement
Жвакин А.С., Софронов Ю.В.
ООО «Информ-Консалтинг»
Методы распознавания образов в подготовке нормативносправочной информации для АСУ
На данный момент большинство успешных предприятий
внедряет или активно использует различные интегрированные
системы управления. Одной из важных составляющих базовой
информации, необходимой для функционирования таких систем,
является нормативно – справочная информация, под которой
понимается вся условно-постоянная информация, характеризующая
деятельность предприятия (подразделения, счета бухгалтерского
учета, штатное расписание, технологические маршруты и т.д.).
Существует множество справочников, в которых хранится такая
информация, но одним из самых важных является справочник
материалов. Физически он представляет собой базу данных, каждой
записи которой соответствует определенный материал, используемый
предприятием
в
процессе
производства
и
осуществления
хозяйственной деятельности.
В процессе подготовки справочных данных наиболее
трудозатратными операциями являются группировка данных и
проработка фрагментов справочников с целью унифицировать
обозначения, исключить дублирование, присвоить необходимую
атрибутику. Применение методов искусственного интеллекта
позволяет частично заменить эксперта в процессе работы с
информацией, переложить часть работы с человека на компьютер, и,
таким образом, уменьшить время, необходимое для обработки данных,
повысить качество.
Постановка задачи
Введем следующие обозначения:
X {x j }, j 1..N - множество объектов обучающей выборки;
N – количество объектов обучающей выборки;
Q {Qc }, c 1..C - номера классов (образов) целевой
классификации, набор значений признака
C, C
Z
yM 1 ;
2 – количество возможных классов;
{z l }, l 1..K - контрольная выборка, объекты которой
описаны признаками из множества Y
1
{ y k }, k 1..M ;
q=х N
1=
zk
Z – объект, которому нужно присвоить класс на
основе обучающей выборки Х;
W(X) – множество решающих правил;
R – риск потерь при распознавании.
Процесс распознавания состоит из двух последовательных
этапов: этапа обучения и этап принятия решения. Алгоритмы,
решающие задачи распознавания, сначала должны обнаружить
закономерную связь между значениями описывающих характеристик
y 1 , …, y M и значением целевой характеристики y M 1 , т.е. установить
решающие правила W(X), а затем, на этапе принятия решения, с
помощью решающих правил по значениям признаков любого объекта q
определить его принадлежность к одному из C имеющихся образов при
минимизации риска R.
Предположим, что обучающая выборка достаточно полна для
того, чтобы любому объекту множества Z, используя набор решающих
правил W(X), можно поставить в соответствие хотя бы один класс
целевой классификации. Тогда максимально безрисковым методом
является сравнение исследуемого объекта и всеми эталонными
объектами и выбор класса ближайших эталонов, однако для этого
потребовался бы наибольший объём временных и машинных ресурсов.
Поэтому наравне с формированием набора решающих правил стоит
задача сокращения множеств X и Q при минимизации R.
Сокращение списка эталонных объектов
Для отбора объектов-эталонов применяются как правила,
диктуемые предметной областью задачи, так и различные
математические алгоритмы.
К ограничениям бизнес-логики можно отнести, например,
внутренние индикаторы качества объектов. В качестве примера
математических методов приведем алгоритм распознавания образов по
сокращению эталонной выборки – алгоритм STOLP.
Суть алгоритма заключается в том, чтобы оставить в качестве
прецедентов только такие «точки опоры» образа i, которые
обеспечивают выполнение следующего условия: расстояние от
любой точки обучающей выборки i-го образа до ближайшего своего
прецедента меньше расстояния до ближайшего прецедента чужого
образа. Такой набор прецедентов обеспечит безошибочное
распознавание всех реализаций обучающей выборки. Контрольные
реализации распознаются по методу ближайшего соседа.
2
Пример работы алгоритма STOLP
Отбор классов-претендентов
Условно данный шаг можно разбить на два этапа: отбор классов
по ведущему признаку и по фасетной классификации (по
второстепенным признакам).
Отбор классов по ведущему признаку
Цель данного шага – по заданному признаку определить набор
классов, к которым может принадлежать объект.
Применяется следующий алгоритм: для домена значений
выбранного признака ищется вхождение в наименование объекта с
учетом контекста; если вхождение найдено, то все классы, в которых
используется данное значение, попадают в список классовпретендентов.
Для данной цели подходят признаки, удовлетворяющие
следующим условиям:
Широкая
область
использования
в
рамках
классификации;
Частое использование в наименованиях объекта;
После данного шага получаем список классов-претендентов для
классификации текущего объекта, который в дальнейшем будем
сокращать. Примером такого признака может служить Стандарт для
объектов, имеющих ГОСТ.
Отбор классов с помощью фасетной классификации
Цель данного шага – дополнительная фильтрация списка
классов-претендентов по количеству выявленных значений признаков
объекта для каждого класса.
3
Для каждого класса из списка осуществляется следующая
последовательность действий:
1.
Выбираются признаки данного класса;
2.
Для каждого признака проверяется вхождение его домена
значений в наименование объекта с учетом контекстной
информации;
3.
Подсчитывается число заполненных признаков и делится
на общее число признаков класса.
В итоге из списка классов-претендентов выбираются классы с
максимальной долей заполненности.
Вычисление расстояния до классов-претендентов
На данном этапе рассчитывается расстояние между объектом и
списком классов-претендентов, просеянным на предыдущих этапах.
Для реализации данного шага используется метод k-ближайших
соседей для вычисления расстояния до класса и метод q-грамм для
вычисления расстояния до объектов-эталонов.
Общая формула вычисления расстояния до класса выглядит
следующим образом:
k
k
f (q, xcik )
f (q, Qc )
(
i 1
i
k
1
Q
2 (q( j ) xcik ( j ))
)
q( j ) xcik ( j )
1
, где
k
Q
j
k - количество ближайших объектов-эталонов для вычисления
расстояния до класса
xcik - объект – эталон, принадлежащий классу С и входящий в k
ближайших объектов данного класса;
Q – максимальная длина q-грамм (подстроки)
q ( j ) - массив q-гамм (подстрок длиной j);
q( j )
xcik ( j ) - количество одинаковых q-грамм объектов q и x
q( j )
xcik ( j ) - общее количество q-грамм объектов q и x
Перед этапом сравнения исследуемая строка и строка-эталон
делятся на q-граммы (подстроки длины q), для каждого значения qграмм вычисляется число вхождений данного значения в строку. При
этом строки разбивается на слова (разделителем слов считается любой
символ, не принадлежащий русскому и латинскому алфавитам и
множеству натуральных чисел); затем каждой букве слова
присваивается определенный вес, вычисляемый по заданной функции.
Данный вес учитывается при вычислении количества вхождений qграмм в строку, и, следовательно, влияет на стоимость строки в целом.
4
После этого происходит сравнение двух наборов q-грамм:
суммируется количество вхождений в каждую строку тех значений,
которые присутствуют в каждом наборе q-грамм. После сравнения
наборов q-грамм для каждого значения q полученная сумма делится на
общее количество просмотренных q-грамм.
Дополнительно вводится пороговое расстояние. Если
расстояние между объектами больше данной величины, то считается,
что объекты максимально удалены друг от друга.
Общее расстояние между строками вычисляется как
средневзвешенное значение всех совпадений.
Результаты исследований
В результате реализации метода Q-грамм была получена таблица
соответствия материала, классов, которые были предложены системой
для классификации и расстояний до этих классов. На основе анализа
полученной таблицы строим общие оценочные показатели системы
автоматической классификации по методу Q-грамм:
Структуру объектов контрольной выборки с точки зрения
правильности их классификации методом Q-грамм хорошо отражает
диаграмма,
представленная
на
рисунке:
Рисунок 1. Общие результаты классификации по методу Q-грамм
Видно, что 65,36% записей классифицировано правильно при
3,63% ошибок. Таким образом, используя разработанный алгоритм,
можно сократить работу по ручной классификации объектов на 65%
при незначительном уровне риска.
Также стоит отметить, что подавляющее большинство записей
классифицировано с отбором классов по первому слову наименования
объекта. Следовательно, для возможного улучшения алгоритма
классификации следует обратить внимание на совершенствование
этого метода отбора.
Возможные причины ошибок в классификации
 наличие в наименовании материала вспомогательных слов,
состоящих из большого числа символов и не отражающих
5
существенные характеристики материала, а являющихся лишь
пояснением к ключевым понятиям, описывающим функциональное
назначение материала;
 использование синонимов в наименованиях одних и тех же
ТМЦ, что приводит к неверному обнаружению близких по смыслу
слов.
Практическое применение системы автоматической
классификации
Во-первых,
огромным
преимуществом
и
источником
эффективности автоматизированных методов классификации является
их возможность круглосуточной эксплуатации без участия человека.
Таким образом, высвобождается человеческий ресурс, который
невозможно эксплуатировать 24 часа в сутки и лучше использовать
для других задач, не поддающихся автоматизации.
Во-вторых, сокращается число ошибочных записей в
справочниках из-за неопытности «молодых» сотрудников, следствием
чего являются разнообразные издержки из-за принятия ошибочных
решений.
В-третьих, уменьшается время на обработку огромных массивов
информации, а, следовательно, уменьшается продолжительность
такого рода проектов и сокращается их стоимость для заказчиков.
В-четвертых, при приеме дополнительных данных от заказчика
нет необходимости в смене текущей деятельности проектной группы
на задачу классификации новых объектов, что позволяет более
эффективно организовать процесс управления проектом.
Возможные пути развития
Одним из направлений дальнейшего развития инструмента
является интеграция алгоритма автоматической классификации и
экспертной
системы,
оперирующей
взаимосвязями
между
характеристиками объектов. Данная экспертная система будет
работать на основе знаний о предметной области, представленных в
виде групп правил. Таким образом, в процессе работы система
автоматической классификации сможет обращаться за советом к
экспертной системе для получения дополнительных сведений о
распознаваемом объекте и использующихся в процессе распознавания
признаках.
Кроме того, важным направлением развития видится
самообучение алгоритма в процессе работы. Алгоритм должен сам
обучаться и совершенствоваться на основании накопленного опыта,
6
совершённых ошибок при минимально необходимом участии
пользователя.
Более локальный характер носит идея учёта класса в
исторической классификации. Если данные заказчика хорошо
структурированы и наименования классов в исторической
классификации достаточно чётко отражают сущность класса, то их
можно учитывать при автоматической классификации. Например,
составлять список классов-претендентов из тех, до которых расстояние
от наименования исторического класса минимально.
Литература
1. Волошин Г.Я. Методы распознавания образов (конспект лекций). –
ВГУЭС, 2000.
2. Горелов И.Н. Разговор с компьютером: Психолингвистический
аспект проблемы.- М.: Наука, 1987
3. Загоруйко Н.Г. Методы распознавания и их применение. - М:
Советское радио, 1972.
4. Загоруйко Н.Г. Прикладные методы анализа данных и знаний.
Новосибирск: Издательство института математики, 1999.
5. Искусственный интеллект. – В 3-х кн. Кн. 2. Модели и методы:
Справочник/Под ред. Д. А. Поспелова – М.: Радио и связь, 1990.
6. Толчеев В.О. Модели и методы классификации текстовой
информации. Информационные технологии, 5/2004.
7. Graham A. Stephen. String Search (Перевод М.С.Галкиной под ред.
П.Н.Дубнера) http://infoscope.ws/string_search/Stephen-92/index.html.
8. Основы построения систем распознавания образов Часть I (Курс
лекций) http://www.take5.ru/56/3471/index1.1.html.
7
Download