Оценка качества работы алгоритмов бинаризации по динамике

реклама
СЕКЦИЯ 6
А.В. КОВАЛЬЧУК, А.Е. ИВАНОВ, В.Г. ЯХНО
Институт прикладной физики РАН, Нижний Новгород
[email protected], [email protected]
ОЦЕНКА КАЧЕСТВА РАБОТЫ АЛГОРИТМОВ
БИНАРИЗАЦИИ ПО ДИНАМИКЕ ПРОЦЕССОВ
КОДИРОВАНИЯ – ВОССТАНОВЛЕНИЯ
Аннотация
В работе рассмотрена методика выбора наиболее оптимального
алгоритма обработки изображений в зависимости от вида этих входных
изображений (на примере операций бинаризации дактоотпечатков).
Введение. Основной предмет теории распознавания образов
составляет изучение различных алгоритмов преобразования потока
сигналов какого-либо одного заданного типа, а также рассмотрение
операций сравнения соответствующих «кодовых» величин, получаемых
при
описании
видео,
акустических,
тактильных
и
других
информационных сигналов [1-2].
Архитектура адаптивных систем распознавания ориентирована на
выполнение операций оптимальной настройки системы на вид
обрабатываемого сигнала при фиксированном и заранее заданном наборе
использованных алгоритмов. В модельном описании функциональных
взаимосвязей желательно выбрать минимальный набор операций,
требуемый для реализации поставленных системой целей. На рис. 1
представлен набор последовательности операций для автоматического
управления адаптивно-классификационными процессами и связанными с
ними процессами принятия решений [3-6].
УДК 004.032.26(06) Нейронные сети
274
СЕКЦИЯ 6
Внешний
Экран S0
сигнал I0 (x, y)
1
In
Предобработка и
грубое кодирование
Восстановленный
сигнал I1 (x, y)
A
База данных
сигналов
2
3
Точное
кодирование
5
Модели среды, объектов. Предсказание ожидаемого
вида обрабатываемых фрагментов изображений 4
Экран S1
B
Поток решений
7
Алгоритм
принятия
решений
Поток оценок
Enn
Исполнительные
механизмы
I n1 ( Dn , Rn , An , Intn )
6
База данных: набор алгоритмов и
параметров трансформации
изображений, а также принятия решений
An (Enn1 )
Рис 1. Этапы трансформации потоков информационных данных и взаимодействие
между различными обрабатывающими блоками в адаптивной системе принятия
решений с фиксированным набором алгоритмов [3-5]
Практически все известные системы кодирования сложных сигналов
также могут быть интерпретированы на основе такой схемы [1-2].
Известные нам процессы адаптивного обучения представляют собой
уточнение и согласование операций кодового описания с операциями
восстановления исходного сигнала из кода и сопоставления полученных
результатов [1-6].
Основная особенность этой базовой модельной системы заключается в
формальном представлении необходимых и достаточных управляющих
воздействий между информационными потоками и алгоритмами
обработки этих потоков. В частности, вычисленные параметры
изображений информационных сигналов влияют на величины
управляющих сигналов для каждой из операций (кодирований
декодирования, вычисления невязок, принятия решений), которые в свою
очередь изменяют параметры информационного потока. По виду
динамики этого процесса можно вычислить оценки точности для
используемых алгоритмов кодирования-декодирования и формировать
мотивационные сигналы для реакции системы. По ним, например можно
найти условия, при которых необходимо корректировать параметры
действующих алгоритмов или проводить замену «старых» алгоритмов на
«новые» алгоритмы кодирования.
Описание модели сравнения алгоритмов. Известно, что точность
работы алгоритмов распознавания, даже при небольшом наборе
обучающих выборок, может быть проверена по результатам циклического
УДК 004.032.26(06) Нейронные сети
275
СЕКЦИЯ 6
процесса, когда полученное кодовое описание входного сигнала
восстанавливается в интерпретацию этого входного сигнала, затем
восстановленный сигнал снова запускается на кодирование и т.д.
Скорость сходимости значений в этом цикле «кодирование –
восстановление – кодирование – …» и величины отличий от
первоначально полученных значений характеризуют адекватность и
точность выбранных алгоритмов. Такой подход используется для
вычисления оценок качества выполненных операций алгоритмами
фильтрации изображений дактоотпечатков. Полученные результаты
ориентированы на повышение точности систем распознавания по
биометрическим данным.
Алгоритмы предварительной фильтрации изображений, условно
называемые – активный и пассивный, созданы для улучшения структуры
и повышения контрастности отпечатков.
На вход системы «кодирование – восстановление» подаются
полутоновые изображения. В качестве алгоритмов кодирования
используются варианты алгоритмов бинаризации, преобразующие
входное изображение в двоичное поле. Полученные коды исходного
сигнала (бинарные изображения) поступают на восстанавливающую
систему, и затем сигнал, восстановленный по этим кодам, возвращается
на вход фильтра бинаризации. Сравнение происходит по двум кодовым
описаниям, полученным в такой цепи с разностью в одну итерацию. Из
сравнения таких изображений формируется невязка между кодами. По
изменению величин вычисляемой невязки в зависимости от номера
итерации определяется «качество» используемого алгоритма. Была
рассмотрена работа двух алгоритмов, на основе «активной» и
«пассивной» фильтрации изображений.
Активный фильтр. Алгоритм активной фильтрации изображения
выполнен на базе нейроноподобной модели. Основной особенностью
фильтра является использование толщины и направления линий
дактоотпечатка для более точного отражения структуры отпечатка [7].
Фильтр способен выполнять локальное усиление участков изображения
(по яркости), сращивание областей разрывов, изменение расстояния
между объектами. Конечная схема алгоритма представлена на рис. 2.
УДК 004.032.26(06) Нейронные сети
276
СЕКЦИЯ 6
Рис. 2. Схема активного фильтра
По входному изображению на первом этапе строятся характерные
поля – толщины гребней и их направления. Эти поля используются на
втором этапе обработки нейроноподобной средой.
Нейроноподобная
среда,
осуществляющая
преобразование
фильтрации, в непрерывном времени определяется уравнением [3-5].
 




U (r , t )
 U  F  T0  a   (  r )  u (, t ) d ,
t



(1)
где U (r , t ) – уровень активности элемента, F (Z ) – единичная функция
Хевисайда,  (r ) – функция пространственной связи между элементами.
Обычно эта функция задаётся уравнением вида:
( x, y)  h  (1  b  y 2 )  exp(ax  x2  a y  y 2 ) .
(2)
В работе [7] определены оптимальные зависимости параметров  (r )
от линейных размеров гребней для задачи бинаризации. По этим данным
построен набор функций связи, перекрывающий диапазон от 2 до 7
пикселов толщин линий (гребней) на отпечатке. Из полей направления и
УДК 004.032.26(06) Нейронные сети
277
СЕКЦИЯ 6
толщины выбирается ближайшая, удовлетворяющая требованиям,
функция. Эта функция связи затем использовалась в уравнении (1).
Благодаря полям толщин и потоков направлений, характерных для
каждого изображения, происходит адаптация нейроподобной среды на
входной отпечаток.
Описание пассивного фильтра. Алгоритм пассивной фильтрации
формирует изображение с заданными средним и дисперсией (в данной
работе среднее и дисперсия приняты равными 0.5 при максимуме
интенсивности 1.0), в соответствии со следующей формулой:

0.5 


I filt (i, j )  

0.5 


0.5  I (i, j )  M (i, j ) 2
, I (i, j )  M (i, j );
VAR (i, j )
0.5  I (i, j )  M (i, j ) 2
, otherwise,
VAR (i, j )
(3)
где I filt – реконструированное изображение, I – исходное изображение,
M – распределение среднего значения по изображению. Эта составляющая
формируется билинейным однопараметрическим фильтром и считается
шумом. Его параметр определяет область низких частот, выделяемых из
исходного изображения. В результате работы фильтра получается поле,
значение каждой точки которого принимается за локальное значение
среднего в точке, VAR – распределение дисперсии.
Структурная схема данного алгоритма изображена на рис. 3.
Рис. 3. Схема пассивного фильтра
Для получения бинарного препарата исходного изображения
используется пороговая бинаризация с порогом равным среднему
значению 0.5.
УДК 004.032.26(06) Нейронные сети
278
СЕКЦИЯ 6
Алгоритм сравнения. Метод вычисления невязки, в общем случае,
необходимо выбирать в зависимости от особенностей трансформации
изображений анализируемым алгоритмом. В частности, может быть
выбрана величина структурности сигнала, невязка между отношениями
сигнал/шум и т.д. Сложно выбрать наиболее «правильный» алгоритм
вычисления невязки, поэтому во многих случаях нужно характеризовать
анализируемый алгоритм с разным типом определения невязки.
В данной работе использовался простой алгоритм вычисления невязки
по несоответствию пикселей в сравниваемых изображениях K n1 (i, j ) и
K n (i, j ) . Первичное поле невязок E (i, j ) определялось по формуле
E(i, j)  K n1 (i, j)  K n (i, j) .
Интегральное
поле
невязок
E filt
вычислялась в результате операций свертки с однородной круглой
маской, нормированной на 1. Затем для определения областей с наиболее
сильными изменениями выполнялась бинаризация поля невязок с порогом
N
. Параметр N определяет пороговое число точек в
T
2R 2
анализируемой области. Ниже этого числа сравниваемые области на
изображениях считаются совпадающими, выше – не совпадающими.
Расчеты выполнены для маски с радиусом R = 5 и N = 30. Окончательная
оценка величины невязки на всем поле невязок E filt определялась из
 E filt (i, j )
формулы VC 
i, j
, где S – площадь поля E filt .
S
Алгоритм восстановления изображения. Одним из способов
восстановления бинарного изображения является восстановление с
помощью гауссова ядра. Формально эта операция описывается
уравнением:
I rec (r )   M (r 1 )  K (r  r 1 ) . Ядро –
K (r )  A  e

r2
2 2
.
Оптимальный параметр   1.3 – получен экспериментальным путём.
1
Нормирующий множитель A 
.
4 2
Результаты исследования. Изучение динамики изменений невязки в
различных по качеству частях изображения проводилось по схеме
обратной задачи. Использовался алгоритм, определяющий области, где
локальные дисперсия и среднее (определенные в описании пассивного
УДК 004.032.26(06) Нейронные сети
279
СЕКЦИЯ 6
фильтра) не входят в заданные диапазоны изменения. Определялась маска
областей, условно называемых «хорошей» (соответствующей структуре
дактоотпечатка)
и
«плохой»
(несоответствующей
структуре
дактоотпечатка). По величинам изменений невязки в этих областях при
повторных операциях «кодирование – восстановление» удается
вычислить оценки качества алгоритма кодирования, как для всего
изображения, так и для отдельных локальных фрагментов.
Стационарное изображение
активного фильтра
Входное изображение
Стационарное изображение
пассивного фильтра
Рис. 4. Динамика невязки в зависимости от итераций
Скорость спадания кривых зависимости невязки от номера итерации
рис. 4 характеризует устойчивость фильтра и показывает относительное
количество искажений, вносящихся в изображение при операциях
«кодирование – восстановление». Если в результате повторяющихся
операций «кодирование – восстановление» изображение сходится к
стационарному изображению (невязка = 0), то это означает, что
используемый алгоритм наиболее оптимально выполняет операцию
кодирования. Обычно в «плохих» областях величина невязки больше, а
скорость схождения к стационарным изображениям меньше, чем в
«хороших» областях.
УДК 004.032.26(06) Нейронные сети
280
СЕКЦИЯ 6
Рис. 5. Зависимость невязки от параметра
Была рассмотрена также возможность настройки параметров фильтров
с помощью данной модели. Наиболее показательны значения невязки на
первых трех итерациях (рис. 5). Невязка, полученная при сравнении кодов
исходного изображения и кодов первого синтезированного, показывает
зашумленность входного изображения, а следующая – скорость удаления
«шумовых» артефактов из локальных фрагментов анализируемого
изображения.
Оптимальные значения параметров фильтрации находятся в областях
минимума кривых невязки (рис. 5). Для приведённого примера с
активным фильтром это значение находится между 4 и 5. Для пассивного
фильтра – в районе 0.5 – 1. Сравнение величин невязок при оптимальных
значениях параметров, позволяет определить наиболее подходящий
фильтр для конкретного входного изображения. В данном примере более
качественную предобработку осуществляет нейроноподобный фильтр.
Выводы. Приведенная методика позволяет вычислять оценки качества
работы алгоритмов кодирования. Эта же последовательность операций
«кодирования – восстановления» позволяет определять оптимальные
параметры алгоритмов кодирования. Предполагается, что данная
методика найдет свое применение в тех адаптивных системах
распознавания, в которых требуется автоматическое определение
правильности работы алгоритмов для каждого входного изображения.
Работа выполнялась при частичной поддержке гранта АФГИР
№ RMO-10214-BNL № 36943.
УДК 004.032.26(06) Нейронные сети
281
СЕКЦИЯ 6
Список литературы
1. Дуда З., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976.
2. Патрик Э. Основы теории распознавания образов. М.: Советское Радио, 1980.
3. Яхно В. Г. Процессы самоорганизации в распределенных нейроноподобных системах.
Примеры возможных применений // Нейроинформатика 2001. Лекции по
нейроинформатике. М.: МИФИ, 2001. C. 103-141.
4. Яхно В.Г., Нуйдель И.В., Тельных А.А., Бондаренко Б.Н., Сборщиков И.Ф.,
Хилько А.И. Метод адаптивного распознавания информационных образов и система для его
осуществления. Российский Патент № 2160467, 1999.
5. Яхно В. Г. Модели нейроноподобных систем. Динамические режимы преобразования
информации. Нелинейные волны 2002 / Отв. ред. А.В. Гапонов-Грехов, В.И. Некоркин.
Нижний Новгород. ИПФ РАН, 2003. 90-114.
6. Fukushima K. Neural network model of selective attention in visual pattern recognition and
associative recall // Applied Optics. 1983. V. 26, № 23 P. 4985-4992; Neural network for visual
pattern recognition. Computer. 1988. P. 65-67.
7. Чайкин А. В., Ковальчук А. В. Использование нейроноподобных алгоритмов для
обработки изображений в однородных сетях и их кодирования на примере биометрической
системы по дактоотпечаткам // Нейроинформатика 2004. Сборник научных трудов. Ч. 2. М.:
МИФИ, 2004. С. 231-238.
УДК 004.032.26(06) Нейронные сети
282
Скачать