Алгоритм выделения системы ключевых точек на лице человека

реклама
Алгоритм выделения системы ключевых точек на лице человека
Неклюдов К.О.
Алгоритм выделения системы ключевых точек на лице человка
Неклюдов К. О.
Московский физико-технический интитут (государственный университет)
Аннотация
В работе исследуется задача распознавания образов на изображении. В частности, исследуется алгоритм поиска графической структуры на изображении. Графической структурой в работе является набор точек на плоскости. Исследуемый алгоритм может быть использован для поиска любых графических структур, но в данной работе рассматривается
его применение к задаче выделения ключевых точек на лице человека. Целью работы является оценка качества алгоритма. В работе предложен способ повышения точности алгоритма. Он заключается в предварительной обработке изображений с помощью гауссовской
фильтрации. Все количественные оценки качества алгоритма представлены вычислительным экспериментом на реальных данных.
Ключевые слова: минимизация энергии трансформации, фильтрация изображений, распознавание образов.
Введение
В
данной
работе
исследуется
задача
распознавания образов на изображении [1, 2, 3], в
частности рассматривается задача нахождения
ключевых точек на изображении и критерий качества
её решения. Требуется найти определённую
графическую структуру на наборе изображений. В
контексте рассматриваемой работы, графическая
структура представлена множеством точек, которые
называются ключевыми точками. В терминах
машинного
обучения
объектом
изучаемого
множества является изображение, а ответом к
объекту является множество ключевых точек,
которое требуется выделить на этом изображении.
Искомая графическая структура задаётся на этапе
обучения с помощью размеченной выборки, таким
образом множество «ответов» задачи определяется
множеством изучаемых объектов. Результатом
работы алгоритма являются координаты каждой
ключевой точки на изображении. Таким образом,
координаты каждой ключевой точки, полностью
задают графическую структуру. Ключевые точки,
заданные на выборке должны обладать рядом
свойств: должны присутствовать на каждом объекте,
должны выделяться на изображении (иметь скачок в
интенсивности или цвете). В данной работе ключевые
точки имеют физический смысл, например, кончик
носа, уголки глаз, углы губ, края бровей. Ключевые
точки, рассматриваемые в данной работе изображены
на Рис. 1.
Рис. 1: Ключевые точки.
Задача
распознавания
аналогичной
графической структуры рассматривается в работе [4].
В данной работе задача нахождения графической
структуры решается путём минимизации целевой
функции, в которой координаты ключевых точек
являются аргументами. Минимизируемую функцию в
работе [5] называют функцией энергии. Она несёт
смысл
качества
расположения
графической
структуры
относительно
изображения.
Для
вычисления
функции
энергии
используется
вероятностный подход, в котором связи между
ключевыми точками и изображением описываются
параметрическим распределением. Таким образом
функция энергии в вероятностной постановке задачи
является функционалом правдоподобия графической
структуры для данного изображения. Исследуемый в
работе алгоритм состоит из двух этапов. На первом
этапе, с помощью обучающей выборки, вычисляются
параметры распределений и задаётся функционал
правдоподобия. На втором этапе для поданного на
вход алгоритму изображения максимизируется
функционал
правдоподобия
по
неизвестным
координатам ключевых точек. Найденные при
максимизации аргументы функционала являются
Алгоритм выделения системы ключевых точек на лице человека
Неклюдов К.О.
результатом работы алгоритма.
Существует
несколько
методов
предварительной обработки изображения
для
повышения
точности
алгоритма.
Основными
методами являются: удаление зашумлённости (с
помощью гауссовской фильтрации), выравнивание
освещённости [6], повышение контрастности (на
основе гистограммы интенсивностей), повышение
детальности (с помощью вычисления градиентов) [7].
В зависимости от используемого алгоритма,
соответствующие
методы
предварительной
обработки
помогают
выделить
графическую
структуру и уточнить признаковое описание
изображения.
Исследуемый в работе алгоритм подробно
описывается в статье [8]. В статье [8] описывается
вероятностный подход к вычислению функции
энергии и предлогается алгоритм нахождения
различных графических структур на изображении.
Результаты работы алгоритма продемонстрированы
на примерах распознавания 5-ти ключевых точек на
лице человека. Новизной предлагаемого подхода
является:
1. Усложнение графической структуры по
сравнению с рассматриваемой в статье [8]. В
данной работе рассматривается графическая
структура, состоящая из 15-ти ключевых точек на
лице человека.
2. Введение функционала качества, как для
отдельного изображения так и для тестовой
выборки, с целью количественнно оценить
качество работы алгоритма.
3. Предлагается использовать при решении задачи
предварительную обработку изображений, а
точнее использовать гауссовскую фильтрацию
изображения, что повышает точность алгоритма.
Вычислительный эксперимент проводился на
выборке из 7049 чёрно-белых изображений с
разрешением 96×96. На каждом изображении
присутствует лицо человека. Также для каждого
изображения заданы координаты ключевых точек.
Данные
используемые
в
вычислительном
эксперименте были взяты с сайта [9].


RMSE {Lk }kN=1 , {Lˆk }kN=1 =
1
nN
Оптимизационная постановка задачи нахождения
ключевых точек на изображении.
Для определения ключевых точек L применяется
метод
минимизации
энергии
[5],
который
заключается в следующем.
n
i i =1
Построим по набору ключевых точек L = {l }
на изображении
X взвешенный граф G = ( L, E ) .
Обозначим за m(li ) вес вершины li этого графа, за
d (li , l j ) — вес ребра, соединяющего вершины li , l j .
Постановка задачи
Задан набор чёрно-белых изображений с
одинаковым разрешением a  b пикселей. Всего
задано
N
изображении
изображений
{X k }kN=1 . На каждом
X k задана графическая структура —
набор ключевых точек:
Lk = {li }in=1 , li = ( xi , yi ),
(1)
где
li — набор координат точки на изображении.
При этом каждая ключевая точка li имеет метку vi ,
несущую физический смысл, например, кончик носа
или уголки рта. Задача заключается в сопоставлении
изображению
X набора ключевых точек L̂ .
(2)
A : X  Lˆ.
Расстояние  между рассчитаными значениями
координат ключевых точек L̂ и истинными
значениями L на одном изображении X задано
формулой
15
 ( L, Lˆ ) =  ( xi  xˆi ) 2  ( yi  yˆ i ) 2 ,
i =1
где x, y — известные координаты точек
— рассчитаные координаты точек
li , xˆ , yˆ
lˆi .
При проведении вычислительного эксперимента
N
полная выборка изображений {X k }k =1 разбивается
на обучающую (выборка на которой настраиваются
параметры алгоритма) и контрольную (выборка на
которой оценивается качества алгоритма). Для
решения задачи (2) требуется минимизировать
предложенный функционал на фиксированной
контрольной выборке. Критерий качества RMSE
решения задачи выделения ключевых точек на всей
контрольной выборке задан в виде:
n
N
(( x
ik
 xˆik ) 2  ( yik  yˆ ik ) 2 )
i =1 k =1
Вес вершины графа
m(li ) будем называть
унарным потенцилом. Унарный потенциал имеет
смысл качества расположения точек li
на
изображении
X . Вес ребра графа
d (li , l j )
называется бинарным потенциалом и имеет смысл
качества относительного расположения вершин li и
l j . Конкретный вид потенциалов m(li ) , d (li , l j )
будет рассмотрен ниже.
Оптимальная
графическая
структура
на
Алгоритм выделения системы ключевых точек на лице человека
изображении определяется минимизацией функции
энергии:
 n

L* = argmin  m(li )   d (li , l j ) .
 i =1

LZ
( vi ,v j )E


Неклюдов К.О.
n
В данном выражении: L = {li = ( xi , yi )}i =1
—
набор ключевых точек, причём
(3)
L  Z , Z = {( xi , yi ) in=1 | xi , yi  Z, xi [0, a ], yi  [0, b]}, (4)
m(li ) — унарный потенциал точки с меткой vi и
координатами li , E — множество рёбер графа,
d (li , l j ) — бинарный потенциал между вершинами
vi , v j .
Переформулируем задачу в вероятностной
постановке. Как упомяналось выше, взаимодействие
ключевых точек и изображения вычисляется с
помощью параметрического распределения, где
случайной
величиной
является
графическая
структура. Обозначим плотность распределения
графической структуры L на изображении X как
p( L | X, )
, где  = (u, E , c )
(5)
— набор параметров модели: u — параметры
распределения унарного потенциала, c — параметры
распределения бинарного потенциала. Используя
Байесовское правило запишем:
p( L | X, )  p( X | L, ) p( L | ).
(6)
В этой формуле плотность распределения
графической структуры при заданном изображении
X и параметрах модели  , с точностью до
некоторой
константы,
равна
правдоподобию
изображения
X для заданной графической
структуры L умноженному на правдоподобие
графической структуры L относительно заданных
параметров  . Константа в данном случае нас не
интересует,
т.к.
мы
рассматриваем
задачу
оптимизации. Первый множитель в формуле (6)
может быть переписан в виде:
n
p( X | L, )   p( X | li , ui ),
(7)
i =1
где n — число ключевых точек (1). Второй
множитель формулы (6) описывает правдоподобие
графической структуры, а точнее взаимного
расположения ключевых точек. Соответственно он
может быть переписан в виде:
p( L | ) 

( vi ,v j )E
p(li , l j | cij ).
(8)
Подставляя выражения (7) и (4) в формулу (6)
получим
функционал
правдоподобия,
оптимизируемый в вероятностной постановке задачи:
p( L | X, ) 

( vi ,v j )E
n
p(li , l j | cij ) p( X | li , ui ).
i =1
(9)
Задача (3) может быть получена из (9) взятием
отрицательного логарифма. В частности, бинарный и
унарный потенциалы будут иметь вид:
m(li ) =  log p( X | li , ui )
(10)
d (li , l j ) =  log p(lI , l j | cij )
(11)
Получаем следующую оптимизационную задачу:
n


L* = argmax   p(li , l j | cij ) p( X | li , ui ) 
 ( v ,v )E

L
i =1
 i j

(12)
Для оценки плотностей вероятности унарного
d (li , l j ) потенциалов
и
бинарного
m(li )
используется предположение
распределений:
о
нормальности
p( X | li , ui )  N(α(li ) | μi , Σi ),
(13)
p(li , l j | cij )  N(li  l j | sij , Σij ).
(14)
Тогда выражение (5) в новых обозначениях
принимает вид ui = (μi , Σi ) , cij = ( sij , Σij ) . В
выражениях (13) и (14) вертикальная черта в
нормальном распределении отделяет фиксированный
аргумент распределения от его параметров.
Задача (2) разбивается на этапы обучения и
выполнения. На этапе обучения оцениваются
параметры
распределений
 и строится
оптимальный граф T . На этапе выполнения
максимизируется функционал (12) с уже известными
параметрами распределений.
Алгоритм поиска ключевых точек на изображении
Этап обучения заключается в оценке параметров
распределений вероятности унарных и бинарных
потенциалов. Для оценки плотности распределений
унарного потенциала (13) построим признаковое
описание изображения путем свертки изображения
X с различными гауссовскими фильтрами.
Гауссовский фильтр является частной производной
двумерного нормального распределения, параметры
которого определяются матрицей ковариаций.
Подробный способ построения фильтров описан в
работе [10]. Всего рассматривается девять типов
фильтров, с тремя различными дисперсиями (см. Рис.
2).
Алгоритм выделения системы ключевых точек на лице человека
Неклюдов К.О.
Рис. 2: Гауссовские фильтры.
Таким образом, после применения операций свертки с различными фильтрами, получаются 27 новых
изображений, каждое из которых вычисляется по формуле:
w
X ' ( x1 , y1 ) =
h
 X ( x
1
x2 =1 y2 =1

w
h
 x2 , y1   y2 )N( x2 , y2 ), (15)
2
2
здесь X ( x, y ) — значение пикселя в строке
x  [0, a ] , столбце y  [0, b] ; N — гауссовский
фильтр; w, h — размеры фильтра. Ниже приведён
пример стандартного гауссовского фильтра.
N( x, y ) =
Каждая
1
2 2

e
ключевая
x2  y2
2 2
.
(16)
точка
значениями этих фильтров:
li
описывается
27 -мерным вектором
α(li ) . Как упоминалось ранее, распределение
вектора α(li ) аппроксимируется нормальным (13).
Вычисленные бинарные потенциалы p (li , l j | cij )
являются весами ребер графа G . Для ускорения
работы алгоритма на этапе выполнения используется
не полный граф, а дерево, выделенное из графа,
которое наилучшим образом описывает связи между
точками. В качестве такого дерева рассматривается
остовное дерево с наибольшим весом, где вес ребра
определяется бинарным потенциалом p (li , l j | cij ) ,
соответствующим паре вершин (Рис. 3). Для
нахождения такого дерева используются алгоритмы
Прима и Крускала, описанные в книге [11]. После
нахождения максимального остовного дерева
выберем корень дерева и зададим листья.
На этапе обучения вычисляются выборочное среднее
μ̂ i и корреляционная матрица Σ̂i .
Для оценки плотности распределений бинарного
p(li , l j | cij ) используются только
потенциала
координаты ключевых точек li , l j . Распределение (4)
также
аппроксимируется
нормальным
(14).
Выборочное среднее ŝ ij и корреляционная матрица
Σ̂ ij вычисляются по стандартным формулам.
Рис. 3: Дерево, полученное на этапе обучения.
Алгоритм выделения системы ключевых точек на лице человека

Таким образом на этапе обучения строятся:
распределения
унарных
потенциалов
p( X | li , ui ) ,
 распределение
p(li , l j | cij ) ,
бинарных
потенциалов
Неклюдов К.О.
потенциал взаимодействия ключевой точки v j и её
родителя
(17)
vcCr
p(X | lr , ur )
vr , а функция
Sc (lr ) учитывает взаимодействие корня с его
потомком vc из множества Cr . Функция S j (li ) ,
описывающая взаимодействие ключевой точки
vi с
потомком v j  Ci вычисляется по формуле.


S j (li )   p( X | l j , u j ) p(li , l j | cij )  Sc (l j ) 


lj
vc C j


(18)
Здесь суммирование ведётся по всевозможным
коодинатам ключевой точки l j = ( x j , y j ) , т.е. по
всему изображению L  Z (4).
Для
вычисления
функции
правдоподобия
расположения произвольной ключевой точки v j
необходимо
дополнительно
учесть
плотности
родителем
vj с
vi выглядит следующим образом:
vcC j
После нахождения параметров распределений 
необходимо решить оптимизационную задачу (12)
для
определения
оптимальной
конфигурации
ключевых точек L на изображении X . Таким
образом необходимо максимизировать функционал
(9) по набору переменных — ключевых точек L .
Алгоритм вычисляет координаты ключевых точек
последовательно. Запишем функцию правдоподобия
расположения корня дерева vr с координатами lr
учитывает унарный потенциал корня
функция
p(l j | li , X, )  p( X | l j , u j ) p(li , l j | cij )  Sc (l j ),
Этап выполнения: нахождения ключевых точек.
В этой формуле первый множитель
Тогда
распределения координат ключевой точки
 дерево T , соединяющее ключевые точки L .
p(lr | X, )  p( X | lr , ur )  Sc (lr ).
vi .
(19)
где
p ( X | l j , u j ) — унарный потенциал (7);
p(li , l j | cij )
—
бинарный
потенциал
взаимодействия ключевой точки v j и её родителя

S (l j )
vc C j c
—
бинарный
(4)
vi ;
потенциал
взаимодействия вершины v j и всех её потомков.
Из формулы (19) видно, что функцию
правдоподобия для произвольной ключевой точки v j
невозможно вычислить при неизвестных координатах
её родителя vi , следовательно, непосредственное
вычисление координат ключевых точек необходимо
начинать с корня (17). Обращаясь к формуле (17)
видно, что функция правдоподобия расположения
корня дерева vr на изображении также не может
быть вычислена без известной функции
Sc (lr ) . Эти
соображения разбивают алгоритм нахождения
ключевых точек на две части.
Первая часть состоит в вычислении функции S
(18) для всего дерева T . Вычисление функции S
необходимо начинать с листьев дерева — ключевых
точек у которых нет потомков и, соответственно, нет
необходимости знать координаты ключевых точек.
Для вычисления плотностей вероятности унарного (7)
и
бинарного
потенциалов
(4)
используем
аппроксимацию нормальным распределением (13),
(14), параметры которого рассчитаны на этапе
обучения.
Подставив
известные
плотности
распределения для потенциалов получим:
бинарный


S j (li )   N(li  l j | sij , Σij )N(α(l j ) | μ j , Σ j )  Sc (l j ) . (20)


lj
vc C j


Соответственно, для листьев:
S j (li )  N(li  l j | sij , Σij )N(α(l j ) | μ j , Σ j ).
lj
(21)
Вторая часть состоит в вычислении координат
каждой ключевой точки, начиная с корня дерева vr .
После вычисления значений функции
S на первом
этапе алгоритма вычисляются значения плотности
вероятности p (l j | li , X, ) в каждой ключевой
точке, начиная с корня vr . При этом для вычисления
плотностей вероятности унарного (7) и бинарного
потенциалов
(4)
используем
аппроксимацию
нормальным распределением (13) (14) как и на
первом этапе алгоритма.
Алгоритм выделения системы ключевых точек на лице человека
Неклюдов К.О.
p(lr | X, )  p( X | lr , ur )  Sc (lr )  N(α(lr ) | μ r , Σr )  Sc (lr ) (22)
vcCr
Максимизируя эту функцию находим координаты
корня дерева:
lr* = argmax N(α(lr ) | μr , Σr )  Sc (lr ).
(23)
vcCr
Для произвольной ключевой точки v j функция
плотности вероятности рассчитывается аналогичным
образом:
vcCr
lr
p(l j | li , X, )  p( X | l j , u j ) p(li , l j | cij )  Sc (l j )  N(li  l j | sij , Σij )N( (l j ) | μ j , Σ j )  Sc (l j ), (24)
vcC j
где
li — координаты ключевой точки vi , которая
является родителем для v j и уже известна. Тогда
vcC j
корню:
найдём координаты ключевых точек аналогично
l *j = argmax N(li  l j | sij , Σij )N(α(l j ) | μ j , Σ j )  Sc (l j ). (25)
vcC j
lj
Вычислительный эксперимент
Вычислительный эксперимент проводился на
выборке из 7049 чёрно-белых изображений с
разрешением 96 96 . Для каждого изображения X
были известны координаты ключевых точек
Далее приведены примеры распознавания на
контрольной выборке (Рис. 5), а также график
расстояния  на отдельных изображениях (Рис. 6).
{li = ( xi , yi )}in=1 . Выборка {X k }kN=1 была разбита
произвольным образом на обучающую (6749
изображений) и контрольную (300 изображений).
Таким образом, параметры модели  = (u, E , c )
настраивались на обучающей выборке, а критерий
качества RMSE измерялся на контрольной.
а)
б)
Рис. 4: Распределение бинарного потенциала
На Рис. 4 приведён график распределения вектора,
соединяющего ключевые точки: "кончик носа" и
"центр левого глаза". Из графика видно, что
аппроксимация
бинарного
потенциала
(4)
нормальным
распределением
является
целесообразной.
в)
Рис. 5: Примеры распознования.
Алгоритм выделения системы ключевых точек на лице человека
Неклюдов К.О.
работы алгоритма на изображении, состоящем из
одних нулей.
Примеры распознавания лиц для алгоритма с
предварительной обработкой (Рис. 8).
Рис. 6: Расстояние
 на отдельных изображениях.
Предварительная обработка изображений
Результат работы алгоритма на контрольной
выборке можно улучшить, введя предварительную
обработку изображений. Предварительная обработка
заключается в наложении гауссовского фильтра (15)
на исходное изображение X , условно этот этап
можно назвать «размытием».
Ожидается, что предварительное размытие
изображение снизит зашумлённость и выровняет
освещённость. Ниже приведён график критерия
качества RMSE для различных значений дисперсии
2
а)
(Рис. 7).
б)
Рис. 7: Функционал ошибки при различной
дисперсии фильтра.
Штрих-пунктирная линия соответствует значению
функционала для алгоритма без предварительной
обработки. Пунктирная линия - значение графика при
увилечении дисперсии
 .
2
При устремлении
параметра размытия к бесконечности,   
получившееся после предобработки изображение
будет состоять из одних нулей, соответственно,
пунктирная линия на графике является результатом
в)
Рис. 8: Примеры распознования.
2
Получается, что алгоритм работает лучше на
изображениях, состоящих из одних нулей. Это
объясняет приведённый ниже график (Рис. 9).
Алгоритм выделения системы ключевых точек на лице человека
Неклюдов К.О.
изображений. В работе был предложен способ
повышения точности работы алгоритма с помощью
гауссовской фильтрации. Также был проведён
вычислительный эксперимент, который показал, что
при применении гауссовской фильтрации ошибка
алгоритма на выборке снижается с RMSE = 11,67
до
RMSE = 2,49 .
Литература
1. Eichner, M. Better appearance models for pictorial
Рис. 9: Сравнение ошибок на изображениях при
2 .
Как мы видим, при работе алгоритма на
неразмытых изображениях, возникают выбросы —
изображения на которых критерий качества
превосходит среднее значение по всей выборке.
Выбросы вносят значительный вклад в увеличение
критерия качества RMSE .
Рис. 10: Сравнение ошибок на изображениях при
 2 = 12 .
Приведённый выше график (Рис. 10) показывает
улучшение
первоначального
алгоритма
при
добавлении предварительной обработки.
Заключение
В работе исследуется алгоритм выделения
ключевых точек [8] для задачи распознавания лица
человека. Применение алгоритма рассматривалось в
задаче нахождения более сложной графической
структуры, состоящей из 15-ти ключевых точек на
лице человека. Был предложен критерий качества
работы алгоритма и поставлен вычислительный
эксперимент для оценки качества работы алгоритма
как на одном изображении так и на выборке
structures/ M. Eichner, V. Ferrari // British Mchine Vision
Conference. - 2009.
2. Andriluka, M. Pictorial structures revisited: People
detection and articulated pose estimation/ M. Andriluka, S.
Roth, B. Schiele // In Computer Vision and Pattern
Recognition. - 2009. IEEE Conference on. – P. 1014–1021.
3. Ланге, М. М. Иерархические структуры данных и
решающие алгоритмы для классификации изображений
/ М. М. Ланге, С. Н. Ганебных // Машинное обучение
и анализ данных. - 2013. – Т. 1, № 6. - С. 725-733.
4. Каркищенко, А. Н. Восстановление симметричности
точек на изображениях обьектов с отражательной
симметрией / А. Н. Каркищенко, В. Б. Мнухин //
Машинное обучение и анализ данных. – 2013. – Т. 1, №
5. - С. 621-631.
5. Fischler, M. A. The representation and matching of
pictorial structures/ M.A. Fischler, R.A. Elschlager // IEEE
Transactions on Computers. – 1973. – V. 22. - № 1. – P. 6792.
6. Gross, R. An image preprocessing algorithm for
illumination invariant face recognition / R. Gross, V.
Brajovic // Audio- and Video-Based Biometric Person
Authentication: Springer, 2003, - P. 10–18.
7. Bow, S. T. Pattern recognition and image preprocessing /
S.T. Bow – Boca Raton, Florida: CRC Press, 2002. – 720 p.
8. Felzenszwalb, P. F. Pictorial structures for object
recognition/ P. F. Felzenszwalb, D. P. Huttenlocher //
International Journal of Computer Vision. – 2005. – V. 61. № 1. – P. 55-79.
9. https://www.kaggle.com/c/facial-keypoints-detection/data.
10. Rao, R. PN. An active vision architecture based on iconic
representations/ R. PN. Rao, D. H. Ballard // Artificial
Intelligence. – 1995. – V. 78. - № 1. – P.461-505.
11. Cormen, T. H. Introduction to algorithms/ T. H. Cormen,
C. E. Leiserson, R. L. Rivest, C. Stein – Cambridge: MIT
press, 2001. – 1191 p.
References
1. Eichner, M. Better appearance models for pictorial
structures/ M. Eichner, V. Ferrari // British Mchine Vision
Conference. - 2009.
2. Andriluka, M. Pictorial structures revisited: People
detection and articulated pose estimation/ M. Andriluka, S.
Roth, B. Schiele // In Computer Vision and Pattern
Recognition. - 2009. IEEE Conference on. – P. 1014–1021.
3. Lange, M.M. Hierarchical Data Structures and Decision for
Efficient Image Classification / M.M. Lange, S.N.
Ganebnykh // Machine Learning and Data Analysis. 2013. – V. 1, № 6. - P. 725-733. – (In Russian).
Алгоритм выделения системы ключевых точек на лице человека
Неклюдов К.О.
4. Karkishchenko, A.N. Recovery of points symmetry in
8. Felzenszwalb, P. F. Pictorial structures for object
imagees of objects with reflectional symmetry / A.N.
Karkishchenko, V.B. Mnukhin // Machine Learning and
Data Analysis. – 2013. – V. 1, № 5. - P. 621-631. – (In
Russian).
5. Fischler, M. A. The representation and matching of
pictorial structures/ M.A. Fischler, R.A. Elschlager // IEEE
Transactions on Computers. – 1973. – V. 22. - № 1. – P. 6792.
6. Gross, R. An image preprocessing algorithm for
illumination invariant face recognition / R. Gross, V.
Brajovic // Audio- and Video-Based Biometric Person
Authentication: Springer, 2003, - P. 10–18.
7. Bow, S. T. Pattern recognition and image preprocessing /
S.T. Bow – Boca Raton, Florida: CRC Press, 2002. – 720 p.
recognition/ P. F. Felzenszwalb, D. P. Huttenlocher //
International Journal of Computer Vision. – 2005. – V. 61. № 1. – P. 55-79.
9. https://www.kaggle.com/c/facial-keypoints-detection/data.
10. Rao, R. PN. An active vision architecture based on iconic
representations/ R. PN. Rao, D. H. Ballard // Artificial
Intelligence. – 1995. – V. 78. - № 1. – P.461-505.
11. Cormen, T. H. Introduction to algorithms/ T. H. Cormen,
C. E. Leiserson, R. L. Rivest, C. Stein – Cambridge: MIT
press, 2001. – 1191 p.
Facial keypoints detection
K. O. Neklyudov
Moscow Institute of Physics and Technology (National University)
Abstract
The purpose of this paper is to study pattern recognition on images. In particular, it studies the
search algorithm of a graphic structure on image. Graphic structure is defined as an set of points
on a plane. The algorithm in question can be used to recognise any graphic structures, but the
paper only studies its application to allocate the key points on a human face. The purpose of the
paper is to assess the quality of the algorithm. The paper lays down a way to increase the accuracy
of the algorithm by introducing image preprocessing by means of the Gaussian filter. All
quantitative quality evaluations of the algorithm are carried out through computation experiments
with real data set.
Key words: energy minimization, image processing, pattern recognition.
Сведения об авторах
Неклюдов Кирилл Олегович, 1993 года рождения, в 2014 году получил степень
бакалавра в Московском Физико-Техническом Институте по специальности 010900
«прикладная физика и математика».Область научных интересов: машинное обучение.
E-mail: [email protected].
Kirill Olegovich Neklyudov (b.1993) get bachelor diploma at Moscow Institute of Physics
and Technology in 2014. Research interest is machine learning.
Скачать