С.C. ЗАВАЛИШИН Научный руководитель – И.В. САФОНОВ, к.т.н

advertisement
С.C. ЗАВАЛИШИН
Научный руководитель – И.В. САФОНОВ, к.т.н., доцент
Национальный исследовательский ядерный университет «МИФИ»
ИСПОЛЬЗОВАНИЕ Flickr ДЛЯ НАСТРОЙКИ АЛГОРИТМА
АВТОМАТИЧЕСКОГО РАНЖИРОВАНИЯ ИЗОБРАЖЕНИЙ
Рассматривается задача использования web-хранилищ фотографий для
верификации и обучения алгоритмов ранжирования фотографий, использующих
машинное обучение. Дано описание численных метрик для оценки
привлекательности фотографии, которые вычислены по метаданным изображения,
доступных во Flickr. Показано, что метрики согласуются с экспертной оценкой и
могут быть использованы для обучения и настройки алгоритмов по оценке
привлекательности фотографий.
Одной из актуальных и широко обсуждаемых проблем компьютерного
зрения
является
задача
ранжирования
изображений
по
привлекательности [1]. Большинство подходов к ее решению используют
техники машинного обучения. Проведение обучения и настройка
разработанных
алгоритмов
требуют
значительного
количества
изображений в качестве тестовой и проверочной выборок, для которых
известно мнение человека. В связи с этим, одной из тенденций является
использование общедоступных web-баз изображений, вместо составления
собственных, как правило, небольших баз изображений с оценкой,
сделанной незначительным количеством экспертов. В качестве крупных
баз изображений могут рассматриваться фотохранилища и социальные
сети.
В виде API реализована возможность доступа к изображениям и
метаданным в сервисе Flikr [2]. С помощью данного API, была
разработана программа для быстрого скачивания нескольких сотен тысяч
фото и их метаданных. Для ускорения процесса скачивания
использовались
методы
многопоточного
программирования.
Классический однопоточный механизм дает возможность обрабатывать
менее 20 изображений в минуту, в то время как предлагаемая реализация
позволяет загружать порядка 250 изображений в минуту.
Большинство сервисов с фотографиями, в том числе и Flickr, в
качестве оценки привлекательности предлагают пользователю установить
признак «нравится». Однако, ранжирование фотографий только на
основании данной оценки представляется не вполне корректным. Поэтому
проведено исследование возможных метрик привлекательности по
данным о фотографии из Flickr и их корреляции с мнением экспертов.
Для корректной оценки все изображения были разделены на несколько
множеств, соответствующих типичным фотографическим сюжетам. В
качестве основных характеристик привлекательности использовались
значения EXIF-тегов (значение ISO, фокальное расстояние, выдержка,
число диафрагмы и т.д.), а так же количество просмотров фотографии и
число отметок «нравится». Было определено, что рейтинг фотографии
имеет свойство уменьшаться со временем. Предложена функция
корректировки:
𝑅 , 𝑅 ≤ 0.1,
𝑅𝐴
𝑅𝐴𝑁 =
∙ 100%, 𝑅𝐴 = { 𝐴0 𝐴0
, (1)
𝑚𝑎𝑥𝑅𝐴
0.1, 𝑅𝐴0 > 0.1;
𝑅𝐴0 =
0,8𝑅0
𝑅𝑚
𝑅0 ,
𝑚 ≤ 2,
, 𝑅𝑚 = {
0,5
⁄
0,1 𝑚 , 𝑚 > 2;
(2)
где m – количество месяцев, прошедших с момента публикации
фотографии, R0 – исходный рейтинг фотографии, Rm – коэффициент
корректировки рейтинга, RA0 – скорректированный рейтинг, RA – рейтинг,
ограниченный диапазоном [0; 0.1], а RAN – значение рейтинга,
нормализованное в диапазоне от 0 до 100%.
Для проверки корреляции предложенных метрик с мнением человека
был создан набор из нескольких сотен фотографий. Экспертам было
предложено проставить численную оценку привлекательности каждой
фотографии из набора. Был найден коэффициент корреляции Пирсона
между оценками, выставленными автоматической функцией и
экспертами, составивший rA=0,46 для всех оцененных изображений и
r0=0,66 для изображений, имеющих m<3. Данное значение коэффициента
корреляции является достаточным для нахождения общих тенденций на
объёмных выборках.
Разработано приложение, которое позволяет оценивать качество
работы различных алгоритмов оценки фотографий. Планируется
использование данного приложения для настройки алгоритма оценки
привлекательности из работы [3].
Литература
1. D. Joshi, et.al. “Aesthetics and Emotions in Images: A Computational Perspective” // IEEE
Signal Processing Magazine. 2011. Т. 28. No. 5. С. 94-115.
2. Flickcurl Flickr API: http://librdf.org/flickcurl/api/index.html
3. M. Egorova, I. Safonov, “Selection of photos for album building applications” // Proc. of
International Conference on Pattern Recognition(ICPR). 2010. C. 3256-3259.
Download