Поиск фотографий по содержанию Алексей Явлинский Аспирант университета Imperial College London, Великобритания План презентации • Сегодня мы поговорим о том Как работают поисковики фотографий в интернете В чем проблема нынешних методов поиска Как анализ содержимого образов может быть полезен для решния этой проблемы Какие есть существующие методы анализа образов Как работает наш метод • И увидим прототип поисковика образов в Интернете, который применяет наш метод анализа (Behold) Фотографии везде • • • • Flickr Страницы интернета в целом Ваша личная фото-коллекция Youtube Организация фотографий • В Вашей личной коллекции: наименование файлов • На Flickr: тегировка • На WWW: непросто Индекс Google насчитывает более миллиарда образов Пользователи не делают аннотации своих фотографий вручную Интернет-поисковик фотографий • Должен угадать что в каждом образе • Нынешний способ: ассоциированние фотографии с текстом содержащей ее веб-страницы sunset_boat.jpg Сложности нынешнего подходa • Аннотации вынимаются из страниц и имен файлов автоматически -> частые ошибки Иногда страницы не содержат никакой информации Некоторые страницы не упоминают очевидные вещи Прим.: фотография роз отмечена как любовь, но слово цветы не упоминается • Дополнительный, автоматический метод прогнозированния содержимого фотографий был бы полезен! Поиск в Google: ‘flower’ bf_img_flower_water.gif Botanical-flower-press.jpg Избранные плохие результаты FlowerPower_vF.jpg Автоматический анализ содержимого фотографий Применение статистической модели к этим параметрам для прогноза содержимого Непомеченный образ Извлечение важных Визуальных параметров образа Прогноз: “автомобиль, асфальт, трава” Заметьте: поскольку это статистический прогноз, иногда он будет ошибочным Расчет статистической модели для категории образов x ~100 Извлекаем важные визуальные параметры каждого образа Собираем большое количество образов данной категории Статистически рассчитываем типичные параметры для данной категории -- это наша модель Ошибочность прогноза будет зависеть от сложности выбранной категории образов Подходы к извлечению визуальных параметров • Сегментация Автоматически расчлененяем образ на части, анализируем каждую отдельно • Обнаружение обьекта Фиксируем специфическую конфигурацию пикселей • Анализ образа целиком (глобальный метод) Используем все содержимое образа вместе • Каждый метод требует отдельный тип статистического моделирования • Сотни академическх публикаций на эту тему Сегментация образа Алгоритм “Region growing” Средний цвет: зеленый (RGB 0, 200, 0) Ориентация текстуры: неравномерная Тип текстуры: мелкий Размер сегмента: большой Средний цвет : оранжевый (RGB 255, 128, 0) Ориентация текстуры: вертикальная Тип текстуры: крупный Размер сегмента: средний Прогноз слов на основе визуальных параметров • • • Рассчитать таблицу ‘перевода’ между сегментами и словами Это можно сделать статистически, максимизируя вышеуказанную функцию на сегментах аннотированных фотографий Используем параметры функции как модель для прогноза слов для сегментов неаннотированных фото • Детали подхода в Duygulu et al. -- ‘Object recognition as machine translation’, European Conference on Computer Vision, 2002 Прогноз слов для сегментов неподписанного образа Проблемы с сегментацией • Пока нет общего решения проблемы точной сегментации образов • Процесс обработки образов методом сегментации занимает много времени Требуется значительная нагрузка на вычеслительные ресурсы для обработки больших объемов фотографий Обнаружение объекта • Рассчитываем как объект должен выглядеть в образе на уровне пикселей (модель объекта) • Ищем конфигурации пикселей в неаннотированных образах соответсвующие нашей модели • Пример: обнаружение лиц Обнаружение лиц Собираем большую базу данных из образов выделенных лиц, и образов лиц не содержащих Используем статистический алгоритм чтобы найти самую информативную конфигурацию пикселей для обнаружения наличия лица Обнаружение лиц (2) Сканируем пиксели новой фотографии на предмет их совпадения с моделью лица Дополнительная информация в Viola and Jones, 2001 Проблемы с методами обнаружения объектов • Для рассчета пиксельных моделей объектов требуется большое количество образов с четко выделенным расположением объекта в каждом образе • Создание такой базы фотографий -- трудоемкая работа • Алгоритмы обычно обнаруживают объекты в определенных ракурсах, например, в профиль или в фас, но не под углом Наш подход: анализ образа целиком • Не применяем сегментацию • Аннотации фотографии прогнозируются на основе распределения визуальных параметров образа • Эти параметры могут быть простыми, например, распределение цвета или текстуры • Именуем подход: глобальный анализ образов • Преимущества: быстрый и простой анализ содержимого фотографий Глобальный подход: мотивировка Оригинал Цвет Текстура Аннотация образов через глобальный анализ • Моделируем процесс аннотации как • p(w|x) - вероятность аннотации w при визуальных параметрах x • Нужно найти функцию для каждой категории аннотаций (слова) Рассчитываем эту функцию непараметрической аппроксимацией Парцена: • Используя n образов содержащих аннотацию w в нашей аннотированной базе данных • Применяем первую модель к визуальным параметрам неаннотированных фотографий для прогнозированния слов Дополнительная информация в Yavlinsky, Schofield, Rueger, Conference on Image and Video Retrieval, 2005 Визуальные параметры • Локализованный цвет CIELab colour (3 канала) в 9 равных частях образа • Текстура Gabor wavelets - набор из 24 фильтров Применения • Поиск неаннотированных фотографий через текстовые запросы • Улучшение качества поикса образов существующих интернет-поисковиков, например, Google Image Search • Организация неаннотированных фотографий в Вашей персональной фото-коллекции • Автором разработан поисковик на основе глобального анализа образов: http://www.beholdsearch.com • Вы можете со мной связаться: [email protected] Спасибо! • Вопросы? Ссылки и публикации Сайт автора: http://www.beholdsearch.com/alexei Публикации упомянутые в презентации (детали подхов, оценки точности и т.д.): • P Duygulu, K Barnard, N de Fretias, and D Forsyth. Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary. In Proceedings of the European Conference on Computer Vision, pages 97–112, 2002. • P Viola and M Jones. Rapid object detection using a boosted cascade of simple features. In International Conference on Pattern Recognition, pages 511–518, 2001. • A Yavlinsky, E Schofield, and S Ruеger. Automated image annotation using global features and robust nonparametric density estimation. In Proceedings of the International Conference on Image and Video Retrieval, pages 507–517, 2005.