Министерство образования и науки Российской Федерации Муромский институт (филиал) Федерального государственного бюджетного образовательного учреждения Высшего профессионального образования «Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых» МИ (филиал) ВлГУ На правах рукописи ТЕРЕХИН АНДРЕЙ ВИКТОРОВИЧ АЛГОРИТМЫ ОПРЕДЕЛЕНИЯ БЕЗРАЗМЕРНЫХ ПРИЗНАКОВ ИЗОБРАЖЕНИЙ ПРОЕКЦИЙ ТРЕХМЕРНЫХ ОБЪЕКТОВ И ИХ РАСПОЗНАВАНИЕ Специальность 05.13.01 – Системный анализ, управление и обработка информации (технические системы) ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук Научный руководитель: доктор технических наук, профессор Садыков С.С. Муром 2015 2 СОДЕРЖАНИЕ ВВЕДЕНИЕ .................................................................................................................. 6 ГЛАВА 1 ОБЗОР И АНАЛИЗ АЛГОРИТМОВ, МЕТОДОВ И СИСТЕМ РАСПОЗНАВАНИЯ ТРЕХМЕРНЫХ ОБЪЕКТОВ ............................................... 12 Введение. ................................................................................................................ 12 1.1 Историческое развитие робототехники ........................................................ 12 1.1.1 Слепые роботы. «Механические руки» ................................................. 14 1.1.2 САР с техническим зрением ................................................................... 15 1.2 САР трехмерных объектов ............................................................................. 18 1.2.1 Датчики технического зрения Balluff серии BVS OI ........................... 18 1.2.2 Системы автоматического распознавания Omron ................................ 19 1.2.3 3D камеры IFM Electronic серии O3D2 .................................................. 20 1.2.4 3D Системы технического зрения SICK ................................................ 21 1.2.5 Достоинства и недостатки существующих систем распознавания трехмерных объектов ........................................................................................ 23 1.3 Алгоритмы предварительной обработки изображений проекций трехмерных объектов ............................................................................................ 24 1.3.1 Фильтрация изображения ........................................................................ 24 1.3.2 Сегментация изображений ...................................................................... 25 1.3.3 Нормализация проекции трехмерного объекта..................................... 27 1.4 Признаки, используемые для распознавания трехмерных объектов ......... 27 1.5 Алгоритмы, используемые для распознавания трехмерных объектов...... 29 1.5.1 Алгоритм k-средних ................................................................................. 32 1.5.2 Алгоритм вычисления оценок ................................................................ 32 1.5.3 Алгоритм поиска ближайших соседей................................................... 32 1.6 Выбор и обоснование алгоритма построения трехмерной модели объекта ................................................................................................................................. 33 Выводы по главе 1 ..................................................................................................... 36 Постановка задачи исследования ............................................................................ 37 3 ГЛАВА 2 РАЗРАБОТКА АЛГОРИТМИЧЕСКОГО ОБЕСПЕЧЕНИЯ ОБРАБОТКИ И СТРУКТУРЫ СИСТЕМЫ РАСПОЗНАВАНИЯ ТРЕХМЕРНЫХ ОБЪЕКТОВ ПО ИЗОБРАЖЕНИЯМ ИХ ПРОЕКЦИЙ ............ 39 Введение. ................................................................................................................ 39 2.1 Алгоритм нормализации ориентации бинарных изображений проекций трехмерного объекта. ............................................................................................ 39 2.2 Алгоритм поиска ключевых точек для вычисления диагональных коэффициентов формы ......................................................................................... 42 2.3 Алгоритм вычисления диагональных признаков формы бинарных изображений проекций трехмерного объекта .................................................... 46 2.3.1 Алгоритм классификации плоских геометрических фигур вписанных в квадрат по диагональным признакам формы .............................................. 49 2.3.2 Алгоритм классификации плоских геометрических фигур вписанных в прямоугольник по диагональным признакам формы ................................. 55 2.4 Алгоритм определения диапазонов значений признаков формы .............. 59 2.5 Обоснование необходимости применения имитационных моделей в САР произвольно расположенных трехмерных объектов......................................... 61 2.6 Алгоритм формирования описания поверхности трехмерного объекта ... 67 2.7 Алгоритм сопоставления пар проекций по двум снимкам множества объектов на сцене .................................................................................................. 72 2.8 Разработка подхода к распознаванию трехмерных объектов .................... 79 2.8.1 Разработка структуры системы автоматического распознавания трехмерных объектов: режим обучения. ........................................................ 79 2.8.2 Разработка структуры системы автоматического распознавания трехмерных объектов: режим распознавания ................................................ 83 2.9 Структура эталона трехмерного объекта ...................................................... 86 Выводы по главе 2 ..................................................................................................... 88 ГЛАВА 3 ИССЛЕДОВАНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ И СИСТЕМЫ РАСПОЗНАВАНИЯ НА ТЕСТОВЫХ ТРЕХМЕРНЫХ ОБЪЕКТАХ ..................................................................................................................................... 90 3.1 Постановка задачи исследований на макетных трехмерных объектах ..... 90 3.1.1 База тестовых изображений плоских геометрических фигур и проекций трехмерных объектов ...................................................................... 91 4 3.1.2 Исходные данные для исследований ..................................................... 95 3.1.3 Макет системы автоматического распознавания трехмерных объектов ............................................................................................................................. 96 3.1.4 Структура программного обеспечения системы .................................. 98 3.1.5 Поиск ключевых точек на изображения проекций тестовых трехмерных объектов для вычисления диагональных коэффициентов формы ............................................................................................................... 106 3.2 Определение отклонений диагональных признаков формы на тестовых изображениях плоских геометрических фигур от эталонных ........................ 107 3.3 Выявление наилучших показателей распознавания проекций тестовых трехмерных объектов с использованием различных алгоритмов .................. 111 3.3.1 Исследование алгоритма k-средних для распознавания проекций тестовых трехмерных объектов ..................................................................... 111 3.3.2 Исследование метода ближайших соседей для распознавании проекций тестовых трехмерных объектов .................................................... 113 3.3.3 Исследование алгоритма вычисления оценок при распознавании проекций трехмерных объектов .................................................................... 114 3.4 Исследования выбранного алгоритма распознавания на парах изображений отдельных объектов с использованием моделей окто-деревьев и нескольких эталонов ........................................................................................... 117 3.5 Исследование алгоритма сопоставления проекций трехмерных объектов на выборках пар снимков нескольких раздельно расположенных трехмерных объектов................................................................................................................ 121 Выводы по главе 3 ................................................................................................... 121 ГЛАВА 4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ И СИСТЕМЫ РАСПОЗНАВАНИЯ НА РЕАЛЬНЫХ ТРЕХМЕРНЫХ ОБЪЕКТАХ ................................................................................. 123 4.1 Постановка задачи эксперимента на реальных трехмерных объектах.... 123 4.1.1 Экспериментальная база изображений проекций реальных трехмерных объектов ...................................................................................... 123 4.1.2 Описание экспериментов над изображениями проекций реальных трехмерных объектов ...................................................................................... 126 5 4.1.3 Поиск ключевых точек на изображениях проекций реальных трехмерных объектов для вычисления диагональных коэффициентов формы ............................................................................................................... 127 4.2 Экспериментальная проверка разработанных алгоритмов на отдельных реальных трехмерных объектах......................................................................... 128 4.3 Экспериментальная проверка разработанных алгоритмов на изображениях нескольких отдельно расположенных реальных трехмерных объектов (детали шарового крана) .................................................................... 131 4.4 Экспериментальная проверка разработанных алгоритмов на изображениях нескольких отдельно расположенных реальных трехмерных объектов (радиодетали) ...................................................................................... 134 Выводы по главе 4 ................................................................................................... 138 ЗАКЛЮЧЕНИЕ ....................................................................................................... 140 СПИСОК ЛИТЕРАТУРЫ....................................................................................... 142 ПРИЛОЖЕНИЕ 1 Патент ....................................................................................... 156 ПРИЛОЖЕНИЕ 2 Свидетельства о регистрации программы на ЭВМ ............. 157 ПРИЛОЖЕНИЕ 3 Копии актов о внедрении ....................................................... 159 ПРИЛОЖЕНИЕ А Изображения и таблицы к главе 1 ........................................ 162 ПРИЛОЖЕНИЕ Б Примеры изображений ортогональных проекций тестовых и реальных трехмерных объектов к главам 3, 4 ...................................................... 167 ПРИЛОЖЕНИЕ В Диагональные признаки формы ортогональных проекций тестовых и реальных трехмерных объектов к главам 3, 4 .................................. 176 ПРИЛОЖЕНИЕ Г Статистические данные к главе 3 .......................................... 178 ПРИЛОЖЕНИЕ Д Статистические данные к главе 4 ......................................... 187 6 ВВЕДЕНИЕ Область технического зрения изучается специалистами с середины прошлого века, когда началась развиваться кибернетика, в современном ее понимании, и были построены первые роботы манипуляторы. Еще тогда возникла задача реализации возможности «видеть» слепым «роботамсборщикам». Среди решаемых задач так же выделяются следующие: задача распознавания дефектов. объектов, Существует определения множество их местоположения, подходов, алгоритмов выявление и методов, позволяющих распознавать объекты на изображениях. Некоторые больше используют аппаратные возможности систем, другие – опираются на программное обеспечение. Повсеместное увеличение объемов производства влечет за собой внедрение автоматических конвейеров и сборочных линий. Их неотъемлемой частью являются роботизированные узлы, оборудованные техническим зрением. Все существующие системы автоматического распознавания требуют фиксированного положения детали либо используются для локализации дефектов на однотипных объектах на конвейере. При массовом производстве это крайне неудобно, но направление распознавания нескольких произвольно расположенных трехмерных объектов настолько развито слабо и редко применяется из-за большого количества ошибок в отдельных сложных случаях: когда объекты имеют одинаковые характеристики у аналогичных проекций; когда с одного ракурса нельзя различить объекты, отличающиеся только формами боковых граней. Сейчас данная задача в основном решается с использованием признаков контура, формы, текстуры и др. Все эти признаки, как в отдельности, так и в совокупности, не могут решить некоторые задачи распознавания и имеют различные единицы измерения, что в ряде случаев затрудняет их совместный анализ. Разработка нового набора признаков в виде безразмерных коэффициентов, имеющих общий диапазон значений является актуальной задачей. 7 Анализ существующих систем автоматического распознавания (САР) показал, что на практике в основном используется одна камера на отдельных сборочных узлах, при этом расположение распознаваемых объектов жестко фиксировано в поле зрения САР. Многокамерные САР в основном применяются для обнаружения дефектов на крупных объектах. При конвейерной сборке множества произвольно расположенных небольших объектов, обычно используется ручной труд. Задача распознавания произвольно расположенного трехмерного объекта на конвейере сводится к определении его типа и обнаружении его местоположения для того, чтобы робот манипулятор автоматически выполнял по заранее заданной инструкции процесс сборки/покраски. На данный момент направление распознавания трехмерных объектов только начинает развиваться. При этом используются либо средства плоской геометрии либо трехмерное моделирование с использованием различных дополнительных датчиков. Любой трехмерный объект отображается на двумерной плоскости в виде проекции. Снимки с камер представляют собой плоские изображения. Поэтому нельзя полностью исключить из процесса распознавания алгоритмы и подходы плоской геометрии. Для решения вышеописанной проблемы идентификации объектов со схожими ортогональными проекциями, САР должна быть построена на основе нового комбинированного подхода, использующего как алгоритмы плоской геометрии, так и трехмерное моделирование. В связи с вышеизложенным, разработка подходов и алгоритмов, а так же создание САР произвольно расположенных на ленте конвейера трехмерных объектов с использованием двух видео датчиков является актуальной задачей. Исследование направлено на автоматизацию процесса сборки узлов промышленных изделий таких как элементы двигателей, станков, приборов, или небольших механически собираемых изделий, таких как шаровые краны, и 8 т.д., который в настоящее время осуществляется вручную рабочимисборщиками. Цель диссертационной работы – разработка нового подхода к решению задачи распознавания ТО и определения их координат, новых алгоритмов определения безразмерных признаков изображений проекций ТО, создание макета САР и экспериментальное исследование ее возможностей. Для достижения поставленной цели необходимо выполнить следующие задачи: 1. Анализ состояния задачи распознавания отдельно расположенных ТО. 2. Разработка нового подхода к распознаванию ТО с использованием двух камер, одна из которых располагается над сценой, вторая – под углом к сцене. 3. Разработка алгоритма сопоставления изображений проекций на двух снимках, полученных с камер, при наличии в поле зрения САР нескольких ТО. 4. Разработка новых алгоритмов выделения признаков и предварительной обработки изображений, позволяющих решать задачи автоматического распознавания и классификации произвольно и отдельно расположенных ТО. 5. Разработка структуры эталона объекта, включающей в себя информацию о его признаках шести ортогональных проекций, и позволяющей использовать известные алгоритмы вычисления оценок для распознавания ТО. 6. Разработка макета экспериментальной САР ТО с использованием двух камер и проведение исследований по распознаванию тестовых и реальных ТО. Научная новизна. Новые научные результаты, полученные в работе, состоят в следующем: – Предложен новый подход к распознаванию произвольно расположенных ТО, заключающийся: 1) в использовании двух видеодатчиков, позволяющих получать как ортогональные, так и косоугольные проекции объектов под любым ракурсом; 2) трехмерных моделей ТО; и 3) набора безразмерных признаков формы изображений двух проекций объектов; 4) алгоритма вычисления оценок. 9 – Предложен новый алгоритм определения принадлежности ортогональной и косоугольной проекции на двух снимках к каждому из трехмерных объектов, обеспечивающий возможность распознавания ТО по двум снимкам проекций; – Предложены алгоритмы вычисления безразмерных диагональных признаков формы изображений проекций ТО, инвариантных к переносу, изменению масштаба и повороту ТО в поле зрения системы; – Проведенными исследованиями на реальных перспективность применения предложенного подхода и ТО доказана разработанных алгоритмов для построения САР ТО с повышенной точностью распознавания ТО в сложных ситуациях. Теоретическая значимость исследования обусловлена тем, что: – доказана применимость комбинированного подхода (на основе использования плоских изображений и трехмерных моделей) для распознавания произвольно расположенных ТО; – изложены доказательства необходимости применения трехмерных моделей для формирования косоугольных проекций распознаваемых объектов в случаях наличия одинаковых проекций у разных ТО; – выявлены закономерности в значениях диагональных признаков плоских выпуклых геометрических фигур, позволяющие создать классы проекций ТО по их форме. Практическая ценность работы. Значение полученных результатов исследования для практики подтверждается тем, что: 1. Разработаны алгоритмы вычисления диагональных признаков формы, инвариантных к пространственному расположению бинарных изображений проекций ТО. 2. Создана САР нескольких отдельно расположенных на сцене ТО, находящихся в произвольном порядке. 10 3. Проведены вычислительные эксперименты по оценке точности разработанных алгоритмов, результаты которых позволили выявить их возможности при распознавания единичных и нескольких отдельно расположенных тестовых и реальных ТО. 4. Разработанные алгоритмы применяются в учебном процессе кафедры информационных систем МИВлГУ в лабораторных и практических работах. 5. Полученные научные результаты приняты к использованию на промышленных предприятиях. 6. По результатам исследований, проведенных автором в рамках диссертации, получены два свидетельства об официальной регистрации на разработанные с его участием программные продукты, и один патент на полезную модель. Методы исследования. В работе использованы методы геометрии, тригонометрии, алгебры логики, математической статистики, цифровой обработки изображений, планирования экспериментов и распознавания образов. На защиту выносится: 1. Алгоритм сопоставления пар изображений, позволяющий отнести ортогональные и косоугольные проекции, полученные с разных камер, к каждому распознаваемому ТО; 2. Алгоритмы вычисления диагональных признаков формы проекций ТО, использование которых позволяет с высокой точностью распознавать тестовые и реальные ТО; 3. САР нескольких отдельно расположенных ТО, которая может использоваться как основа для построения систем машинного зрения промышленного назначения; 4. Результаты распознаванию экспериментальных нескольких произвольно исследований расположенных на САР по реальных ТО, подтвердившие высокую точность идентификации объектов разработанной системой. 11 Степень достоверности результатов исследований обусловлена тем, что: 1. Теоретическая составляющая диссертации построена на известных и проверяемых данных и согласуется с опубликованными экспериментальными результатами по теме диссертации и смежным отраслям в изданиях, рекомендованных Высшей аттестационной комиссией РФ; 2. Подход базируется на анализе существующих решений в области распознавания объектов, а так же развитии алгоритмов анализа плоских изображений. 3. Использованы современные методики сбора и обработки информации с применением средств вычислительной техники. Апробация работы. Материалы диссертационной работы докладывались и обсуждались на: Международном симпозиуме «Надежность и качество» (г. Пенза, 2012г., 2013 г.); Международной конференции «Распознавание 2013» (г. Курск, 2013г.); «Перспективы развития информационных технологий» (г. Новосибирск, 2013 г.), «Наука и современность 2013» (г. Новосибирск, 2013 г.), 11-th International Conference on Pattern Recognition and Image Analysis (г. Самара, 2013 г.), Всероссийские научные «Зворыкинские чтения». Регионы России (г. Муром, 2014 г.). Публикации. Основные результаты диссертации опубликованы в 28 печатных работах, в том числе в 8 статьях в журналах из списка ВАК. Получены 1 патент на полезную модель и 2 свидетельства о регистрации программы для ЭВМ. 12 ГЛАВА 1 ОБЗОР И АНАЛИЗ АЛГОРИТМОВ, МЕТОДОВ И СИСТЕМ РАСПОЗНАВАНИЯ ТРЕХМЕРНЫХ ОБЪЕКТОВ Введение. Автоматизация производства, контроль и управление им на базе электроники, создание и применение новых конструкционных материалов получили широкое применение начиная с 40-50-х года прошлого века, тогда началась современная эпоха научно-технической революции [1, 2]. А возникновение спроса на сборочные узлы было преддверием нового этапа в развитии человеко-машинных систем: появились первые роботизированные системы, применяемые в производстве, а так же начались активные исследования и разработки в этой области [2 - 5]. Современные роботизированные системы, обеспечивающие гибкость при автоматизированном производстве, включают [1]: станки с ЧПУ; промышленные роботы; роботизированный технологический комплекс; гибкие производственные системы, характеризуемые сочетанием технологических единиц и роботов, управляемые ЭВМ, имеющие оборудование для перемещения обрабатываемых деталей и смены инструмента; системы контроля качества на базе ЭВМ – техническое приложение компьютеров и управляемых ими машин для проверки качества изделий. 1.1 Историческое развитие робототехники Первые промышленные автоматы могли выполнять основные технологические операции (сварка, покраска, сборка и др.), а так же вспомогательные технологические операции (загрузка-выгрузка технологического оборудования, транспортные и др.) с минимальным участием человека, либо автоматически. При использовании сменной технологической оснастки выполняемые операции могли осуществляться одним промышленным роботом, при неизменном уровне качества, это позволяло увеличить производительность труда в целом, что и сказалось на их (роботов) дальнейшем развитии [3]. 13 Операции, осуществляемые роботами, мало отличались от тех операций, которые выполнялись автоматами и автоматизированными устройствами. Но в процессе накопления опыта роботизации, отличия в действиях автоматов и роботов оказались значительными, что послужило основой для выделения роботов в отдельный класс технических средств автоматизации, которые могли быть обучены с помощью специальных ЭВМ выполнению различных операций во времени и пространстве [6]. В процессе дальнейшего развития, роботы стали способны воспроизводить все многообразие двигательных функций человека в процессе работы, что позволяло использовать их для обслуживания оборудований различных типов. Промышленные роботы с адаптивным управлением оснащены сенсорной частью. Сигналы, передаваемые датчиками, анализируются и в зависимости от результатов принимается решение о последующих действиях. Чтобы робот обладал адаптивными к изменению состояния рабочей среды свойствами его необходимо снабдить зрительным анализатором, т.е. техническим зрением [7]. Под техническим зрением в робототехнике понимают процесс восприятия роботом окружающих объектов с помощью датчиков оптической информации (видео-датчиков), оценки местоположения объектов и их распознавания на основе полученной видеоинформации [8-10]. Количество видео-датчиков (ВД) в системах автоматического распознавания (САР) определяется сложностью решаемой задачи. По числу ВД САР подразделяются на монокулярные (однокамерные), бинокулярные (двухкамерные), бинокулярные с дополнительным третьим видео-датчиком (трехкамерные), бинокулярные с дополнительным третьим и четвертым ВД (четырехкамерные) и многокамерные. С количеством ВД связана и классификация САР по виду рабочей информации. По этому признаку различают одномерные, двумерные и трехмерные САР [11]. К одномерным относятся системы, снимающие информацию в точке, совокупности точек или линий. Двумерные системы анализируют информацию, снимаемую с плоских изображений. Трехмерные 14 САР обеспечивают восприятие и анализ объемных изображений. Последние способны восстанавливать трехмерные изображения по их проекциям [9]. В настоящее время системы автоматического распознавания применяются на многих этапах производственного процесса. Основные направления (Приложение А, рис. А1), в которых востребованы САР следующие [12]: – контроль производства (67%); – диагностика, тестирование и поддержка (33%) Постоянное совершенствование подходов к распознаванию объектов с использованием САР в области контроля производства говорит об актуальности данного вопроса в наше время. 1.1.1 Слепые роботы. «Механические руки» История механических рук начинается с атомной физики. Многие материалы, с которыми приходится иметь дело в этой области науки, обладают радиоактивностью – свойством выделять в окружающее пространство опасные для здоровья человека лучи. Механические руки стали устанавливать там, где доступ человека нежелателен, а сам он - управляющий руками, располагался в другом, безопасном помещении. Оператор, работающий на манипуляторе, приводил в движение управляющий механизм, звенья которого соединены с соответствующими звеньями исполнительного механизма, повторяющего все движения руки оператора [13]. При работе с радиоактивными веществами расстоянии от оператора до исполнительных рук манипулятора могло доходить до десятков метров. Надёжное и точное управление на значительном расстоянии – вот первое требование, которое всегда предъявлялось к любой конструкции копирующего манипулятора [13]. Робот типа «рука» Каждый робот рассчитан на выполнение той или иной работы, которая и определяет его конструкцию, размеры, степень подвижности, число рук и пальцев на руке, грузоподъёмность, точность движения. На рис. А2 15 (Приложение А) изображена структурная схема робота типа «Рука». Рукой управляет либо оператор с пульта, либо мозг робота – его ЦВМ (цифровая вычислительная машина). В блоке памяти находится программа действий робота, которую вводят в него или которую он приобретает во время обучения [13]. Общий блок управления электрическими, гидравлическими или пневматическими двигателями, расположенными в плече руки, предплечье, в кисти, состоит из цепей управления движением руки по каждой из координатных осей. Сколько степеней свободы у руки, столько и цепей управления [13]. Робот – манипулятор, встав на рабочее место, согласовывает свою работу с обслуживаемым технологическим оборудованием. Движения руки точные, повороты строго рассчитаны во времени. Робот с оборудованием образует автоматизированную ячейку. Из таких ячеек составляют робото- технологические комплексы или линии [13]. Примером такой линии является сборочный конвейер грузовых автомобилей. Сложный технологический процесс сборки требует многократной установки, съёма, погрузки[13]. До применения роботов манипуляторов, технологическим процессом сборки заготовок и деталей (вес которых может превышать 10 кг) занимались сотни людей. 1.1.2 САР с техническим зрением Камеры, используемые для промышленных САР, включают видеодатчики, смарт-камеры и камеры на базе компьютера. Такие камеры предполагают преимущественно цифровое исполнение, то есть применение цифровой обработки изображения независимо от типа выхода, и получение первичного сигнала также в цифровой форме. Единицей (наименьшим элементом) цифрового изображения является пиксель (общее количество пикселей, суммированное по двум осям, определяет разрешение камеры) [14]. 16 В зависимости от способов пространственной визуализации изображения, которое получает и визуализирует камера, выделяются три основных типа датчиков: – 1D или однострочная камера — линейный массив. В данном случае видеокамера в течение выбранного промежутка времени захватывает одномерное проекционное изображение. Полученные данные — об одной или нескольких линиях — могут быть использованы в дальнейшем для получения двумерного или трехмерного изображения [14]. – 2D-камера обеспечивает двумерное проекционное изображение (кадр). При этом описание кадра основано на контрасте и яркости отдельных участков изображения. Кадр, в зависимости от используемой камеры, может быть монохромным (представленным в градациях яркости серой шкалы) или же цветным. Также существуют специальные камеры, которые выдают инфракрасное изображение [14]. - 3D-камера выдает трехмерное изображение, или образ, в котором информация о двумерном изображении — профиле объекта—сочетается с данными о высоте профилей объекта — анализируемых камерой участков изображения, распределенных с некоторой частотой по всему объему объекта [14]. 1.1.2.1 САР с одной камерой Рассмотренные в п.п 1.1.1 роботы с программным управлением обладали одним существенным недостатком – отсутствием зрения. В таких роботах не было сенсорной части, все действия жёстко фиксировались и регулярно повторялись. Это накладывало существенные ограничения на возможности самостоятельного обнаружения и распознавания объектов. Поэтому перед кибернетикой встала задача развития программных и аппаратных средств, позволяющих роботам «видеть». Компьютерное зрение оформилось как самостоятельная дисциплина только к концу 60-х годов. Это направление возникло в рамках искусственного интеллекта в тот его период, когда еще были 17 активны споры о возможности создания мыслящей машины. Оно выделилось из работ по распознаванию образов [8-10, 15-69]. Простейшим типом САР являются однокамерные системы (см. Приложение А рис. А3) [70-73]. Однако с их помощью можно решать довольно сложные задачи: распознавание формы, определение координат и ориентации объекта манипулирования, контроль поверхности объекта и др. На вход САР поступает плоское изображение проекции объекта [74] манипулирования (ОМ) с области сцены (ОС) при помощи видео-датчика (ВД). Дальнейшие операции предварительной обработки (ПО), выделения контуров, сегментации, вычислении признаков и в конечном итоге распознавания происходят внутри САР. 1.1.2.2 САР с двумя камерами Двух-, трех-, четырех- и многокамерные системы позволяют воспринимать и обрабатывать трехмерную информацию (см. Приложение А, рис. А4). Часто в подобных САР используются алгоритмы реконструкции трехмерной поверхности [70-73]. В зависимости от конкретной реализации САР эти алгоритмы могут различаться. Одни формируют поверхность на основе датчиков расстояний, другие по нескольким плоским изображениям проекций трехмерных объектов, третьи – с использованием лазерной триангуляции и др. При этом для распознавания трехмерных объектов до сих пор часто используются алгоритмы распознавания и признаки плоских объектов. В настоящее время ведутся активные исследования в данной области. Применение двух и более видео-датчиков позволяет запечатлеть дополнительную информацию о трехмерном объекте (отверстия, невидимые с другой камеры, форма боковых проекций, и др.). При этом возникает задача совместной обработки информации, получаемой с нескольких камер, особенно когда на сцене не один объект. Данная задача требует создания алгоритмов сопоставления проекций на паре (или большем количестве) изображений, полученных с видео-датчиков. 18 1.2 САР трехмерных объектов Среди современных фирм, занимающихся созданием 3D САР, одними из наиболее известных являются Balluff, Omron, IFM Electronic, SICK [70-73]. 1.2.1 Датчики технического зрения Balluff серии BVS OI Balluff предлагает камеры технического зрения серии BVS-E Standart и BVS-E Advanсed для распознавания объектов в промышленности. Датчики машинного (технического) зрения Balluff BVS OI (технические характеристики приведены в таблице А1 Приложения А) подходят так же для контроля качества готовой продукции, ее сортировки, контроля положения и решения других производственных задач на основе распознавания объектов [70]. Камера технического зрения BVS представляет собой отдельное устройство со встроенным источником освещения. Промышленный видеодатчик Balluff использует падающий свет или лампу подсветки, чтобы обнаруживать контуры объекта. После обнаружения, электроника прибора сравнивает полученное изображение с изображением эталонных контуров в памяти и, в зависимости от степени соответствия, выдает сигнал. С помощью встроенного в ПО ConVis® Software набора инструментов оператор может задать и сравнить по определенным признакам с эталонным изображением: контрастность, ширину, контур, положение объекта в поле зрения и другие параметры (всего 7 инструментов в одном видеодатчике). Посредством интерфейса Ethernet, 10Base-T / 100Base-TX, промышленные датчики технического зрения Balluff подключаются к ПК. Для полной параметризации и отображения результатов на мониторе необходимо программное обеспечение ConVis® Software (можно скачать бесплатно). Прочный компактный корпус с пылевлагозащитой IP54 и широкий температурный диапазон эксплуатации. Видеосенсоры Balluff серии BVS-E Advanced дополнительно к датчикам BVS-E Standart контролируют поворот частей объекта (коррекция положения в пределах 360°). Серия Advanced имеет сравнительно быстрый процессор поэтому время обработки так же значительно сокращается. 19 В данной САР используются признаки, имеющие различные единицы измерения, что затрудняет их анализ. Для обеспечения инвариантности системы к пространственному расположению объекта в поле зрения камеры необходимо приобретение дополнительного дорогостоящего оборудования. Это может говорить о том, что стандартное программное обеспечение не обладает возможностями контроля пространственного расположения объектов на сцене [70]. 1.2.2 Системы автоматического распознавания Omron САР фирмы Omron обладают компактными размерами, в них реализованы различные алгоритмы кодирования, распознавания объектов, оптического сравнения символов [70, 72, 43]. В основу системы автоматического распознавания F210 фирмы Omron заложен алгоритм точного распознавания, который позволяет проверить качество печати. В данных системах реализована технология кодирования границ. Так же существует возможность подключения двух камер. Как правило, датчики изображения состоят из 2-х отдельных блоков: – камера с источником света, – модуль обработки данных. Существуют датчики изображения с распознаванием цвета и без него. Функциональные возможности вышеуказанных датчиков изображения одинаковы, тем не менее, цветовая информация все же повышает стабильность и надежность функционирования системы контроля. Наряду с возможностями контроля, предоставляемыми системой F210, система F250, благодаря наличию в ней специальной быстродействующей схемы, обладает возможностью быстрой локализации объектов. Наличие четырех портов для подключения камер позволяет организовать одновременный контроль по нескольким параметрам в пределах одной системы. Через интерфейс Ethernet система F250 может обмениваться данными практически с любой компьютерной системой предприятия. Так же в системе 20 есть два гнезда для компактных карт флэш-памяти (CF) для хранения данных и ведения протокола. При этом для верного распознавания у объектов на сцене должно сохраняться фиксированное положение. 1.2.3 3D камеры IFM Electronic серии O3D2 IFM Electronic предлагает новые бюджетные 3D камеры серии Efector pmd3d для трехмерного измерения и оценки размеров объектов в промышленности. 3D датчики IFM Electronic работают по принципу измерения времени пролета луча на основе патентованной технологии PMD [70]. Особенностью технологии является то, что измерение времени пролета луча и оценка данных встроены в чип. Технические характеристики 3D камеры IFM Electronic серии O3D2 приведены в таблице А2 Приложения А. Датчик изображения IFM Electronic имеет матрицу с разрешением 64x48 пикселей. Каждый пиксель чипа измеряет расстояние до самой близкой точки поверхности объекта. Таким образом, получается 3072 значения расстояний до объекта. Изображение на чипе матрицы и соответствующие значения расстояния соответствуют трехмерному изображению. На основе данных можно выполнить детальную оценку характеристик и положения объекта. Трехмерные камеры технического зрения IFM Electronic серии O3D2 имеют встроенную инфракрасную подсветку. Для отображения результатов измерения доступны аналоговый выход 4 … 20 mA / 0 … 10 V или 2 коммутационных выхода. 3D датчики IFM Electronic позволяют обнаруживать в трехмерном пространстве объем, уровень, а также оценивать различные прикладные задачи. Посредством интерфейса Ethernet, 10Base-T / 100Base-TX, промышленные камеры IFM Electronic подключаются к ПК. Для полной параметризации и отображения результатов на мониторе необходимо программное обеспечение E3D200 (заказывается отдельно). С помощью ПО E3D200 можно измерить и оценить объем, уровень или расстояние. 21 Без программного обеспечения эксплуатация и настройка так же возможна, на корпусе датчиков O3D200 и O3D201 имеются 2 программирующие кнопки и 10-сегментный дисплей [70]. Отсутствие полного функционала в базовой комплектации, а так же оперирование с наружной поверхностью трехмерного объекта создают проблемные ситуации при распознавании сложных трехмерных объектов. Ошибки распознавания возникают в тех случаях, когда несколько различных объектов расположены к датчику схожей проекцией, а различия между ними заключаются в других проекциях. 1.2.4 3D Системы технического зрения SICK Во всех камерах, выпускаемых компанией SICK/IVP, используется принцип трехмерной лазерной триангуляции [71]. Это технология получения трехмерного изображения путем подсветки объекта лазером с одной стороны и получения камерой изображения профиля, формируемого этим лазером (Приложение А, рис. 1.5). Множество таких профилей формируют трехмерное изображение объекта. При этом требуется обязательное движение объекта относительно камеры и лазерного луча. 3D Камеры Ranger и Ruler используются, как высокопроизводительные и высокоточные устройства для снятия множества профилей с инспектируемого объекта для последующего построения его трехмерной модели. Управляются 3D камеры только внешними устройствами и не содержат в себе никаких управляющих программ, поэтому могут использоваться только как часть системы. Данные приборы не имеют собственных вычислительных ресурсов и требуют постоянного соединения с компьютером или контроллером. Камеры Ranger и Ruler E требуют серьезного программирования под определенные задачи, обычно выполняемого на языке высокого уровня. Ruler E – это высокоскоростная камера, способная обрабатывать до 10 000 профилей в секунду и посылать информацию по сетевому интерфейсу 22 Gigabit Ethernet в компьютер. Данный прибор отличается высокой степенью защиты IP65, что допускает его работу в самых сложных условиях. Основными техническими характеристиками камеры Ruler являются: - отсутствие необходимости в калибровке трехмерных данных благодаря заводской настройке (окно объектива, размещаемое на любой высоте и с любым наклоном камеры, направлено на плоскость лазера); - наличие возможности получения информации о яркости изображения и степени рассеивания излучения лазера в материале объекта; 3D-камеры на базе компьютера используются, например, в деревообрабатывающей отрасли (для измерения объема бревен, контроля геометрических размеров, контроля качества поверхности), упаковочной и пищевой промышленности (для выполнения операций разделения мяса и рыбы на куски определенного размера, контроля качества фруктов и пирожных), робототехнике (захват деталей из бункера, укладка грузов на поддоны) и в обрабатывающей промышленности (для анализа размеров деталей, измерения объема сыпучего материала). Наиболее передовой видеокамерой является Ranger – одна из самых быстрых камера на рынке со скоростью обработки данных до 35 000 профилей в секунду. В отличие от остальных камер, данная система машинного зрения формируется из отдельных компонентов (камера, подсветка, объектив, лазер, плата обработки). В отличие от IVC-3D и Ruler E, данная камера позволяет одновременно выполнять сразу три функции и получать информацию о трехмерном профиле объекта, яркости его поверхности и степени рассеивания лазера в материале объекта (возможность обнаружения таких дефектов, как сучки и т. п.), используя одну камеру и несколько лазеров. Данное свойство называется мультисканированием [71]. Технические параметры 3D камер SICK представлены в таблице А3 Приложения А. Требования фиксированного положения объекта и равномерного постоянного его движения относительно лазерного луча и камеры накладывает 23 определенные ограничения на области применения данной системы автоматического распознавания. 1.2.5 Достоинства и недостатки существующих систем распознавания трехмерных объектов Недостатками рассмотренных систем является то, что они не применимы к распознаванию некоторых трехмерных объектов (например тех, у которых могут совпадать по форме различные проекции – сфера и цилиндр одного диаметра). Таким образом, если 2 подобных объекта будут ориентированы на сцене этими проекциями по направлению к камере, то возникнет проблема их распознавания. Частные случаи можно решить при помощи 3D камер, но далеко не все. Основные характеристики существующих 3D САР сведены в таблицу 1.1. Таблица 1.1 Основные характеристики коммерческих САР Возможности САР Использование нескольких камер для распознавания одной группы объектов Распознавание трехмерных объектов Производители систем автоматического распознавания IFM Electronic SICK Omron Balluff - + + + + + - - Распознавание нескольких объектов на сцене Распознавание произвольно расположенных объектов на сцене Обзор боковых проекций объектов - - - - + - + - - + + - Количество используемых признаков 3 5 6 7 O3D2 – 130543,3 IVC 3D – 840000 Ruler E - 979298 F210548039 F250 765345 BVS OI E 106705.82 Стоимость в базовой комплектации, р. 24 Стоимость датчиков и систем технического зрения зависит от их комплектации. Стоимость одной такой системы составляет от 90 тыс. руб. до 1,5-3 млн. руб. Таблица 1.1 показывает, что существующие САР не могут решить задачу распознавания произвольно расположенных трехмерных объектов, в связи с чем эта задача на сегодняшний день является актуальной. 1.3 Алгоритмы предварительной обработки изображений проекций трехмерных объектов Предварительная обработка изображений является одним из основных этапов распознавания объектов. Существует множество алгоритмов предварительной обработки, они представлены в работах [75-94]. 1.3.1 Фильтрация изображения Процедуры фильтрации решают задачи устранения аддитивных высокочастотных помех на исходном изображении, подчеркивания контурных переходов на изображении, исключения из исходного изображения резких перепадов основной фоновой составляющей и т.д. Фильтрация помех осуществляется практически всегда, причем чаще всего ее проводят в пространственной области с использованием линейных и не линейных, локальных параллельных операций [6, 9, 18, 22, 80]. Возможно выполнение фильтрации помех полутонового изображения в частотной области с использованием ортогональных преобразований [83, 87, 88, 91]. Широкое распространение получили линейная [7, 61], анизотропная [80], адаптивная [7, 91] и медианная [9, 18, 80, 84, 91] алгоритмы фильтрации. Установлено, что среди алгоритмов сглаживания шума хорошими характеристиками быстродействия и качества уменьшения помех на изображении обладает метод медианной фильтрации. При его работе происходит усреднение по яркости, контура изображений проекций объектов не размываются. Медианные фильтры 25 Медианный фильтр является нелинейным фильтром с конечной импульсной характеристикой. Значения отсчетов внутри окна фильтра сортируются в порядке возрастания (убывания); и значение, находящееся в середине упорядоченного списка, поступает на выход фильтра. В случае четного числа отсчетов в окне выходное значение фильтра равно среднему значению двух отсчетов в середине упорядоченного списка [92]. Данные фильтры (особенно с малыми размерами окон) могут успешно применяться для ликвидации импульсных помех при автоматической обработке изображений. Применение данных фильтров большой размерности не рекомендуется к использованию при автоматической обработке изображений, это связано с тем, что значение среднего элемента в упорядоченной последовательности может принадлежать самому удаленному пикселю. Векторные медианные фильтры Для цветных изображений используется векторный медианный фильтр. Данный фильтр может успешно применяться для ликвидации импульсных помех при автоматической обработке изображений. Однако в чистом виде медианный фильтр размывает мелкие детали, величина которых меньше размера окна для поиска медианы, поэтому на практике практически не используется [93]. 1.3.2 Сегментация изображений В современном производстве на сборочных конвейерах одним из основных требований к САР является способность идентифицировать несколько объектов. С данной задачей позволяют справиться алгоритмы сегментации. Довольно часто при анализе изображений возникает задача разделения пикселей изображений на группы по некоторым признакам. Такой процесс разбиения на группы и называется сегментацией. Методы сегментации изображений входят в число самых важных методов обработки изображений, когда требуется выделить объект или разбить полутоновое изображение на ряд областей. 26 Существующие алгоритмы и методы сегментации полутоновых изображений можно разделить на следующие виды: – контурная сегментация; – морфологические преобразования; – разбиение изображений на однородные области; Наиболее простым видом сегментации является пороговая сегментация. Она нашла очень широкое применение в робототехнике. Это объясняется тем, что в этой сфере изображения исследуемых объектов, в своем большинстве, имеют достаточно однородную структуру и резко выделяются из фона. Но кроме этого, для достоверной обработки нужно знать, что изображение состоит из одного объекта и фона, яркости которых находятся в строго известных диапазонах и не пересекаются между собой. Методы преобразования полутоновых изображений в черно-белые изображения можно разделить на две категории [92]: – пороговая бинаризация [10, 22, 83, 85, 86, 89]; – адаптивная бинаризация [7, 83, 85, 86]. Первая категория методов сравнивает значение яркости точки с некоторым пороговым значением. Если значение яркости пикселя выше значения яркости порога, то соответствующий пиксель будет «белым», иначе «черным». Величина порога может изменяться оператором программы в зависимости от яркости исходного изображения. Данный метод наиболее прост для понимания и реализации. Также величина порога может быть найдена автоматическим образом, самый распространенный - критерий Отсу [94], но кроме этого существуют критерии Бернсена, Ниблэка и др. Существует также такой вид сегментации как контурная сегментация. Довольно часто анализ изображений включает такие операции, как получение внешнего контура изображений объектов и запись координат точек этого контура. Известно три основных подхода к представлению границ объекта: 27 аппроксимация кривых, прослеживание контуров и связывание точек перепадов [18, 80, 81, 84, 85, 88, 89, 92, 95, 96]. Для полноты анализа следует отметить, что есть также алгоритмы наращивания областей [9, 27, 39, 41, 42]. 1.3.3 Нормализация проекции трехмерного объекта Нормализация – приведение изображения объекта к некоторому заранее известному виду с использованием определенных преобразований, связывающих исходное изображение и эталонное. Суть нормализации заключается в автоматическом вычислении неизвестных параметров преобразований, которым подвергнуты входные изображения, и последующем приведении их к эталонному виду. С задачей нормализации ориентации изображений проекций объектов позволяют справляться линейные конформные преобразования [97, 98]. Линейные конформные преобразования могут включать поворот, масштабирование и сдвиг. Очертания и углы остаются постоянными, параллельные линии - параллельными, прямые линии - прямыми. 1.4 Признаки, используемые для распознавания трехмерных объектов Как видно из обзора существующих САР трехмерных объектов, в основном используются яркостные характеристики, признаки формы, контурные признаки, координаты центра тяжести, и др. Формирование признаков – один из важнейших этапов любого процесса распознавания объектов [10, 99] и точность результата непосредственно зависит от правильности формирования вектора признаков объекта – самого изображения или отдельного его участка. На практике, при распознавании трехмерных объектов, их проекции часто имеют вид, близкий к форме выпуклых геометрических фигур, поэтому задача формирования вектора признаков, позволяющего классифицировать различные проекции трехмерных объектов по их форме и объединять их в различные классы является актуальной. В качестве классов могут выступать выпуклые плоские геометрические фигуры. 28 Вопрос формирования и разработки алгоритмов выделения инвариантных (к смещению, повороту и масштабу объекта) признаков бинарных изображений объектов для САР не получил пока должного решения. Поэтому систематизация существующих признаков, разработка новых и оценка их инвариантности к смещению, повороту и изменению масштаба объектов так же является актуальной задачей для формирования алгоритмического обеспечения надежного и точного распознавания в современных САР объектов по их бинарным изображениям. Основными типами признаков в робототехнике являются следующие [6, 18, 100]: 1. Метрические (геометрические) признаки [10], принимающие определенные значения на некотором числовом отрезке (площадь, периметр, длина линий, размер описанного прямоугольника, длина максимального, минимального и среднего радиуса – векторов и т.д. [6]). Для вычисления некоторых геометрических признаков требуется вычисления центра тяжести изображения объекта прямоугольника [6], построение [6] (описанный описанного вокруг контура прямоугольник минимальной площади определяется перебором всех описанных вокруг объекта прямоугольников), вычисление координат точек пересечения линий, расчет длин отрезков, и др. 2. Логические признаки, принимающие значение 1 или 0 (истинно или ложно данное утверждение об изображении). 3. Топологические признаки, как и логические, относятся к качественному характеру изображения, но могут принимать не два, а несколько значений. Примерами могут быть – число компонент связности контура изображения, число отверстий в связной области объекта. 4. Структурно – лингвистические признаки связаны с двумя близкими подходами к проблеме распознавания – структурным и лингвистическим [101]. Наиболее часто используемыми при разработке САР трехмерных объектов являются геометрические и топологические (как по отдельности, так и в комбинации), такие как длина и ширина объекта [6], длина контура объекта 29 (периметр), размеры вписанного и описанного прямоугольника, площадь изображения проекции объекта, количество отверстий (при их наличии) и др. При этом, большинство признаков имеют различные единицы измерения, что приводит к возникновению необходимости в нормализации собранного вектора признаков. В связи с этим появляется задача в модификации существующих и создании новых безразмерных, инвариантных к поворотам и смещению объекта признаков. При распознавании изображений проекций трехмерных объектов важную роль играет правильный выбор признаков, по которым будут формироваться эталоны, так как в данном процессе используются отображения на плоскость различных (зачастую случайных) сторон рассматриваемого объекта. 1.5 Алгоритмы, используемые для распознавания трехмерных объектов Введение. Большинство подходов к распознаванию трехмерных объектов основываются на обработке двумерных изображений [102, 103]. Это связано с одной стороны с новизной данной проблемы, а с другой стороны с необходимостью использования мощных аппаратных средств, позволяющих выполнять обработку больших объемов данных в режиме реального времени, которые появились относительно недавно. Все существующие алгоритмы имеют общий подход. Он заключается в следующем: допустим, рассматривается изображение некоторой проекции распознаваемого трехмерного объекта из известного класса эталонных объектов. В этом случае его распознавание будет происходить посредством проверки всех возможных комбинаций проекций эталонных трехмерных объектов и отбора среди них той, которая наибольшим образом отвечает требованиям выбранной метрики сходства. В результате работы этих алгоритмов сразу несколько объектов из эталонных могут подходить к изображенной проекции. Например, по одной из проекции цилиндра можно сделать вывод, что это еще и шар, по проекции куба 30 – что это прямоугольный параллелепипед. Поэтому ошибки распознавания второго рода в алгоритмах распознавания 3D-образов по одной проекции не исключаются. Кроме вычислительную того, описанный сложность, т.к. подход требуется будет иметь перебрать гораздо высокую больше вариантов изображений проекций 3D-объекта, по сравнению с его двумерным аналогом. Почти все алгоритмы распознавания трехмерных образов реализуют описанную выше идею и отличаются лишь способом подбора проекций трехмерных объектов с целью уменьшения количества вычислений и сохранении требуемого качества распознавания. К наиболее распространенным подходам к распознаванию трехмерных объектов можно отнести следующие: 1. Распознавание по контурному изображению проекции объекта. Суть подхода заключается в следующем – по характерным точкам контура изображения проекции объекта создается его описание, инвариантное к масштабу и ориентации объекта. Такое описание сокращает число проверяемых эталонов при распознавании трехмерных объектов [95, 96]. 2. Распознавание 3D-объектов по адаптированным эталонам. Подход отличается от предыдущего применением имитационных моделей для каждого трехмерного объекта, при этом учитываются факторы окружающей среды (направление источников света, атмосферные условия и др.). Преимущество использования таких эталонных моделей заключается в появлении возможности более точного сопоставления рассматриваемой проекции объекта с ее эталонным аналогом [104]. В данном подходе необходимо заранее знать ориентацию рассматриваемого трехмерного объекта. 3. Распознавание образов в условиях их неизвестной ориентации. В подходе номер 3 происходит поворот трехмерной модели с заданным шагом (угол поворота определяется экспериментально), и для подбора нужной проекции необходимо перебирать все возможные варианты ориентации эталонных трехмерных моделей, для сравнения получаемых изображений с 31 распознаваемым [105]. При этом трехмерные модели строятся в каждом случае распознавания. 4. Распознавание и определение местонахождения повернутых объектов с измененным масштабом. В данном подходе формируется описание объекта на основе его контура. Для этого создается вектор, элементами которого являются расстояния от центра масс до точек, лежащих на контуре объекта. Затем, используя корреляционный подход, выполняется проверка соответствия одного описания другому путем сравнения с порогом величины взаимной ковариации [95]. 5. Распознавание образов по линиям контуров. Данный алгоритм также использует контурное описание проекции объекта, но в отличие от предыдущего выполняет векторизацию линий контуров, например, с использованием алгоритма Хафа. Затем для найденного объекта и проекции эталона находят границы, оставляя только самые длинные линии, и пытаются определить схожие комбинации расположения линий, относительно которых можно сопоставить изображения [95]. Все перечисленные подходы объединяет общая концепция сопоставления эталонного и рассматриваемого изображений напрямую или с использованием вторичных признаков [106]. Вне зависимости от выбранного метода или подхода качество сравнения в большей степени зависит от идентичности условий освещения и наблюдения анализируемого и эталонного изображений. В связи с тем, что трехмерный объект может располагаться в области сцены произвольно, то подходы под номерами 1, 2, 4, 5 не справятся с данной задачей. Алгоритм, описанный в подходе №3 использует имитационное моделирование и может быть применен для произвольно расположенных распознаваемых трехмерных объектов в САР 3D, но имеются недостатки: 1) количество генерируемых проекций (при большом количестве распознаваемых объектов, оно значительно возрастает, соответственно и увеличивается общее время распознавания всех объектов на сцене); 2) необходимость построения 32 трехмерных моделей для каждого распознаваемого объекта, что значительно увеличивает время, а соответственно и стоимость работы. Наиболее известными алгоритмами распознавания, использующимися в современных САР, являются: алгоритм k-средних [31]; алгоритм вычисления оценок [82, 83]; алгоритм поиска ближайших соседей [108]. 1.5.1 Алгоритм k-средних Алгоритм представляет собой версию ЕМ-алгоритма, применяемого также для разделения смеси гауссиан [31]. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k. Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров: По аналогии с методом главных компонент центры кластеров называются также главными точками, а сам метод называется методом главных точек и включается в общую теорию главных объектов, обеспечивающих наилучшую аппроксимацию данных. 1.5.2 Алгоритм вычисления оценок Алгоритмы вычисления оценок (АВО) были предложены академиком РАН Ю.И. Журавлевым в начале 70-х годов прошлого века. В их описании были отражены передовые концепции решения задач распознавания. Решение о классификации объекта принимается с помощью анализа оценок близости объекта к классам. За какой класс оценка близости выше – к тому классу и относят объект. Оценки вычисляет распознающий оператор. Классифицирует объекты на основе оценок их близостей к классам по решающему правилу. При вычислении оценок близости к классам учитывают близость/дальность объекта к эталонам. Близость – схожесть описаний, малое расстояние между значениями признаков. При этом оценка близости объекта к классу тем выше, чем ближе он к эталонным объектам данного класса и дальше от эталонных объектов других классов [107, 108]. 1.5.3 Алгоритм поиска ближайших соседей 33 Метод ближайших соседей – простейший метрический классификатор, основанный на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки. Для повышения надёжности классификации объект относят к тому классу, которому принадлежит большинство из его соседей – ближайших к нему объектов обучающей выборки. В задачах с двумя классами число соседей берут нечётным, чтобы не возникало ситуаций неоднозначности, когда одинаковое число соседей принадлежат разным классам [108]. Для проверки применимости рассматриваемых алгоритмов к распознаванию трехмерных объектов, есть необходимость в создании макета САР для проведения исследований на тестовых и реальных объектах. 1.6 Выбор и обоснование алгоритма построения трехмерной модели объекта В некоторых современных САР для распознавания трехмерных объектов используются модели, создаваемые при помощи аппаратных средств. Они формируются при помощи датчиков расстояний, определяющих удаленность точек поверхности объектов от САР, 2D лазеров, подсвечивающих полосы вдоль равномерно движущегося объекта, и других. Согласно таблице 1.1, п.п. 1.2.5, существующие САР имеют явно выраженные недостатки: 1. Датчики расстояний позволяют создать трехмерную поверхность объекта без учета сторон, не попадающих в их поле зрения. 2. Технология лазерной триангуляции (2D лазеры) требует постоянного равномерного движения трехмерного объекта в фиксированном положении. Кроме того, данные технологии предназначены преимущественно не для классификации и распознавания объекта, а для обнаружения дефектов. Хранение всех координат точек поверхности трехмерного объекта обладает свойством избыточности. Такая трехмерная модель будет занимать большое количество памяти ЭВМ, а ее обработка будет довольно трудоемкой, что скажется на временных затратах при распознавании. Поэтому для хранения и обработки таких трехмерных данных необходимо применять 34 специализированные алгоритмы, позволяющие компактно хранить трехмерную модель объекта с требуемым уровнем точности. Среди алгоритмов представления трехмерных объектов одним из самых распространенных и удобных в применении является окто-дерево (octrees – октантная древовидная структура) [109-114]. Оно широко используются в сфере построения медицинских изображений и в других приложениях, требующих отображения поперечных сечений объектов. Древовидная структура организована так, что каждый узел соответствует области трехмерного пространства. Это представление объемных тел использует пространственную когерентность, чтобы снизить требования к памяти для хранения трехмерных объектов. Кроме того, этот подход удобен для хранения информации о внутренних областях объектов. Представление трехмерного объекта в форме окто-дерева является расширением подобной двухмерной схемы представления, называемыми кодированием в форме квадро-дерева (quadtree). Квадро-деревья генерируются последовательным делением двухмерной области (обычно квадрата) на квадранты. Каждый узел квадро-дерева имеет четыре элемента данных — по одному на каждый квадрант области (Приложение А, рис. А6). Если все точки квадранта имеют одинаковый цвет (однородный квадрант), этот цвет указывается в соответствующем элементе данных узла. Кроме того, там же устанавливается метка, определяющая, что квадрант однородный. Если, например, все точки в квадранте 2 на рис. А6 Приложения А черного цвета, то квадрант считается частью объекта и не происходит дальнейшего разбиения. В противном случае квадрант неоднородный, и он делится на подквадранты, как показано на рис.А7 Приложения А. Элемент данных в узле, соответствующем квадранту 3, теперь помечает квадрант как неоднородный и хранит указатель на следующий узел квадро-дерева. В алгоритме генерации квадро-дерева проверяются коды цвета, присвоенные объектам выбранной двухмерной области, и соответствующим образом устанавливаются узлы квадро-дерева. Если все квадранты исходного 35 пространства имеют один цвет, квадро-дерево содержит только один узел. Для неоднородной области плоскости последовательное деление квадрантов продолжается до тех пор, пока однородными не станут все участки разделенной области. Кодирование в форме окто-дерева позволяет существенно сэкономить требуемую память, если в рассматриваемом пространстве имеются большие одноцветные области, поскольку один узел может представлять большую часть объекта. Поэтому его целесообразно использовать для кодирования трехмерных объектов. Окто-дерево – тип древовидной структуры данных, в которой у каждого внутреннего узла ровно восемь «потомков». Восьмеричные деревья чаще всего используются для дробления трёхмерного пространства, рекурсивно разделяя его на восемь ячеек (Приложение А, рис. А8). Отдельные подобласти после конечного этапа разбиения трехмерного пространства называются элементами объема или вокселями (voxels) по аналогии с пикселями прямоугольной области на экране дисплея. Воксель в представлении в форме окто-дерева хранит значения свойств для однородной подобласти. Свойства объектов в трехмерной области пространства могут включать цвет, тип материала, плотность и другие физические характеристики. Пустые области пространства представлены типом вокселей “void” (“пусто”). Как и для представления в форме квадро-дерева, неоднородный октант в области делится до тех пор, пока фрагменты не станут однородными[109-114]. Трехмерные модели позволяют получить любую косоугольную проекцию объекта, что может быть использовано в многокамерных системах автоматического распознавания, для идентификации изображений объектов, полученных с камер, расположенных под произвольным углом к центру сцены. Кроме того, данная модель в таких системах будет являться неотъемлемой частью эталона трехмерного объекта. 36 Выводы по главе 1 1. Автоматизация производства началась в середине прошлого века, с появлением спроса на сборочные узлы. Были созданы первые роботизированные системы, применяемые в производстве, а так же начались активные исследования и разработки в этой области. 2. Уровень достаточно низок. автоматизации Большинство на открытых задач сборочных решаются конвейерах преимущественно с применением ручного труда. 3. Сложность производственного процесса, высокие требования к качеству продукции, активная конкурентная борьба, необходимость в повышении качества и темпов производства требуют использования систем машинного зрения с высоким интеллектом. 4. Задача идентификации трехмерных объектов пока еще является довольно новой, и для ее решения все еще используются средства и алгоритмы плоской геометрии. 5. Использование двух камер на данный момент недостаточно охвачено вниманием в современных подходах к распознаванию трехмерных объектов. В связи с этим, существует необходимость разработки нового подхода к распознаванию трехмерных объектов на основе информации, получаемой с использованием двух видеодатчиков. 6. Современные коммерческие 3D САР не применимы к распознаванию нескольких произвольно расположенных трехмерных объектов. 7. Стоимость базовых наборов коммерческих САР начинается от 90 000 р. и может достигать 3 млн. р., в зависимости от комплектации. 8. В коммерческих САР в среднем используется от 3 до 7 признаков. 9. При распознавании нескольких произвольно расположенных трехмерных объектов с использованием двух камер существует задача сопоставления изображений проекций на получаемых снимках. 37 10. Применение существующих алгоритмов предварительной обработки исходных снимков и разработка новых алгоритмов для использования в САР, является одним из важнейших этапов распознавания образов. 11. Разработка новых признаков, инвариантных к переносу, изменению масштаба и повороту ТО, и позволяющих классифицировать объекты по форме является актуальной задачей. 12. Разработка новых признаков, инвариантных к аффинным преобразованиям, и позволяющих классифицировать объекты по форме является актуальной задачей. 13. Наиболее распространенными алгоритмами распознавания, используемыми в современных САР являются алгоритм k-средних, алгоритм вычисления оценок и алгоритм поиска ближайших соседей. 14. Существующие подходы к распознаванию трехмерных объектов имеют ряд недостатков в сложных случаях: ошибки верной идентификации, либо низкая скорость распознавания. 15. Разработка нового подхода, позволяющего распознавать произвольно расположенные трехмерные объекты является актуальной задачей, до сих пор не получившей должного решения. 16. Применение объемных моделей позволяет с высокой точностью распознавать произвольно расположенные трехмерные объекты. 17. Выбор типа трехмерной модели эталона является важным моментом при формировании подхода к распознаванию трехмерных объектов, что может влиять как на скорость так и на точность их идентификации. Постановка задачи исследования 1. Анализ состояния задачи распознавания трехмерных объектов. 2. Разработка и реализация нового подхода к распознаванию трехмерных объектов с использованием двух камер, который позволит распознавать сразу несколько произвольно расположенных трехмерных объектов с минимальными временными затратами и с высокой точностью. 38 3. Разработка и исследование алгоритма сопоставления изображений проекций на снимках, полученных с двух камер, отнесение полученных пар к каждому из объектов, расположенных на сцене, при распознавании нескольких трехмерных объектов. 4. Разработка и исследование новых алгоритмов выделения признаков и предварительной обработки изображений, позволяющих решать задачи автоматического распознавания и классификации произвольно и отдельно расположенных трехмерных объектов. 5. Разработка и реализация структуры эталона трехмерного объекта, включающей в себя информацию о плоской геометрии проекций и эталонную трехмерную модель. 6. Разработка и построение действующего макета экспериментальной системы автоматического распознавания трехмерных объектов с использованием двух камер. 7. Экспериментальная проверка известных алгоритмов распознавания с использованием разработанного вектора признаков на бинарных изображениях проекций тестовых отдельных трехмерных объектов. 8. Проведение исследований выбранного алгоритма распознавания на парах изображений проекций отдельных тестовых трехмерных объектов, полученных с двух камер. 9. Разработка и исследование алгоритма обнаружения нескольких отдельно расположенных тестовых трехмерных объектов. 10. Экспериментальная проверка выбранного алгоритма распознавания на нескольких отдельно расположенных тестовых трехмерных объектах по бинарным изображениям их ортогональных и косоугольных проекций. 11. Экспериментальная проверка выбранного алгоритма распознавания на нескольких отдельно расположенных реальных трехмерных объектах по бинарным изображениям их ортогональных и косоугольных проекций. 39 ГЛАВА 2 РАЗРАБОТКА АЛГОРИТМИЧЕСКОГО ОБЕСПЕЧЕНИЯ ОБРАБОТКИ И СТРУКТУРЫ СИСТЕМЫ РАСПОЗНАВАНИЯ ТРЕХМЕРНЫХ ОБЪЕКТОВ ПО ИЗОБРАЖЕНИЯМ ИХ ПРОЕКЦИЙ Введение. Процесс распознавания трехмерных объектов необходимо разбить на две части – обучение и собственно распознавание. Исходя из анализа, проведенного в первой главе, можно сделать вывод, что основными недостатками аналогичных систем являются: требование к фиксированному расположению трехмерного объекта в поле зрения камеры; использование только одной камеры при идентификации трехмерного объекта; применение дополнительных дорогостоящих датчиков расстояний. Это существенно ограничивает возможности систем. Основными требованиями к подобным системам на сборочных конвейерах являются следующие: 1) Объект должен быть произвольно расположен в области сцены; 2) На сцене перед системой сборки продукции могут находиться несколько объектов; 3) Возможность распознавания различных трехмерных объектов со схожими проекциями. 4) Обучающая подсистема должна подготовить распознающую подсистему к идентификации трехмерного объекта, не зависимо от того, как он располагается в области сцены. Для этого необходимо иметь представление о всех ортогональных проекциях трехмерного объекта. Несмотря на различия существующих систем и подходов, большинство из них базируются на обработке бинарных изображений проекций трехмерных объектов. Соответственно, само распознавание осуществляется по признакам этих проекций, которые необходимо предварительно подготовить к вычислению. 2.1 Алгоритм нормализации ориентации бинарных изображений проекций трехмерного объекта. 40 Исходя из требований, сформулированных выше, объекты могут располагаться произвольно (случайным образом относительно осей координат), что существенно затрудняет их идентификацию. Прежде чем вычислять признаки проекций трехмерных объектов, их изображения необходимо привести к удобному для дальнейшей обработки виду (нормализовать) при помощи преобразований подобия (поворот) по ориентации в области сцены. Зачастую для распознавания каких-либо объектов используется определенный эталон, с которым они сравниваются. Для корректной идентификации трехмерного объекта необходимо, чтобы ориентации в области сцены изображения эталона и рассматриваемой проекции совпадали. Существует несколько вариантов решения данной задачи. При проверке объектов можно поворачивать изображение эталона, параллельно производя сравнение с изображением проекции рассматриваемого объекта. Другим вариантом является приведение всех изображений как рассматриваемых объектов, так и эталонов к определенному виду, т.е. нормализовать его по повороту, ориентации, масштабу (при необходимости). Для этой задачи был разработан алгоритм определения положения и нормализации пространственного расположения объекта, который выполняет поворот нужной области изображения согласно определенным правилам. Отличительной особенностью данного алгоритма от аналогов является то, что ориентация изображения объекта осуществляется относительно отрезка максимальной длины, соединяющего две точки контура изображения объекта. Принцип работы алгоритма представлен на рисунке 2.1. Алгоритм: 1. Выделение внешнего контура проекции объекта (см. п.п 1.3.2), координаты точек контура сохраняются в числовой массив. 2. Построение минимально описанного вокруг изображения проекции объекта прямоугольника (см. п.п. 1.4) 3. Вычисление длины отрезка l объекта (см. п.п. 1.4). 41 l ( x2 x1 ) 2 ( y2 y1 ) 2 (2.1) где ( x1, y1 ) и ( x2 , y2 ) – координаты начала и конца отрезка. α l а б e l e β l в г Рис 2.1. Иллюстрация работы алгоритма нормализации пространственного расположения объекта; а – исходное изображение проекции объекта; б – поиск на исходном изображении отрезка максимальной длины (l), соединяющего две точки контура; в – изображение проекции объекта, повернутое до горизонтальности отрезка l; г – изображение проекции объекта, повернутое на минимальный угол между отрезком l и отрезком, соединяющим середины противоположных (меньших) сторон описанного вокруг изображения проекции трехмерного объекта прямоугольника. Происходит перебор всех точек контура до тех пор, пока не будет найдена максимальная длина l. 4. Вычисление угла наклона линии максимальной длины к горизонтальной оси: ( x1 x2 ) ( y1 y2 ) x12 y12 x2 2 y2 2 (2.2) где ( x1, y1 ) и ( x2 , y2 ) – направляющие векторы для линии, на которой лежит отрезок максимальной длины, и линии, параллельной оси Х. 5. Выполнение поворота объекта на полученный угол средствами конформных преобразований (см. п.п. 1.3.3). 42 6. Вычисление минимального угла β между отрезком e (соединяющим середины меньших противоположных сторон описанного прямоугольника) и отрезком l. 7. Выполнение поворота объекта на угол β до эталонного положения средствами алгоритмов линейных конформных преобразований. 2.2 Алгоритм поиска ключевых точек для вычисления диагональных коэффициентов формы После нормализации ориентации рассматриваемой проекции трехмерного объекта (ПТО), необходимо вычислить ключевые точки (КТ) на бинарном изображении ПТО, позволяющие получить численные значения отдельных величин, дающих возможность как в отдельности, так и в комбинациях однозначно характеризовать различные особенности формы [115-118]. Алгоритм 1. Находится контур ПТО. K – множество точек контура: K ki ( xi ; yi (2.3) где i = 1,…,n, n – число точек контура ПТО Рис. 2.2 Изображение контура проекции трехмерного объекта 2. Осуществляется поиск ключевых точек (КТ). Процесс вычисления ключевых точек включается в предварительную обработку изображения. К КТ относятся: крайние точки контура ПТО, через которые проводятся парные касательные, параллельные осям прямоугольной системы координат; вершины описанного вокруг контура ПТО прямоугольника (ОП), точка 43 пересечения диагоналей ОП, точки пересечения контура фигуры и диагоналей ОП. Рис. 2.3 Построение касательных к контуру ПТО На контуре ПТО выбираются крайние точки E’, N’, M’, D’ ( E ' K , N ' K , M ' K , D' K ) таким образом, чтобы: x4 ' min ( xi ), x4 ' xi (2.4) x2 ' max ( xi ), x2 ' xi (2.5) y1 ' min ( yi ), y1 ' yi (2.6) y3 ' max ( yi ), y3 ' yi (2.7) i 1..n i 1..n i 1..n i 1..n К найденным точкам строятся касательные a, c, параллельные оси Ox; b, d, параллельные оси Oy. 3. Вычисление координат вершин описанного прямоугольника DENM: D( x4 ' ; y1 ' ) d a (2.8) E ( x2 ' ; y1 ' ) a b (2.9) N ( x 2 ' ; y3 ' ) b c (2.10) M ( x4 ' ; y3 ' ) c d (2.11) 4. Поиск ОП минимальной площади. 4.1 Вычисление длины и ширины описанного прямоугольника 44 Длиной ПТО считается максимальное расстояние между двумя точками контура. Длиной ПТО считается максимальное расстояние между двумя внешними параллельными касательными, не пересекающими сам объект, к точкам ее контура. Шириной ПТО считается минимальное расстояние между двумя внешними параллельными касательными, не пересекающими сам объект, к точкам ее контура. l DE ( x4 ' x2 ' ) 2 ( y1 ' y1 ' ) 2 x4 ' x2 ' (2.12) Аналогично: l DM y3 ' y1 ' (2.13) 4.2 Вычисление площади ОП S ( x4 ' x2 ' ) ( y3 ' y1 ' ) (2.14) 4.3 Поворот изображения ПТО. Поворот осуществляется на угол m , m = 1..180. Для выполнения операции поворота используются аффинные преобразования относительно начала координат. Рис. 2.28 Иллюстрация операции поворота тачки относительно центра координат Новые координаты (x”,y”) точки с координатами (x,y): x r cos ; x" r cos( ) (2.15) y r sin ; y" r sin( ) (2.16) где r – длина вектора от т. H, до точки k i и k’i, k’i – точка после смещения. 45 Преобразуя cos суммы углов и выразив все через r, получаем новую систему: x" x cos( ) y sin( ) y" x sin( ) y cos( ) (2.17) Для поворота относительно точки центра ОП – H ( x5 ' ; y5 ' ) , полученная система преобразовывается следующим образом: x" x5 ' ( x x5 ' ) cos( ) ( y y5 ' ) sin( ) y" y5 ' ( x x5 ' ) sin( ) ( y y5 ' ) cos( ) (2.18) 4.4 Выполнение пунктов 1-4.3 m раз. 4.5 Определение минимальной площади: S min min( S m ) (2.19) m1..180 Рис. 2.4 Построение описанного вокруг контура фигуры прямоугольника минимальной площади 5. Вычисление длины диагонали l DN ( x4 ' x2 ' ) 2 ( y1 ' y3 ' ) 2 (2.20) Аналогично находится длина второй диагонали (BD) 6. Вычисление координат точек пересечения диагонали и контура ПТО. 6.1 Строится уравнение прямой l (на которой лежит отрезок соединяющий противоположные вершины ОП) по двум точкам. x x2 ' y y3 ' x4 ' x2 ' y1 ' y3 ' (2.21) 46 6.1 В полученное уравнение подставляются точки контура K ki ( xi ; yi , i = 1,…,n, n – длина контура ПТО. 7. Вычисление длины максимального отрезка. Вычисляются длины расстояний между всеми возможными парами точек контура ПТО, определяется максимальное значение d i ( xi x j ) 2 ( yi y j ) 2 , (2.22) d max max(di ) , (2.23) i 1..n где d – длина отрезка, соединяющего две точки контура ПТО, dmax – длина самого большого отрезка di, i = 1,…,n, j = n,…,1. 2.3 Алгоритм вычисления диагональных признаков формы бинарных изображений проекций трехмерного объекта Для распознавания ПТО был разработан набор инвариантных (к смещению, повороту и масштабу объекта) признаков бинарных изображений ПТО [115-118]. За основу были взяты существующие коэффициенты формы, такие как отношение периметра объекта к его площади, отношение ширины к длине. Диагональные признаки формы. Вокруг фигуры (проекции трехмерного объекта) строится описанный прямоугольник минимально возможной площади (см. п.п. 2.2). Введем определения Определение 2.1 Длина фигуры (проекции объекта) (максимальный отрезок) – отрезок (рис. 2.5 – с), соединяющий 2 точки контура фигуры и имеющий максимальную длину. Определение 2.2. Диагональные отрезки описанного прямоугольника, – отрезки (рис. 2.5 – HN, HM, HE, HD), соединяющие центр описанного прямоугольника и его вершины. Вершины описанного прямоугольника находятся из системы уравнений прямых, являющихся касательными к контуру фигуры (проекции объекта), по которым строится описанный прямоугольник (см п.п. 1.4). 47 Рис. 2.5 Пример плоской геометрической фигуры, вписанной в квадрат Определение 2.3. Диагональный отрезок– отрезок (рис. 2.5 – HG, HF, HF’, HG’) лежащий на одной из диагоналей описанного вокруг фигуры (проекции объекта) прямоугольника и соединяющий центр объекта, и точку пересечения его контура с этой диагональю. Определение 2.4. Прямоугольный коэффициент формы (ПКФ) – kПКФ, далее ПКФ, характеризует отношение меньшей стороны описанного вокруг фигуры (проекции объекта) прямоугольника к большей (диапазон значений от 0 до 1). Данный признак позволяет вычислить пропорции, и представить их в виде коэффициента с диапазоном значений от 0 до 1: l k ПКФ a , lb где l a , (2.24) lb – соответственно длина и ширина описываемого вокруг объекта прямоугольника (либо квадрата) (рис. 2.6). Область значений коэффициента находится в диапазоне (0;1]: 1. Отношение ширины и длины фигуры пропорционально отношению двух сторон квадрата, если k ПКФ 1 , если a b ; 2. Отношение ширины и длины фигуры пропорционально отношению двух сторон прямоугольника k ПКФ 0 , если a b ; где a,b – длины сторон описанного прямоугольника. ПКФ позволяет классифицировать фигуры по форме их «вытянутости», как те, которые можно «вписать» в квадрат, и те, которые можно вписать в «прямоугольник». 48 Рис. 2.6 Схематическое представление плоской геометрической фигуры №1, вписанной в прямоугольник: a,b – стороны описанного прямоугольника Определение 2.5. Коэффициент периметр-площадь (КПП) – отношение периметра Po внешнего контура объекта к его площади S o . P k КПП o , So (2.25) где Po , S o – соответственно периметр и площадь объекта (см. п.п. 1.4). Определение 2.6. Диагональный коэффициент формы (ДКФ) – признак формы, вычисляющийся как отношение длины фигуры (проекции объекта) к длине диагонали описанного прямоугольника (диапазон значений от 0 до 1). Для фигуры, изображенной на рис. 2.7, диагональный коэффициент будет выглядеть следующим образом: k ДКФ lc , ld (2.26) где ld – длина диагонали описанного прямоугольника, lc – длина фигуры (проекции объекта) Рис. 2.7 Схематическое представление объекта №2, вписанного в прямоугольник d – диагональ описанного прямоугольника, с – длина отрезка максимальной длины между двумя точками контура объекта 49 Определение 2.7. Коэффициент диагоналей (КД) – отношение длины диагонали фигуры (проекции объекта) к длине фигуры le (проекции объекта). Определение 2.8. Диагонали объекта – отрезки, лежащие на диагоналях минимально описанного вокруг него прямоугольника и соединяющие 2 точки контура объекта. На рис. 2.8 диагоналями фигуры (проекции объекта) являются FG’ и F’G. Обозначим их длины l d1 и l d 2 . Рис. 2.8 Схематическое представление плоской геометрической фигуры №2, вписанной в прямоугольник. l k КД 1 d1 le (2.27) l k КД 2 d 2 le (2.28) Определение 2.9. Коэффициенты диагональных отрезков (КДО). Коэффициенты диагональных отрезков, k КДО – отношения длин диагональных отрезков фигуры (проекции объекта), к длинам соответствующих диагональных отрезков описанного вокруг нее прямоугольника (рис. 2.5 – HN, HM, HE, HD). Все величины, использующиеся при расчете диагональных признаков формы вычисляются в точках. 2.3.1 Алгоритм классификации плоских геометрических фигур вписанных в квадрат по диагональным признакам формы Разработанные признаки позволяют классифицировать выпуклые геометрические фигуры. Алгоритм классификации фигур, вписанных в квадрат различные 50 На рис. 2.9 представлена блок-схема алгоритма классификации плоских геометрических фигур [119-124]. Этапы алгоритма: 1. Находятся длина, ширина фигуры, длины диагональных отрезков по алгоритму, описанному в [6]; 2 Вычисляется прямоугольный коэффициент формы (рис. 2.9, блок 2); Рис. 2.9 Блок-схема алгоритма классификации плоских геометрических фигур 51 3. Выполняется проверка значения ПКФ (рис. 2.9, блок 3): Если kПКФ = 1, то фигуру можно вписать в квадрат и выполняется этап № 4 алгоритма. Если 0 < kПКФ < 1, то фигуру можно вписать в прямоугольник (см. п.п. 2.3.2). 4. Вычисляются коэффициенты диагональных отрезков для классифицируемой фигуры (рис. 2.9, блок 5). 5. Выполняется проверка значения КДО (рис. 2.9, блок 6): а) Если верно выражение: k ДO1 k ДO 2 k ДO 3 k ДO 4 , (2.29) то фигура является правильной с четным количеством граней, либо кругом, и выполняется четкая классификация (пункт 6 алгоритма). Пример плоской геометрической фигуры, вписанной в квадрат изображен на рис. 2.10. Рис. 2.10. Пример плоской геометрической фигуры, вписанной в квадрат В прямоугольном треугольнике MD’H (рис. 2.10а) длина катета MD’ будет равна: lMH 2 lD' H 2 lMD '2 2lD' H 2 , lMH lD'H 2 (2.30) Для круга (рис. 2.10а): k ДO 2 l FH lD' H Так как FH и D’H являются радиусами окружности с центром в точке H, то они равны, следовательно: 52 k ДO 2 lD' H l 2 , D' H lMH lD ' H 2 2 (2.31) В связи с тем, что в правильных фигурах диагональные отрезки равны, то для круга: k ДO1 k ДO 2 k ДO 3 k ДO 4 2 2 (2.32) Для квадрата (рис. 2.10б) коэффициенты диагональных отрезков: k ДO1 k ДO 2 k ДO 3 k ДO 4 1 (2.33) б) Если выражение (2.29) неверно, то фигура неправильная либо правильная с нечетным количеством граней, и выполняется как четкая так и не четкая классификация (пункт 7 алгоритма). В рамках нечеткой классификации будут проверяться не просто неравенства, а учитываться и количественные отличия диагональных коэффициентов от эталонов. Вариант алгоритма классификации правильных фигур с нечетным количеством граней относится к фигурам, вписываемым в прямоугольник (правильный треугольник, правильный пятигранник, и др.), и будет рассматриваться в п.п. 2.3.2. 6. Диагонали фигуры, близкой по форме к кругу, будут равны между собой (диаметры), следовательно k ДКФ = 1. Если фигура близка по форме к квадрату, то ее длина будет гипотенузой DN в прямоугольном треугольнике DNE (рис. 2.10б), а длина диагонали описанного прямоугольника (в данном случае квадрата) так же будет равна гипотенузе DN данного треугольника. Следовательно, для квадрата значение k ДКФ : k ДКФ где lDN – длина отрезка DN. Для круга k ДКФ lD ' E ' . lDN lDN 1. lDN (2.34) 53 На рис. 2.10а D’E’ = DE, следовательно, из прямоугольного треугольника DNE: k ДКФ l DE l DN (2.35) В прямоугольном треугольнике DNE: lDN 2 lDE 2 lDE 2 2lDE 2 , lDN lDE 2 , Следовательно, для круга значение k ДКФ : k ДКФ l DE l 1 2 . DE l DN l DE 2 2 2 (2.36) Таким образом: а) Если k ДКФ 2 , 2 (2.37) то ДКФ описывают форму близкую к кругу. б) Если k ДКФ 1, (2.38) то ДКФ описывают форму близкую к квадрату. 7. Для распознавания неправильных фигур используются коэффициенты диагональных отрезков. Для примера рассмотрим трапецию и параллелограмм, вписанные в квадрат. Рис. 2.11. Параллелограмм и трапеция, вписанные в квадрат 54 Когда данные фигуры описываются квадратом минимально возможной площади, их две противоположные грани при этом располагаются на двух сторонах квадрата (рис. 2.11). Ориентация фигур в пространстве не имеет значения, так как в данном случае осуществляется нечеткая классификация и проверяются не просто неравенства, а учитываются и количественные отличия коэффициентов от эталонов. Для параллелограмма (рис. 2.11а) коэффициенты диагональных отрезков следующие: k ДO1 lHN 1, lHN (2.39) k ДO 2 lHF 1, lHM (2.40) k ДO 3 lHD 1, lHD (2.41) k ДO 4 lHG 1, lHE (2.42) Для трапеции (рис. 2.11б): k ДO1 lHG 1, lHN (2.43) k ДO 2 lHF 1, lHM (2.44) k ДO 3 lHD 1, lHD (2.45) k ДO 4 lHE 1. lHE (2.46) При k ДO1 k ДO 2 , k ДO 3 k ДO 4 трапеция будет равнобедренной. Различие заключается в следующем: - в параллелограмме попарно равны коэффициенты противоположных диагональных отрезков; 55 - в равнобедренной трапеции попарно равны коэффициенты смежных диагональных отрезков; - в произвольной трапеции всегда коэффициенты одной пары смежных диагональных отрезков равны между собой и имеют значение 1. 2.3.2 Алгоритм классификации плоских геометрических фигур вписанных в прямоугольник по диагональным признакам формы Алгоритм классификации фигур, вписанных в прямоугольник. 1. Находятся длина, ширина фигуры, (см. п. 1.4, 2.2) длины диагональных отрезков (см. п.п. 2.3); 2 а) Вычисляется прямоугольный коэффициент формы по формуле представленной в п.п. 2.3; б) Вычисляются диагональные признаки формы; 3. Выполняется проверка значения ПКФ: Если kПКФ = 1, то фигуру можно вписать в квадрат (данный случай был рассмотрен в п. 2.3.1). Если 0 < kПКФ < 1, то фигуру можно вписать в прямоугольник, и выполняется пункт 4 алгоритма (рис. 2.12). Рис. 2.12 Пример плоских геометрических фигур, вписанных в прямоугольник 4. На рис. 2.12б, в изображены два примера разнотипных фигур. Основное отличие заключается в положении точки H (точка середины отрезка максимальной длины, соединяющего 2 точки контура) – на рис. 2.12в точка H находится внутри описанного вокруг фигуры прямоугольника а на рис. 2.12б на одной из его граней. Фигуры аналогичные той, которая изображена на рис. 56 2.12б условно отнесем к I группе, а фигуры аналогичные фигуре на рис. 2.12в – к II группе. Разделение фигур на группы по данному признаку классификации осуществляется проверкой точки на принадлежность линии, и определяется по формуле прямой: Ax+By+C=0 Для вычисления коэффициентов A, B, C вместо x, y подставляются координаты начала и конца отрезка DE, затем решается система двух уравнений. После нахождения A, B, C в полученное уравнение прямой подставляются координаты точки H: Если полученное равенство верное, – то H DE и фигура относится к первой группе, иначе ко второй. 5. Фигуры I группы Рассмотрим фигуры I группы на примере треугольников. H’ M N H’ M H’ N M N G G F D H G F E H D а б F E D H E в Рис. 2.13 Различные виды треугольников, вписанных в прямоугольник Так как у фигур первой группы середина максимального отрезка лежит на основании описанного прямоугольника, то два из четырех диагональных отрезков будут всегда равны «1», следовательно для внутригруппового различия есть смысл рассматривать только два коэффициента диагональных отрезков. Коэффициенты диагональных отрезков для треугольников (рис. 2.13) рассчитываются по следующим формулам: k ДO1 l HF l HM (2.47) 57 k ДO 2 l HG l HN (2.48) где – l – длина соответствующего отрезка Произвольный треугольник. В прямоугольнике HH’MD (рис. 2.13а, б) отрезки HM и DH’ являются диагоналями, они равны и их пересечение делит их пополам, следовательно HF = HG, MF = GN, а для произвольного треугольника данные диагональные отрезки не будут равны между собой и соответственно коэффициенты диагональных отрезков: k ДО1 k ДО 2 (2.49) Равносторонний треугольник. В соответствии с рассуждениями о произвольном треугольнике для равностороннего треугольника: k ДО1 k ДО 2 Для того равносторонний чтобы отличить треугольники 1 2 между собой необходимо равнобедренный снова и воспользоваться прямоугольным коэффициентом формы. Из прямоугольного треугольника HNE (рис. 2.13б), HG=GN, HG=HE, HN 2 NE 2 HE 2 , (2HE) 2 NE 2 HE 2 , NE 2 HE 2 4HE 2 3HE 2 , NE HE 3 . Так как H является серединой DE, то DE = 2HE. Для равностороннего треугольника: k ПКФ l NE l HE 3 3 l DE 2l HE 2 (2.50) Так как равносторонний треугольник является частным случаем равнобедренного то чтобы различить их между собой, значение k пр не должно быть равным 3 3 : k ПКФ 2 2 Равнобедренный треугольник 58 Для равнобедренного треугольника вышеописанные коэффициенты принимают следующие значения (аналогично рассуждениям о произвольном треугольнике): k ДО1 k ДО 2 1 2 (2.51) При l NE l HE 3 – треугольник будет равносторонним, следовательно для равнобедренного треугольника должно выполняться следующее: k ПКФ 3 2 (2.52) 6. Фигуры II группы Так как для фигур второй группы точка H находится в центре описанного прямоугольника, то для их описания уже потребуется не 2 коэффициента диагональных отрезков, а 4. Рис. 2.14 Фигуры второй группы Подгруппа фигур с одинаковыми коэффициентами диагональных отрезков. К данной группе относятся эллипс и ромб (рис. 2.14 а, б). k ДO1 l l HG l l ; k ДO 2 HF ; k ДO 3 HG ' ; k ДO 4 HF ' l HN l HD ' l HM l HE ' (2.53) Объединяет фигуры в этой подгруппе равенство между собой всех четырех диагональных отрезков k ДO1 k ДO 2 k ДO 3 k ДO 4 А различает значение коэффициентов Ромб: k ДO1 k ДO 2 k ДO 3 k ДO 4 1 2 Эллипс: k ДO1 k ДO 2 k ДO 3 k ДO 4 (2.54) 1 2 (2.55) 59 Подгруппа фигур с различающимися между собой коэффициентами диагональных отрезков. Для параллелограмма коэффициенты диагональных отрезков следующие: k ДO1 l HN 1; l HN l HG 1 l HE k ДO 2 ; k ДO 3 l HD 1 l HD ; k ДO 4 l HF 1 l HM k ДO 4 l HE 1 l HE (2.56) Для трапеции: k ДO1 l HF 1 ; l HM k ДO 2 l HG 1 ; l HN k ДO 3 l HD 1 ; l HD (2.57) При k ДO1 k ДO 2 трапеция будет равнобедренной. Внутригрупповое различие заключается в том, что в параллелограмме попарно равны коэффициенты противоположных диагональных отрезков, а в трапеции 2 смежных. Разработанные алгоритмы позволили создать классы проекций трехмерных объектов, отличающихся по форме. 2.4 Алгоритм определения диапазонов значений признаков формы При распознавании произвольно расположенных трехмерных объектов, значения диагональных признаков формы у одних и тех же проекций могут немного отличаться, поэтому необходимо вычислять их возможные отклонения [125]. Алгоритм определения диапазонов значений признаков формы представлен на схеме рис. 2.15. Блок генерации изображений Блок вычисления признаков Блок вычисления отклонений выборки фигур одного типа Память ЭВМ Блок анализа отклонений признаков по всем выборкам фигур Рис. 2.15 Схема алгоритма определения диапазонов значений диагональных признаков формы 1. Генерируется выборка фигур одного типа. 2. Вычисляются диагональные признаки каждого объекта. 60 x1 x 2 ... x n a12 ... a1n a 22 ... a 2 n ... ... ... a m 2 ... a mn a11 A a 21 ... a m1 где xi xn – вектор признаков; n – количество признаков объекта; aij – значение признака j генерируемой фигуры i (i=1,…,n, j=1,…,m); A – выборка сгенерированных фигур типа 1. 3. Вычисляются отклонения каждого признака по каждому столбцу матрицы А. ki max(ai ) min( ai ) где (2.58) k i – отклонение i-го признака фигуры типа 1. Пункты 1, 2 выполняются для каждого типа фигур. Формируются векторы отклонения признаков для каждого типа объектов: K l {k1 , k 2 ,...,k n } где (2.59) l –тип фигуры; K l – вектор отклонений фигуры типа L. 4. Отклонения по каждой выборке объектов сохраняются в памяти ЭВМ. 5. Из полученных векторов K L строится матрица K, содержащая отклонения значений всех признаков для каждого типа объектов. x1 k11 K k 21 ... k L1 x2 ... xn k12 ... k1n k 22 ... k 2 n ... ... ... k L 2 ... k Ln По матрице K определяются максимальные отклонения по каждому признаку для всех типов объектов: max(kl ) 61 где – отклонение i-го признака; l – тип фигуры; Д {1 , 2 ,..., n } где (2.60) Д – вектор отклонений признаков для любого типа фигур из заданного набора. 2.5 Обоснование необходимости применения имитационных моделей в САР произвольно расположенных трехмерных объектов Совершенно очевидно, что накопление эталонных изображений во всем диапазоне условий расположения трехмерного объекта невозможно, так как учет только таких параметров, как ракурс, положение источника света, фокусное расстояние, разрешающая способность видео-датчика, уже выходит за рамки первых сотен изображений для одного объекта. Если учитывают N параметров (угол наклона во всех плоскостях, яркость освещения, длина тени, и др.) с выборкой Kn (n = 1,…,N) числа значений внутри каждого параметра, то требуемое число эталонных изображений должно достигать: N NЭ Kn n1 (2.61) Поэтому, при распознавании произвольно расположенных трехмерных объектов, применение трехмерных моделей позволит сократить число анализируемых эталонных проекций. Кроме того, их использование при распознавании трехмерных объектов может решить определенные проблемы в некоторых сложных случаях: - когда объекты имеют одинаковые характеристики у аналогичных проекций; - когда с одного ракурса нельзя различить объекты, отличающиеся только формами боковых граней. Существующие системы распознавания трехмерных объектов (см. п.п. 1.2, 1.4) используют два основных подхода. Первый заключается в распознавании плоского изображения ортогональной проекции объекта, что 62 ведет к возникновению ошибок распознавания в отдельных сложных случаях. Второй подход использует только имитационные модели (см. п.п. 1.4), что ведет к увеличению временных затрат. В предлагаемом подходе распознавание трехмерных моделей в большинстве случаев осуществляется по одному бинарному изображению ортогональной проекции за доли секунд. Построение трехмерных моделей необходимо только в тех сложных случаях, когда система относит распознаваемое изображение сразу к нескольким классам объектов. Далее будут рассмотрены несколько таких случаев. Пусть имеется несколько трехмерных геометрических фигур (рис. 2.16). Рис. 2.16 Примеры трехмерных геометрических фигур: а – куб, б – сфера, в – цилиндрическая фигура соединенная с полусферой, г – прямоугольный параллелепипед, д – цилиндр, е – усеченный конус. Объекты изображенные на рис. 2.16 имеют ортогональные проекции с одинаковыми геометрическими характеристиками. Рассмотрим несколько примеров распознавания сразу нескольких трехмерных объектов. 1. Распознавание куба (рис. 2.16а) и прямоугольного параллелепипеда (рис. 2.16г). На рис. 2.17 изображены 3 проекции рассматриваемых фигур. 63 Рис. 2.17 Проекции куба и прямоугольного параллелепипеда: а, г – изометрические проекции, б, д – проекции «вид слева», в, е – проекции «вид сверху» При распознавании этой пары трехмерных объектов при помощи одной камеры может возникнуть ряд проблем: а. Если камера расположена под углом к сцене, то в базе данных необходимо хранить большое количество косоугольных проекций каждого из этих объектов (2.16). б. Если камера расположена вертикально над сценой, возникает ошибка распознавания в случаях, когда проекции «в» и «е» на рис. 2.17 имеют одинаковые размеры, то есть: w1 w2 l1 l2 При распознавании параллелепипеда, вероятность верного распознавания по одному изображению будет заключаться в наступлении события при котором распознаваемая квадратная проекция окажется, либо одной из двух проекций параллелепипеда, либо одной из шести квадратных проекций куба. Всего квадратных проекций для двух объектов – восемь, тогда вероятность отнесения квадратной проекции к прямоугольному параллелепипеду, при его ориентации в поле зрения камеры как на рис. 2.17 будет равна: Pпп 2 0.25 8 64 Вероятность отнесения квадратной проекции к кубу: Pк 6 0.75 8 2. Рассмотрим процесс распознавания сферы и цилиндра одного диаметра. Рис. 2.18 Проекции сферы и цилиндра: а, г – изометрические проекции, б, д – проекции «вид слева», в, е – проекции «вид сверху» Аналогичная ситуация, когда два объекта имеют проекцию «вид сверху» в виде круга одного диаметра. Вероятность отнесения круглой проекции к сфере: Pсф 6 0.75 8 Вероятность отнесения круглой проекции к цилиндру: Pц 2 0.25 8 3. Распознавание цилиндра и усеченного конуса. Допустим основание конуса (рис. 2.19е) и сечение цилиндра имеют одинаковый диаметр d 2 d 3 Использование одного видео-датчика не позволит распознать данные объекты. Проекций с таким диаметром среди рассматриваемых фигур – три (две у цилиндра, одна у конуса). 65 Рис. 2.19 Проекции цилиндра и усеченного конуса: а, г – изометрические проекции, б, д – проекции «вид слева», в, е – проекции «вид сверху» Вероятность отнесения круглой проекции к цилиндру в данном случае будет равна: Pц 2 0.67 3 Вероятность отнесения круглой проекции к конусу: Pк 1 0,33 3 Применение датчиков расстояний тоже не даст искомого результата в ситуации, когда высота объектов одинаковая: h1 h2 В данной ситуации, датчик расстояний, расположенный над сценой, построит два одинаковых цилиндра. 4. Распознавание усеченного конуса, цилиндра, сферы и цилиндра, соединенного с полусферой. Общее число одинаковых по форме ортогональных проекций для выборки объектов на рис. 2.20 составляет 11 (конус – 1, цилиндр – 2, сфера – 6, цилиндр с полусферой – 2). 66 Рис. 2.20 Проекции конуса, цилиндра, сферы, цилиндра соединенного с полусферой: а, г, ж, к – изометрические проекции, б, д, з, л – проекции «вид слева», в, е, и, м – проекции «вид сверху» Вероятность отнесения круглой проекции к конусу: Pк 1 0.09 11 Вероятность отнесения круглой проекции к цилиндру: Pц 2 0.18 11 Вероятность отнесения круглой проекции к сфере: Pсф 6 0.54 11 Вероятность отнесения круглой проекции к цилиндру соединенному с полусферой: 67 Pц ( 2) 2 0.18 11 Таким образом, чем больше в рассматриваемой выборке трехмерных объектов с одинаковыми проекциями, тем меньше вероятность верного отнесения видимых проекций к ним. Отсюда возникает задача поиска способа или путей решения данной проблемы. Предварительные исследования показали, что данную задачу можно решить с использованием косоугольных проекций [127], получаемых при помощи вспомогательной (расположенной под углом к сцене) камере и трехмерных моделей, так как сгенерированные косоугольные проекции отличаются друг от друга по форме, а их построение хотя и занимает некоторое время, но при этом решает вопрос ошибочного распознавания в ситуациях, когда есть произвольно расположенные трехмерные объекты с проекциями одинаковой формы и размера. 2.6 Алгоритм формирования описания поверхности трехмерного объекта Применение моделей окто-деревьев Прежде чем строить древовидную структуру трехмерной модели (октодерево см. п.п 1.6), необходимо получить координаты точек поверхности трехмерного объекта. На основе двухмерных изображений создается трехмерная модель в точечном виде. Для получения модели окто-дерева трехмерного объекта, необходимо создать описание его поверхности в виде координат точек. Модель окто-дерева позволяет формировать трехмерную сцену с требуемым уровнем детализации, что в свою очередь, позволяет регулировать используемые ресурсы. На первый взгляд, создать трехмерное изображение с помощью обычной цифровой камеры невозможно, ведь объемная картинка должна содержать гораздо больше информации, чем несут в себе двухмерные снимки. Тем не менее, можно получить недостающую информацию из снимков ортогональных 68 проекций трехмерного объекта и сделать из набора фотографий разных ракурсов объекта 3D модель. Для создания наиболее точной модели, необходимы следующие виды изображений: 3 обязательных (спереди, слева, сверху) и 3 дополнительные (сзади, справа, снизу) (рис. 2.21). При этом для обучения системы автоматического распознавания достаточно одной камеры, которая будет фиксировать последовательно каждую из 6 проекций. Рис. 2.22 – Ракурсы трехмерного объекта Для совместного масштабирования каждой проекции вычисляются ее геометрические характеристики, а именно: длина объекта, ширина и высота. Определяются среди них максимальные значения, и изменяется размер изображений, при этом сохраняются пропорции: Вид спереди и вид слева – высота объекта, обозначается w; Вид спереди и вид сверху – длина объекта, обозначается h; Вид сверху и вид слева – ширина объекта, обозначается l. Параметры w, h, l вычисляются по алгоритмам описанным в п.п. 1.4. Идеальный случай для формирования описания поверхности трехмерного объекта, когда на всех проекциях совпадают соответствующие значения высоты/ширины/длины проекций (рис. 2.23), то есть, выполняются условия: 69 w1 w2 h1 h2 l l 1 2 (2.62) w1 w2 h1 l1 а б l2 h2 в Рис. 2.23 Схематическое представление проекций трехмерного объекта (а – вид спереди, б – вид слева, в – вид сверху) Но, на практике, чаще возникает ситуация, схематически проиллюстрированная на рис. 2.24. При этом известно, что рассматриваемые изображения относятся к одному трехмерному объекту. w1 w2 l1 h1 а б l2 h2 в Рис. 2.24 Схематическое представление проекций трехмерного объекта с изображениями различного масштаба (а – вид спереди, б – вид слева, в – вид сверху) На рис. 2.24 в отличие от рис. 2.23, соответствующие размеры (высота/ширина/длина) проекций отличаются между собой 70 Для приведения всех проекций к эталонному виду (когда выполняется условие 1), был разработан специальный алгоритм. Алгоритм нормализации размеров проекций трехмерного объекта 1) Выбираем проекцию, размеры которой будем считать эталонными (например проекцию «вид спереди», рис. 2.24а). 2) Вычисляем коэффициенты отношений соответствующих сторон проекций трехмерного объекта относительно эталонной: k1 w1 , w2 (2.63) k2 h1 , h2 (2.64) k3 l1 , l2 (2.65) 3) Применяем алгоритм линейных конформных преобразований (одно из решений группы преобразований подобия изучаемая конформной геометрией) для масштабирования проекций «вид слева» и «вид сверху». Так же необходимо учесть, что объект на изображении может располагаться произвольно, поэтому, прежде всего, необходимо разместить объект строго по центру, а затем выполнить масштабирование известными алгоритмами. Для создания описания трехмерной поверхности объекта разработан алгоритм. Алгоритм формирования описания трехмерной поверхности объекта через координаты точек 1) Создаются три нулевые матрицы размером h×w×l (длина, высота, ширина объекта, определяются по проекциям вид «спереди», «сверху», «слева»), для хранения информации об объекте. 2) Изображения проекций бинаризуются, формируя матрицы: A {ai, j | i 0,1,...,h & j 0,1,...,w} B {b j , k | j 0,1,...,w & k 1,2,...,l} 71 C {ci, k | i 0,1,...,h & k 1,2,...,l} хранящие информацию о принадлежности точек каждой из проекций (1 – объект, 0 – фон). 3) Матрица A’, заполняется копированием слоев для проекции «вид спереди» (по длине объекта l) по следующему правилу: A' {a'i, j , k | i 0,1,...,h & j 0,1,...,w & k 1,2,...,l} 0, ai , j 0, k , a'i , j , k 1, ai , j 1 (2.66) 4) Аналогично матрица B’ для проекции «вид слева» заполняется по следующему правилу: B' {b'i, j , k | i 0,1,...,h & j 0,1,...,w & k 1,2,...,l} 0, b j , k 0, i, bi , j , k 1, b j , k 1 (2.67) 5) Матрица С’ для проекции «вид сверху» заполняется по следующему правилу: C ' {c'i, j , k | i 0,1,...,h & j 0,1,...,w & k 1,2,...,l} 0, ci, k 0, j , ci , j , k 1, ci, k 1 (2.68) Рис. 2.25 – Выполнение логической операции «коньюнкции» 6) Выполняется логическая операция «конъюнкция» над элементами матриц A', B', C' (пересечение полученных матриц) (рис. 2.25), то есть, если соответствующий элемент в каждой матрице принимает значение равное 1, то в результирующую матрицу D записывается 1, и 0 в противном случае. 72 Математически данная операция записывается следующим образом: D A'B'C' (2.69) 7) Индексы соответствующих «единичных» элементов матрицы D (представляющих собой пространственные координаты точек трехмерного объекта) записываются в файл. Пример выходного файла представлен на рис. 2.26. Рис. 2.26 Структура файла описания поверхности трехмерного объекта Полученный массив точек поверхности позволяет формировать древовидную структуру трехмерной модели объекта (окто-дерево), при помощи которой можно получить его косоугольную проекцию с любого ракурса (задав 3 угла поворота). 2.7 Алгоритм сопоставления пар проекций по двум снимкам множества объектов на сцене Даны два изображения ортогональных и косоугольных проекций N трехмерных объектов (рис. 2.27, 2.28, 2.29). При сопоставления пар проекций для каждого объекта необходимо заполнить двумерные матрицы сопоставления (МС) A, B, C размера NxN. Матрицы A и B называются бинарными матрицами расположения точек ортогональной и косоугольной проекции соответственно (МРТОП, МРТКП). Матрица C называется бинарной матрицей сопоставления смещенных объектов (МССО). 73 Рис.2.27 Первая исходная пара снимков без смещения центров проекций объектов Рис. 2.28 Вторая исходная пара снимков со смещением центров проекций объектов Рис. 2.29 Третья исходная пара снимков со смещением центров проекций объектов Считается, что снимки были сделаны одновременно двумя камерами. Объекты отдельно расположены, т.е. при съемке боковой камерой изображения объектов не накладываются друг на друга. Количество объектов на обоих снимках одинаковое. Каждая строка и столбец матриц A и B содержит только 1 элемент. Элементы матриц A и B имеют свои маркеры (для матрицы A – «1», для матрицы B – «2»). 74 N A 1, (2.70) i 1 N B 2 (2.71) i 1 где j=1,…,N, N – число объектов на сцене. Размер матриц A, B и C – NxN. Для того, чтобы заполнить матрицы A и B, необходимо вначале вычислить координаты центров проекций объектов на обоих снимках (см. п.п. 1.4). Рассмотрим заполнение МС на примере матрицы A. Алгоритм сопоставления пар проекций трехмерных объектов на паре снимков Первоначально обе матрицы A и B являются нулевыми, размером NxN. На первой исходной паре снимков (рис. 2.30) найдем координаты центров каждой проекции (см. п.п 1.4). y y y2 y2 y5 y3 y5 y3 y1 y4 y1 y4 x1 x2 x3 x4 x5 x x1 а x2 x3 x4 x5 x б Рис. 2.30 Схематическое представление ситуации, когда проекции не смещены Найденные точки центров проекций обозначим через i (1( x1, y1), 2 ( x2 , y2 ),.., N ( xN , yN )) , пронумеруем по порядку возрастания их x- координат (рис. 2.31а) для изображения ортогональной проекции и i (1( x1, y1), 2 ( x2 , y2 ),.., N ( xN , yN )) , (рис. 2.31б) для изображения косоугольной проекции с координатами ( x1, y1) , i = 1,…,N. 75 y y2 y α2 α5 y5 α3 y3 y1 y4 y1 y4 α1 α4 x1 x2 x3 β2 y2 y5 y3 x4 x5 β5 β3 β1 x1 x β4 x2 x3 а x4 x5 x б Рис. 2.31 Маркировка центров изображений проекций тестовой пары снимков Цель алгоритма – составить пары ( i , j ) , где j =1,…,N. Чтобы сформировать МС необходимо заполнить векторы последовательностей точек: Вектор вертикальной последовательности (ВВП) Vi ; Вектор горизонтальной последовательности (ВГП) H i . В связи с тем, что точки центров изображений проекций объектов нумеруются по порядку возрастания их x-координат, то H {1,2,3,.., N} , ВВП заполняется по проекции каждой рассматриваемой точки на ось oY сверху вниз, начиная с максимального значения y-координаты точек по убыванию. При этом: Vi 1, yk max( yk ) (2.72) Vi N , yk min( yk ) (2.73) k 1..N k 1..N где i=1,…,N, После заполнения векторов V и H, формируется матрица сопоставления A так, что: AVi , H i 1 Аналогично формируются ВГП и ВВП для изображения косоугольной проекции и матрица B заполняется маркерами «2». 76 Для изображения на рис. 2.30а ВВП и ВГП будут иметь следующие значения: V {4,1,3,5,2} (2.74) H {1,2,3,4,5} (2.75) Так как на рис. 2.30 центры изображений проекций объектов не смещены, то для рис. 2.30б ВВП и ВГП будут иметь аналогичные значения. То есть, объект с центром в точке 1 будет соответствовать маркеру «1» в МРТОП в ячейке A1, 4 ; 2 в ячейке A2,1 ; и т.д., как показано на рис. 2.32. 1 1 1 2 1 3 4 1 5 1 1 2 3 4 5 2 1 2 2 2 3 4 2 2 5 1 2 3 4 5 б а Рис. 2.32 Формирование ВГП и ВВП Базовые ситуации 1. Выше описан случай без смещения центров объектов на одном из изображений (вследствие перспективных искажений камеры). Ортогональная проекция с центром в точке i является парной к косоугольной проекции с центром в точке i , если выполняются следующие условия (рис. 2.32): AVi , H i 1 B Vi , H i 2 (2.76) 2. Вследствие перспективных искажений камеры иногда возникает ситуация со смещением центров объектов на одном из изображений. Если Axi , yi 1, Bxi , yi 0 То: (2.77) 77 Ax , y Axi , yi 1 Bxi , yi 2, Cxi , yi i i Bxi , yi , Axi , yi 1 Bxi , yi 2 (2.78) То есть формируется матрица C, в которую копируются значения матриц A и B, не нашедшие пары по условию (1). Рассматривается только единичная окрестность точек i в матрице C. 2.1. Если вокруг точки i находится только 1 точка i , то 2 проекции, центрами которых они являются, считаются парными (рис. 2.35) . y y y2 y4 y4 y2 y5 y1 y3 y1 y5 y3 x1 x2 x3 x4 x5 x x1 x2 x3 а x4 x5 x б Рис. 2.33 Схематическое представление ситуации, когда проекции смещены, и в МССО в окрестности каждой точки i находится только 1 точка y y2 y4 y1 y5 y3 y α2 α4 α1 y5 y1 y3 α5 α3 x1 x2 x3 x4 x5 x а β4 β2 y4 y2 β5 β1 x1 x2 β3 x3 x4 x5 б Рис. 2.34 Маркировка точек центров объектов со смещением (первый случай) x 78 1 1 2 1 3 1 4 1 1 5 1 2 3 4 5 1 2 2 2 2 3 4 2 2 5 1 2 3 4 5 а 1 1 2 2 2 1 3 1 2 4 2 1 5 1 2 3 4 5 б в Рис. 2.35 Матрицы сопоставления со смещением (в окрестности Ai каждой точки в матрице С только 1 точка Bi) 2.2. Если вокруг некоторых точек i находится несколько точек i (рис. 2.36), то: 1. Вначале рассматриваются точки i (с маркером «1»), у которых в единичной окрестности находится только одна точка i (с маркером «2») и ни одной точки i . 2. Пары без смещения центров формируются с использованием выражения 2.76 базовой ситуации №1. Полученные пары удаляются из матрицы C (обнуляются). 3. Далее опять происходит рассмотрение точек i у которых в единичной окрестности находится только одна точка i (с маркером «2») при наличии других точек i 4. Выполняются пункты 2-3 до тех пор, пока не обнаружатся все пары. y4 y1 y y y4 y1 y5 y5 y3 y6 y2 y2 y3 y6 x1 x2 x3 x4 x5 x6 x а x1 x2 x3 x4 x5 x6 x б Рис. 2.34 Схематическое представление ситуации, когда проекции смещены, и в МССО в окрестности каждой точки i находится несколько точек i 79 α4 y4 y1 y4 y1 α1 α3 y3 y6 y5 y3 y6 α6 α5 y5 α2 y2 x1 x2 x5 x6 β5 β3 β6 β2 y2 x3 x4 β4 β1 x x1 x2 x3 x4 а x5 x6 x б Рис. 2.35 Маркировка точек центров объектов со смещением (второй случай) 1 1 2 1 3 1 4 1 5 1 6 1 1 2 3 4 5 6 1 2 2 2 2 3 4 2 5 2 2 6 1 2 3 4 5 6 а б 1 2 3 4 5 6 1 2 2 1 1 2 1 2 3 4 5 6 1 2 3 4 5 6 2 1 1 2 3 4 5 6 в г Рис. 2.36 Матрицы сопоставления со смещением (в окрестности Ai каждой точки в матрице С несколько точек Bi) Разработанный алгоритм позволяет как в простых, так и в сложных случаях определять к каким трехмерным объектам относятся проекции на двух изображениях. 2.8 Разработка подхода к распознаванию трехмерных объектов 2.8.1 Разработка структуры системы автоматического распознавания трехмерных объектов: режим обучения. Общая структура подсистемы обучения обычно должна выполнять следующие функции: 1. Ввод изображений; 2. Предварительная обработка; 3. Сегментация изображения; 4. Вычисление признаков; 5. Формирование эталонов. Подсистема обучения для системы автоматического распознавания с учетом взятого за основу (см. п.п. 1.5) подхода, и необходимости применения трехмерных моделей (см. п.п. 2.5.1) должна еще включать в себя функцию построения трехмерной модели объекта. 80 С учетом вышесказанного, получилась концептуальная блок-схема подсистемы обучения представленная на рис. 2.37. Рис. 2.37 Структурная схема этапа обучения САР трехмерных объектов Для обучения системы и получения изображений ортогональных проекций, необходимых для формирования векторов признаков и создания трехмерных моделей, человек-оператор вручную размещает объекты под основной камерой (расположенной над сценой). Вторая камера (вспомогательная) располагается горизонтально на поверхности сцены, для получения изображений проекций объектов, которые невозможно добыть основной камерой (боковых проекций вытянутых объектов). В качестве способа хранения и визуализации трехмерных моделей выбрана древовидная структура octree (окто-дерево, см. п.п. 1.6). Трехмерная модель каждого из эталонных объектов, хранящаяся в виде окто-дерева строится по 3-6 ортогональным проекциям (минимально для построения трехмерной модели нужны 3 основных вида – спереди, слева и сверху; остальные 3 вида – сзади, снизу и справа используются при необходимости, если объект не симметричен в некоторых ортогональных плоскостях) [125, 126]. Этап обучения. Шаг 1. Ввод и предварительная обработка изображений в подсистему обучения 81 Объект на сцене располагается таким образом, чтобы поочередно фиксировать его ортогональные проекции. Блок 1 принимает изображение с основной камеры (рис. 2.37 – 1), расположенной над сценой. Fо ( x, y) { f i, j | i 0,1,...,m & j 0,1,...,n} где Fо ( x, y) – исходное изображение ортогональных проекций трехмерных объектов, f i , j - яркость точки с координатами (i;j) Блок 2 осуществляет операции предварительной обработки ортогональной проекции, такие как: - преобразование изображение в полутоновое; - фильтрация изображения (см. п.п. 1.3.1); W {w1 , w2 ,...,w9 } w , w wk 1 wk k 1 k wk , wk wk 1 FM' ( x, y) { f M' i , j | f M' i , j w5 } где F’M – отфильтрованное изображение медианным фильтром, W – множество точек сканирующего окна 3х3, k=1,…,9 - бинаризация (см. п.п. 1.3.2); FБ' ( x, y) { f Б' i , j | i 0,1,...,m & j 0,1,...,n} где F’Б – бинарное изображение 1, f M' T i, j , T t | (t ) max f 'Б ' 0 , f T M i , j b2 (t ) (t )1 (t ) 2 (1 (t ) 2 (t ))2 t , t 0,..,255 N H (t ) t t где H – гистограмма, t – значение яркости 1 (t ),2 (t ) - вероятности двух классов разделенных порогом t, 1 (t ), 2 (t ) средние арифметические двух классов. - межклассовая дисперсия T – искомый порог яркости, max - максимальная межклассовая дисперсия 82 - выделение контуров (см. п.п. 1.3.2); - нормализация изображения проекции объекта по ориентации и положению (см. п.п. 2.1); - построение описанного вокруг изображения проекции объекта прямоугольника, (см. п.п. 2.2) для дальнейших вычислений признаков формы; Шаг 2. Вычисление признаков формы и их отклонений для текущего изображения проекции трехмерного объекта. Числовые характеристики одной и той же проекций одного объекта могут различаться при его различном расположении в поле зрения видео-датчика. Это может быть связано как с геометрическими искажениями видео-датчика так и с размерами трехмерного объекта. Поэтому есть необходимость в вычислении возможных отклонений признаков. На блок 3 поступает обработанное входное изображение, генерируется выборка снимков со случайным изменением угла наклона полученной проекции и смещением ее в области изображения. В блоке 4 вычисляются признаки формы для каждого из сгенерированных изображений (см. п.п. 2.3). В блоке 5 вычисляются максимальные и минимальные значения для каждого признака из сгенерированной выборки изображений, рассчитывается разница между ними (см. п.п. 2.4). Шаг 3. Формирование трехмерной модели эталона. Человек-оператор вручную размещает объекты под основной камерой для получения ортогональных проекций. В блоке 6 при наличии как минимум трех последовательно полученных и предварительной обработанных изображений проекций (вид спереди, вид слева, вид сверху) формируемого эталона генерируется символьное описание трехмерного объекта (см. п.п. 2.6), представляющее собой текстовый файл, хранящий координаты точек поверхности трехмерного объекта в виде двумерной матрицы. 83 В блоке 7 файл с координатами, созданный в блоке 6, обрабатывается (см. п.п. 2.6) и формируется модель окто-дерева рассматриваемого эталона (см. п.п. 1.6). В блоке 8 все полученные значения признаков и трехмерная модель сохраняются в базу данных. При наличии трехмерных объектов, которые по каким-либо причинам не могут быть ориентированы нужной проекций к основной камере, применяется вспомогательная камера (рис. 2.37 – 2). Такими объектами могут быть объекты, имеющие вытянутую форму (для получения снимка боковых проекций; имеющие стороны со сферическими частями и др. Над полученным изображением по аналогии выполняются операции Шагов 1-3. 2.8.2 Разработка структуры системы автоматического распознавания трехмерных объектов: режим распознавания После обучения системы, она готова к распознаванию реальных объектов [126-132]. Для распознавания трехмерных объектов с использованием двух камер необходимо провести анализ двух снимков. Первый снимок (ортогональная проекция трехмерного объекта), получаемый с камеры, расположенной над сценой, необходимо сравнивать с эталонными проекциями, хранящимися в базе данных, сформированных на этапе обучения. Второй снимок (косоугольная проекция трехмерного объекта) фиксируется вспомогательной камерой. В связи с тем, что объект может располагаться на сцене произвольно, то и косоугольных проекций может быть бесконечное множество (см. п.п. 2.1). Поэтому для ее распознавания, необходимо применять трехмерные модели эталонов, с помощью которых генерируются эталонные косоугольные проекции, с которыми и происходит сравнение реального изображения. Данные виртуальной сцене на рассчитанные углы. модели поворачиваются в 84 Если на сцене присутствуют несколько трехмерных объектов, необходимо создать связь между их проекциями, отраженными на паре входных изображений (см. п.п. 2.7). Объекты на сцене могут располагаться произвольно, поэтому необходимо нормализовать их изображения проекций по повороту перед выполнением дальнейших преобразований и вычислений (см. п.п. 2.1). В связи с вышесказанным подсистема распознавания должна выполнять следующие функции: 1. Получение снимков с камер; 2. Предварительная обработка изображений; 3. Сегментация изображений; 4. Сопоставление пар проекций на двух снимках; 5. Формирование очереди распознавания; 6. Распознавание ортогональных проекций; 7. Генерация эталонных косоугольных проекций; 8. Распознавание косоугольных проекций; 9. Вывод результатов распознавания. На рис. 2.38 представлена концептуальная блок-схема системы распознавания трехмерных объектов (незакрашенными помечены общие блоки, закрашенными – блоки, которые необходимо разработать в соответствии с предложенной концепцией). Этап распознавания. Шаг 1. Ввод изображений в подсистему распознавания Блок 1 получает изображения ортогональной (с камеры 1) и косоугольной (с камеры 2) проекции объекта(ов). Блок 2 осуществляет операции предварительной обработки снимка, аналогичные Блоку 2 этапа обучения, с добавлением функции выделения областей и маркировки (при помощи контурной сегментации, см. п.п. 1.3.2, для распознавании нескольких объектов на сцене). 85 Рис. 2.38 Структурная схема этапа распознавания САР трехмерных объектов Шаг 2. Сопоставление пар проекций объектов на снимках ортогональных и косоугольных проекций В блоке 3 вычисляется количество объектов на обоих снимках (по маркерам, полученным в блоке 2). В блоке 4 формируются пары проекций на обоих снимках. В блоке 5 (аналогично блоку 4 подсистемы обучения) вычисляется вектор признаков формы ортогональной проекции из текущей рассматриваемой пары. При наличии нескольких трехмерных объектов формируется очередь на распознавание из пар снимков каждого из них. В блоке 9 вычисляется диагональные признаки ((аналогично блоку 6) формы для изображения косоугольной проекции распознаваемого объекта, и сгенерированных в блоке 8 эталонных косоугольных проекций. Шаг 3. Распознавание ортогональной проекции В блоке 6 выполняется распознавание ортогональной проекции по диагональным признакам формы. Определяются эталоны, у которых одна или несколько проекций в базе данных совпали по признакам с изображением входного снимка. По результатам работы блока 6 определяются 3 угла поворота виртуальной сцены с моделями окто-деревьев для формирования косоугольной проекции каждого из распознанных эталонов. 86 В блоке 7 формируются косоугольные проекции распознанных в блоке 6 эталонов. В блоке 8 (аналогично блоку 5, 9) вычисляется диагональные признаки формы для изображения, сгенерированных в блоке 7 эталонных косоугольных проекций. Шаг 4. Распознавание косоугольной проекции объекта В блоке 10 выполняется распознавание косоугольной проекции. Блок 11 выводит на экран конечный результат распознавания трехмерного объекта. 2.9 Структура эталона трехмерного объекта Вводится понятия «эталон трехмерного объекта» [133, 134]. Определение 2.1. Эталон трехмерного объекта – набор векторов признаков, характеризующих каждую из шести его ортогональных проекций, набор их отклонений и трехмерная модель, при одном фиксированном расположении трехмерного объекта относительно видео-датчика. Объект может лежать в поле зрения камер произвольным образом, соответственно при распознавании необходимо это учитывать. На рисунке 2.39 изображена схема расположения двух камер и объекта в поле их зрения. z y z K1 y K2 α β G x а x б x в Рис. 2.39 - Схема сцены САР: а – вид сбоку, б – вид сверху, в – перспективный вид, K1 – основная камера, K2 – вспомогательная камера, G – объект, α – угол наклона объекта к горизонтальной плоскости (относительно эталонного расположения, которое выбирается на этапе обучения), β – угол наклона камеры K2 к сцене в вертикальной плоскости; γ, φ – углы наклона объекта в плоскости главной проекции объекта 87 Каждая из ортогональных проекций объекта, получаемая на этапе обучения системы автоматического распознавания, характеризуется набором числовых признаков (см. п.п. 2.3). В таблице 2.1 представлена структура вектора диагональных признаков формы трехмерного объекта, состоящая из двух существующих коэффициентов формы, проекции трехмерного объекта (ПТО), диагонального коэффициента формы, двух коэффициентов диагоналей и четырех коэффициентов диагональных отрезков. Таблица 2.1 Структура вектора признаков эталона трехмерного объекта. Проекция Ортогональная проекция Косоугольная проекция 3D модели Существующие коэффициенты формы ПКФ КПП ПКФ КПП Диагональные признаки формы ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 Пример значений вектора признаков для проекции «вид спереди» произвольного параллелепипеда представлен в таблице 2.2 Таблица 2.2 Значения вектора признаков проекций произвольного параллелепипеда Проекция Ортогональная проекция Косоугольная проекция 3D модели Существующие коэффициенты формы ПКФ КПП Диагональные признаки формы ДКФ 0,354 0,077 0,948 0,371 0,025 0,94 КД1 КД2 КДО1 КДО2 КДО3 КДО4 0,69 0,899 0,69 0,889 0,69 0,908 0,884 0,714 0,869 0,717 0,919 0,712 Хранение данной информации в базе эталонов позволяет осуществлять распознавание проекции неизвестного объекта, получаемой от камеры К1 (рис. 2.41), так как она располагается перпендикулярно над центром сцены. Для того, чтобы косоугольная проекция распознаваемого объекта не мешала распознаванию, а была полезной, необходимо иметь эталонный аналог изображения. В связи с тем, что объект может располагаться в поле зрения камер в произвольном положении, таких эталонных проекций может быть бесконечное множество. Поэтому есть смысл хранить не отдельные косоугольные проекции и их характеристики, а определенное описание 88 трехмерного объекта целиком (см. п.п 2.1), позволяющее при необходимости получить сгенерированную косоугольную проекцию с использованием рассчитанных углов α, γ, φ, а так же угла наклона дополнительной камеры β. В качестве примера эталона трехмерного объекта (рис. 2.19а - цилиндр) на рис. 2.40 проиллюстрированы графики значений элементов векторов признаков проекций «вид слева», «вид сверху» цилиндра. Рис. 2.40 Примеры графического представления значений элементов векторов признаков проекций «вид слева», «вид сверху» трехмерного объекта «цилиндр» Эталон данной трехмерной фигуры состоит из двух векторов признаков в связи с тем, что остальные проекции («вид снизу», «вид справа», «вид спереди», «вид сзади») имеют одинаковые значения с симметричными им проекциями. Графическое представление значений элементов векторов признаков для косоугольных проекций, полученных при помощи трехмерных моделей выглядят аналогично проиллюстрированному на рис. 2.40. Выводы по главе 2 1. Разработан алгоритм нормализации плоского изображения по повороту относительно горизонтальной оси и отрезка максимальной длины, позволяющий ориентировать объект таким образом, чтобы при обучении системы и распознавании трехмерных объектов их проекции поворачивались по единому правилу. 2. Для вычисления диагональных признаков формы разработан алгоритм определения координат ключевых точек проекции трехмерного объекта. 89 3. Для распознавания проекций трехмерных объектов разработан алгоритм вычисления диагональных признаков формы, инвариантных к пространственному расположению бинарных изображений проекций трехмерного объекта. 4. Разработан алгоритм классификации плоских бинарных изображений, показывающий закономерности в значениях диагональных признаков и позволяющий делить трехмерные объекты на группы по форме их проекций. 5. Разработан алгоритм определения диапазонов значений диагональных признаков формы. 6. Вероятность ошибочного распознавания произвольно расположенного трехмерного объекта без использования трехмерных моделей может в ряде сложных случаев превышать 0,8. 7. Для распознавания произвольно расположенных трехмерных объектов необходимо рассматривать шесть ортогональных проекций и использовать трехмерную модель для создания косоугольной проекции с нужного ракурса. 8. Для получения модели окто-дерева трехмерного объекта, необходимо создать описание его поверхности в виде координат точек. 9. При использовании двух и более видеодатчиков возникает необходимость в сопоставлении проекций трехмерных объектов на получаемых снимках. Разработан алгоритм сопоставления пар проекций на двух снимках. 10. Эталон трехмерного объекта должен состоять из шести векторов признаков каждой из ортогональных проекций и трехмерной модели (октодерева). 11. С применением разработанных алгоритмов: созданы классы проекций трехмерных объектов по признакам их формы (ассоциировать их с выпуклыми геометрическими фигурами); решены задачи сопоставления проекций трехмерного объекта на двух изображениях при наличии нескольких трехмерных объектов на сцене; созданы условия для проектирования САР трехмерных объектов. 90 ГЛАВА 3 ИССЛЕДОВАНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ И СИСТЕМЫ РАСПОЗНАВАНИЯ НА ТЕСТОВЫХ ТРЕХМЕРНЫХ ОБЪЕКТАХ 3.1 Постановка задачи исследований на макетных трехмерных объектах Разработанные алгоритмы вычисления диагональных признаков формы и система распознавания трехмерных объектов, созданная на основе концепции, предложенной в п.п. 2.1 исследовались на тестовых сгенерированных изображениях плоских геометрических фигур и снимках проекций тестовых трехмерных объектов [118-131]. Задача распознавания, согласно предложенной концепции, сводится к выполнению следующих операций: сегментация сцены, сопоставление пар проекций произвольно расположенных трехмерных объектов, распознавание ортогональной проекции трехмерного объекта, отсеивание неподходящих эталонов, генерация и ориентация трехмерной модели оставшихся эталонов и распознавание косоугольной проекции. Этапы распознавания проекций трехмерных объектов сводятся к идентификации объектов на плоских изображениях. Для проверки разработанных алгоритмов необходимо провести следующие тесты: 1. Исследования диагональных признаков формы на изображениях плоских геометрических фигур [123]. Данное исследование направлено на определение способности признаков однозначно идентифицировать по форме различные классы объектов. 2. Исследования существующих алгоритмов распознавания на отдельных ортогональных проекциях тестовых трехмерных объектов (1 эталон). Определение алгоритма с наилучшими показателями скорости и точности распознавания с использованием данных признаков из трех наиболее распространенных (алгоритм алгоритм ближайших соседей). к-средних, алгоритм вычисления оценок; 91 3. Исследования алгоритма с наилучшими показателями на парах изображений отдельных объектов с использованием моделей окто-деревьев с использованием нескольких эталонов. 4. Исследование алгоритма сопоставления проекций трехмерных объектов на выборках пар снимков нескольких раздельно расположенных трехмерных объектов. 5. Исследование алгоритма с наилучшими показателями на парах изображений множества не наложенных объектов с использованием моделей окто-деревьев. 3.1.1 База тестовых изображений плоских геометрических фигур и проекций трехмерных объектов В качестве объектов исследования использовались изображения плоских геометрических фигур, проекций деталей детского конструктора. Набор тестовых геометрических фигур (ТГФ) изображен на рис. 3.1. Рис. 3.1 – Набор тестовых плоских геометрических фигур Фигуры 1, 3, изображенные на рис. 3.1 (квадрат и круг), в соответствии с классификацией (см. п.п. 2.5.1) относятся к группе фигур, «вписанных в квадрат». Векторы признаков для данных фигур проиллюстрированы на рис. 3.2. 92 Рис. 3.2 Векторы признаков для фигур, «вписанных в квадрат» Фигуры 2, 5, изображенные на рис. 3.1 (эллипс, прямоугольник, равносторонний треугольник) относятся к фигурам, «вписанным в прямоугольник», векторы признаков данных фигур приведены на рис. 3.3. Рис. 3.3 Векторы признаков для фигур, «вписанных в прямоугольник» Фигуры 4, 6, 7 на рис. 3.1 (равнобедренный треугольник, параллелограмм и трапеция) могут относиться как к группе «вписанных в квадрат», так и к группе «вписанных в прямоугольник, в зависимости от их геометрических параметров. Векторы признаков данных фигур имеют вид, изображенный на рис. 3.4. 93 Рис. 3.4 Векторы признаков для фигур смешанного типа Когда отрезок (КД1, КД2) на графике вектора признаков параллелен оси Ох, это означает, что фигура (или изображение проекции трехмерного объекта) обладает осевой симметрией относительно обеих диагоналей описанной фигуры (квадрата или прямоугольника) и вращательной симметрией. Расчетные значения диагональных признаков формы для выпуклых плоских геометрических фигур приведены в таблице 3.1 Таблица 3.1 Расчетные значения диагональных признаков формы Диагональные признаки формы Название и № фигуры ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 1 0,056 0,707 1 1 1 1 1 1 2. Прямоугольник 0,548 0,042 0,877 1 1 1 1 1 1 3. Треугольник (равносторон) 0,257 0,058 0,974 0,555 0,963 0,581 0,963 0,529 0,963 4. Треугольник (равнобедр) 0,856 0,045 0,932 0,693 0,052 0,643 0,052 0,744 0,052 1 0,048 0,707 0,707 0,707 0,707 0,707 0,707 0,707 6. Полукруг 0,524 0,071 0,888 0,849 0,841 0,849 0,841 0,849 0,841 7. Эллипс 0,371 0,044 0,94 0,706 0,717 0,706 0,717 0,706 0,717 0,6 0,059 0,929 0,842 0,842 0,882 0,845 0,802 0,845 0,299 0,066 0,958 0,744 1 0,744 1 1 0,744 1. Квадрат 5. Круг 8. Трапеция 9. Параллелограмм 94 Набор тестовых трехмерных объектов (ТТО) (детали детского конструктора) был специально подобран таким образом, чтобы некоторые объекты имели одинаковые характеристики в аналогичных проекциях. На рис. 3.5 проиллюстрированы тестовые изображения ТТО. Восемь трехмерных объектов, представленных на рис. 3.5, собираются в один объект (рис. 3.5 – 9). Задача исследования заключается в определении типа объекта, и его ориентации. Так как в разработанной концепции происходит распознавание плоских изображений проекций трехмерных объектов, для исследования и выбора алгоритма распознавания были выбраны ортогональные проекции трехмерного объекта. Каждый объект (рис. 3.5) представлен изображениями своих проекций (Приложение Б, рис. Б1-Б8), а так же значениями их диагональных признаков формы (Приложение В, рис. В1-В2). Рис. 3.5 Трехмерный тестовый объект (9) и его детали Для исследования системы распознавания трехмерных объектов на парах проекций (ортогональной и косоугольной) были использованы изображения 95 тестовых трехмерных объектов, полученные при помощи двух камер. Примеры тестовых пар проекций отдельных трехмерных объектов показаны на рис. 3.6. Рис. 3.6 Примеры тестовых пар снимков для проведения исследований Для исследования алгоритма сопоставления пар проекций трехмерных объектов была комбинациями представлены сформирована произвольно примеры выборка пар расположенных тестовых пар снимков объектов. проекций с различными На нескольких рис. 3.7 отдельно расположенных трехмерных объектов. Рис. 3.7 – Изображения пар нескольких не наложенных тестовых трехмерных объектов 3.1.2 Исходные данные для исследований 96 Для проверки предложенного подхода была разработана программа на ЭВМ и проведены эксперименты на тестовых объектах. В экспериментах рассматривались 8 плоских геометрических фигур (рис. 3.1), 8 различных трехмерных объектов (рис. 3.6) по 6 ортогональных проекций у каждого (Приложение Б, рис. Б1-Б3). Объем экспериментальной выборки для фигур составил 16000 экземпляров (по 2 000 каждого типа фигур). Объем экспериментальной выборки для проверки алгоритмов распознавания на изображениях ортогональных проекций трехмерных объектов составил 96000 (6 проекций 8 объектов генерировались по 2000 раз). Объем экспериментальной выборки для проверки алгоритма сопоставления пар проекций составил 2200 пар снимков. Объем экспериментальной выборки для проверки разработанного подхода на нескольких выбранном раздельно алгоритме распознавания расположенных трехмерных при идентификации объектов по двум проекциям составил 13600 пар проекций случайно расположенных раздельно расположенных объектов на 2200 парах снимков. 3.1.3 Макет системы автоматического распознавания трехмерных объектов Для проведения экспериментов был разработан макет системы автоматического распознавания (рис. 3.8). Он представляет собой каркасную структуру, объединяющую в себе крепежные элементы, видео датчики, систему отраженного рассеянного освещения. Макет для исследований состоит из следующих компонентов: каркасная рама; область сцены; подсистема освещения; отражатель (рассеиватель); источник питания для подсистемы освещения; видеодатчики; ПК с внешними устройствами. 97 Отражатель Точечные Крепления источники отражателя освещения 1 Видеодатчики Каркасная рама Монтажные отверстия Объекты Сцена Рис. 3.8 Схема макета системы автоматического распознавания произвольно расположенных трехмерных объектов. Изображение разработанного макета САР трехмерных объектов представлено на рис. 3.9. Рис. 3.9 Изображение макета САР 3D Каркасная рама представляет собой железную раму с отверстиями для крепления других блоков. Область сцены – матовое пластиковое полотно для размещения объектов. В качестве подсистемы бестеневого освещения используется рассредоточенный источник света на основе нескольких параллельных светодиодных лент, освещающих объект через отражатель. 98 В данном макете использовался набор из 8 полуметровых светодиодных лент по 30 светодиодов на каждой. Характеристики светодиодных лент – 14Вт/м, 12В. Подключены через IDE шину к контроллеру 12В который подключается непосредственно к блоку питания. Отражатель-рассеиватель представляет собой матовое белое полотно, направленное на рабочее поле. Металлический каркас представляет собой монтажную систему, позволяющую варьировать расположение основных компонентов макета над сценой для проведения различного рода экспериментов. Для электропитания подсистемы освещения используется блок питания от персонального компьютера 230 Вт. В качестве видео-датчиков применены две USB веб-камеры в связи с удобством крепления на каркасной раме макета и простоты взаимодействия с обслуживающей ЭВМ (HD web-камеры Logitech C310 с установленным разрешением изображения 1280х960 пикселей). Для обработки получаемых снимков используется ПК, на котором запускается разработанная программа системы распознавания трехмерных объектов (Процессор Intel Core 2 Duo T6600, 2.2 ГГц, HDD 500 Гб, Оперативная память 4 Гб, Видеокарта Nvidia GeForce 8800 GT 1Gb). Для обработки получаемых снимков используется ЭВМ, на которой запускается разработанная программа системы распознавания трехмерных объектов. 3.1.4 Структура программного обеспечения системы Для проведения исследований на тестовых изображениях плоских геометрических фигур была разработана программа, структурная схема работы которой представлена на рис. 3.10 [135-137]. Для проведения исследований была разработана система распознавания трехмерных объектов основанная на концепции, предложенной в главе 2 [122, 123]. 99 Рис. 3.10 Структурная схема программы для исследования вектора диагональных признаков на тестовых изображениях плоских геометрических фигур 100 На основе концептуальной схемы (рис. 2.37) была разработана структурная схема (рис. 3.11) программного обеспечения подсистемы обучения для системы распознавания произвольно расположенных трехмерных объектов. Рис. 3.11 Структурная схема подсистемы обучения для системы распознавания трехмерных объектов Для проведения исследований существующих алгоритмов распознавания плоских изображений на проекциях трехмерных объектов была разработана программа, блок-схема ее работы приведена на рис. 3.12. Распознавание проекций осуществляется распространенными алгоритмами распознавания. тремя наиболее 101 После анализа результатов распознавания проекций тестовых фигур, выбирается алгоритм с наилучшими показателями скорости и точности распознавания. Рис. 3.12 Структурная схема работы программы исследования алгоритмов распознавания ортогональных проекций трехмерных объектов Выбранный распознавания алгоритм произвольно используется расположенных в разработанной трехмерных системе объектов для идентификации изображений ортогональной и косоугольной проекций. На рис. 3.13 представлена структурная схема ПО системы распознавания произвольно расположенных трехмерных объектов, разработанная на основе 102 концептуальной схемы подсистемы распознавания трехмерных объектов (п.п. 2.38, рис. 2.8.2). Рис. 3.13 Структурная схема системы распознавания трехмерных объектов Логическая схема работы системы приведена на рис. 3.14. Рис. 3.14 Логическая схема САР произвольно расположенных трехмерных объектов 103 ВД1,ВД2- видеодатчики, ПО1,ПО2 –подсистема предварительной обработки изображений проекций объектов, ВП1,ВП2, ВП3 – подсистемы вычисления признаков, ПТМ-подсистема построения моделей, БД- база данных, Р – подсистема распознавания. 1. Видеодатчики ВД1, ВД2 передают на подсистемы предварительной обработки ПО1, ПО2 изображения ортогональной и косоугольной проекций объекта. В подсистемах ПО1, ПО2 осуществляются операции фильтрации шумов, бинаризации, сегментации, выделения контуров изображений проекций трехмерных объектов (ПТО) и формирование очереди на распознавание (рис. 3.15). Для каждой проекции определяется угол α ориентации объекта в области сцены. Рис. 3.15 Структурная схема предварительной обработки изображения проекции 104 Кроме перечисленных операций, в блоках ПО1, ПО2 осуществляется сопоставление пар проекций (ортогональной и косоугольной) для рассматриваемых объектов (рис. 3.16). Рис. 3.16 Структурная схема процесса сопоставления пар проекций на снимках ортогональной и косоугольной проекций 105 2. В подсистемах ВП1, ВП2 производится вычисление диагональных признаков формы проекций (рис. 3.17). Рис. 3.17 Структурная схема процесса вычисления диагональных признаков формы 3. В подсистеме распознавания Р признаки неизвестного объекта, вычисленные в блоке ВП1, сравниваются со значениями диагональных признаков формы эталонов трехмерных объектов из базы данных БД с использованием алгоритма вычисления оценок. 106 Если по итогам распознавания ортогональной проекции, количество распознанных эталонов (i) равно 1, то объект считается распознанным и результат выводится на экран ЭВМ. 4. Если же i больше единицы (входному изображению ортогональной проекции из ВД1 соответствуют несколько эталонов в БД, т. е. возникает неоднозначная ситуация), то в подсистеме ПТМ на основе данных ВП1 и ВП2, а так же с учетом угла α, осуществляется построение и поворот трехмерных моделей объектов, ортогональные проекции которых были приняты соответствующими входной. 5. В подсистеме ВП3 производится вычисления диагональных признаков формы «модельных» косоугольных проекций, полученных в блоке ПТМ. 6. В подсистеме распознавания Р признаки неизвестного объекта, вычисленные в блоке ВП2, сравниваются со значениями диагональных признаков формы «модельных» косоугольных проекций из ВП3 с использованием алгоритма вычисления оценок. 7. Результат распознавания выводится на экран ЭВМ. 3.1.5 Поиск ключевых точек на изображения проекций тестовых трехмерных объектов для вычисления диагональных коэффициентов формы Процесс предварительной обработки снимков проекций ТТО, а так же процесс выделения ключевых точек (в соответствии с п.п. 2.2) на проекции ТТО представлен на рис. 3.18. На рис. 3.18 изображена пара входных полутоновых изображений ортогональных и косоугольных проекций распознаваемых объектов. После поступления в систему, над ними выполняются операции предварительной обработки, маркировки и формировании очереди на распознавание. Затем берется бинарное изображение проекции ТТО из очереди на распознавание и нормализуется по повороту, в соответствии с п.п. 2.1. Затем находится контур и вычисляются координаты двух наиболее удаленных друг от друга точек контура и строится отрезок длины объекта (рис. 3.18 – с). Далее, в 107 соответствии с п.п. 2.2 строится описанный вокруг контура проекции ТТО прямоугольник (рис. 3.18 – MNED) минимальной площади, его диагонали (рис. 3.18 – DN, ME). И в завершении вычисляются координаты точек пересечения контура и диагоналей описанного прямоугольника (рис. 3.18 – F, G, F', G') и строятся диагональные отрезки (рис. 3.18 – FG’, F'G). Рис. 3.18 Процесс формирования очереди на распознавание 3.2 Определение отклонений диагональных признаков формы на тестовых изображениях плоских геометрических фигур от эталонных Задача проверки диагональных признаков формы заключается в вычислении разницы между точными значениями диагональных признаков 108 (рассчитанными по размерам генерируемой фигуры), и вычисленных по изображению. Исследование диагональных признаков формы было проведено на бинарных изображениях различных типов тестовых геометрических фигур, генерируемых на ПК. Формирование тестовых изображений осуществлялось с учетом следующих правил: 1. Фигура не должна касаться краев сцены, иначе она будет считаться как не полностью вошедшая в кадр. 2. Геометрические характеристики фигуры задаются случайным образом перед началом исследования. 3. В процессе исследования изменяется положение фигуры и ее ориентация, заданные перед началом генерации размеры не меняются. На объектах известной геометрической формы проще убедиться в правильности выбора признаков и устранить недостатки в случае обнаружения схожих значений вектора признаков у разных классов фигур. Для тестирования и исследования диагональных признаков формы были использованы 8 классов фигур, каждые из которых генерировались по 2000 раз. Генерация множества объектов заключается в создании множества различных вариантов расположения тестовых объектов (в данном случае фигур) в поле зрения САР. Исходной информацией при генерации фигуры является ее центр тяжести и угол наклона. Значения геометрических характеристик задаются при помощи датчиков случайных чисел. Результаты экспериментов (основная часть) представлены в приложении Г. Для проведения исследования была разработана и реализована программа-генератор объектов, которая создает N фигур выбранного типа со случайными значениями параметров, вычисляет их признаки и выводит в таблицу. Число N выбирается исследователем. 109 Были найдены максимальные и минимальные значения каждого признака, а так же их отклонения. Результаты сведены в таблицу 3.2. Таблица 3.2 Экспериментальные значения диагональных признаков формы и их отклонений для каждой выборки фигур. Диагональные признаки формы Фигура Кр. Кв. РбТ РсТ Пр Пк Эл. Пг Тп ПКФ ДКФ КПП КДО1 КДО2 КДО3 КДО4 КД1 КД2 Мин. 0,9936 0,9738 0,0418 0,6842 0,6826 0,6826 0,6970 0,9555 0,9631 Макс. 1,0000 0,9938 0,0441 0,7077 0,7144 0,7144 0,7222 0,9973 0,9973 Откл. 0,0064 0,0200 0,0037 0,0235 0,0317 0,0317 0,0253 0,0419 0,0342 Мин. 1,0000 0,7114 0,0592 0,9697 0,9551 0,9714 0,9706 0,9847 0,9847 Макс. 1,0000 0,7177 0,0629 0,9880 1,0000 1,0000 1,0000 0,9940 1,0000 Откл. 0,0000 0,0064 0,0037 0,0183 0,0449 0,0286 0,0294 0,0092 0,0152 Мин. 0,1831 0,1831 0,1407 0,9811 0,5041 0,9811 0,5041 0,6865 0,6865 Макс. 0,1887 0,1887 0,1678 0,9880 0,5218 1,0000 0,5236 0,6995 0,6995 Откл. 0,0056 0,0056 0,0272 0,0068 0,0177 0,0189 0,0195 0,0130 0,0130 Мин. 0,8590 0,7471 0,1147 0,9857 0,4896 0,9857 0,4899 0,7335 0,7335 Макс. 0,8691 0,7610 0,1171 0,9880 0,5002 1,0000 0,5094 0,7383 0,7410 Откл. 0,0100 0,0140 0,0023 0,0022 0,0106 0,0143 0,0195 0,0048 0,0075 Мин. 0,5980 0,5177 0,0418 0,9855 0,9770 0,9855 0,9770 0,9897 0,9897 Макс. 0,6339 0,5397 0,0437 0,9872 1,0000 1,0000 1,0000 0,9911 0,9976 Откл. 0,0359 0,0221 0,0018 0,0017 0,0230 0,0145 0,0230 0,0015 0,0079 Мин. 0,4783 0,4772 0,1122 0,9601 0,6637 0,9601 0,6637 0,8585 0,8585 Макс. 0,5192 0,5184 0,1329 0,9796 0,6846 1,0000 0,7001 0,8844 0,8844 Откл. 0,0410 0,0411 0,0207 0,0195 0,0209 0,0399 0,0364 0,0259 0,0259 Мин. 0,5000 0,4998 0,0366 0,6845 0,6980 0,6845 0,6980 0,7797 0,7797 Макс. 0,5294 0,5288 0,0386 0,7070 0,7039 0,7070 0,7039 0,7964 0,7964 Откл. 0,0294 0,0290 0,0020 0,0225 0,0058 0,0225 0,0058 0,0167 0,0167 Мин. 0,5899 0,5113 0,0380 0,8555 0,9829 0,9894 0,8510 0,8583 0,9924 Макс. 0,6093 0,5234 0,0398 0,8618 0,9844 0,9904 0,8609 0,8664 0,9932 Откл. 0,0193 0,0121 0,0018 0,0063 0,0014 0,0010 0,0100 0,0081 0,0008 Мин. 0,8750 0,8418 0,0494 0,7079 0,9822 0,3149 0,9658 0,9254 0,7776 Макс. 0,8952 0,8503 0,0524 0,7228 1,0000 0,3299 1,0000 0,9306 0,7907 Откл. 0,0202 0,0086 0,0030 0,0149 0,0178 0,0150 0,0342 0,0052 0,0130 Где ПКФ, ДКФ, КПП, КДО1, КДО2, КДО3, КДО4, КД1, КД2 – соответственно прямоугольный коэффициент формы, диагональный коэффициент формы, коэффициент периметр-площадь, 4 коэффициента диагональных отрезков, 2 коэффициента диагоналей; 110 Кр, Кв, РбТ, РсТ, Пр, Пк, Эл, Пг, Тп – круг, квадрат, равнобедренный треугольник, равносторонний треугольник, прямоугольник, эллипс, параллелограмм и трапеция соответственно. Если выписать из таблицы 3.2 только отклонения каждого из признаков для всех типов рассматриваемых фигур, то, используя выражение 2.79, получится таблица 3.3. Таблица 3.3 Отклонения значений диагональных признаков по всем фигурам. Фигура Диагональные признаки формы ПКФ ДКФ КПП КДО1 КДО2 КДО3 КДО4 КД1 КД2 Кр. 0,0064 0,0200 0,0037 0,0235 0,0317 0,0317 0,0253 0,0419 0,0342 Кв. 0,0000 0,0064 0,0037 0,0183 0,0449 0,0286 0,0294 0,0092 0,0152 РбТ 0,0056 0,0056 0,0272 0,0068 0,0177 0,0189 0,0195 0,0130 0,0130 РсТ 0,0100 0,0140 0,0023 0,0022 0,0106 0,0143 0,0195 0,0048 0,0075 Пр 0,0359 0,0221 0,0018 0,0017 0,0230 0,0145 0,0230 0,0015 0,0079 Пк 0,0410 0,0411 0,0207 0,0195 0,0209 0,0399 0,0364 0,0259 0,0259 Эл. 0,0294 0,0290 0,0020 0,0225 0,0058 0,0225 0,0058 0,0167 0,0167 Пг 0,0193 0,0121 0,0018 0,0063 0,0014 0,0010 0,0100 0,0081 0,0008 Тп 0,0202 0,0086 0,0030 0,0149 0,0178 0,0150 0,0342 0,0052 0,0130 Используя таблицу 3.3, в соответствии с п.п. 2.7, получился следующий вектор отклонений данных диагональных признаков для геометрических фигур: Д { ПКФ , ДКФ , КПП , КДО1 , КДО 2 , КДО3 , КДО 4 , КД1 , КД 2 }, со значениями отклонений: ПКФ 0,0187 ; ДКФ 0,0176 ; КПП 0,0074 ; КДО1 0,0129 ; КДО 2 0,0193 ; КДО3 0,0207 ; КДО 4 0,0226 ; КД1 0,0140 ; плоских 111 КД 2 0,0149 . Проведенные исследования показали, что отклонения рассчитанных вручную диагональных признаков формы от значений, полученных путем обработки изображений составляют в среднем 10-2, что позволяет распознавать проекции трехмерных объектов. 3.3 Выявление наилучших показателей распознавания проекций тестовых трехмерных объектов с использованием различных алгоритмов Для исследования каждого входного объекта формируется класс эталонов, включающий в себя множество изображений для каждой проекции трехмерного объекта при его случайном расположении на сцене. Эксперименты [138] проводились над алгоритмами распознавания общего назначения в программе структурная схема работы которой представлена на рис. 3.11. 3.3.1 Исследование алгоритма k-средних для распознавания проекций тестовых трехмерных объектов Исследования по распознаванию проекций трехмерных объектов (по одному снимку) алгоритмом К-средних с использованием нескольких эталонов были проведены на обучающей выборке, состоящей из 96000 (8 объектов по 6 проекций по 2000 реализаций) изображений проекций тестовых трехмерных объектов. В качестве исходных изображений были взяты проекции трехмерных объектов, приведенные в п. 3.1.1. Количество эталонов для каждого объекта изменялось от 1 до 5. Набор эталонов одного класса объектов представляет собой множество наиболее часто встречающихся положений объектов в поле зрения САР. По результатам идентификации тестовых объектов от 1 до 5 эталонов на каждую проекцию каждого тестового объекта были построены таблицы, аналогичные таблице 3.2 (Приложение Г, таблицы Г5, Г6), в которых содержатся количество проведенных испытаний, количество ошибок, и доля правильного распознавания объектов при изменении количества эталонов. 112 Графики изменения вероятности распознавания проекций трехмерных объектов в зависимости от количества эталонов представлены в приложении Г, рис. Г1, Г2. При проведении исследований на проекциях трехмерных объектов проекция считается нераспознанной, если алгоритм распознавания выдает несколько эталонных проекций с одинаковой вероятностью. Таблица 3.2 Вероятности распознавания проекций объекта №1 Количество эталонов/вероятность распознавания № об. 1 № пр. Колво ген. 1 1 2000 Колво ош. 1573 2 2000 3 2 0,2133 Колво ош. 1360 347 0,82656 2000 1564 4 2000 5 2000 6 2000 3 0,31995 Колво ош. 1147 216 0,89204 0,21781 1347 1589 0,20569 311 0,84457 1567 0,21672 Вер. Расп 4 0,4266 Колво ош. 1104 0 1 0,32672 1129 1383 0,30854 274 0,86301 1350 0,32508 Вер. Расп. 5 0,44793 Колво ош. 1104 0,44793 0 1 0 1 0,43562 1085 0,4574 1085 0,4574 1177 0,41138 1136 0,43195 1136 0,43195 0 1 0 1 0 1 1133 0,43344 1090 0,45511 1090 0,45511 Вер. Расп Вер. Расп Вер. Расп Проекции 1, 3, 4, 6 в части испытаний были распознаны как проекции другого объекта. Это связано с недостатком систем, основанных на использовании одного видео-датчика, когда объект ориентирован к нему проекцией, совпадающей по форме с проекцией(ями) других объектов (см. п.п. 2.1). На рис. 3.20 представлены графики распознавания проекций трехмерного объекта №1. Из них видно, что проекции, имеющие форму, значительно отличающуюся от других распознаются верно уже при использовании четвертого эталона (проекции №2, 5). В то время как для распознавания других проекций (1, 3, 4, 6) одного изображения не достаточно. 113 Рис. 3.20 График распознавания проекций трехмерного объекта №1 с использованием различного количества эталонов Средняя вероятность распознавания ортогональных проекций трехмерного объекта №1 равна 0,63. Аналогичные исследования были проведены для всех тестовых трехмерных объектов. В приложении Г представлены примеры таблиц распознавания для ТТО№2, ТТО№3. Средняя вероятность распознавания всех тестовых ортогональных проекций трехмерных объектов алгоритмом k-средних составила 0,54. Среднее время распознавания одной проекции – 8,34 мс. 3.3.2 Исследование метода ближайших соседей для распознавании проекций тестовых трехмерных объектов Исследование распознавания проекций трехмерных объектов методом вычисления оценок проводились аналогично п.п. 3.3.1. Средняя вероятность распознавания объекта №1 равна 0,569. Анализ результатов распознавания показал, что, как и в случае с алгоритмом к-средних, проекции объекта №1: 1, 3, 4, 6 в части испытаний были распознаны как проекции другого объекта. Таблица 3.3 114 Вероятности распознавания проекций объекта №1 методом ближайших соседей. Количество эталонов/вероятность распознавания № об. 1 № пр. Колво ген. 1 2000 2 3 1 2 Колво ош. 1625 0,1877 2000 381 2000 1626 4 2000 5 6 3 Колво ош. 1512 0,244 0,8093 305 0,1871 1514 1625 0,1875 2000 406 2000 1625 4 Колво ош. 1437 0,2816 0,8476 166 0,9168 0 1 0 1 0,2432 1439 0,2807 1326 0,3368 1289 0,3555 1513 0,2437 1438 0,2812 1325 0,3374 1288 0,3562 0,7971 339 0,8303 171 0,9145 0 1 0 1 0,1877 1512 0,244 1437 0,2815 1324 0,3378 1287 0,3566 Вер. Расп Вер. Расп. Вер. Расп Колво ош. 1324 5 Вер. Расп Колво ош. Вер. Расп 0,3379 1287 0,3566 На рис. 3.21 представлены графики распознавания проекций трехмерного объекта №1. Рис. 3.21 График распознавания проекций трехмерного объекта №1 с использованием различного количества эталонов Аналогичные исследования были проведены для всех тестовых трехмерных объектов. В приложении Г, в таблицах Г7, Г8 представлены примеры таблиц распознавания для ТТО№2, ТТО№3. Средняя вероятность распознавания всех ортогональных проекций тестовых трехмерных объектов составила 0,529, а процент ошибок – 47,1%. Среднее время распознавания одной проекции – 6,45 мс. 3.3.3 Исследование алгоритма вычисления распознавании проекций трехмерных объектов оценок при 115 Исследования алгоритма вычисления оценок при распознавании проекций тестовых трехмерных объектов проводились аналогично п.п. 3.3.1. Средняя вероятность распознавания объекта №1 равна 0,67 по одному изображению ортогональной проекции. Таблица 3.4 Вероятности распознавания проекций объекта №1 методом ближайших соседей. Количество эталонов/вероятность распознавания № об. 1 № пр. Колво ген. 1 1 2000 Колво ош. 1588 2 2000 3 4 2 0,20614 Колво ош. 1382 397 0,80174 2000 1566 2000 1605 5 2000 6 2000 3 0,30921 Колво ош. 1175 275 0,86248 0 0,21715 1349 0,32573 0,19752 1407 0,29628 386 0,80679 237 1600 0,20024 1399 Вер. Расп 4 0,41228 Колво ош. 1134 1 1131 1210 0,8814 0 0,30036 1199 Вер. Расп. 5 0,43289 Колво ош. 969 0,51535 0 1 0 1 0,4343 1088 0,45602 914 0,54288 0,39504 1170 0,41479 1012 0,4938 1 0 1 0 1 0,40048 1159 0,4205 999 0,5006 Вер. Расп Вер. Расп Вер. Расп Рис. 3.22 График распознавания проекций трехмерного объекта №1 с использованием различного количества эталонов Средняя вероятность распознавания всех тестовых трехмерных объектов составила 0,57. Среднее время распознавания одной проекции – 6,73 мс. 116 Аналогичные исследования были проведены для всех тестовых трехмерных объектов. В приложении Г, в таблицах Г9, Г10 представлены примеры таблиц распознавания для ТТО№2, ТТО№3. Если свести все полученные результаты исследований алгоритмов распознавания общего назначения в таблицу, то получится следующее: Таблица 3.5 Результаты исследования алгоритмов распознавания на тестовых изображениях ортогональных проекций трехмерных объектов. Средняя вероятность распознавания Среднее время распознавания одной проекции, мс. К-средних Метод ближайших соседей Метод вычисления оценок 0,54 0,529 0,57 8,34 6,45 6,37 При распознавании произвольно расположенных трехмерных в сложных случаях, описанных в п.п. 2.1, недостаточно одного изображения. Поэтому возникает необходимость в использовании пары проекций. Все рассмотренные алгоритмы показали высокую скорость, но при этом низкую вероятность распознавания. При этом алгоритмы показали близкие значения средних вероятностей распознавания по всей выборке тестовых объектов. Метод ближайших соседей показал среднюю скорость распознавания (6,45 мс), но при этом вероятность распознавания была самой низкой среди рассмотренных алгоритмов (0,529). Метод К-средних показал среднее значение вероятности распознавания (0,54) по всей выборке изображений, но при этом самым медленным (8,34 мс). Алгоритм вычисления оценок показал максимальное значение средней вероятности распознавания (0,57) среди рассмотренных алгоритмов и среднее время распознавания одного изображения (6,37 мс). Алгоритм вычисления оценок обладает хорошей скоростью распознавания и относительной простотой реализации, поэтому он был выбран для дальнейших исследований распознавания трехмерных объектов на парах изображений проекций трехмерных объектов. 117 3.4 Исследования выбранного алгоритма распознавания на парах изображений отдельных объектов с использованием моделей окто-деревьев и нескольких эталонов Эксперименты по исследованию алгоритма вычисления оценок [139-141], выбранного в результате исследований на проекциях трехмерных объектов (п. 3.1.1), так же были проведены на парах изображений отдельных объектов на выборках, состоящих из пар изображений проекций тестовых трехмерных объектов (п. 3.1.1). Исследования проводились в два этапа: первый этап распознавания заключался в идентификации ортогональной проекции, второй этап – в идентификации косоугольной проекции среди отсеянных после первого этапа эталонов. При распознавании проекций алгоритмом вычисления оценок была сформирована бинарная таблица, по которой вычислялись оценки сходства проекций. Таблица 3.6 Признаки ортогональной проекции распознаваемого объекта ПКФ 1 КПП 0,129 ДКФ 0,938 КД1 0,871 КД2 0,935 КДО1 0,839 КДО2 0,903 КДО3 0,903 КДО4 0,968 Таблица 3.7 представляет собой фрагмент таблицы признаков АВО, и иллюстрирует сравнение признаков первых эталонов проекций двух объектов в базе данных с ортогональной проекцией распознаваемого трехмерного объекта. Кроме того, она показывает ситуацию, когда ТТО был распознан по одной ортогональной проекции. При этом, для ТТО№1, две его симметричные проекции были распознаны с одинаковой оценкой (8/8). Так как обе проекции принадлежат одному трехмерному объекту (что делает его распознанным), то дальнейшее распознавание (в том числе и построение трехмерной модели) не имеет смысла. Таблица 3.7 118 Фрагмент таблицы признаков АВО для распознавания ортогональной проекции трехмерного объекта. № Об. № пр. 1 1 2 3 4 5 6 2 1 2 3 4 5 6 Диагональные признаки формы/оценка ПКФ 1 КПП 0,129 ДКФ 0,938 КД1 0,871 КД2 0,935 КДО1 0,839 КДО2 0,903 КДО3 0,903 КДО4 0,968 1 0,533 1 0,128 1 0,889 1 0,386 1 0,829 1 0,685 1 0,794 1 0,088 1 0,864 0 0,914 1 0,12 0 0,945 0 0,91 0 0,881 0 0,895 0 0,925 0 0,925 0 0,837 0 1 0 0,129 1 0,938 0 0,871 0 0,935 0 0,839 1 0,903 1 0,903 0 0,968 1 0,533 1 0,128 1 0,889 1 0,386 1 0,829 1 0,685 1 0,794 1 0,088 1 0,864 0 0,914 1 0,12 0 0,945 0 0,91 0 0,881 0 0,895 0 0,925 0 0,925 0 0,837 0 0,941 0 0,121 1 0,93 0 0,849 0 0,909 0 0,818 1 0,909 1 0,879 0 0,909 0 0,97 0 0,123 1 0,941 0 0,892 0 0,693 1 0,861 1 0,923 0 0,923 0 0,463 1 0,971 1 0,116 1 0,943 0 0,927 0 0,913 0 0,927 0 0,927 0 0,927 0 0,899 0 0,941 0 0,121 1 0,93 0 0,849 0 0,909 0 0,818 0 0,909 0 0,879 0 0,909 0 0,97 0 0,123 1 0,941 0 0,892 0 0,693 1 0,861 1 0,923 0 0,923 0 0,463 1 0,971 1 0,116 1 0,943 0 0,927 0 0,913 0 0,927 0 0,927 0 0,927 0 0,899 0 0 1 0 0 0 0 0 0 Сум. Оц. 9 1 3 9 1 3 3 3 1 3 3 1 На основе таблицы 3.7 строится бинарная таблица АВО, фрагмент которой приведен в таблице 3.8. Сравнение значений признаков распознаваемой и эталонных проекций трехмерных объектов осуществляется алгоритмом вычисления оценок с использованием рассчитанных в п.п. 3.2 отклонений диагональных признаков формы. Суммарная оценка по всем признакам отвечает за степень сходства эталонной проекции к рассматриваемой, чем она больше (выделено серым цветом), тем больше вероятность верного распознавания. Таблица 3.8 119 Бинарная таблица АВО № Об. 1 2 Диагональные признаки формы/оценка № пр. ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 Сум. Оц. 1 1 1 1 1 1 1 1 1 1 9 2 0 1 0 0 0 0 0 0 0 1 3 0 0 1 0 0 0 1 1 0 3 4 1 1 1 1 1 1 1 1 1 9 5 0 1 0 0 0 0 0 0 0 1 6 0 0 1 0 0 0 1 1 0 3 1 0 0 1 0 0 1 1 0 0 3 2 1 1 1 0 0 0 0 0 0 3 3 0 0 1 0 0 0 0 0 0 1 4 0 0 1 0 0 1 1 0 0 3 5 1 1 1 0 0 0 0 0 0 3 6 0 0 1 0 0 0 0 0 0 1 В таблице 3.9 представлен пример фрагмента таблицы признаков АВО для распознавания косоугольной проекции тестового трехмерного объекта №5. Таблица 3.9 Фрагмент таблицы признаков АВО для распознавания косоугольной проекции ТТО №5. Диагональные признаки формы/оценка № Об. 5 3 4 При ПКФ 0,264 КПП 0,032 ДКФ 0,967 КД1 0,886 КД2 0,952 КДО1 0,879 КДО2 0,933 КДО3 0,957 КДО4 0,989 1 0,428 1 0,023 1 0,922 0 0,709 1 0,8 1 0,763 1 0,91 1 0,655 1 0,69 0 0,376 0 0,025 0 0,94 0 0,884 0 0,764 0 0,849 0 0,717 0 0,919 0 0,812 0 0 0 0 0 0 0 0 0 распознавании ортогональной проекции Сум. Оц. 8 0 0 произвольно расположенного ТТО №5, были отобраны 3 кандидата на распознавание из базы данных – ТТО№3, 4, 5. В результате, с оценкой 7 был распознан тестовый трехмерный объект №5. Результаты распознавания пар проекций тестового трехмерного объекта №1 представлены в таблице 3.10. Таблица 3.10 120 Таблица вероятностей распознавания пар проекций трехмерного объекта№1 Распознавание № объекта 1 № проекции Количество генераций Количество ошибок Вероятность верного распознавания 1 2000 0 1 2 2000 0 1 3 2000 0 1 4 2000 0 1 5 2000 0 1 6 2000 0 1 Аналогичные исследования были проведены для проекций всех тестовых трехмерных объектов. В Приложении Г представлены примеры распознавания проекций ТТО№2, ТТО№3. В результате проведенного на тестовых (без шума) объектов было выявлено, что использование второй проекции позволяет идентифицировать произвольно расположенные отдельные трехмерные объекты с вероятностью 100%. Но в реальной ситуации на сборочном конвейере могут находиться несколько объектов, поэтому необходимо исследовать алгоритм сопоставления проекций нескольких раздельно расположенных трехмерных объектов на паре снимков. Анализ неверно распознанных проекций показывает, что большая часть неудачной идентификации приходится на похожие проекции разных объектов. Правильно распознать такой объект, используя одно изображение проекции не представляется возможным. Решением проблемы является использование косоугольной проекции трехмерного объекта и его трехмерной модели. Минимальная скорость распознавания трехмерного объекта составила 6,55 мс (в случаях когда объект был распознан по одной проекции) максимальная – 2,1 с (для сложных случаев). 121 3.5 Исследование алгоритма сопоставления проекций трехмерных объектов на выборках пар снимков нескольких раздельно расположенных трехмерных объектов Исследование проводилось на 2200 парах снимков макетных объектов с различным количеством произвольно расположенных трехмерных объектов на сцене. В данной выборке участвовали 8 комбинаций по 5 объектов на сцене, 6 комбинаций по 6 объектов, 5 комбинаций по 7 объектов и 2 комбинаций по 8 объектов. Общее число проведенных испытаний составило 13600. Таблица 3.11 Результаты распознавания трехмерных объектов на парах тестовых изображений с 5 объектами на сцене № экзаменационной пары снимков Кол-во распознаваемых объектов Кол-во пар проекций на выходе Ср. вероятность распознавания 1 5 5 0,99991 2 5 5 0,99917 3 5 5 0,99904 4 5 5 0,99982 5 5 5 0,999847 … … … … 800 5 5 0,99949 Результаты распознавания всех тестовых трехмерных объектов на парах тестовых изображений приведены в приложении Г. Средняя ошибка для всей выборки составила 10-4, что означает в среднем на 13600 объектов – 1,36 будут распознаны неверно. Выводы по главе 3 1. Экспериментальная проверка диагональных признаков формы на тестовых изображениях плоских геометрических фигур показала, что в среднем, отклонение значений признаков, рассчитанных по размерам генерируемой фигуры, от значений признаков вычисленных по полученному изображению составляет 10-3, что говорит о их инвариантности к сдвигу объекта в поле зрения САР. 2. Экспериментальная проверка известных алгоритмов распознавания на ортогональных проекциях тестовых трехмерных объектов доказала 122 необходимость применения трехмерной модели при распознавании трехмерных объектов. 3. Результаты экспериментов на плоских изображениях показали, что для решения задачи распознавания проекций трехмерных объектов по их бинарным изображениям диагональные признаки формы обладают достаточной информативностью. 4. Рассмотренные алгоритмы показали высокую среднюю скорость (6,37 8,34 мс), но низкую вероятность распознавания (0,54-0,57) ортогональных проекций трехмерных объектов в сложных случаях. 6. Алгоритм вычисления оценок обладает хорошей скоростью распознавания (~6,37 мс) и относительной простотой реализации, поэтому он был выбран для дальнейших исследований по распознаванию трехмерных объектов на парах изображений их проекций. 7. Экспериментальная проверка алгоритма вычисления оценок на парах снимков отдельных объектов показала, что часть объектов распознавались по одной (ортогональной) проекции со средней скоростью 6,55 мс. В сложных случаях, когда требовалось построение трехмерной модели, средняя скорость распознавания составляла 2,1 с для одного объекта. Точность распознавания тестовых трехмерных объектов (при объеме выборки 96000 пар изображений) по двум проекциям составила 100%. 7. Доказано, что алгоритм сопоставления пар проекций обеспечивает высокую надежность при работе с парами тестовых снимков. 8. Экспериментальная проверка разработанной системы на парах снимков нескольких произвольно расположенных объектов показала, что средняя ошибка для всей выборки составила 10-4, что означает в среднем на 13600 объектов – 1,36 будут распознаны неверно, что является хорошим показателем разработанного подхода. 123 ГЛАВА 4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ И СИСТЕМЫ РАСПОЗНАВАНИЯ НА РЕАЛЬНЫХ ТРЕХМЕРНЫХ ОБЪЕКТАХ 4.1 Постановка задачи эксперимента на реальных трехмерных объектах 4.1.1 Экспериментальная база изображений проекций реальных трехмерных объектов Изображения реальных объектов могут отличаться от тестовых слабой контрастностью, шумами и другими факторами, мешающими качественному выделению объектов на сцене и их дальнейшей идентификации. Эксперименты, проведенные в главе 3 показали хорошие результаты распознавания тестовых трехмерных объектов с использованием разработанного подхода и вектора диагональных признаков формы. Изображения их проекций обладали высоким уровнем контраста, что давало возможность отделять их от фона с использованием порогового преобразования с применением алгоритма Отсу (п.п.1.4.2). В качестве реальных трехмерных объектов были взяты детали шарового водопроводного крана [142] и радиодетали. Они являются сложными в связи с тем, что имеют проекции одинаковой формы. Выбор предмета исследования обосновывается массовостью производства данных продуктов, и механическим процессом сборки и установки, который можно автоматизировать при помощи разработанного подхода. На рис. 4.1 представлено изображение собранного реального трехмерного объекта (шаровый кран). Рис. 4.1 Трехмерный объект 124 Для проведения исследований он был разобран на детали, каждая из которых представляет собой отдельный трехмерный объект. Рис. 4.2 Детали трехмерного объекта На рис. 4.2 представлены детали шарового крана, над которыми проводились эксперименты: 1 – гайка крепления трубы; 2 – гровер; 3 – гайка корпуса из латуни; 4 – шар из латуни, полированный; 5 – корпус крана; 6 – ручка крана из алюминия; 7 – гайка крепления рукояти; 8 – шток из латуни, никелированный, вставляется изнутри корпуса. На рис. 4.3 изображены радиодетали. Рис. 4.3 Радиодетали 125 Пример проекций трехмерного объекта №1 изображен на рис. 4.4 Рис. 4.4 Пример изображений проекций трехмерного объекта №1 Примеры изображений проекций других деталей реальных трехмерных объектов (РТО) представлены в Приложении Б на рис. Б4-Б9. Эталоны проекций РТО представляют собой различное пространственное расположение соответствующих деталей на сцене. Примеры эталонов проекции «сверху» объекта №3 представлены на рис. 4.5. Рис. 4.5 Примеры эталонных изображений проекции «сверху» трехмерного объекта 3 (гайка корпуса) Рис. 4.6 Пороговое преобразование изображения РТО методом Отсу. Как видно из рис. 4.6 – изображения проекций трехмерного объекта являются слабоконтрастными и для выделения нужных областей недостаточно 126 только порогового преобразования (п.п.1,3). Для решения данной проблемы были использованы алгоритмы морфологических преобразований (п.п.1.3). Результаты выделения проекции реального объекта изображены на рис. 4.7 Рис. 4.7 Выделение слабоконтрастных участков на изображениях РТО 4.1.2 Описание экспериментов над изображениями проекций реальных трехмерных объектов Для проверки разработанного подхода на РТО была использована разработанная система (см. п.п. 3.1.4). В экспериментах участвовали 14 РТО (8 деталей шарового крана и 6 радиодеталей) с 6 ортогональными проекциями (см. приложение Б). Эксперименты проводились в 2 этапа: 1) Проведение экспериментов на сгенерированных проекциях отдельных реальных трехмерных объектов. Объем экспериментальной выборки для проверки алгоритма распознавания на изображениях ортогональных проекций отдельных РТО составил 96000 штук (каждая из 6 проекций 8 объектов генерировалась 2000 раз). Генерация изображений заключалась в смещении объекта на сцене и изменении угла наклона. 2) Эксперименты распознавания нескольких отдельно расположенных РТО. Объем экспериментальной выборки составил: - 16000 испытаний для деталей шарового крана (2000 пар изображений, на каждой из которых размещено 8 РТО); 127 - 12000 испытаний для радиодеталей (2000 пар изображений, на каждой из которых размещено 6 РТО). Примеры пары изображений проекций нескольких РТО представлены на рис. 4.8. Примеры других вариантов размещения объектов на сцене представлены в Приложении Б. Рис. 4.8 Пример тестовой пары изображений нескольких отдельно расположенных объектов 4.1.3 Поиск ключевых точек на изображениях проекций реальных трехмерных объектов для вычисления диагональных коэффициентов формы Процесс предварительной обработки снимков проекций РТО изображен на рис. 4.9. После поступления в систему, над парой входных полутоновых изображений ортогональных и косоугольных проекций распознаваемых объектов выполняются операции предварительной обработки, маркировки и формировании очереди на распознавание. Аналогично процессу поиска ключевых точек на изображениях проекций тестовых трехмерных объектов, берется бинарное изображение проекции РТО из очереди на распознавание и нормализуется по повороту, в соответствии с п.п. 2.2. Затем выделяется контур и вычисляются координаты двух наиболее удаленных друг от друга точек контура и строится отрезок длины объекта. Далее, в соответствии с п.п. 2.2 строится описанный вокруг контура проекции РТО прямоугольник минимальной площади, его диагонали. 128 Рис. 4.9 Процесс выделения КТ на изображении проекции РТО И в завершении вычисляются координаты точек пересечения контура и диагоналей описанного прямоугольника и строятся диагональные отрезки. 4.2 Экспериментальная проверка разработанных алгоритмов на отдельных реальных трехмерных объектах Эксперименты по исследованию алгоритма идентификации отдельных РТО были проведены на изображениях реальных деталей (Приложение Б). Ортогональная и косоугольная проекция РТО №5 приведена на рис. 4.10. 129 Рис. 4.10 Изображения пар РТО Пример сгенерированной трехмерной модели, необходимой для распознавания косоугольной проекции РТО №5 (рис. 4.10б) представлен на рис. 4.11. Рис. 4.11 Сгенерированная косоугольная проекция РТО Обработка снимка трехмерной модели осуществляется по схеме, изображенной на рис. 4.12. Результаты экспериментов распознавания РТО1 приведены в таблице 4.1. Таблица 4.1 Результаты распознавания трехмерного объекта №1 № об. № пр. 1 Кол-во ген. По ортогональной и косоугольной проекциям Кол-во ош. Ср. вер. расп 1 2000 0 1 2 2000 0 1 3 2000 0 1 4 2000 0 1 5 2000 0 1 6 2000 0 1 130 Рис. 4.12 Схема процесса обработки сгенерированной проекции трехмерной модели Результаты распознавания остальных объектов представлены в приложении Д. Ошибки второго рода, возникшие на первом этапе распознавания (ортогональной проекции) появились в связи с наличием схожих по форме проекций у различных объектов (например, гайки). В таких случаях построение трехмерной модели и генерация косоугольной проекции позволило сократить количество ошибочных срабатываний системы на 9%. 131 Анализ полученных результатов позволяет сделать следующие выводы: – средняя вероятность распознавания на первом этапе (при анализе ортогональной проекции) составила 0,91; – вероятность распознавания отдельных РТО с использованием 5 эталонов проекций трехмерных объектов и изображений с двух камер составляет 1; – минимальная скорость распознавания РТО (в случаях когда распознавание произошло только по ортогональной проекции) составила 5,56 мс.; – использование при идентификации более 5 эталонов для каждой проекции каждого трехмерного объекта не дает прироста в качестве распознавания (для некоторых проекций достаточно 1-2 эталонных изображений, что связано с уникальностью их формы среди всех изображений обучающей выборки, при использовании более 5 эталонов вероятность правильного распознавания не изменяется, но при этом увеличивается время распознавания трехмерных объектов в сложных случаях при 5 эталонах ~ 2,3 с., при 6 эталонах ~ 3,4 с.). Это связано с необходимостью дополнительного построения трехмерной модели для нового эталона. 4.3 Экспериментальная проверка разработанных алгоритмов на изображениях нескольких отдельно расположенных реальных трехмерных объектов (детали шарового крана) Исследование алгоритма распознавания нескольких отдельно расположенных трехмерных объектов проводилось на выборке, состоящей из реальных объектов (п. 4.1). При распознавании деталей шарового крана объекты произвольным образом выкладывались на сцену, затем две камеры, расположенные над сценой фиксировали снимки, подобные тем, что изображены на рис. 4.13. Методика проведения исследований аналогична исследованию на тестовых объектах (п. 3.3). 132 Таблица 4.2 Таблица признаков АВО для проекции РТО №1 № Об. № пр. 1 1 2 3 4 5 6 2 1 2 3 4 5 6 Диагональные признаки формы/оценка ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 0,632 0,017 0,862 0,762 0,632 0,773 0,614 0,752 0,649 1 1 1 1 1 1 1 1 1 0,921 0,014 0,741 0,686 0,704 0,691 0,711 0,68 0,697 0 0 0 0 0 0 0 0 0 0,921 0,014 0,741 0,686 0,704 0,691 0,711 0,68 0,697 0 0 0 0 0 0 0 0 0 0,632 0,017 0,862 0,762 0,632 0,773 0,614 0,752 0,649 1 1 1 1 1 1 1 1 1 0,921 0,014 0,741 0,686 0,704 0,691 0,711 0,68 0,697 0 0 0 0 0 0 0 0 0 0,921 0,014 0,741 0,686 0,704 0,691 0,711 0,68 0,697 0 0 0 0 0 0 1 1 0 0,455 0,021 0,935 0,862 0,851 0,852 0,858 0,871 0,844 0 0 0 0 0 0 0 0 0 0,987 0,013 0,728 0,715 0,705 0,707 0,713 0,723 0,697 0 0 0 0 0 0 0 0 0 0,987 0,013 0,728 0,715 0,705 0,707 0,713 0,723 0,697 0 0 1 0 0 0 0 0 0 0,455 0,021 0,935 0,862 0,851 0,852 0,858 0,871 0,844 0 0 0 0 0 0 0 0 0 0,987 0,013 0,728 0,715 0,705 0,707 0,713 0,723 0,697 0 0 0 0 0 0 0 0 0 0,987 0,013 0,728 0,715 0,705 0,707 0,713 0,723 0,697 0 0 0 0 0 0 0 0 0 Сум. Оценка 9 0 0 9 0 2 0 0 1 0 0 0 По таблице признаков была сформирована бинарная таблица АВО, фрагмент которой продемонстрирован в таблице 4.3. В таблице 4.3 представлен фрагмент таблицы признаков АВО распознавания ортогональной проекции РТО №1 (сравнение с первыми эталонами РТО №1 и РТО №2). Максимальная суммарная оценка (выделена серым цветом) отвечает за распознавание проекции реального трехмерного объекта. 133 Рис. 4.13 Примеры экзаменационных пар Учитывая, что на каждой паре изображений (рис. 4.13) находится 8 проекций трехмерных объектов, то общее число объектов которые распознавались в ходе эксперимента составило 16000. Таблица 4.3 Бинарная таблица АВО № Об. 1 2 Диагональные признаки формы/оценка ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 Сум. Оц. 1 1 1 1 1 1 1 1 1 1 9 2 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 4 1 1 1 1 1 1 1 1 1 9 5 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 1 1 0 2 1 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 3 0 0 1 0 0 0 0 0 0 1 4 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 № пр. Результаты эксперимента по распознаванию нескольких трехмерных объектов на паре изображений представлены в таблице 4.3 134 Таблица 4.4 Результаты исследования разработанной САР на парах изображений нескольких произвольно расположенных РТО № экзаменац., пары снимков Кол-во объектов Кол-во получ. пар проекций Ср. вероятность расп. Ср. время расп., с 1 8 8 0,9998 1,95 2 8 8 0,99927 1,78 3 8 8 0,99951 1,88 4 8 8 0,9995 1,87 5 8 8 0,99975 1,99 … … … … 2000 8 8 0,99963 2,32 Анализ полученных результатов позволяет сделать следующие выводы: – точность сопоставления пар проекций на двух снимках проекций РТО составляет 100%; – точность распознавания нескольких отдельно расположенных РТО с использованием 5 эталонов проекций трехмерных объектов и изображений с двух камер составляет 99,95%. 4.4 Экспериментальная проверка разработанных алгоритмов на изображениях нескольких отдельно расположенных реальных трехмерных объектов (радиодетали) В отличие от тестовых трехмерных объектов и деталей шарового крана, радиодетали имеют различные по яркости и цвету поверхности ортогональных проекций. На рис. 4.14 представлен пример пары изображений, полученных с двух камер. Рис. 4.14 Пример пары проекций радиодеталей 135 Встречаются такие детали, у которых одни проекции темные, другие светлые. Подобные случаи создают определенные сложности при локализации и идентификации отдельных проекций. Из рисунка видно, что проекции некоторых трехмерных объектов сливаются с фоном. Рис. 4.15 Пример обработанной пары проекций радиодеталей Для получения необходимого качества входных изображений, САР предварительно регулируется, с использованием предусмотренных разработчиком видеодатчиков (web-камер) настроек яркости, контрастности, баланса белого и т.п. В результате настройки системы, и предварительной обработки, получается пара бинаризованных изображений (рис. 4.16), на которых в дальнейшем локализуются и распознаются представленные на них трехмерные объекты (радиодетали). Рис. 4.16 Пример обработанной пары проекций радиодеталей после настройки системы 136 Рис. 4.15 Схема процесса обработки проекции радиодетали При распознавании радиодеталей формируется таблица признаков проекций трехмерных, аналогичная таблице 4.2. Фрагмент таблицы признаков показан в таблице 4.5 137 Таблица 4.5 Таблица признаков АВО для проекций РТО №1, 2 № Об. № пр. 1 1 2 3 4 5 6 2 1 2 3 4 5 6 Диагональные признаки формы/оценка ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 0,978 0,27 0,804 0,799 0,73 0,902 0,792 0,697 0 0 0,87 0,858 0 0,667 0 0 0 0 0 0 0 0,981 0,306 0,878 0,866 0,868 0,862 0,877 0 0 0 0 0 0 0 0 0,892 0,267 0,828 0,804 0,701 0,799 0,597 0,809 0 0 0 0 0 0 0 0 0,804 0,799 0,73 0,902 0,792 0,697 0 0 0,87 0,858 0 0,978 0,27 0 0 0 0 0 0 0 0,981 0,306 0,878 0,866 0,868 0,862 0,877 0 0 0 0 0 0 0 0 0,892 0,267 0,828 0,804 0,701 0,799 0,597 0,809 0 0 0 0 0 0 0 0 0,475 0,208 0,916 0,677 0,433 0,429 0,139 0,925 1 1 1 0 0 0 0 0 0,478 0,202 0,409 0,668 0,677 0,913 0,142 1 1 1 1 1 1 1 0,682 0,779 0,924 0,25 0,91 1 0,773 0,74 0,675 0,7 0 0 0 0 1 1 0 0 0,475 0,208 0,916 0,677 0,433 0,429 0,139 0,925 1 1 1 0 0 0 0 0 0,478 0,202 0,409 0,668 0,677 0,913 0,142 1 1 1 1 1 1 1 0,682 0,779 0 0 0,924 0 0,25 0 0,91 1 0,773 0 0,74 0 0,675 1 0,7 1 0,805 Сум. Оц. 0 0 0 0 0,667 0,805 0 0 0 0 0,726 3 0 0,423 9 1 0,668 2 0 0,726 3 0 0,423 9 1 0,668 2 0 По таблице признаков была сформирована бинарная таблица АВО, распознавания ортогональной проекции радиодеталей, фрагмент которой продемонстрирован в таблице 4.6. Максимальная суммарная оценка (выделена серым цветом) отвечает за распознавание проекции реального трехмерного объекта. 138 Таблица 4.6 Бинарная таблица АВО для проекций радиодеталей № Об. Диагональные признаки формы/оценка № пр. ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 6 0 0 0 0 0 0 1 1 0 2 1 1 1 1 1 1 1 0 1 0 1 0 1 0 1 0 1 0 1 3 0 1 1 0 0 1 1 0 0 1 1 0 0 0 1 0 1 0 1 1 1 0 1 1 0 0 1 0 0 0 1 0 0 0 1 0 2 1 2 1 3 4 2 2 Сум. Оц. 3 4 5 6 Результаты экспериментов по распознаванию 0 0 0 0 9 3 9 2 произвольно расположенных радиодеталей сведены в таблицу 4.7. Таблица 4.7 Таблица средних вероятностей верного распознавания радиодеталей № радиодетали Количество экспериментов Ср. вероятность расп. Ср. время расп., с 1 2000 0,997 1,33 2 2000 0,999 1,25 3 2000 0,998 1,03 4 2000 0,999 0,7 5 2000 0,999 1,7 6 2000 0,998 1,15 Выводы по главе 4 1. Экспериментально установлено, что для обнаружения слабоконтрастных реальных трехмерных объектов не достаточно только пороговой обработки. 2. Для распознавания ортогональных проекций трехмерных объектов достаточно 5 эталонов на каждую проекцию. Дальнейшее увеличение числа эталонов является нецелесообразным, поскольку не дает существенного 139 прироста к точности распознавания, увеличивая при этом время работы системы: при 5 эталонах – 2,3 с., при 6 эталонах – 3,4 с. 4. Установлено, что средняя точность распознавания трехмерного объекта только по ортогональной проекций составила 95% при 5 эталонах. 5. Доказано, что точность распознавания отдельных реальных трехмерных объектов с использованием 5 эталонов проекций трехмерных объектов и изображений с двух камер составляет 100%. 6. Определено, что точность сопоставления пар проекций нескольких отдельно расположенных объектов составляет 100%. 7. Выявлено, что точность распознавания нескольких отдельно расположенных реальных трехмерных объектов с использованием 5 эталонов проекций трехмерных объектов и изображений с двух камер составляет 99,95%, при этом минимальное время распознавания трехмерного объекта составило 5,56 мс, максимальное (в сложных случаях) - 2,3 с. при 5 эталонах. 9. Разработанная экспериментальная система позволяет решать задачу автоматического анализа и распознавания как единичных, так и нескольких отдельно и произвольно расположенных в поле зрения САР трехмерных объектов. 10. Предложенная двухкамерная система является удобным средством обработки и анализа проекций трехмерных объектов и их распознавания для использования в промышленных САР. 140 ЗАКЛЮЧЕНИЕ 1. Проведен обзор и анализ методов цифровой обработки изображений и распознавания образов в задачах автоматизации операций на сборочных конвейерах. Установлено, что на промышленных предприятиях задачи сборки узлов средних размеров реализуются в основном с применением ручного труда. 2. Существующие подходы к распознаванию трехмерных объектов, применяемые в современных коммерческих системах автоматического распознавания, использующие одну камеру или датчики расстояний, не позволяют в сложных случаях распознавать произвольно расположенные трехмерные объекты. 3. Задача идентификации произвольно расположенных трехмерных объектов пока является не решенной и требует своего решения. 4. Разработан новый подход к распознаванию трехмерных объектов с использованием двух камер, одна из которых располагается над сценой, и дает ортогональные проекции трехмерных объектов, вторая – под углом к сцене, и дает косоугольные проекции, и трехмерных моделей эталонов, на основе которого была создана САР трехмерных объектов. 5. Созданы наборы изображений проекций тестовых и реальных трехмерных объектов различной формы и размеров, для проведения исследований возможностей разработанных подхода и алгоритмов, при помощи которых удалось провести экспериментальные проверки как простых, так и сложных случаев распознавания трехмерных объектов. 6. Разработан алгоритм сопоставления изображений проекций на двух снимках и отнесения полученных пар к каждому из объектов, позволяющий автоматически определять к какому из трехмерных объектов, расположенных на сцене относится изображения ортогональной и косоугольной проекций. 7. Разработана структура нового вектора признаков для описания формы бинарных изображений проекций трехмерных объектов, позволяющий описать форму проекции объекта при помощи безразмерных коэффициентов. 141 8. Разработан изображения алгоритм проекции нормализации трехмерного объекта ориентации при его бинарного произвольном расположении в области сцены. 9. Разработана структура эталона трехмерного объекта, включающая в себя информацию о плоской геометрии проекций, трехмерную модель. 10. Разработана экспериментальная система автоматического распознавания трехмерных объектов с использованием двух камер для проведения исследований, позволяющая распознавать произвольно расположенные трехмерные объекты по двум снимкам. 11. Проведен экспериментальный сравнительный анализ известных алгоритмов распознавания с использованием разработанного вектора признаков на бинарных изображениях тестовых геометрических фигур и проекциях тестовых отдельных трехмерных объектов, показавший хорошие возможности алгоритма вычисления оценок при распознавании проекций трехмерных объектов. 12. Проведено исследование алгоритма вычисления оценок на парах изображений проекций отдельных тестовых трехмерных объектов, полученных с двух камер, точность распознавания тестовых трехмерных объектов (при использовании 5 эталонов) на первом этапе распознавания (по одному изображению ортогональной проекции) составила 42%; на втором этапе (по двум изображениям) – 100%. 13. Экспериментальный анализ алгоритма распознавания нескольких отдельно расположенных трехмерных объектов на бинарных изображениях реальных объектов показал, что точность распознавания нескольких отдельно расположенных реальных трехмерных объектов с использованием 5 эталонов проекций трехмерных объектов и изображений с двух камер составляет 99,95%, при этом минимальное время распознавания трехмерного объекта составило 5,56 мс, максимальное (в сложных случаях) - 2,3 с. при 5 эталонах. 142 СПИСОК ЛИТЕРАТУРЫ 1. Хауштайн, Х.Д. Гибкая автоматизация / Х.Д. Хауштайн. – М.: Прогресс, 1990. – 200 с. 2. Хлытчиев, М. С. Основы автоматики и автоматизации производственных процессов / М. С. Хлытчиев. – М.: Радио и связь, 1985. – 288 с. 3. Макаров, И.М. Робототехника: История и перспективы / И.М. Макаров, Ю.И. Топчеев. – М.: Наука; Изд-во МАИ, 2003. – 349 с. 4. Попов, Е. П. Манипуляционные роботы: динамика и алгоритмы / Е.П. Попов, А.Ф. Верещагин, С.Л. Зенкевич. – М.: Наука, 1978. – 400 с. 5. Медведев, В.С. Системы управления манипуляционных роботов / В.С. Медведев, А.Г. Лесков, А.С. Ющенко. – М.: Наука, 1978. – 416 с. 6. Садыков, С.С., Методы и алгоритмы выделения признаков объектов в системах технического зрения / С.С. Садыков, Н.Н. Стулов. – М.: Горячая линия – Телеком, 2005. – 204 с. 7. Гридин, В.Н. Адаптивные системы технического зрения / В.Н. Гридин, В.С. Титов, М.И. Труфанов – СПб.: Наука, 2009. – 442 с. 8. Пью, А. Техническое зрение роботов: Пер. с англ./ А. Пью. – М.: Машиностроение, 1987. – 320 с. 9. Мошкин, В.И. Техническое зрение роботов / В.И. Мошкин, А.А. Петров, В.С. Титов, Ю.Г. Якушенков. – М.: Машиностроение, 1990. – 272 с. 10. Хорн, Б.К.П. Зрение роботов: Пер. с англ. / Б.К.П. Хорн. – М.: Мир, 1989. – 487 с. 11. Vision machines. URL: http://www.visionmachines.ru/ visionmachines/cameras/ (Дата обращения 25.11.2013). 12. Control Engineering. URL: http://controlengrussia.com/apparatnye- sredstva/tekhnicheskoe-zrenie/ (Дата обращения 25.11.2013). 13. Мацкевич, В.В. Занимательная анатомия роботов: научно-популярная литература / В.В. Мацкевич. – М.: Радио и связь, 1988 – 128с. 14. Видеоскан. URL: http://videoscan.ru/ (Дата обращения 25.11.2013). 143 15. Зуева, Е.Ю. Компьютерное зрение в ИПМ им. В.М. Келдыша РАН – история развития // Математические машины и системы. – Киев, 2009. – №4. Режим доступа: http://www.keldysh.ru/papers/2009/art04/Zueva_09.htm (Дата обращения 25.11.2013) 16. Макаров, Н.М. Управление робототехническими системами и гибкими автоматизированными производствами / Н.М. Макаров. – М.: Радио и связь, 1981, ч. 3 – 156 с. 17. Генкин, В.Л. Системы распознавания автоматизированных производств / В.Л. Генкин, И.Л. Ерош, Э. С. Москалев. – Л.: Машиностроение, Ленинградское отделение, 1988. – 246 с. 18. Писаревский, А.Н. Системы технического зрения (принципиальные основы, аппаратное и математическое обеспечение) / А.Н. Писаревский, А.Ф. Чернявский. – Л.: Машиностроение. Ленинградское отделение, 1988. – 424 с. 19. Янг, Дж. Ф. Робототехника / Дж. Ф. Янг. – Л.: Машиностроение, 1979. – 300 с. 20. Кулешов, В.С. Дистанционно-управляемые роботы и манипуляторы / В.С. Кулешов, Н.А. Лагота. – М.: Машиностроение, 1986. – 362 с. 21. Шапиро, Л. Компьютерное зрение: Пер. с англ. / Л. Шапиро, Дж. Стокман. – М.: БИНОМ. Лаборатория знаний, 2006. – 752 с. 22. Фу, К. Робототехника: пер. с англ. / К. Фу, Р. Гонсалес, К. Ли. – М.: Мир, 1989. – 624 с. 23. Катыс, Г.П. Восприятие и анализ оптической информации автоматической системой / Г.П. Катыс. — М.: Машиностроение, 1986. – 416 с. 24. Катыс, Г.П. Визуальная информация и зрение роботов / Г.П. Катыс. – М.: Энергия, 1979. – 176 с. 25. Хорн, Б. Психология машинного зрения / Б. Хорн, М. Минский, И. Сираи, Д. Уолц, П. Уинстон. – М.: Мир, 1978. – 340 с. 26. Андреев, В.П. Эксперименты с машинным зрением / В.П. Андреев, Д.А. Белов, Г.Г. Вайнштейн, Е.А. Москвина. – М.: Наука, 1987. – 128 с. 144 27. Камынин, С.С. Машинное видение / С.С, Камынин. – М.: ИПМ им. М В. Келдыша АН СССР, 1988. – 288 с. 28. Логинов, А.И. Системы технического зрения/ А.И. Логинов. – М.: МИРЭА, 1991. – 80 с. 29. Письменный, Г.В. Системы технического зрения в робототехнике / Г.В. Письменный, Б.Б. Михайлов, А.Ю. Корнеев. – М.: Машиностроение, 1991. – 88 с. 30. Фу, К. Структурные методы в распознавании образов / К. Фу. – М.: "Мир", 1977. – 319 с. 31. Ту, Дж. Принципы распознавания образов / Дж. Ту, Р. Гонсалес. – М.: Мир, 1978. – 411 с. 32. Фукунага, К. Введение в статистическую теорию распознавания образов / К. Фукунага. – М.: Наука, 1979. – 267 с. 33. Фу, К. Последовательные методы в распознавании образов и обучении машин / К. Фу. – М.: Наука, 1971. – 355 с. 34. Себестиан, Г.С. Процессы принятия решений при распознавании образов / Г.С. Себестиан. – Киев: "Наукова думка", 1965. – 152 с. 35. Француз, А. Г. Некоторые вопросы статистической теории опознания образов / А.Г. Француз // Бионика. – М.: «Наука», 1965. – C. 23-32. 36. Вапник, В.Н. Алгоритмы обучения распознаванию образов / В.Н. Вапник. – М.: Сов.Радио, 1973. – 200 с. 37. Вапник, В.Н. Теория распознавания образов (статистические проблемы обучения) / В.Н. Вапник, А.Я. Червоненкис. – М.: Мир, 1974. — 416 с. 38. Розенфельд, А. Распознавание и обработка изображений с помощью вычислительных машин: Пер. с англ. / А. Розенфельд. – М.: Мир, 1972. – 232 с. 39. Васильев, В.И. Проблема обучения распознаванию образов / В.И. Васильев. – К.: Высшая школа, 1989. – 64 с. 40. Горелик, А.Л. Современное состояние проблемы распознавания: Некоторые аспекты / А.Л. Горелик. – М.: Радио и связь, 1985. – 160 с. 145 41. Горелик, А.Л. Методы распознавания / А.Л. Горелик, В.А. Скрипкин. – М.: Высшая школа, 1977. – 222 с. 42. Патрик, Э. Основы теории распознавания образов: Пер. с англ. / Э. Патрик. – М.: Сов. Радио, 1980. – 408с. 43. Пересада, В.П. Автоматическое распознавание образов / В.П. Пересада. – Л.: Энергия, 1970. – 408 с. 44. Загоруйко, Н.Г. Методы распознавания и их применение / Н.Г. Загоруйко. – М.: Изд-во Сов. Радио, 1972. – 208 с. 45. Devijver, P. A. Pattern Recognition: A Statistical Approach / P. A. Devijver, J. Kittler // London: Prentice Hall International – 1982. – Pp. 448. 46. Duda, O Pattern Classification and Scene Analysis / Richard O. Duda, Peter E. Hart // Wiley-Interscience, Oxford – 1973. – Pp. 482 47. Radke, R., Image Change Detection Algorithms: A Systematic Survey / R. Radke, S. Andra, O. Al-Kohafi, B. Roysam// IEEE Trans. on Image Processing. – 2005. – Vol. 14. №3 – P. 294 – 307. 48. Kastrinaki, V. A Survey of Video Processing Techniques for Traffic Applications / V. Kastrinaki, M. Zervakis, K. Kalaitzakis // Image and Vision Computing 21. – 2003. – P. 359 – 381. 49. Chien, S.Y. Efficient Moving Object Segmentation Algorithm Using Background Registration Technique / S.Y. Chien, S.Y. Ma, L. Chen // IEEE Transactions on Circuits and Systems for Video Technology 12. – 2002. – P. 577 – 586. 50. Kim, C. Fast and Automatic Video Object Segmentation and Tracking for Content-based Applications / C. Kim, J.N. Hwang // IEEE Trans. on Circuits and Systems for Video Tech. 12. – 2002. – P. 122 – 129. 51. Ahn, K.O. Design and Implementation of Edge Class for Image Analysis Algorithm Development based on Standard Edge. / K.O. Ahn, H.J. Hwang, O.S. Chae // Proc. of KISS Autumn Conference. – 2003. – P. 589 – 591. 146 52. Borgefors, G. Hierarchical Chamfer Matching: A Parametric Edge Matching Algorithm / G. Borgefors// IEEE Trans. on PAMI 10. – 1988. – P. 849 – 865 53. Canny, J. A Computational Approach to Edge Detection / J. Canny // IEEE Trans. on PAMI 8. – 1986. – P. 679 – 698 54. Szeliski, R Computer Vision: Algorithms and Applications / R. Szeliski // Springer Science & Business Media. – 2010. – P. 832. 55. Dodd, G. G. Computer vision and sensor-based robots / G. G. Dodd, L. Rossol // Springer. – 1979. – P. 353. 56. Garcia-Rodriguez, J. Robotic Vision: Technologies for Machine Learning and Vision Applications / J. Garcia-Rodriguez, A. M. Cazorla Quevedo // IGI Global. – 2013 – P. 535. 57. Kragic, D. Unifying Perspectives in Computational and Robot Vision / D. Kragic, V. Kyrki // Springer. – 2008. – P. 266 58. Aleksander, I. Artificial Vision for Robots / I. Aleksander // Springer US. – 1982. – P. 233 59. Muehlenfeld, E. Robot vision by a contour sensor with associative memory / E. Muehlenfeld //Pattern Recognition. – 1984. – Vol. 17. №1. – P. 169 – 176 60. Burel, G. Three-dimensional invariants and their application to object recognition / G. Burel, H. Hénocq // Signal Processing. – 1995. – Vol. 45. №1. – P. 1 – 22. 61. Kragic, D., Vision for robotic object manipulation in domestic settings / D. Kragic, M. Bjorkman, H. Christensen, J Eklundh // Robotics and Autonomous Systems. – 2005. – Vol 52. №1. – P. 85 – 100. 62. Lee, Y. A surface-based approach to 3-D object recognition using a mean field annealing neural network / Y. Lee, R. Park //Pattern Recognition. – 2002. Vol 35. №2 – P. 299-316. 63. Li, Z. Grasping and coordinated manipulation by a multifingered robot hand / Z. Li, P. Hsu , S. Sastry // The International Journal of Robotics Research. – 1989. – Vol. 8. № 4. – P. 33 – 50. 147 64. Pizlo, Z. Recognition of a solid shape from its single perspective image obtained by a calibrated camera / Z. Pizlo, K. Loubier// Pattern Recognition. – 1999. – Vol. 33. – P. 1675 – 1681. 65. Seitz, M. Towards autonomous robotic servicing: using an integrated handarm-eye system for manipulating unknown objects / M. Seitz // Robotics and Autonomous Systems. 1998. – Vol. 26. № 1. – P. 26, 23 – 42. 66. Unsalan, Cem. A model based approach for pose estimation and rotation invariant object matching / Cem. Unsalan // Pattern Recognition Letters. – 2007. – Vol. 28. – P. 49 – 57. 67. Nitzan, D. Programmable Industrial Automation / D. Nitzan, C.A. Rosen // Computers, IEEE Transactions on Computers. – 1976. – Vol 25. № 12. – P. 1259 – 1270 68. Nitzan, D. Three-Dimensional Vision Structure for Robot Applications / D. Nitzan //IEEE Trans. Pattern Analysis and Machine Intelligence. – 1988. – Vol. 10. №3. – P. 291 – 309. 69. Aylett, J.C. Predictive Computer Vision for Robotic Assembly / J.C. Aylett, R.B. Fisher, A.P. Fothergill // Journal of Intelligent and Robotic Systems. – 1988. – Vol. 1 №2. – 185 – 201. 70. Sensoren. URL: http://www.sensoren.ru (дата обращения: 25.11.2013). 71. Sick sensor intelligence. URL: http://www.sick-automation.ru/ (дата обращения: 25.11.2013). 72. Sensotec. URL: http://sensotek.ru/ (дата обращения: 25.11.2013). 73. Системы технического зрения. russia.com/documentation/vision/vision_brochure.pdf URL: (дата http://www.omronобращения: 25.11.2013). 74. Бубенников, А.В. Начертательная геометрия: Учеб. для вузов. – 3-е изд., перераб. и доп. / А.В. Бубенников – М.: Высш. шк., 1985. – 288с. ил. 75. Визильтер, Ю.В. Обработка и анализ изображений в задачах машинного зрения / Ю.В. Визильтер, С.Ю. Желтов, А.В. Бондаренко, М.В. Ососков, А.В. Моржин. – М.: Физматкнига, 2010. – 689 с. 148 76. Катыс, Г.П. Обработка визуальной информации / Г.П. Катыс. – М.: Машиностроение, 1990. — 320 с. 77. Марр, Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов / Д. Марр. – М.: Радио и связь, 1987. – 400 c. 78. Васильев, Д.В. Измерение сдвига сложных сигналов и обработка изображений в системах технического зрения / Д.В. Васильев. – М.: Изд. МФТИ, 2001. – 40 с. 79. Садыков, С.С. Методы и алгоритмы цифровой обработки изображений / С.С. Садыков. – Ташкент: УзНПО «Кибарнетика» АН РУз, 1992. – 296 c. 80. Анисимов, Б.В. Распознавание и цифровая обработка изображений: Учеб. пособие / Б. В. Анисимов, В. Д. Курганов, В. К. Злобин. – М.: Высш. шк., 1983. – 295 с. 81. Верхаген, К. Распознавание образов: состояние и перспективы / К. Верхаген, Р. Дейн, Ф. Грун. – М.: Радио и связь, 1985. – 104 с. 82. Бутаков, Е.А. Обработка изображений ЭВМ / Е.А. Бутаков, В.И. Островский, И.Л. Фадеев. – М.: Радио и связь, 1987. – 240 с. 83. Павлидис, Т. Алгоритмы машинной графики и обработки изображений: пер. с англ. / Т. Павлидис. – М.: Радио и связь, 1986 – 400 с. 84. Фурман, Я.А. Цифровые методы обработки и распознавания бинарных изображений / Я.А. Фурман. – Красноярск: изд-во Краснояр. Ун-та, 1992. – 248 с. 85. Прэтт, У. Цифровая обработка изображений: Пер. с англ. / У. Прэтт. – М.: Мир, 1982. – Кн. 2. – 480 с. 86. Садыков, С.С. Цифровая обработка и анализ изображений / С.С. Садыков. – Ташкент: НПО «Кибернетика» АН РУз, 1994. – 193 с. 87. Дегтярев, С.В. Методы цифровой обработки изображений: учеб. пос. Ч.1. / С.В. Дегтярев. – Курск: Курск. гос. техн. ун-т, 2001. – 167 с. 149 88. Абламейко, С.В. Обработка изображений: технология, методы, применение: Учеб. пос. / С.В. Абламейко, Д.М. Лагуновский. – М.: Амалфей, 2000. – 304 с. 89. Грузман, И.С. Цифровая обработка изображений в информационных системах. Учебное пособие. / И.С. Грузман, В.С. Киричук. – Новосибирск: НГТУ, 2000. – 160 с. 90. Гонсалес, Р. Цифровая обработка изображений / Р.Гонсалес, Р. Вудс. – М.: Техносфера, 2005. – 1072 с. 91. Сойфер, В.А. Методы компьютерной обработки изображений / В.А. Сойфер. – М.: Физматлит, 2003. – 784 с. 92. Дуда, Р. Распознавание образов и анализ сцен: пер. с англ. / Р. Дуда, П. Харт. – М.: Мир, 1976. – 511 с. 93. Обработка и анализ цифровых изображений с примерами на LabVIEW IMAQ Vision / Ю.В. Визильтер, С.Ю. Желтов, В.А. Князь и др. – М.: ДМК Пресс, 2007. – 464 с. 94. Otsu, N.A threshold selection method from gray-level histograms / N. Otsu // IEEE Trans. Syst., Man. and Cybern. – 1979. – v. SMC-9. – P. 62 – 66. 95. Фурман, Я.А. Введение в контурный анализ и его приложения к обработке изображений и сигналов / Я.А. Фурман. – M.: Физматлит, 2002. – 297 с. 96. Контурный анализ. URL: http://habrahabr.ru/post/118486/ (Дата обращения 10.03.2013). 97. Каратеодори, К., Конформное отображение: Пер. с англ. / К. Каратеодори, М. В. Келдыш. – М. – Л.: ОНТИ Государственное техникотеоретическое издательство, 1934. – 129 с. 98. Лаврентьев, М.А. Конформные отображения / М.А. Лаврентьев. – М. – Л.: Гостехиздат, 1946. – 160 c. 99. Грановская, Р.М. Восприятия и признаки формы / Р.М. Грановская, И.Я. Березная, А.И. Григорьева. – М.: Наука, 1981. – 208 с. 150 100. Путятин, Е.П. Обработка изображений в робототехнике / Е.П. Путятин, C.B. Аверин. – М.: Машиностроение, 1990. – 320 с. 101. Садыков, С.С. Методы выделения структурных признаков изображений / С.С. Садыков, В.Н. Кан, И.П. Самандаров. – Ташкент: Фан, 1990. – 104 с. 102. Фор, А. Восприятие и распознавание образов: Пер.с фр. / А. Фор, А.В. Серединский, Г.П. Катыс. – М.: Машиностроение, 1989. – 272 с. 103. Фишер, Р. От поверхностей к объектам. Машинное зрение и анализ трёхмерных сцен: Пер. с англ. / Р. Фишер. – М.: Радио и связь, 1993. — 288 с. 104. Научная библиотека избранных естественно-научных изданий. URL: http://sernam.ru/book_graph3d.php?id=52 (Дата обращения 10.03.2013). 105. Научная библиотека избранных естественно-научных изданий. URL: http://sernam.ru/book_graph3d.php?id=53 (Дата обращения 10.03.2013). 106. Макаров, А.О. Быстрые алгоритмы вычисления признаков на цифровых изображениях / А.О. Макаров, В.В. Старовойтов. – Минск, 2005. – 39 с. 107. Журавлев, Ю.И. Алгоритмы распознавания, основанные на вычислении оценок / Ю.И. Журавлев, В.В. Никифоров // Кибернетика – 1971. – Т. 3. – С. 1-11. 108. Журавлев, Ю.И. Распознавание. Математические методы. Программная система. Практические применения / Ю.И. Журавлев, В.В. Рязанов, О.В. Сенько. – М.: Фазис, 2006. – 147 с. 109. Jackins, C.L. Octrees and Their Use in Representing Three-dimensional Objects / C.L. Jackins, S.L. Tanimoto // CGIP. – 1980. –Vol. 14. – P. 249 – 270. 110. Noborio, H. Construction of the Octree Approximating Three-dimensional Objects by Using Multiple Views / H. Noborio, S. Fukuda, S. Arimoto // IEEE Trans. PAMI. – 1988. – Vol. 10 №. 6 – P. 769 – 782. 111. Chien, C.H., Volume Surface Octrees for The Representation of 3-D Objects / C.H. Chien, J.K. Aggarwal // CGIP. – 1986. – Vol. 36. – P. 100 – 113. 151 112. Цыганков, М.А. Эффективная визуализация объемов с помощью октантных деревьев / М.А. Цыганков // Программирование. – 1999. – № 3. – С. 32 – 42. 113. Волобой, А.Г. Метод компактного хранения октарного дерева в задаче трассировки лучей / А.Г. Волобой // Программирование. – 1992. – № 1. – С. 21 – 27. 114. Вяткин, С.И. Эффективные растеризационные методики с рекурсивным делением плоскости изображения и объектного пространства / С.И. Вяткин // URL: http://www.ixbt.com/video/conv-surfaces.shtml (дата обращения 15.01.2014). 115. Терехин, А.В. Метод формирования вектора признаков для идентификации проекций реальных трехмерных объектов / А.В. Терехин // Наука и современность – 2013: Сб. мат. XX МНПК. – Новосибирск, 20 февраля 2013. – С. 167 – 172. 116. Терехин, А.В. Алгоритм вычисления диагональных признаков формы / А.В. Терехин // Алгоритмы, методы и системы обработки данных. – 2012 – № 4 (22). – С. 129 – 138. 117. Патент на полезную модель №135165. Устройство вычисления диагональных признаков формы плоских фигур / Терехин А.В.; зарег. в Государственном реестре полезных моделей РФ 27.11.2013, Бюл. № 33. 118. Терехин, А.В. Метод идентификации плоских геометрических фигур с использованием диагональных признаков формы и D-функции / А.В. Терехин // Перспективы развития информационных технологий: сб. мат. XI МНПК. – Новосибирск, 28 февраля 2013. – С. 58 – 62. 119. Терехин, А.В. Технология классификации плоских геометрических фигур с использованием диагональных признаков формы / А.В. Терехин // Перспективы развития информационных технологий: Сб. мат. XI МНПК. – Новосибирск, 28 февраля 2013. – С. 62 – 66. 152 120. Садыков, С.С. Алгоритм классификации выпуклых фигур с использованием диагональных признаков формы / С.С. Садыков, А.В. Терехин // Вестник КГУ им. Н.А. Некрасова. – 2013. – №6. – С. 13-17. 121. Садыков, С.С. Классификация геометрических фигур, вписанных в квадрат, по их форме с использованием диагональных признаков / С.С. Садыков, А.В. Терехин // Прикаспийский журнал. Управление и высокие технологии. – 2014. – №1. – С. 81-91. 122. Терехин, А.В. Алгоритм классификации выпуклых плоских фигур с помощью диагональных коэффициентов формы объекта / А.В. Терехин // Автоматизация и современные технологии. – 2014. – №5. – С. 35-41. 123. Терехин, А.В. Подход к классификации плоских геометрических фигур вписанных в квадрат, по их форме на основе диагональных отрезков [Электронный ресурс] / А.В. Терехин // Современные проблемы науки и образования. – 2013. – № 6. – Режим доступа: www.science-education.ru/11311535. 124. Садыков, С.С. Распознавание и классификация не наложенных объектов методом морфологического водораздела по диагональным признакам формы / С.С. Садыков, А.В. Терехин // Распознавание – 2013: сб. мат XI МНТК. – Курск, 2013 – С. 93 – 96. 125. Садыков, С.С. Определение диапазонов значений признаков формы плоских геометрических фигур при их произвольном расположении в области сцены / С.С. Садыков, А.В. Терехин, К.С. Захаров// Надежность и качество – 2013: тр. межд. симп. – Пенза: изд. ПГУ. – С. 343 – 345. 126. Терехин, А.В. Алгоритм формирования косоугольной проекции трехмерного объекта по модели окто-дерева / А.В. Терехин, С.В. Савичева // Алгоритмы, методы и системы обработки данных. – 2013. – № 3 (25). – С. 74 – 81. 127. Терехин, А.В. Концепция распознавания произвольно расположенных трехмерных объектов по двум изображениям проекций / А.В. 153 Терехин // Алгоритмы, методы и системы обработки данных. – 2014. – № 2 (27). – С. 29-40. 128. Терехин, А.В Инновационный подход к распознаванию трехмерных объектов на промышленных сборочных конвейерах с использованием двух камер / А.В. Терехин // Актуальные проблемы развития науки и образования: сб. научных трудов по мат. МНПК. В 7 частях / «АР-Консалт» – Москва, 2014. – ч. IV, С. 44 – 45. 129. Терехин, использованием двух А.В. Распознавание камер / А.В. трехмерных Терехин // объектов Радиотехнические с и телекоммуникационные системы. – 2013. – № 4. – С. 57 – 62. 130. Терехин, А.В. Распознавание трехмерных объектов по изображениям двух проекций / А.В. Терехин // Информационные технологии. – 2014. – №4. – С. 43 – 48. 131. Sadykov, S.S. Identification of three-dimensional objects by computing estimates based on diagonal features of forms and octree / S.S. Sadykov, A.V. Terekhin. // Pattern Recognition and Image Analysis: New Information Technologies (PRIA-11-2013) : The 11-th International Conference. – Samara: IPSI RAS, 2013. – Vol. 2. – P. 721 – 723. 132. Терехин, А.В. Распознавание нескольких не наложенных трехмерных объектов по двум снимкам / А.В. Терехин // "Наука и образование в развитии промышленной, социальной и экономической сфер регионов России" "Регионы России - 2014": сб. мат. VI Всероссийской межвузовской научной конференции. – Муром, 2014. – С. 415. 133. Терехин, А.В. Метод описания эталонов трехмерных объектов по форме их проекций и признакам отверстий / А.В. Терехин // Алгоритмы, методы и системы обработки данных. – 2013. – № 1 (23). – С. 65 – 71. 134. Садыков, С.С. Технология формирования эталонов трехмерных объектов для их распознавания / С.С. Садыков, А.В. Терехин, А.О. Кравченко // Надежность и качество – 2012: тр. межд. симп. – Пенза: изд. ПГУ. – C. 373 – 376. 154 135. Свидетельство о государственной регистрации программы для ЭВМ № 2013615189 РФ. Система идентификации проекций реальных трехмерных объектов с использованием диагональных признаков формы // Терехин А.В.; зарег. в реестре прогр. для ЭВМ 30.03.2013. 136. Свидетельство о государственной регистрации программы для ЭВМ № 2013661839 РФ. Система распознавания реальных трехмерных объектов методом вычисления оценок с использованием диагональных признаков формы и моделей окто-деревьев // Терехин А.В.; зарег. в реестре прогр. для ЭВМ 17.12.2013. 137. Садыков, С.С. Реализация и исследование системы распознавания трехмерных объектов с использованием видео-датчиков, расположенных под углом / С.С. Садыков, А.В. Терехин, Г.А. Григорьев // V Всероссийские научные Зворыкинские чтения Научный потенциал молодежи - будущее России: сб. тез. докл. – Муром, 2013 – С. 778 – 779. 138. Садыков, С.С. Сравнительный анализ алгоритмов распознавания объектов на примере СТЗ / С.С. Садыков, А.В. Терехин, Д.А. Смирнов // V Всероссийские научные Зворыкинские чтения Научный потенциал молодежи будущее России: сб. тез. докл. – Муром, 2013 – C. 787 – 788. 139. Терехин, А.В Исследование алгоритма вычисления оценок при распознавании проекций тестовых трехмерных объектов / А.В. Терехин // Актуальные проблемы развития науки и образования: Сб. науч. тр. по матер. МНПК. В 7 частях. – Москва, 2014. – ч. IV, С. 89– 90. 140. Терехин, А.В. Распознавание объектов методом вычисления оценок с использованием диагональных признаков формы / А.В. Терехин // Известия высших учебных заведений. Поволжский регион. Технические науки. – 2014. – №1. – С. 17 – 25. 141. Садыков, С.С. Экспериментальное исследование алгоритмов распознавания бинарных изображений на тестовых проекциях трехмерных объектов / С.С. Садыков, А.В. Терехин // Надежность и качество сложных систем. – 2014. – №4. – С. 48 – 52. 155 142. Садыков, С.С. Система автоматического распознавания произвольно расположенных трехмерных объектов / С.С. Садыков, А.В. Терехин // Динамика сложных систем XXI век. – 2015. - №1. – С. 3-6. 156 ПРИЛОЖЕНИЕ 1 Патент Копия патента 157 ПРИЛОЖЕНИЕ 2 Свидетельства о регистрации программы на ЭВМ Копии свидетельств о регистрации программы для ЭВМ 158 159 ПРИЛОЖЕНИЕ 3 Копии актов о внедрении 160 161 162 ПРИЛОЖЕНИЕ А Изображения и таблицы к главе 1 Рисунок А1 Диаграмма применения САР в производственном процессе Пульт управления ЦВМ Блок коммутации Блок управления приводами Механическая рука Блок управления производственным оборудованием Производственное оборудование, обслуживаемое роботом Блок памяти Рисунок А2 – Структурная схема робота «Рука» САР ВД ОМ ОС Рисунок А3 Схема работы САР с одной камерой 163 САР ВД1 ВД2 ОМ ОС Рисунок А4 Схема работы двухкамерной САР Таблица А1 Характеристики датчика BVS OI Тип Принцип действия Разрешение Размеры поля зрения Тип излучателя (подсветка) Диапазон работы Выходной сигнал Интерфейс Настройка Температура эксплуатации Питание Материал корпуса Способ подключения датчик распознавания объектов CMOS датчик изображения 0.08.. 3 мм (в зависимости от диапазона работы) от 18 x 12 мм до 640 x 480 мм (в зависимости от диапазона работы) LED красный до 1000 мм 3xPNP/NPN Ethernet 10 Base-T / 100 Base-TX с помощью ПК с программным обеспечением ConVis® Software -10.. 55 °C DC пластик разъем Таблица А2 Технические характеристики 3D камеры IFM Electronic серии O3D2 Тип Принцип действия Разрешение Апертурный угол Тип излучателя (подсветка) Диапазон работы Выходной сигнал Интерфейс Температура эксплуатации Питание Материал корпуса 3D камера на основе датчика расстояния, технология PMD 64x48 точек 30° x 40° (горизонтальный x вертикальный) LED инфракрасный до 6500 мм 2xPNP, 4.. 20 мА или 0.. 10 В Ethernet 10 Base-T / 100 Base-TX с помощью 2 программирующих кнопок и 10сегментного дисплея или с помощью ПК с программным обеспечением E3D200 или E3D201 -10.. 50 °C DC металл Способ подключения разъем Настройка 164 4 1 3 2 5 Рисунок А5 Состав системы машинного зрения на базе Ranger: 1-3 – 2D лазеры, 4 – видео датчик, 5 – объект Таблица А3 Технические характеристики 3D камер SICK Технические параметры камера Ranger E/D Контроль качества древесины, контроль качества керамических плит, измерение размеров и качества фруктов, верификация профиля шин, контроль железнодорожных шпал, контроль профиля дороги камера Color Ranger E Контроль качества древесины, контроль качества керамических плит, измерение размеров и качества фруктов, верификация профиля шин, контроль железнодорожных шпал, контроль профиля дороги Габаритные размеры 125 х 52 х 52 мм 125 х 52 х 52 мм Напряжение питания Класс защиты Диапазон рабочих температур Стандарты соответствия Максимальная ширина профиля Разрешение 3D профиля Цветное разрешение 24 ± 20% В пост. тока IP 54 (IP65) 24 ± 20% В пост. тока IP 20 0...50°C 0...45°C СЕ, ГОСТ-Р СЕ, ГОСТ-Р 420х163х105 мм 295х163х105 мм 24 ± 20% В пост. тока IP 65 0...40°C (-30...40°C подогревом) СЕ, ГОСТ-Р Определяется объективом Определяется объективом 1024/1536 точек 1536/512 точек - 1536/512 точек 3 х 1536//512 точек (RGB) Область сканирования Определяется объективом Определяется объективом 0,4/0,2/0,05 мм 250х1200 / 250х600 50х150 мм Подсветка Внешняя лазерная Внешняя лазерная светодиодная Применения и Переключаемые выходы До 35000 профилей в секунду (Ranger E) или 1000 профилей в секунду (Ranger D) 3 х NPN/PNP Интерфейс RS 485, Gigabit Ethernet RS 485, Gigabit Ethernet Инфракрасный фильтр, мультисканирование (3D профиль, 2D, рассеивание лазера) Свободно программируемый, среда программирования С++ Инфракрасный фильтр, мультисканирование (3D профиль, цветное 2D, рассеивание лазера) Свободно программируемый, среда программирования С++ Производительность Опции Оценочные процедуры/программные режимы камера Ruler Сортировка бревен, контроль качества древесины, контроль геометрии железнодорожных колес, измерение объема сыпучего материала, сортировка паллет / с / Встроенная (лазерная) До 35000 профилей в секунду До 10000 профилей в секунду 3 х NPN/PNP 3 х B (NPN/PNP) RS 485, Gigabit Ethernet, Энкодер Измерение рассевания лазера, лазер 3В, подогрев, Свободно программируемый, среда программирования С++ 165 Технические параметры камера Ranger E/D или С PC программирования Интерфейс пользователя для камера Color Ranger E или С PC для программирования 0 1 2 3 камера Ruler PC программирования для Рисунок А6 - Квадратная область на плоскости ху, разделенная на нумерованные квадранты, и соответствующий узел квадро-дерева с четырьмя элементами данных Объект 0 1 2 3 0 1 2 3 3 0 а б 1 2 3 Ри сунок А7 - Квадратная область плоскости ху с двумя уровнями деления на квадранты (а) и соответствующее представление в форме квадро-дерева (б) 166 14 11 9 15 12 10 13 5 4 6 1 2 а б 1 2 5 3 6 4 7 13 8 9 14 10 15 11 12 в Рисунок А8 – Структура окто-дерева 167 ПРИЛОЖЕНИЕ Б Примеры изображений ортогональных проекций тестовых и реальных трехмерных объектов к главам 3, 4 Примеры изображений проекций тестовых трехмерных объектов Рисунок Б.1. Проекции тестового объекта № 1. Рисунок Б.2. Проекции тестового объекта № 2. 168 Рисунок Б.3. Проекции тестового объекта № 3. Сформированы аналогичные изображения ортогональных проекций и для тестовых объектов №4-8. Примеры изображений проекций реальных трехмерных объектов (деталей водопроводного крана) Рисунок Б4 Проекции реального объекта № 1 169 Рисунок Б5 Проекции реального объекта № 2 Рисунок Б6 Проекции реального объекта № 3 Сформированы аналогичные изображения ортогональных проекций и для реальных трехмерных объектов №4-8 Примеры изображений проекций реальных трехмерных объектов (радиодеталей) 170 Рис. Б7 Проекции реального объекта (радиодетали) № 1 Рис. Б8 Проекции реального объекта (радиодетали) № 2 171 Рис. Б9 Проекции реального объекта (радиодетали) № 3 Сформированы аналогичные изображения ортогональных проекций и для реальных трехмерных объектов радиодеталей №4-6 Рисунок Б10 Экзаменационная пара тестовых трехмерных объектов №351 172 Рисунок Б11 Экзаменационная пара тестовых трехмерных объектов №906 Рисунок Б12 Экзаменационная пара реальных трехмерных объектов №1980 Рисунок Б13 Экзаменационная пара реальных трехмерных объектов №786 173 Рисунок Б14 Экзаменационная пара проекций реальных трехмерных объектов № 1678 Рисунок Б15 Экзаменационная пара реальных трехмерных объектов № 1850 Рисунок Б16 Экзаменационная пара реальных трехмерных объектов № 650 174 Рисунок Б17 Экзаменационная пара реальных трехмерных объектов № 1113 Рисунок Б18 Экзаменационная пара реальных трехмерных объектов № 1834 175 Рисунок Б19 Пример выделения КТ для ортогональной проекции №4 одного из рассматриваемых трехмерных объектов 176 ПРИЛОЖЕНИЕ В Диагональные признаки формы ортогональных проекций тестовых и реальных трехмерных объектов к главам 3, 4 Примеры таблиц признаков ортогональных проекций тестовых трехмерных объектов Таблица В1 Признаки формы проекций тестового трехмерного объекта №1 Проекция ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО 4 1 1 0,129 0,938 0,871 0,935 0,839 0,903 0,903 0,968 2 0,533 0,128 0,889 0,386 0,829 0,685 0,794 0,088 0,864 3 0,914 0,12 0,945 0,91 0,881 0,895 0,925 0,925 0,837 4 1 0,129 0,938 0,871 0,935 0,839 0,903 0,903 0,968 5 0,533 0,128 0,889 0,386 0,829 0,685 0,794 0,088 0,864 6 0,914 0,12 0,945 0,91 0,881 0,895 0,925 0,925 0,837 Таблица В2 Признаки формы проекций тестового трехмерного объекта №2 Проекция ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО 4 1 0,941 0,121 0,93 0,849 0,909 0,818 0,909 0,879 0,909 2 0,97 0,123 0,941 0,892 0,693 0,861 0,923 0,923 0,463 3 0,971 0,116 0,943 0,927 0,913 0,927 0,927 0,927 0,899 4 0,941 0,121 0,93 0,849 0,909 0,818 0,909 0,879 0,909 5 0,97 0,123 0,941 0,892 0,693 0,861 0,923 0,923 0,463 6 0,971 0,116 0,943 0,927 0,913 0,927 0,927 0,927 0,899 Таблица В3 Признаки формы проекций тестового трехмерного объекта №3 Проекция ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО 4 1 0,354 0,077 0,948 0,69 0,899 0,69 0,889 0,69 0,908 2 0,175 0,138 0,991 0,928 0,948 0,908 0,948 0,948 0,948 3 0,576 0,093 0,933 0,905 0,841 0,897 0,919 0,912 0,762 4 0,347 0,079 0,952 0,904 0,707 0,904 0,707 0,904 0,707 5 0,168 0,137 0,992 0,947 0,963 0,947 0,954 0,947 0,973 6 0,576 0,093 0,933 0,905 0,841 0,897 0,919 0,912 0,762 Аналогичные таблицы рассчитаны и для тестовых объектов №4-8 Примеры таблиц признаков ортогональных проекций реальных трехмерных объектов Таблица В4 Признаки формы проекций реального трехмерного объекта №1 177 № проекции ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО 4 1 0,632 0,017 0,862 0,762 0,632 0,773 0,614 0,752 0,649 2 0,921 0,014 0,741 0,686 0,704 0,691 0,711 0,68 0,697 3 0,921 0,014 0,741 0,686 0,704 0,691 0,711 0,68 0,697 4 0,632 0,017 0,862 0,762 0,632 0,773 0,614 0,752 0,649 5 0,921 0,014 0,741 0,686 0,704 0,691 0,711 0,68 0,697 6 0,921 0,014 0,741 0,686 0,704 0,691 0,711 0,68 0,697 Таблица В5 Признаки формы проекций реального трехмерного объекта №2 № проекции ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО 4 1 0,455 0,021 0,935 0,862 0,851 0,852 0,858 0,871 0,844 2 0,987 0,013 0,728 0,715 0,705 0,707 0,713 0,723 0,697 3 0,987 0,013 0,728 0,715 0,705 0,707 0,713 0,723 0,697 4 0,455 0,021 0,935 0,862 0,851 0,852 0,858 0,871 0,844 5 0,987 0,013 0,728 0,715 0,705 0,707 0,713 0,723 0,697 6 0,987 0,013 0,728 0,715 0,705 0,707 0,713 0,723 0,697 Таблица В6 Признаки формы проекций реального трехмерного объекта №3 № проекции ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО 4 1 0,836 0,014 0,791 0,786 0,766 0,771 0,745 0,801 0,788 2 0,908 0,014 0,746 0,708 0,702 0,689 0,694 0,727 0,711 3 0,908 0,014 0,746 0,708 0,702 0,689 0,694 0,727 0,711 4 0,836 0,014 0,791 0,786 0,766 0,771 0,745 0,801 0,788 5 0,908 0,014 0,746 0,708 0,702 0,689 0,694 0,727 0,711 6 0,908 0,014 0,746 0,708 0,702 0,689 0,694 0,727 0,711 Аналогичные таблицы рассчитаны и для реальных объектов №4-8 178 ПРИЛОЖЕНИЕ Г Статистические данные к главе 3 Таблица Г1 Величина Евклидова расстояния между значениями диагональных признаков формы сгенерированных изображений фигуры «квадрат» и вычисленными вручную № генерации Евклидово расстояние ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 1 0 0,00229 0,02618 0,04054 0,02703 0,05405 0,02703 0,02703 0,02703 2 0 0,00229 0,02618 0,04054 0,02703 0,05405 0,02703 0,02703 0,02703 3 0 0,00229 0,02693 0,06033 0,0327 0,05405 0,02703 0,02703 0,02703 4 0 0,00229 0,03274 0,03033 0,0127 0,05405 0,02703 0,02703 0,02703 5 0 0,00301 0,02618 0,04054 0,02703 0,04 0,04667 0,04 0,04 6 0 0,00229 0,01314 0,02703 0,01351 0,02703 0,02703 0,02703 0 7 0 0,00229 0,02618 0,05405 0,02703 0,05405 0,02703 0,05405 0,02703 8 0 0,00229 0,02618 0,04054 0,02703 0,05405 0,02703 0,02703 0,02703 9 0 0,00229 0,02618 0,06033 0,0327 0,05405 0,02703 0,02703 0,02703 10 0 0,00229 0,02618 0,03033 0,0127 0,05405 0,02703 0,02703 0,02703 … … … … … … … … … … 2000 0 0,00229 0,02618 0,04054 0,02703 0,05405 0,02703 0,02703 0,02703 Таблица Г2 Величина Евклидова расстояния между значениями диагональных признаков формы сгенерированных изображений фигуры «прямоугольник» и вычисленными вручную № генерации Евклидово расстояние ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 1 0,00581 0,00148 0,02026 0,03891 0,02843 0,05289 0,03689 0,02493 0,01996 2 0,00982 0,00137 0,02181 0,0615 0,03712 0,03349 0,04562 0,08952 0,02861 3 0,00982 0,00137 0,01338 0,03615 0,02882 0,0644 0,02025 0,0079 0,0374 4 0,00982 0,00137 0,00861 0,03066 0,02882 0,05342 0,0374 0,0079 0,02025 5 0,00982 0,00137 0,01204 0,03349 0,02861 0,03349 0,02861 0,03349 0,02861 6 0,00982 0,00137 0,01787 0,03349 0,02861 0,03349 0,02861 0,03349 0,02861 7 0,00982 0,00137 0,01787 0,03893 0,02861 0,03349 0,02861 0,04438 0,02861 8 0,00982 0,00137 0,01468 0,02516 0,02025 0,02516 0,02025 0,02516 0,02025 9 0,013 0,00181 0,0231 0,02802 0,03411 0,03349 0,03962 0,02255 0,02861 10 0,00982 0,00137 0,0231 0,01787 0,0475 0,02861 0,03349 0,06151 0,02861 … … … … … … … … … … 2000 0,00982 0,00137 0,0231 0,03349 0,02861 0,02861 0,03349 0,03349 0,02861 Таблица Г3 Величина Евклидова расстояния между значениями диагональных признаков формы сгенерированных изображений фигуры «прямоугольник» и вычисленными вручную № генерации Евклидово расстояние ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 1 0,00033 0,00029 0,00536 0,00406 0,0109 0,01522 0,00611 0,00415 0,01765 2 0,01064 0,00001 0,01304 0,01217 0,01718 0,0068 0,01654 0,01718 0,01718 3 0,01064 0,00001 0,00027 0,01111 0,01127 0,01148 0,0327 0,00449 0,01806 179 4 0,00033 0,00029 0,0046 0,0074 0,00647 0,00338 0,01719 0,0042 0,01715 5 0,00033 0,00029 0,00536 0,00961 0,0109 0,02633 0,00611 0,00415 0,01765 6 0,00114 0,00078 0,00695 0,00605 0,00697 0,01071 0,00238 0,00359 0,01753 7 0,00033 0,00029 0,00457 0,00347 0,02182 0,01469 0,00675 0,02593 0,01771 8 0,00033 0,00029 0,00756 0,01079 0,01127 0,0005 0,02108 0,00449 0,01806 9 0,00033 0,00029 0,00017 0,01079 0,01127 0,0005 0,02108 0,00449 0,01806 10 0,00906 0,0005 0,0024 0,00438 0,01718 0,00431 0,00546 0,01718 0,01718 … … … … … … … … … … 2000 0,00033 0,00029 0,00536 0,00961 0,0109 0,02633 0,00611 0,00415 0,01765 Таблица Г4 Величина Евклидова расстояния между значениями диагональных признаков формы сгенерированных изображений фигуры «круг» и вычисленными вручную № генерации Евклидово расстояние ПКФ КПП ДКФ КД1 КД2 КДО1 КДО2 КДО3 КДО4 1 0 0,00111 0,01728 0,01429 0,0322 0,02554 0,02018 0,00305 0,04422 2 0 0,00111 0,01663 0,00944 0,00944 0,00944 0,00944 0,00944 0,00944 3 0 0,00111 0,01438 0,00017 0,00017 0,00553 0,00587 0,00587 0,00553 4 0 0,00111 0,00831 0,01166 0,01166 0,01745 0,00587 0,00587 0,01745 5 0 0,00111 0,01532 0,00944 0,00944 0,00944 0,00944 0,00944 0,00944 6 0,00012 0,00083 0,01854 0,0152 0,00357 0,00944 0,00229 0,02096 0,00944 7 0 0,00111 0,01273 0,00017 0,00017 0,00553 0,00587 0,00587 0,00553 8 0 0,00111 0,01663 0,00944 0,00944 0,00944 0,00944 0,00944 0,00944 9 0 0,00111 0,01273 0,00017 0,00017 0,00553 0,00587 0,00587 0,00553 10 0 0,00111 0,0142 0,01382 0,01382 0,01382 0,01382 0,01382 0,01382 … … … … … … … … … … 2000 0 0,00111 0,01273 0,01166 0,01166 0,01745 0,00587 0,00587 0,01745 Некоторые результаты исследований алгоритмов распознавания проекций тестовых трехмерных объектов Таблица Г5 Результаты распознавания проекций тестового трехмерного объекта №2 алгоритмом ксредних Количество эталонов/вероятность распознавания № об. 2 № пр. Колво ген. 1 Вер. Расп 2000 1 Колво ош. 1592 Вер. Расп. 0,20409 2 Колво ош. 1388 Вер. Расп 0,30614 3 Колво ош. 1184 Вер. Расп 0,40818 4 Колво ош. 1143 2 2000 3 Вер. Расп 0,42859 5 Колво ош. 1143 354 0,82287 0 1 0 1 0 1 0 1 2000 1605 0,19762 1407 0,29643 1210 0,39524 1170 0,415 1170 0,415 4 2000 1603 0,1984 1405 0,2976 1206 0,3968 1167 0,41664 1167 0,41664 5 2000 315 0,84252 0 1 0 1 0 1 0 1 6 2000 1606 0,19701 1409 0,29552 1212 0,39402 1173 0,41372 1173 0,41372 0,42859 180 Рисунок Г1 График распознавания проекций тестового трехмерного объекта №2 алгоритмом к-средних с использованием различного количества эталонов Таблица Г6 Результаты распознавания проекций тестового трехмерного объекта №3 алгоритмом ксредних Количество эталонов/вероятность распознавания № об. 3 № пр. Колво ген. 1 Вер. Расп 2000 1 Колво ош. 398 Вер. Расп. 0,80077 2 Колво ош. 262 Вер. Расп 0,86919 3 Колво ош. 46 Вер. Расп 0,97701 4 Колво ош. 0 2 2000 3 Вер. Расп 1 5 Колво ош. 0 968 0,51581 552 0,72419 499 0,75073 498 0,75105 496 0,75201 2000 1781 0,10949 1673 0,16345 1658 0,17091 1657 0,17127 1654 0,17296 4 2000 368 0,81604 244 0,87801 87 0,95629 0 1 0 1 5 2000 930 0,53486 536 0,73214 499 0,75058 497 0,75163 495 0,75271 6 2000 1769 0,11569 1660 0,16984 1659 0,1705 1657 0,17141 1655 0,17251 1 181 Рисунок Г2 График распознавания проекций тестового трехмерного объекта №3 алгоритмом к-средних с использованием различного количества эталонов Аналогичные таблицы и графики рассчитаны и построены и для тестовых объектов №4-8. Таблица Г7 Результаты распознавания проекций тестового трехмерного объекта №2 методом ближайших соседей. Количество эталонов/вероятность распознавания № об. 2 № пр. Колво ген. 1 Вер. Расп 2000 1 Колво ош. 1594 Вер. Расп. 0,2031 2 Колво ош. 1472 Вер. Расп 0,264 3 Колво ош. 1310 Вер. Расп 0,3452 4 Колво ош. 1228 2 2000 3 Вер. Расп 0,3858 5 Колво ош. 1228 409 0,7955 279 0,8604 0 1 0 1 0 1 2000 1600 0,2 1480 0,26 1320 0,3401 1240 0,3801 1240 0,3801 4 2000 1592 0,2038 1470 0,265 1307 0,3465 1226 0,3872 1226 0,3872 5 2000 388 0,8059 291 0,8545 0 1 0 1 0 1 6 2000 1595 0,2027 1473 0,2635 1311 0,3446 1230 0,3852 1230 0,3852 0,3858 182 Рисунок Г3 График распознавания проекций тестового трехмерного объекта №2 методом ближайших соседей с использованием различного количества эталонов Таблица Г8 Результаты распознавания проекций тестового объекта №3 методом ближайших соседей. Количество эталонов/вероятность распознавания № об. 3 № пр. Колво ген. 1 Вер. Расп 2000 1 Колво ош. 414 Вер. Расп. 0,7931 2 Колво ош. 350 Вер. Расп 0,8252 3 Колво ош. 269 Вер. Расп 0,8654 4 Колво ош. 188 2 2000 3 Вер. Расп 0,9062 5 Колво ош. 0 968 0,516 680 0,6601 498 0,7508 497 0,7517 495 0,7524 2000 1831 0,0843 1741 0,1296 1735 0,1324 1697 0,1517 1695 0,1527 4 2000 411 0,7946 387 0,8064 300 0,85 193 0,9034 0 1 5 2000 965 0,5173 602 0,6991 499 0,7506 496 0,7519 494 0,753 6 2000 1840 0,0802 1751 0,1243 1734 0,1332 1696 0,1519 1694 0,153 1 183 Рисунок Г4 График распознавания проекций тестового трехмерного объекта №3 методом ближайших соседей с использованием различного количества эталонов Аналогичные таблицы и графики рассчитаны и построены и для тестовых объектов №4-8 Таблица Г9 Результаты распознавания проекций тестового объекта №2 алгоритмом вычисления оценок. Количество эталонов/вероятность распознавания № об. 2 № пр. Колво ген. 1 Вер. Расп 2000 1 Колво ош. 1574 Вер. Расп. 0,21279 2 Колво ош. 1362 Вер. Расп 0,31919 3 Колво ош. 1149 Вер. Расп 0,42558 4 Колво ош. 1106 2 2000 3 Вер. Расп 0,44686 5 Колво ош. 936 362 0,81897 0 1 0 1 0 1 0 1 2000 1608 0,19623 1411 0,29435 1215 0,39246 1176 0,41208 1019 0,49058 4 2000 1620 0,19005 1430 0,28508 1240 0,3801 1202 0,39911 1050 0,47513 5 2000 309 0,84557 0 1 0 1 0 1 0 1 6 2000 1614 0,19299 1421 0,28949 1228 0,38598 1189 0,40528 1035 0,48248 0,53198 Рисунок Г5 График распознавания проекций тестового трехмерного объекта №2 алгоритмом вычисления оценок с использованием различного количества эталонов Таблица Г10 Результаты распознавания проекций тестового объекта №3 алгоритмом вычисления оценок № об. № пр. Колво Количество эталонов/вероятность распознавания 1 2 3 4 5 184 ген. 3 1 2000 Колво ош. 330 0,83512 Колво ош. 185 0,90763 Колво ош. 31 2 2000 3 0,9844 Колво ош. 0 999 0,50032 696 0,65186 500 0,75006 2000 1712 0,144 1671 0,1647 1660 4 2000 360 0,8202 267 0,86672 5 2000 971 0,51434 541 6 2000 1757 0,12158 1664 Вер. Расп 1 Колво ош. 0 497 0,75174 456 0,77203 0,17019 1618 0,19107 1614 0,19286 40 0,9802 0 1 0 1 0,72967 499 0,75056 498 0,75109 455 0,77234 0,168 1658 0,17088 1617 0,19153 1616 0,19221 Вер. Расп. Вер. Расп Вер. Расп Вер. Расп 1 Рисунок Г6 График распознавания проекций тестового трехмерного объекта №3 алгоритмом вычисления оценок с использованием различного количества эталонов Аналогичныетаблицы и графики рассчитаны и построены и для всех остальных объектов. Вероятности распознавания пар проекций тестовых трехмерных объектов Таблица Г11 Таблица результатов распознавания пар проекций тестового трехмерного объекта № 2 № объекта 2 № проекции Количествово генераций Количество ошибок Вероятность верного распознавания 1 2000 0 1 2 2000 0 1 3 2000 0 1 4 2000 0 1 5 2000 0 1 6 2000 0 1 Таблица Г12 185 Таблица результатов распознавания пар проекций тестового трехмерного объекта № 3 № объекта № проекции Количествово генераций Количество ошибок Вероятность верного распознавания 1 2000 0 1 2 2000 0 1 3 2000 0 1 4 2000 0 1 5 2000 0 1 6 2000 0 1 3 Аналогичные таблицы рассчитаны и для всех остальных объектов Результаты распознавания трехмерных объектов на парах тестовых изображений с несколькими трехмерными объектами на сцене Таблица Г13 Результаты распознавания тестовых трехмерных объектов на парах изображений с 5 объектами на сцене № экзаменац. Пары снимков 1 5 Кол-во полученных пар проекций 5 2 5 5 0 0,99819 3 5 5 0 0,99804 4 5 5 0 0,9982 5 5 5 0 … … … … 0,99847 … 800 5 5 0 0,99849 Кол-во объектов Кол-во ошибок Ср. вер. Расп. 0 0,99891 Таблица Г14 Результаты распознавания тестовых трехмерных объектов на парах изображений с 6 объектами на сцене № экзаменац. Пары снимков Кол-во объектов на сцене Кол-во полученных пар проекций Кол-во ошибок Ср. вер. Расп. 1 6 6 0 0,98037 2 6 6 0 0,98691 3 6 6 0 0,98772 4 6 6 0 0,98376 5 6 6 0 … … … … 0,98871 … 600 6 6 0 0,98614 Таблица Г15 Результаты распознавания тестовых трехмерных объектов на парах изображений с 7 объектами на сцене 186 № экзаменац. Пары снимков Кол-во объектов Кол-во полученных пар проекций Кол-во ошибок Ср. вер. Расп. 1 7 7 0 0,99827 2 7 7 0 0,99816 3 7 7 0 0,99847 4 7 7 0 0,99888 5 7 7 0 … … … … 0,99891 … 500 7 7 0 0,99806 Таблица Г16 Результаты распознавания тестовых трехмерных объектов на парах изображений с 8 объектами на сцене № экзаменац. Пары снимков Кол-во объектов Кол-во полученных пар проекций Кол-во ошибок Ср. вер. Расп. 1 8 8 0 0,99857 2 8 8 0 0,99886 3 8 8 0 0,99808 4 8 8 0 0,99861 5 8 8 0 … … … … 0,99813 … 200 8 8 0 0,99896 187 ПРИЛОЖЕНИЕ Д Статистические данные к главе 4 Таблица Д1 Результаты распознавания проекций реального трехмерного объекта №1 № РТО 1 № пр. Кол-во ген. 1 Орт. проекция Орт. + Кос. проекции Кол-во ош. Вер. Расп Кол-во ош. Вер. Расп 2000 334 0,83297 0 1 2 2000 151 0,92427 0 1 3 2000 143 0,92874 0 1 4 2000 335 0,83262 0 1 5 2000 146 0,9268 0 1 6 2000 142 0,92901 0 1 Таблица Д2 Результаты распознавания проекций реального трехмерного объекта №2 № РТО 2 № пр. Кол-во ген. 1 Орт. проекция Орт. + Кос. проекции Кол-во ош. Вер. Расп Кол-во ош. Вер. Расп 2000 335 0,83253 0 1 2 2000 0 1 0 1 3 2000 0 1 0 1 4 2000 334 0,83282 0 1 5 2000 0 1 0 1 6 2000 0 1 0 1 Таблица Д3 Результаты распознавания проекций реального трехмерного объекта №3 № РТО 3 № пр. Кол-во ген. 1 Орт. проекция Орт. + Кос. проекции Кол-во ош. Вер. Расп Кол-во ош. Вер. Расп 2000 336 0,83225 0 1 2 2000 156 0,92209 0 1 3 2000 159 0,92041 0 1 4 2000 335 0,83274 0 1 5 2000 154 0,92289 0 1 6 2000 140 0,9299 0 1 Аналогичные таблицы рассчитаны и для всех остальных реальных объектов