Uploaded by Евгений Колосов

MDKP

advertisement
Минобрнауки России
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Волгоградский государственный технический университет»
Факультет_________________________________________________________
Электроники и вычислительной техники
Кафедра___________________________________________________________
Электронно-вычислительные машины и системы
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
к курсовой работе (проекту)
по дисциплине______________________________________________________
Междисциплинарный курсовой проект
на тему____________________________________________________________
Использование машинного обучения в системах технического
зрения автономного транспорта
_____________________________________________________________
_____________________________________________________________
_____________________________________________________________
Колосов Евгений Юрьевич
Студент___________________________________________________________
(фамилия, имя, отчество)
Группа________________________
ЭВМ – 1.2
Руководитель работы (проекта) __________________ ___________________
(подпись и дата подписания)
(инициалы и фамилия)
Члены комиссии:
_____________________
(подпись и дата подписания)
(инициалы и фамилия)
_____________________
(подпись и дата подписания)
____________________________
(инициалы и фамилия)
_____________________
(подпись и дата подписания)
____________________________
____________________________
(инициалы и фамилия)
Нормоконтролер ______________________ ___________________________
(подпись, дата подписания)
Волгоград 2020 г.
(инициалы и фамилия)
Минобрнауки России
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Волгоградский государственный технический университет»
Факультет _________________________________________________________
Электроники и вычислительной техники
Направление (специальность)_________________________________________
Информатика и вычислительная техника
Кафедра ___________________________________________________________
Электронно-вычислительные машины и системы
Дисциплина________________________________________________________
Междисциплинарный курсовой проект
Утверждаю
Зав. кафедрой_________________
«_______» ____________20 ___ г.
ЗАДАНИЕ
на курсовую работу (проект)
Студент___________________________________________________________
Колосов Евгений Юрьевич
(фамилия, имя, отчество)
ЭВМ – 1.2
Группа________________________
1. Тема: ___________________________________________________________
Использование машинного обучения в системах технического
_____________________________________________________________
зрения автономного транспорта
_____________________________________________________________
_____________________________________________________________
Утверждена приказом от «_____» ______________ 20___ г. № _________
2. Срок представления работы (проекта) к защите «___»_______________20__
г.
3. Содержание расчетно-пояснительной записки: ________________________
1 Машинное обучение
__________________________________________________________________
2 Компьютерное зрение
__________________________________________________________________
3 Техническое зрение
__________________________________________________________________
__________________________________________________________________
4 Применение и описание наборов данных
4. Перечень графического материала: __________________________________
__________________________________________________________________
__________________________________________________________________
5. Дата выдачи задания «_____» ____________________20 ___ г.
Руководитель работы (проекта)______________________ ________________
подпись, дата
инициалы и фамилия
Задание принял к исполнению_______________________ ________________
подпись, дата
инициалы и фамилия
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
4
1 МАШИННОЕ ОБУЧЕНИЕ
7
1.1 Введение
7
1.2 Обучение с учителем и без учителя
7
1.3 Обучение с учителем
8
1.4 Обучение без учителя
8
1.5 Классы задач машинного обучения
9
1.6 Нейронные сети
10
1.7 Ограничения машинного обучения
11
1.8 Выводы
12
2 КОМПЬЮТЕРНОЕ ЗРЕНИЕ
13
2.1 Что такое компьютерное зрение?
13
2.2 Области применения компьютерного зрения
13
2.3 Видеоаналитика
14
2.4 Компоненты систем компьютерного зрения
16
2.5 Выводы
17
3 ТЕХНИЧЕСКОЕ ЗРЕНИЕ
18
3.1 Распознавание дорожных знаков с помощью технического зрения
18
3.2 Обнаружение светофоров системами технического зрения
18
3.3 Выводы
20
4 ПРИМЕНЕНИЕ И ОПИСАНИЕ НАБОРОВ ДАННЫХ
21
4.1 Применение различных наборов данных
21
4.2 Описание наборов данных для исследователей и их применение
21
4.3 Выводы
22
ЗАКЛЮЧЕНИЕ
24
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
25
3
ВВЕДЕНИЕ
Целью работы является разбор достижений в изучаемой предметной
области: использование машинного обучения в системах технического зрения
автономного транспорта. Данная цель реализуется решением следующих
задач:
а. Изучить понятие машинного обучения, принципов и технологий,
лежащих в его основе
б. Изучить технологии технического зрения автотранспортных систем
и их применение в повседневной жизни.
в. Рассмотреть достижения исследователей в машинном обучении
автономных транспортных систем
Эта
диссертация
в
первую
очередь
посвящена
алгоритмам
компьютерного зрения и машинного обучения и их реализации для
автономных транспортных средств. Система на основе зрения [13] может
эффективно обнаруживать и точно распознавать многочисленные объекты на
дороге, такие как дорожные знаки, светофоры и пешеходы.
Безопасность дорожного движения - важная тема. Ведь данные
Страхового института Дорожной Безопасности выявили, что в 2012 году в
результате перехода на красный свет около 133 000 человек получили ранения
и 683 человека погибли на дорогах США [1]. Эти травмы и число смертей
можно сократить или избежать с внедрением более передовых технологий.
Многие исследователи занимаются исследованиями в области автономных
транспортных средств. Поэтому можно считать, что эта тема значима и важна.
К теме автономных транспортных средств относятся камеры, которые
широко распространены в нашей повседневной жизни, и намного дешевле,
чем некоторые датчики, такие как LiDAR. Таким образом, системы на основе
зрения более интуитивно понятны, так как люди используют свои глаза, чтобы
понять окружающую среду. Кроме того, люди могут легко интерпретировать
информацию, полученную из изображений или видео, что делает построение
4
вручную маркированных наборов данных легче. Поэтому мы считаем, что
подход, основанный на концепции, является разумным.
Обнаружение и распознавание объектов важны для понимания
дорожной картины. Дорожные знаки, светофоры, пешеходы и многие другие
объекты на дороге необходимо обнаруживать и распознавать водителям или
системам автономного вождения. Наш проект свидетельствует об эволюции
обнаружения
и
Первоначально
распознавания
функции
объектов
ручной
работы
в
компьютерном
(например,
зрении.
Гистограммы
ориентированных градиентов) доказали свою эффективность в обнаружении
объектов с определенными фигурами или узорами. Классификатор, такой как
SVM (Support Vector Machine) или AdaBoost, часто используется для
извлеченных элементов. Обработка изображений часто используется в
качестве шага предварительной обработки или последующей обработки, и
часто делаются определенные предположения для улучшения работы датчика.
Позже исследователи нашли более обобщенный способ обнаружения без
использования элементов ручной работы. Называется двухступенчатым
обучением.
На первом этапе без контроля проводят обучение по всем
учебным данным для определения лучшего метода для извлечения элементов,
а второй этап выполняет под наблюдением обучение для обучения
классификаторов на основе этих особенностей. После двухступенчатой
подготовки одноэтапный подход снова стал популярным, но с конечным
обучением функции сверточной нейронной сети (CNN) вместо функций
ручной работы. CNN принимает необработанные изображения в качестве
входных данных и выводит классифицированные метки. После обучения CNN
узнает, как извлекать информацию из необработанных изображений и как
классифицировать их. Обучение является одноэтапным и контролируемым и
не имеет четкой границы для функции экстрактор и классификатор, которые
существуют
в
модели.
CNN
может
предоставить
современную
производительность в обнаружении и распознавании объектов на данный
момент.
5
Университет Карнеги-Меллон завершил первый проект с участием
автономных транспортных средств в США в 1995 году, включая автономное
вождение из Питтсбурга в Сан Диего, транспортное средство было оснащено
компьютером, камерой и GPS. В 2004 году Американское агентство
оборонных перспективных исследовательских проектов (DARPA) начало
соревнование для автономных транспортных средств, но ни одна из команд не
завершила 150-мильный курс. В 2005 году пять команд завершили вызов
DARPA, и автономный автомобиль Стэнфордского университета под
названием Stanley занял первое место. В 2007 году автономный автомобиль
университета Карнеги-Меллон под названием Boss занял первое место в
соревнованиях DARPA, участвуя в 60-мильном курсе в городской среде. В
2016 году автономный автомобиль Стэнфордского университета под
названием Шелли проехал по трассе в скорости почти 120 миль/ч. В наше
время многие производители транспортных средств разрабатывают свои
собственные автономные транспортные средства, в том числе: Ford, Mercedes
Benz, Volkswagen, Audi и BMW. Кроме того, многие IT-компании также
присоединились к этой сфере, включая Google, Uber, NVIDIA и Tesla.
Например, компания Google начала проект для самоуправляемого автомобиля
в 2009 году, который теперь называется Waymo. В нем утверждается, что он
ездит более 25 тысяч автономных миль каждую неделю, и в основном на
сложных городских улицах. Иными словами, автономные транспортные
средства разрабатываются быстро, включая оборудование и программное
обеспечение.
Эта диссертация посвящена компьютерному зрению и методам
машинного обучения, используемым в этой области, таким как обнаружение
и распознавание дорожного знака, светофора и пешеходов, а также сохранение
полосы движения для самоуправляемых автомобилей. Многие другие темы не
охвачены в этой диссертации, но также важны, такие как сегментация на
уровне пикселей, реконструкция 3D, оценка движения и одновременная
локализация и картирование (SLAM).
6
1 МАШИННОЕ ОБУЧЕНИЕ
1.1 Введение
Машинное обучение [14] с каждым днем занимает всё большее место в
нашей жизни ввиду огромного спектра его применений. Начиная от анализа
пробок и заканчивая самоуправляемыми автомобилями, всё больше задач
перекладывается на самообучаемые машины.
Мы порой даже примерно не представляем, как работают некоторые
приложения, основанные на методах машинного обучения. Скажем, никто не
сможет вам ответить на вопрос «Почему мне сегодня в рекламе показали сайт
A, а не Б?». Наиболее печальным во всей этой ситуации является то, что
большинство людей имеет неверное представление о машинном обучении.
Машинное обучение считается ветвью искусственного интеллекта,
основная идея которого заключается в том, чтобы компьютер не просто
использовал заранее написанный алгоритм, а сам обучился решению
поставленной задачи [16].
Любую работающую технологию машинного обучения можно условно
отнести к одному из трёх уровней доступности. Первый уровень — это когда
она доступна только различным технологическим гигантам уровня Google или
IBM. Второй уровень — это когда ей может воспользоваться людей студент с
некоторым багажом знаний. Третий уровень — это когда даже бабуля
способна с ней совладать.
Машинное обучение находится сейчас на стыке второго и третьего
уровней, за счёт чего скорость изменения мира с помощью данной технологии
растет с каждым днем [17].
1.2 Обучение с учителем и без учителя
Большую часть задач машинного обучения можно разделить на
обучение с учителем (supervised learning) и обучение без учителя (unsupervised
7
learning). Если вы представили себе программиста с плёткой в одной руке и
куском сахара в другой, вы немного ошиблись. Под «учителем» здесь
понимается сама идея вмешательства человека в обработку данных. При
обучении с учителем у нас есть данные, на основании которых нужно что-то
предсказать, и некоторые гипотезы. При обучении без учителя у нас есть
только данные, свойства которых мы и хотим найти. На примерах разницу вы
увидите немного яснее [17].
1.3 Обучение с учителем
У нас есть данные о 10 000 квартирах в Москве, при чём известна
площадь каждой квартиры, количество комнат, этаж, на котором она
расположена, район, наличие парковки, расстояние до ближайшей станции
метро и так далее. Кроме того, известна стоимость каждой квартиры. Нашей
задачей является построение модели, которая на основе данных признаков
будет предсказывать стоимость квартиры. Это классический пример обучения
с учителем, где у нас есть данные (10 000 квартир и различные параметры для
каждой квартиры, называемые признаками) и отклики (стоимость квартиры).
Такая задача называется задачей регрессии.
Другие примеры: на основании различных медицинских показателей
предсказать наличие у пациента рака. Или на основании текста электронного
письма предсказать вероятность того, что это спам. Такие задачи являются
задачами классификации [18].
1.4 Обучение без учителя
Интереснее ситуация обстоит с обучением без учителя, где нам
неизвестны «правильные ответы». Пусть нам известны данные о росте и весе
некоторого числа людей. Необходимо сгруппировать данные на 3 категории,
чтобы для каждой категории людей выпустить рубашку подходящего размера.
Такая задача называется задачей кластеризации [19].
8
Еще одним примером можно взять ситуацию, когда у нас каждый объект
описывается, скажем, 100 признаками. Проблема таких данных заключается в
том, что построить графическую иллюстрацию таких данных, мягко говоря,
затруднительно, поэтому мы можем уменьшить количество признаков до
двух-трёх. Тогда можно визуализировать данные на плоскости или в
пространстве. Такая задача называется задачей уменьшения размерности.
1.5 Классы задач машинного обучения
В предыдущем разделе мы привели несколько примеров задач
машинного обучения. В этом мы постараемся обобщить категории таких
задач, сопроводив список дополнительными примерами.
1.
Задача регрессии: на основании различных признаков предсказать
вещественный ответ. Другими словами, ответом может быть 1, 5, 23.575 или
любое другое вещественное число, которое, например, может олицетворять
стоимость квартиры. Примеры: предсказание стоимости акции через полгода,
предсказание прибыли магазина в следующем месяце, предсказание качества
вина на слепом тестировании.
2.
Задача классификации: на основании различных признаков
предсказать категориальный ответ. Другими словами, ответов в такой задаче
конечное количество, как в случае с определением наличия у пациента рака
или определения того, является ли письмо спамом. Примеры: распознавание
текста по рукописному вводу, определение того, находится на фотографии
человек или кот.
3.
Задача кластеризации: разбиение данных на похожие категории.
Примеры: разбиение клиентов сотового оператора по платёжеспособности,
разбиение космических объектов на похожие (галактики, планеты, звезды и
так далее).
4.
Задача уменьшения размерности: научиться описывать наши
данные не N признаками, а меньшим числом (как правило, 2-3 для
9
последующей визуализации). В качестве примера помимо необходимости для
визуализации можно привести сжатие данных.
5.
Задача выявления аномалий: на основании признаков научиться
различать отличать аномалии от «не-аномалий». Кажется, что от задачи
классификации эта задача ничем не отличается. Но особенность выявления
аномалий состоит в том, что примеров аномалий для тренировки модели у нас
либо очень мало, либо нет совсем, поэтому мы не можем решать такую задачу
как задачу классификации. Пример: определение мошеннических транзакций
по банковской карте.
1.6 Нейронные сети
В машинном обучении есть большое число алгоритмов, причём
некоторые являются довольно универсальными. В качестве примеров можно
привести метод опорных векторов, бустинг над решающими деревьями или те
же нейронные сети. К сожалению, большая часть людей довольно смутно
представляет себе суть нейронных сетей, приписывая им свойства, которыми
они не обладают.
Нейронная сеть (или искусственная нейронная сеть) — это сеть
нейронов, где каждый нейрон является математической моделью реального
нейрона. Нейронные сети начали пользоваться большой популярностью в 80х и ранних 90-х, однако в конце 90-х их популярность сильно упала. Впрочем,
в последнее время это одна из передовых технологий, используемых в
машинном обучении, применяемая в огромном количестве приложений.
Причина возврата популярности проста: увеличились вычислительные
способности компьютеров [20].
С помощью нейронных сетей можно решать как минимум задачи
регрессии и классификации и строить крайне сложные модели. Не вдаваясь в
математические подробности, можно сказать, что в середине прошлого века
Андрей Николаевич Колмогоров доказал, что с помощью нейронной сети
можно аппроксимировать любую поверхность с любой точностью [21].
10
Фактически же, нейрон в искусственной нейронной сети представляет
собой математическую функцию (например, сигмоидную функцию), которой
на вход приходит какое-то значение и на выходе получается значение,
полученное с помощью той самой математической функции [22].
1.7 Ограничения машинного обучения
Каждая система машинного обучения создает собственную схему
связей, представляя собой нечто вроде черного ящика. Вы не сможете путем
инженерного анализа выяснить, как именно выполняется классификация, но
это и не имеет значения, главное, чтобы работало [23].
Однако система машинного обучения хороша лишь настолько,
насколько точны учебные данные: если подать ей на вход «мусор», то и
результат будет соответствующим. При неправильном обучении или слишком
малом размере обучающей выборки алгоритм может выдавать неверные
результаты.
HP попала в неприятную ситуацию в 2009 году, когда система
идентификации лиц для веб-камеры на ноутбуке HP MediaSmart оказалась
неспособной распознавать лица афроамериканцев. А в июне 2015 года
некачественный алгоритм сервиса Google Photos назвал двух черных
американцев «гориллами» [24].
Еще один пример – печально знаменитый Twitter-бот Microsoft Tay, с
которым в 2016 году поставили эксперимент: тогда попытались выяснить,
сможет ли искусственный интеллект «притвориться» человеком, обучившись
на реальных сообщениях от людей. Меньше чем за день тролли в Twitter
превратили Tay в отъявленного ксенофоба – вот вам типичный пример
испорченных учебных данных [25].
11
1.8 Выводы
Машинное обучение является наукой о данных и их обработке. Эта
наука используется во многих сферах нашей жизни. Она базируется на пяти
основных школах обучения и является синтезом таких наук, как
математическая статистика, высшая математика, параллельные алгоритмы,
программная инженерия, теория вероятностей, обработка «больших данных»
и математический анализ. Перспективы развития машинного обучения почти
безграничны.
12
2 КОМПЬЮТЕРНОЕ ЗРЕНИЕ
2.1 Что такое компьютерное зрение?
Компьютерное зрение (Computer Vision, CV), в том числе машинное
зрение (Machine Vision, MV) – это автоматическая фиксация и обработка
изображений, как неподвижных, так и движущихся объектов при помощи
компьютерных средств [26]. В России также используется термин
«техническое зрение».
Первые попытки заставить компьютер «видеть» относятся к началу 60х годов 20 века. Однако лишь в последние годы в связи с повышением
вычислительных мощностей и быстродействия процессоров, объёмов памяти,
повышением разрешающей способности и других параметров камер,
развитием полосы пропускания каналов связи, а также с появлением таких
технологий, как машинное и глубокое обучение (Machine/Deep Learning),
искусственный интеллект AI (Artificial Intelligence) технологии CV/MV стали
находить все больше применений в различных отраслях индустрии и
повседневной жизни людей [27].
2.2 Области применения компьютерного зрения
В последние годы CV стало активно использоваться в промышленности,
в т.ч. в таких отраслях, как автомобилестроение, пищевая промышленность,
фармацевтика, производство микроэлектронных изделий и многих других.
Например, в автомобилестроении применяют системы CV, чтобы
считывать маркировку компонентов при сборке на конвейере. Компьютерное
зрение также используется для повышения качества, в частности, для осмотра,
калибровки,
проверки
размеров,
зазоров,
расстояний,
выравнивания деталей на линиях сборки автомобилей.
13
а
также
для
В производстве пищевой продукции системы CV могут проверять, все
ли ингредиенты указаны на упаковке товара, особенно те, которые могут
содержать аллергические вещества.
Фармацевтика подразумевает высокую ответственность за обеспечение
безопасности, поэтому необходимо надёжно отслеживать все компоненты
состава и качество готовой продукции.
При изготовлении микросхем и электронных компонентов CV
используют в чистых помещениях для контроля размещения кремниевых
пластин, маркировки и положения чипа интегральных схем и других
элементов.
Сегодня компьютерное зрение широко применяется для многих
компонентов цифровой экономики:
1.
«Умныйгород» (Smart City),
2.
Интеллектуальные
транспортные
системы
ИТС
(Intelligent
Transportation System),
3.
Автономные автомобили (Driverless Car) и системы помощи
водителю ADAS (Advanced driver-assistance systems),
4.
Беспилотные летательные аппараты (в т.ч. дроны),
5.
Высокотехнологичное сельское хозяйство (Smart Agriculture),
6.
Электронная медицина (eHealth)
7.
Системы военного применения,
8.
Аддитивное производство (3D-printing)
и во многих других. При чём, постоянно появляются всё новые области
и сценарии применения CV [28].
Сегодняшнее развитие систем CV пока далеко от реализации всех его
возможностей. Однако эта отрасль быстро развивается и диапазон его
применений быстро ширится.
2.3 Видеоаналитика
14
«Компьютерное зрение» («машинное зрение», техническое зрение»)
часто путают с видеоаналитикой. Однако, эти понятия неравнозначны. Можно
сказать, что видеоаналитика является составной частью компьютерного
зрения в части анализа изображения [29].
Компьютерное зрение (Computer Vision) – это технология (а также
область исследований) по автоматизации понимания того, что мы видим в
окружающем мире [30].
Видеоаналитика (VCA, Video Content Analysis) – это частные
приложения компьютерного зрения, которые извлекают информацию и знания
из видеоконтента, то есть дают ответы на вопросы [30]:
1.
Кто: распознавание и идентификация людей;
2.
Что: объекты, действия, события, поведение, взаимоотношения;
3.
Где: геолокация, пространственная (3D) и планарная (2D)
локация;
4.
Когда: маркировка даты и времени, сезона.
5.
Три основных типа приложений видеоаналитики:
6.
Ретроспектива: что уже случилось, т.е. управление архивами
видеозаписей, поиск, сортировка, получение юридических доказательств;
7.
Настоящий момент: что происходит сейчас, т.е. контроль
ситуации, получение предупреждений в реальном времени, кодирование,
компрессия видеопотока;
8.
Взгляд в будущее: что может или скорее всего произойдёт, т.е.
предсказания на основе событий прошлого и настоящего, прогнозирование
событий или активности, детектирование намечающихся аномалий.
В общем случае, системы CV состоят из фото- или видеокамеры, а также
компьютера, на котором работают программы обработки и анализа
изображений.
Если программное обеспечение по обработке изображения расположено
непосредственно в камере, такая камера называется «смарт-камерой». ПО
может также работать на удалённом компьютере или компьютерах, или
выполняться в облаке по модели SaaS (Software as a Service).
15
2.4 Компоненты систем компьютерного зрения
Системы компьютерного зрения включают следующие основные
компоненты [31]:
1.
подсветку объекта (не всегда требуется) и оптику (линзы и
объективы)
2.
сенсорную матрицу для проецирования изображения
3.
системы обработки изображения, полученного с матрицы.
В необходимых случаях, например, внутри помещений, когда свет
можно контролировать, может подсвечиваться часть объекта, которую
необходимо инспектировать, так, чтобы нужные характеристики объекта были
заметными для камеры.
Оптическая система проецирует полученное изображение в форме
видимого или невидимого человеческим глазом спектра на сенсорную
матрицу. Сенсорная матрица камеры преобразует изображение в цифровой
образ, который затем посылается в процессор для анализа [32].
В большинстве случаев системы CV предназначены для работы в
естественном освещении. Кроме того, системы CV могут работать в
диапазонах, невидимых для человеческого глаза.
Для работы в условиях недостаточного освещения могут использоваться
камеры с подсветкой, в которых кольцевой источник света обеспечивает яркое
равномерное освещение объекта, когда необходимо высветить фактуру
материала, мелкие детали и пр. Также освещение помогает избавиться от
бликов, засветки объекта, используется в сложных условиях, например, в
тумане [33].
Такой интегрированный источник не даёт затенения и обеспечивает
ровное освещение матовых поверхностей. Сенсорная матрица располагается в
камере и предназначена для фиксации изображения соответствующим
образом освещённого объекта. Обычно сенсорные матрицы строятся на основе
полупроводниковых приборов с зарядовой связью ПЗС, CCD (charge coupled
16
device) [34], либо может быть использована комплементарная технология
«металл-окисел-полупроводник» КМОП, или CMOS (complementary metal
oxide semiconductor) [34].
Изображение представляет собой набор элементов – пикселей, цвет
которых зависит от освещённости. Плотность пикселей (разрешение
сенсорной матрицы) очень важна для корректной работы приложения
компьютерного зрения. Чем больше разрешение, тем больше деталей будет на
изображении, тем более точными будут измерения. Требуемая плотность
пикселей зависит от размеров объекта, рабочего расстояния камеры и других
параметров [35].
2.5 Выводы
Компьютерное зрение – важнейшее направление в мире искусственного
интеллекта, которое может использоваться во всех сферах, начиная
медициной, и заканчивая видеоиграми. Развитие этой технологии – важная
задача, без решения которой прогресс в мире интеллектуальных технологий
будет идти слишком медленно.
17
3 ТЕХНИЧЕСКОЕ ЗРЕНИЕ
3.1 Распознавание дорожных знаков с помощью технического зрения
Существует несколько работ [36-39], направленных на обнаружение и
распознавание конкретного класса дорожных знаков, таких как знак остановки
или знак ограничения скорости. Некоторые проекты были оптимизированы и
могут
быть
высокоэффективны
для
обнаружения
и
распознавания
определенного класса знаков, но они вряд ли пригодны для других видов
знаков.
Другие
научно-исследовательские
работы
[40]
попыталась
обнаружить и распознать несколько знаков и использовали общие
особенности, такие как формы и цвета. Были предложены и тщательно
проанализированы современные алгоритмы обработки изображений, чтобы
получить точные результаты. Существуют некоторые другие работы по
изучению компромисса между точностью и временем вычислений. Многие из
них утверждали, что достигли производительности в реальном времени с
высокой точностью, но наборы данных, которые они использовали, были
разнообразными. Без использования одного и того же набора данных
несправедливо сравнивать точности различных конструкций. Стоит также
отметить, что разрешение изображения является еще одним важным
фактором, который может повлиять на время обработки, а также точность.
Изображение с более высоким разрешением может обнаруживать в нем
небольшие объекты. В результате, можно обнаружить и распознать дорожные
знаки, даже если они находятся далеко и, таким образом, у водителей остается
больше времени для действий.
3.2 Обнаружение светофоров системами технического зрения
Обнаружение точечного света является способом, основанным на том,
что светофор является гораздо ярче, чем держатель лампы, обычно черного
цвета. Морфологический цилиндр используется для извлечения ярких
областей из полутоновых изображений, за которым следует ряд этапов
18
фильтрации и проверки. В [10] интерактивный фильтр нескольких моделей
используют в сочетании с обнаружением точечного света. Для повышения
производительности была использована дополнительная информация, такая
как вероятность переключения статуса, предполагаемая позиция и размер.
Несколько других способов также комбинировали информацию GPS
транспортного средства. Предложен геометрический способ фильтрации для
обнаружения светофоров с помощью мобильных устройств для снижение
вычислительных
затрат.
GPS-координаты
всех
светофоров
были
предположительно доступны, и была использована модель проекции камеры.
Отображение
местоположения
светофора
было
введено
в
[11]
с
использованием отслеживания, обратной проекции и триангуляции. Google
также представил способ отображения и обнаружения, который был способен
распознавать различные типы светофоров. Он предсказал, когда светофор
должен стать видим с помощью данных GPS, с последующей классификацией
возможных
кандидатов.
Затем
во
время
обнаружения
геометрические ограничения и временная фильтрация.
применялись
Меж-кадровая
информация также полезна для обнаружения светофоров. Ссылка [12] ввела
детектор светофора на основе сопоставления шаблонов. Предположение
заключалось в том, что две выключенные лампы в держателе светофора
похожи друг на друга и ни одна из них не выглядит аналогично с окружающим
фоном.
Глубокое обучение - это класс алгоритмов машинного обучения,
который имеет множество слоев для извлечения скрытых элементов. В
отличие от вручную созданных функций, таких как гистограммы возможности
ориентированных градиентов (HOG), они изучаются на основе обучающих
данных. PCANet является простой, но эффективной сетью глубокого
обучения. Основной компонент анализа (PCA) используется для изучения
банков фильтров. Его можно использовать для извлечения элементов функций
лиц, записанных вручную цифр и изображений объектов. Он был
протестирован на нескольких наборах данных и дал удивительно хорошие
19
результаты. Использование PCANet при обнаружении светофора или другие
аналогичные приложения до сих пор не исследованы.
3.3 Выводы
Техническое зрение – очень важный компонент для развития
автономных транспортных систем, без которого существование таких систем
невозможно. Так же оно является инженерной дисциплиной, связанной с
производственными задачами и связано с самыми разными областями
компьютерных наук: компьютерное зрение, оборудование для управления,
базы данных, сетевые системы и машинное обучение.
20
4 ПРИМЕНЕНИЕ И ОПИСАНИЕ НАБОРОВ ДАННЫХ
4.1 Применение различных наборов данных
Методы машинного обучения в значительной степени зависят от
данных. Наборы данных часто строятся с использованием данных реального
мира с ручными метками наземной правды (ground true). Например, набор
данных KITTI [2-5] использует платформу автономного вождения Annieway
для сбора данных из реального мира. Датчики, установленные на автомобиле,
- камеры, 360 Velodyne Laser-сканер и GPS. Данные обрабатываются вручную
и делятся на несколько подмножеств, таких как стерео, поток, объект,
отслеживание и дорога. Кроме того, создано множество наборов данных при
выполнении конкретных задач. Например, набор данных дорожных знаков
Бельгии [6] И German Traffic Sign Benchmark [7] нацелены на обнаружение и
распознавание группы Европейских дорожных знаков на изображениях.
Публичное распознавание светофоров (TLR) предназначено для обнаружения
зеленых или красных круговых светофоров на изображениях. Набор данных
INRIA [8] и Caltech Pedestrian Detection Benchmark [9] Предназначены для
обнаружения вертикальных людей на изображениях. Набор данных comma.ai
содержит изображения, полученные с камеры, обращенной вперед, а также
состояние транспортного средства, например, скорость, передачу и рулевое
управление. Он используется для сквозного обучения функциональности
удержания полосы движения.
4.2 Описание наборов данных для исследователей и их применение
Наборы данных, построенные на основе реальных данных, чрезвычайно
полезны для исследователей. Однако сбор и маркировка этих данных является
трудоемким процессом и требует много времени, а полученная информация
ограничивается типами используемых датчиков. Поэтому реальные наборы
данных часто имеют ограниченный объем данных и ориентированы на
21
определенные функциональные возможности. С другой стороны, некоторые
наборы данных создаются с использованием симуляторов или игровых
движков, и они могут предоставить гораздо больше информации с
незначительными человеческими усилиями. Например, набор данных,
сгенерированный из компьютерной игры был предложен для сегментации
вида дороги. Исследователи утверждают, что генерация аннотации занимает в
среднем семь секунд на изображение, тогда как человеческий аннотатор
занимает 90 минут на изображение. В таких наборах данных, полезная
информация о 3D сцене и движениях объектов полезна для исследователей, и
эти данные могут быть легко получены. Однако, применение в реальном мире
моделей, обученных на виртуальных данных сомнительно, так как
изображения игровых движков и реального мира имеют врожденные
различия. Тем не менее, эти виртуальные наборы данных являются
надежными альтернативами для исследователей, чтобы попробовать свои
новые алгоритмы.
Все большее число наборов данных становится доступным по мере того,
как исследователи продолжают собирать данные и создавать свои
собственные наборы данных. Использование существующих наборов данных
уменьшает время и усилия, необходимые для проверки алгоритма, поскольку
сбор и маркировка данных являются очень трудоемким процессом. Это также
облегчает
сравнение
работы
с
существующими
работами
других
исследователей, которые используют тот же набор данных, потому что
работы, выполненные на разных наборах данных нельзя сравнивать
напрямую. Однако иногда исследователи должны собирать собственные
данные, если существующие наборы данных не идеальны или недоступны.
Кроме того, вновь созданные наборы данных могут принести пользу другим
исследователям.
4.3 Выводы
22
Эффективность моделей машинного обучения (Machine Learning, ML)
напрямую зависит от качества исходного датасета, требуется много времени
на его подготовку к моделированию: очистку, нормализацию и генерацию
переменных. При этом в
первоначальной выборке могут запросто
отсутствовать данные, нужные для формирования предикторов и целевых
переменных.
23
ЗАКЛЮЧЕНИЕ
Автономное транспортное средство - это инженерная технология,
которая может повысить безопасность транспорта, уменьшить заторы на
дорогах и сократить выбросы углекислого газа. Исследования в области
автономных
транспортных
средств
можно
классифицировать
по
функциональным возможностям, например, обнаружение или распознавание
объектов, планирование путей, навигация, сохранение полосы движения,
контроль скорости и мониторинг состояния водителя. Темы исследования
также могут быть классифицированы по оборудованию или методам,
например, обработка изображений, компьютерное зрение, машинное обучение
и локализация.
Развитие технологий машинного зрения и собранная их разработчиками
и сторонними организациями статистика позволяет утверждать, что уже в
перспективе 5-10 лет они позволят серьезно повысить безопасность дорожного
движения. Еще до того, как на дорогах начнут преобладать машины с
автопилотом, системы умного торможения, освещения и картографии,
позволят серьезно снизить число аварий и людей, пострадавших в них.
24
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. “Red light running,” Insurance Institute of Highway Safety. [Online].
Available: http://www.iihs.org/iihs/topics/t/red-light-running/topicoverview
2. A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous
driving? The kitti vision benchmark suite,” in Conference on Computer Vision and
Pattern Recognition (CVPR), 2012.
3. A. Geiger, P. Lenz, C. Stiller, and R. Urtasun, “Vision meets robotics: The
Kitti dataset,” International Journal of Robotics Research (IJRR), 2013.
4. J. Fritsch, T. Kuehnl, and A. Geiger, “A new performance measure and
evaluation benchmark for road detection algorithms,” in International Conference
On Intelligent Transportation Systems (ITSC), 2013.
5. M. Menze and A. Geiger, “Object scene flow for autonomous vehicles,”
in Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
6. M. Mathias, R. Timofte, R. Benenson, and L. V. Gool, “Traffic sign
recognition - how far are we from the solution?” in Proceedings of IEEE
International Joint Conference on Neural Networks (IJCNN 2013), August 2013.
7. S. Houben, J. Stallkamp, J. Salmen, M. Schlipsing, and C. Igel, “Detection
of traffic signs in real-world images: The German Traffic Sign Detection
Benchmark,” in International Joint Conference on Neural Networks, no. 1288, 2013.
8. N. Dalal and B. Triggs, “Histograms of oriented gradients for human
detection,” in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE
Computer Society Conference on, vol. 1, June 2005, pp. 886–893 vol. 1.
9. P. Doll´ar, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detection: A
benchmark,” in CVPR, June 2009.
10. G. Trehard, E. Pollard, B. Bradai, and F. Nashashibi, “Tracking both
pose and status of a traffic light via an interacting multiple model filter,” in
25
Information Fusion (FUSION), 2014 17th International Conference on, July 2014,
pp. 1–7.
11. J. Levinson, J. Askeland, J. Dolson, and S. Thrun, “Traffic light mapping,
localization, and state detection for autonomous vehicles,” in Robotics and
Automation (ICRA), 2011 IEEE International Conference on, May 2011, pp. 5784–
5791.
12. S. Salti, A. Petrelli, F. Tombari, N. Fioraio, and L. Di Stefano, “Traffic
sign detection via interest region extraction,” Pattern Recognition, vol. 48(4), pp.
1039–1049, 2015.
13. A. Gomez, F. Alencar, P. Prado, F. Osorio, and D. Wolf, “Traffic lights
detec-tion and state estimation using hidden markov models,” inIntelligent
VehiclesSymposium Proceedings, 2014 IEEE, June 2014, pp. 750–755.
14. S. Salti, A. Petrelli, F. Tombari, N. Fioraio, and L. Di Stefano, “Traffic
signdetection via interest region extraction,”Pattern Recognition, vol. 48(4),
pp.1039–1049, 2015.
15. G. Hinton, S. Osindero, and Y. Teh, “A fast learning algorithm for deep
beliefnets,”Neural Computation, vol. 18, no. 7, pp. 1527–1554, July 2006.
16. I. Arel, D. Rose, and T. Karnowski, “Deep machine learning - a new
frontierin artificial intelligence research [research frontier],”Computational
IntelligenceMagazine, IEEE, vol. 5, no. 4, pp. 13–18, Nov 2010.
17. T.-H. Chan, K. Jia, S. Gao, J. Lu, Z. Zeng, and Y. Ma, “Pcanet: A simple
deeplearning
baseline
for
image
classification?”arXiv
preprint
arXiv:1404.3606,2014.
18. S. Lafuente-Arroyo, S. Maldonado-Bascon, P. Gil-Jimenez, H. GomezMoreno,and F. Lopez-Ferreras, “Road sign tracking with a predictive filter
solution,” inIEEE Industrial Electronics, IECON 2006 - 32nd Annual Conference
on, Nov2006, pp. 3314–3319.
26
19. S. Lafuente-Arroyo, S. Maldonado-Bascon, P. Gil-Jimenez, J. AcevedoRodriguez, and R. Lopez-Sastre, “A tracking system for automated inventoryof road
signs,” inIntelligent Vehicles Symposium, 2007 IEEE, June 2007, pp.166–171.161
20. S. Zhang, R. Benenson, M. Omran, J. H. Hosang, and B. Schiele, “How
farare we from solving pedestrian detection?”CoRR, vol. abs/1602.01237,
2016.[Online]. Available: http://arxiv.org/abs/1602.01237
21. P. Doll ́ar, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detection:
Anevaluation of the state of the art,”PAMI, vol. 34, 2012.
22.
P.
Viola
and
M.
J.
Jones,
“Robust
real-time
face
detection,”InternationalJournal of Computer Vision, vol. 57, no. 2, pp. 137–154,
2004. [Online].Available: http://dx.doi.org/10.1023/B:VISI.0000013087.49260.fb
23. P. Dollar, Z. Tu, P. Perona, and S. Belongie, “Integral channel features,”
pp.91.1–91.11, 2009, doi:10.5244/C.23.91.
24. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D.
Erhan,V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,”
inTheIEEE Conference on Computer Vision and Pattern Recognition (CVPR),
June2015.
25. R. Gade and T. B. Moeslund, “Thermal cameras and applications: a
survey,”Machine Vision and Applications, vol. 25, no. 1, pp. 245–262, 2014.
[Online].Available: http://dx.doi.org/10.1007/s00138-013-0570-5
26. F. Suard, A. Rakotomamonjy, A. Bensrhair, and A. Broggi, “Pedestrian
detec-tion using infrared images and histograms of oriented gradients,” in2006
IEEEIntelligent Vehicles Symposium, 2006, pp. 206–212.
27. J. W. Davis and M. A. Keck, “A two-stage template approach to person
de-tection in thermal imagery,”Applications of Computer Vision and the
IEEEWorkshop on Motion and Video Computing, IEEE Workshop on, vol. 1,
pp.364–369, 2005.
27
28. F. Xu, X. Liu, and K. Fujimura, “Pedestrian detection and tracking with
nightvision,”IEEE Transactions on Intelligent Transportation Systems, vol. 6, no.
1,pp. 63–71, March 2005.
29. D. Olmeda, A. de la Escalera, and J. M. Armingol, “Contrast invariant
featuresfor human detection in far infrared images,” inIntelligent Vehicles
Symposium(IV), 2012 IEEE, June 2012, pp. 117–122.
30. W. Wang, J. Zhang, and C. Shen, “Improved human detection and
classifi-cation in thermal images,” in2010 IEEE International Conference on
ImageProcessing, Sept 2010, pp. 2313–2316.[52] M. Bertozzi, A. Broggi, C. H.
Gomez, R. I. Fedriga, G. Vezzoni, and M. DelRose,“Pedestrian detection in far
infrared images based on the use of probabilistictemplates,” in2007 IEEE Intelligent
Vehicles Symposium, June 2007, pp. 327–332.
31. T. T. Zin, H. Takahashi, and H. Hama, “Robust person detection using
farinfrared camera for image fusion,” inInnovative Computing, Information
andControl, 2007. ICICIC ’07. Second International Conference on, Sept 2007,
pp.310–310.164
32. D. Geronimo, A. M. Lopez, A. D. Sappa, and T. Graf, “Survey of
pedestrian de-tection for advanced driver assistance systems,”IEEE Transactions on
PatternAnalysis and Machine Intelligence, vol. 32, no. 7, pp. 1239–1258, July 2010.
33. S. Hwang, J. Park, N. Kim, Y. Choi, and I. S. Kweon, “Multispectral
pedes-trian detection: Benchmark dataset and baseline,” in2015 IEEE Conference
onComputer Vision and Pattern Recognition (CVPR), June 2015, pp. 1037–1045.
34. S. J. Krotosky and M. M. Trivedi, “On color-, infrared-, and multimodalstereoapproaches to pedestrian detection,”IEEE Transactions on Intelligent Transportation Systems, vol. 8, no. 4, pp. 619–629, Dec 2007.
28
35. K. H. Lee and J. N. Hwang, “On-road pedestrian tracking across multiple
driv-ing recorders,”IEEE Transactions on Multimedia, vol. 17, no. 9, pp. 1429–
1438,Sept 2015.
36. W. Liu, R. W. H. Lau, X. Wang, and D. Manocha, “Exemplar-amms:
Recog-nizing crowd movements from pedestrian trajectories,”IEEE Transactions
onMultimedia, vol. 18, no. 12, pp. 2398–2406, Dec 2016.[59] R. Risack, N. Mohler,
and W. Enkelmann, “A video-based lane keeping assis-tant,” inProceedings of the
IEEE Intelligent Vehicles Symposium 2000 (Cat.No.00TH8511), 2000, pp. 356–
361.
37. S. Ishida and J. E. Gayko, “Development, evaluation and introduction
of a lanekeeping assistance system,” inIEEE Intelligent Vehicles Symposium, 2004,
June2004, pp. 943–944.165
38. J. F. Liu, J. H. Wu, and Y. F. Su, “Development of an interactive lane
keep-ing control system for vehicle,” in2007 IEEE Vehicle Power and
PropulsionConference, Sept 2007, pp. 702–706.
39. A. H. Eichelberger and A. T. McCartt, “Toyota drivers’ experiences
withdynamic radar cruise control, pre-collision system, and lane-keeping
assist,”Journal of Safety Research, vol. 56, pp. 67 – 73, 2016. [Online].
Available:http://www.sciencedirect.com/science/article/pii/S0022437515001061
40. Y. Li, “Deep reinforcement learning: An overview,”CoRR, vol.
abs/1701.07274,2017. [Online]. Available: http://arxiv.org/abs/1701.07274
29
Download