ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

advertisement
ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ БЮДЖЕТНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
МОСКОВСКИЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ СВЯЗИ И ИНФОРМАТИКИ
На правах рукописи
Попов Андрей Владимирович
МЕТОДЫ И УСТРОЙСТВО ФОРМИРОВАНИЯ
СИГНАЛОВ В ЦИФРОВЫХ ВИДЕОИНФОРМАЦИОННЫХ СИСТЕМАХ
Специальность 05.12.04 –
Радиотехника, в том числе системы и устройства телевидения
ДИССЕРТАЦИЯ
на соискание ученой степени кандидата технических наук
Научный руководитель
доктор технических наук, профессор
Безруков Вадим Николаевич
Москва 2015
Содержание:
ВВЕДЕНИЕ .................................................................................................................. 5
ГЛАВА 1. ИССЛЕДОВАНИЕ МЕТОДОВ КОДИРОВАНИЯ НА ОСНОВЕ
УСТРАНЕНИЯ СТАТИСТИЧЕСКОЙ И ПСИХОФИЗИОЛОГИЧЕСКОЙ
ИЗБЫТОЧНОСТЕЙ ВНУТРИКАДРОВОГО И МЕЖКАДРОВОГО
НАПРАВЛЕНИЙ ВИДЕОИНФОРМАЦИОННОГО СИГНАЛА ............................ 15
1.1 Характеристики параметров зрительной системы человека ............................. 15
1.2 Алгоритмы энтропийного кодирования при сжатии спектра
видеоинформационного сигнала ............................................................................... 24
1.3 Методы кодирования с потерями ........................................................................ 39
1.3.1 Методы внутрикадрового кодирования с потерями на основе ДКП........... 40
1.3.2 Методы внутрикадрового кодирования с потерями на основе вейвлет
преобразований ....................................................................................................... 47
1.3.3 Внутрикадровое предсказание....................................................................... 65
1.3.4 Межкадровое предсказание и кодирование .................................................. 66
1.4 Перспективные направления совершенствования алгоритмов сжатия
видеоинформационных сигналов .............................................................................. 73
1.5 Выводы ................................................................................................................. 76
ГЛАВА 2. ФОРМИРОВАНИЕ СИГНАЛОВ УПРАВЛЕНИЯ ДЛЯ
АДАПТИВНОГО ПРЕОБРАЗОВАНИЯ ВИДЕОИНФОРМАЦИОННОГО
СИГНАЛА .................................................................................................................. 79
2.1 Современные методы противошумовой обработки сигналов ........................... 79
2.1.1 Фильтры пространственной области............................................................. 83
2.1.2 Фильтры области преобразования................................................................. 94
2.1.3 Фильтры на основе обучающегося словаря ................................................ 100
2.2 Апертурная коррекция ....................................................................................... 103
2
2.3 Разработка метода противошумовой коррекции .............................................. 108
2.4 Формирование сигналов управления для адаптивного преобразования
видеоинформационного сигнала ............................................................................. 119
2.5 Выводы ............................................................................................................... 128
ГЛАВА 3. РЕАЛИЗАЦИЯ МЕТОДОВ СЖАТИЯ ВИДЕОИНФОРМАЦИОННЫХ
СИГНАЛОВ.............................................................................................................. 132
3.1 Реализация метода внутрикадрового кодирования на основе управляющих
сигналов с итерационным методом шумовой коррекции ...................................... 132
3.1.1 Метод внутрикадрового кодирования на основе управляющих сигналов с
итерационным методом шумовой коррекции ..................................................... 132
3.1.2 Структура и алгоритм работы кодера внутрикадрового кодирования на
основе управляющих сигналов с итерационным методом шумовой коррекции
................................................................................................................................ 133
3.1.3 Структура и алгоритм работы декодера внутрикадрового кодирования на
основе управляющих сигналов с итерационным методом шумовой коррекции
................................................................................................................................ 141
3.2 Реализация метода межкадрового кодирования с предсказанием на основе
управляющих сигналов с итерационным методом шумовой коррекции .............. 143
3.2.1 Метод межкадрового кодирования с предсказанием на основе
управляющих сигналов с итерационным методом шумовой коррекции ........... 144
3.2.2 Структура и алгоритм работы кодера межкадрового кодирования с
предсказанием на основе управляющих сигналов с итерационным методом
шумовой коррекции .............................................................................................. 145
3.2.3 Структура и алгоритм работы декодера межкадрового кодирования с
предсказанием на основе управляющих сигналов с итерационным методом
шумовой коррекции .............................................................................................. 156
3.3 Выводы ............................................................................................................... 157
3
ГЛАВА 4. РЕЗУЛЬТАТЫ РАБОТЫ И ЭКСПЕРИМЕНТАЛЬНОГО
ИССЛЕДОВАНИЯ РАЗРАБОТАННЫХ МЕТОДОВ ФОРМИРОВАНИЯ
УПРАВЛЯЮЩИХ СИГНАЛОВ, ВНУТРИКАДРОВОГО И МЕЖКАДРОВОГО
КОДИРОВАНИЯ ..................................................................................................... 159
4.1 Выбор исходных данных ................................................................................... 159
4.2 Результаты моделирования работы внутрикадрового сжатия с внедрением
разработанного метода кодирования ...................................................................... 161
4.3 Результаты моделирования работы межкадрового сжатия с внедрением
разработанного метода кодирования ...................................................................... 172
4.4 Выводы ............................................................................................................... 178
ЗАКЛЮЧЕНИЕ ........................................................................................................ 180
СПИСОК ЛИТЕРАТУРЫ ........................................................................................ 182
ПРИЛОЖЕНИЯ ........................................................................................................ 191
4
ВВЕДЕНИЕ
Актуальность темы
Формирование телевизионных (ТВ) изображений высокой и сверхвысокой
четкости отражает современные направления развития видеоинформационных
технологий
на основе новых научных достижений в области телевидения и
передачи видеоданных. Однако лишь недавно эти форматы четкости успели
доказать востребованность, завоевать признание обычных пользователей и
профессионалов, а также показать свое преимущество перед ТВ изображениями
стандартной четкости.
Пользователи все чаще выбирают возможность работы с изображениями с
большей четкостью, независимо от того, смотрят ли они фильм, программы
передач телевидения высокой четкости (ТВЧ), занимаются видеомонтажом или
хотят организовать видеоконференцсвязь, используя для этого персональный
компьютер или свое мобильное устройство.
Повсеместному
внедрению,
трудности, обусловленные
например,
систем
ТВЧ
препятствуют
высокой инерционностью процесса модернизации
аппаратуры и технического оснащения для формирования и обработки
соответствующих
требований,
видеоинформационных сигналов
предъявляемых
потребителями
к
с
учётом
качеству
обеспечения
таких
сигналов.
Соответственно, удовлетворение перечисленных потребностей пользователей в
полной
мере
возможно
только
с
использованием
самых
передовых
высокопроизводительных средств передачи сигналов и мощных аппаратных
вычислительных ресурсов, стоимость которых зачастую оказывается очень
высокой.
Последнее заставляет предпринимать шаги для того, чтобы
компенсировать инерционность развития технической составляющей, создавая
возможности реализации современных требований к обработке видео на базе
приемлемых по стоимости аппаратных платформ и доступных для пользователей
средств передачи данных.
Для эффективного решения такой задачи необходимы
исследования,
достижения и перспективные разработки в области методов и устройств
5
кодирования, которые позволят ускорить интеграцию современных технологий в
жизнь каждого потребителя. Уже сейчас неоценимый вклад по данным
направлениям, внесли и продолжают вносить теоретические и практические
работы С.И. Катаева, М.И. Кривошеева, Ю.Б. Зубарева, А.С. Селиванова, Б.П.
Хромого, В.П. Дворковича, Ю.С. Сагдуллаева, В.Н. Безрукова, а также других
отечественных и зарубежных авторов.
Современным продуктом таких исследований являются, например, широко
используемые стандарты сжатия H.264/AVC и H.265/HEVC. Они реализуют
эффективное кодирование в системах ТВЧ для работы на большинстве
аппаратных платформ и систем, с использованием меньшего количества ресурсов
для передачи видеоинформационных сигналов.
Однако остается ряд платформ, для которых названные стандарты
неспособны обеспечить эффективное кодирование сигналов ТВ изображений с
качеством, соответствующим
формату высокой четкости, особенно, для
кодирования изображений, передаваемых в режиме реального времени. Кроме
этого, исследования показали, что новейшие форматы ТВ изображений
сверхвысокой четкости 4K и 8K, скорее всего, предъявят бескомпромиссно
высокие требования к основным алгоритмам современных стандартов сжатия в
отношении их эффективности и скорости обработки видеоинформационных
сигналов, что говорит о скором достижении предела заложенного в эти стандарты
ресурса. Сказанное выше приводит к выводу о необходимости дальнейших
исследований и разработок более эффективных методов обработки и кодирования
ТВ сигналов в цифровых видеоинформационных системах.
По этой причине актуальными являются разработки новых цифровых
методов и устройств, отличающихся не только эффективным и качественным, но
и быстрым по времени, за счёт снижения объёма необходимых вычислений,
кодированием
видеоинформационных
сигналов
высокой
и
сверхвысокой
четкости. При этом в процессе обработки таких сигналов не потребуется
привлечение высокопроизводительного оборудования. Наличие таких методов и
устройств позволит успешно обеспечивать современные и будущие требования к
6
видеоинформационным системам на базе мобильных и стационарных аппаратных
платформ.
Цель и задачи работы
Целью
настоящей
диссертационной
работы
является
модернизация
существующих и разработка новых адаптивных методов, алгоритмов и устройств,
позволяющих
эффективно
формировать,
обрабатывать
и
кодировать
видеоинформационные сигналы ТВ изображений со стандартной, высокой и
сверхвысокой четкостью, а также сократить за счёт снижения объёма вычислений
необходимое количество используемых временных и аппаратных ресурсов для
реализации перечисленных операций в сравнении с существующими методами.
Для достижения поставленной цели в данной диссертационной работе
решены следующие научно-практические задачи:
1. Проведен
теоретический
видеоинформационных
анализ
сигналов
методов
в
обработки
современных
и
кодирования
стандартах
сжатия
H.264/AVC, H.265/HEVC и эффективных методов противошумовой коррекции
структуры ТВ изображений.
2. На основе аналитических результатов выбраны параметры размера блоков
обрабатываемых пикселей внутрикадрового пространства и конкретизированы
перспективные
направления
в
области
разработки
новых
методов
эффективного формирования видеоинформационных сигналов.
3. Разработан
которого
эффективный
является
метод
шумовой
относительно
коррекции,
высокая
преимуществом
степень
подавления
высокочастотных, в пределах внутрикадрового пространства, составляющих
шума.
4. Разработана структурная схема устройства многомерной шумовой коррекции
видеоинформационных сигналов, обеспечивающее эффективное устранение
шума.
5. Разработан
метод
итерационной
противошумовой
обработки,
обеспечивающий формирование адаптивных сигналов управления высокой
точности.
7
6. Разработан
метод
внутрикадрового
обеспечивающий масштабируемость
сжатия
сигналов
изображений,
видеоинформационного потока при
передаче кодированных данных.
7. Разработан высокоэффективный метод межкадрового кодирования данных,
не
требующий
в
процессе
своей
работы
привлечения
высокопроизводительных аппаратных ресурсов.
Методы исследования
Поставленные в данной диссертационной работе задачи решались с
использованием современных методов цифровой обработки изображений,
численного
анализа,
интегрирования
и
статистической
радиотехники,
дифференцирования,
теории
численного
спектрального
анализа,
программирования и др.
Научная новизна
1. Для
варианта
кодирования
изображений высокой четкости выявлена
специфика корреляционных связей смежных в пространстве
пикселей и
конкретизированы параметры размеров блоков пикселей, обеспечивающие
увеличение эффективности устранения внутрикадровой избыточности в
пространственном спектре изображения без существенной потери качества в
последнем.
2. Предложена таблица с увеличенным набором коэффициентов частотного
взвешивания для квантования трансформант ДКП в пространственном
направлении видеоформата высокой четкости.
3. Разработан метод трехмерной противошумовой коррекции на основе
адаптивной
пространственно-временной
фильтрации
сигналов
ТВ
изображений в последовательности кадров.
4. Разработана структурная схема устройства трехмерной противошумовой
коррекции на основе пространственно-временной фильтрации сигналов ТВ
изображений в последовательности кадров.
5. Для адаптивной внутрикадровой и межкадровой обработки ТВ изображений
высокой четкости разработан метод формирования управляющих сигналов,
8
основанный на итерационной, линейной и нелинейной противошумовой
обработке сигналов ТВ изображений.
6. Разработан метод адаптивного внутрикадрового сжатия с возможностью
формирования
корректирующей
информации,
обеспечивающей
масштабируемость видеоинформационного потока.
7. Разработан метод адаптивного межкадрового сжатия с
уменьшением
необходимого числа сигналов векторов движения для восстановления кадра и
соответственно увеличенной производительностью при выполнении процесса
кодирования.
Практическая ценность
1. Реализовано
эффективное
формирование
управляющих
сигналов
для
адаптивной внутрикадровой и межкадровой обработки ТВ изображений
высокой четкости.
2. Разработан алгоритм формирования корректирующей информации
внутрикадровом
сжатии
видеосигнала
с
выполнением
при
условия
масштабируемости результирующего информационного потока.
3. При реализации межкадрового сжатия сигналов изображений обеспечено
уменьшение
необходимого
числа
сигналов
векторов
движения
для
восстановления кадра и соответственно увеличена производительность при
выполнении процесса кодирования.
4. Разработана структурная схема устройства трехмерной шумовой коррекции
на основе пространственно-временной фильтрации сигналов изображений в
последовательности кадров.
5. Создано программное обеспечение для моделирования разработанного метода
адаптивного
внутрикадрового
сжатия
с
возможностью
формирования
корректирующей информации.
6. Создано программное обеспечение для моделирования разработанного метода
адаптивного межкадрового сжатия.
9
Реализация результатов работы
Результаты работы использованы при разработке
систем
передачи
видеоинформации в ООО «Радиокомп», ЗАО «Спецвидеопроект» и при
выполнении гранта РФФИ № 14-07-00793-А «Разработка методов, алгоритмов и
устройства объективной комплексной и раздельной относительной оценки
характеристик систем сжатия спектра сигналов изображений вещательного
телевидения» в ФГОБУ ВПО МТУСИ. Они также использованы при проведении
учебного процесса на кафедре телевидения и звукового вещания им. С.И. Катаева
ФГОБУ ВПО МТУСИ для подготовки бакалавров и магистров.
Апробация результатов работы
Основные
обсуждались
положения
на
диссертационной
международных
работы докладывались
научно-технических
и
конференциях
“Фундаментальные проблемы радиоэлектронного приборостроения”, Москва,
Intermatic 2011 г. и Москва, Intermatic 2012 г., VIII международно-отраслевой
научно-технической конференция “Технологии информационного общества”,
Москва, 2014 г., а также на научно-технических семинарах, организованных на
кафедре телевидения и звукового вещания
им. С.И. Катаева ФГОБУ ВПО
МТУСИ, 2011 – 2014 гг.
Публикации
По материалам диссертационной работы опубликовано 5 научных работ,
в том числе три статьи в ведущих рецензируемых журналах, входящих в перечень
ВАК.
Личный вклад
Теоретические выводы, основные положения и рекомендации, изложенные
в материалах данной диссертации, получены автором лично.
Структура и объём работы
Диссертационная работа состоит из введения, четырёх глав, заключения,
списка литературы и приложения. Работа изложена на 205 страницах
машинописного текста. Список литературы включает 91 наименование.
10
Основные положения, выносимые на защиту
1. Разработанный
метод
трехмерной
противошумовой
внутрикадрового пространства на основе адаптивной
коррекции
пространственно-
временной фильтрации сигналов изображений в последовательности кадров,
реализующий эффективное подавление шумов различного происхождения и
обеспечивающий экономное, в силу применения простых математических
операций, использование вычислительных ресурсов.
2. Разработанная структурная схема устройства трехмерной противошумовой
коррекции
видеоинформационного
сигнала
на
основе
адаптивной
пространственно-временной фильтрации кадров, реализующая эффективное
подавление шумов различного происхождения и экономию вычислительные
ресурсы.
3. Разработанный
метод
итерационной
противошумовой
обработки,
обеспечивающий формирование адаптивных сигналов управления высокой
точности,
позволяющий повысить эффективность и скорость работы
алгоритмов кодирования видеоинформационных сигналов в режиме реального
времени.
4. Разработанный адаптивный метод устранения внутрикадровой избыточности с
селективной обработкой сигнала ошибки, увеличивающий эффективность
кодирования изображений формата стандартной и высокой четкости, а также
обеспечивающий
возможность
формирования
масштабируемого
видеоинформационного потока, позволяющего динамически адаптировать
скорость такого потока к пропускной способности канала связи.
5. Разработанный адаптивный метод устранения межкадровой избыточности,
обеспечивающий формирование уменьшенного, требуемого для передачи,
количества векторов движения и, тем самым, предоставляющий возможность
увеличения степени сжатия с уменьшением общего времени работы алгоритма
межкадрового кодирования.
6. Результаты проведённого анализа, моделирования и экспериментальных
исследований разработанных методов сжатия изображений различных
11
форматов четкости, демонстрирующие увеличение эффективности процесса
кодирования этих методов по сравнению с существующими методами.
Краткое содержание работы
Во введении обоснована актуальность темы диссертации, охарактеризовано
состояние
исследуемых
вопросов,
определены
цель,
задачи
и
методы
исследований. Сформулированы научная новизна, практическая значимость
результатов работы и положения, выносимые на защиту. Представлены состав и
краткое описание работы, приведены сведения об апробации работы и
публикациях автора.
В первой главе “Исследование методов кодирования на основе устранения
статистической и психофизиологической избыточностей внутрикадрового и
межкадрового направлений видеоинформационного сигнала” рассматриваются
современные методы устранения психофизиологической и статистической
избыточности
в
пространственном
(внутрикадровом)
и
межкадровом
направлениях, реализуемые с учетом особенностей пространственно-временных
характеристик зрительной системы человека. Приведены перспективы развития
алгоритмов кодирования видеоинформационного сигнала.
Во второй главе “Формирование сигналов управления для адаптивного
преобразования видеоинформационного сигнала” произведена классификация и
проведен сравнительный анализ наиболее успешных методов шумовой и
апертурной коррекции. Определен характер возникновения шумов и апертурных
искажений, описывающий условия увеличения универсальности при разработке
алгоритмов
коррекции
шума
и
искажений.
Определены
параметры
видеоинформационного сигнала, способствующие алгоритмам точнее отличать
шум от полезной информации и, соответственно, сохранять контрастные границы
объектов в изображении кадра. Разработан эффективный метод итерационной
шумовой коррекции с применением коэффициентов, определенных усеченной
функцией Гаусса. Разработана структурная схема устройства трехмерной
шумовой коррекции внутрикадрового пространства на основе пространственновременной фильтрации смежных кадров с применением системы гребенчатых
12
фильтров. Рассмотрено формирование и обоснована эффективность применения
сигналов управления для адаптивного преобразования видеоинформационного
сигнала.
В третьей главе “Реализация методов сжатия видеоинформационных
сигналов” описан разработанный метод внутрикадрового сжатия с применением
рекомендаций по выбору параметров размеров блоков обработки и матрицы
коэффициентов
корректирующей
квантования,
а
информации
на
также
возможностью
основе
формирования
управляющего
сигнала
для
осуществления масштабирования видеоинформационного потока в зависимости
от доступных ресурсов канала связи. Экспериментальным путем определены и
сформированы матрицы коэффициентов квантования для кодирования блоков
обработки в пространственной области кадра формата высокой четкости и блоков
корректирующей информации. Описан разработанный на основе управляющих
сигналов метод ускоренной реализации процесса компенсации движения и
сокращения количества векторов движения, необходимых для декодирования
изображения
скомпенсированного
кадра
при
межкадровом
кодировании
видеоинформационного потока. Для разработанных методов внутрикадрового и
межкадрового кодирования приведены блок схемы их алгоритмов. Показана
универсальность
применения
видеоинформационного
итерационного
метода
управляющих
потока.
шумовой
сигналов
Обоснована
коррекции
в
кодировании
эффективность
при
использовании
работы
его
в
предобработке пространственной области кодируемого кадра и адаптивного
формирования для него управляющих сигналов.
В
четвертой
главе
“Результаты
работы
и
экспериментального
исследования разработанных методов формирования управляющих сигналов,
внутрикадрового и межкадрового кодирования” приведены данные полученные в
результате работы разработанных методов при различных вариантах исходных
данных и требованиях к скорости, степени сжатия и качеству декодируемых
изображений тестовых кадров. Выполнены сравнительные тесты с методами,
используемыми в современных стандартах сжатия видеоинформационного
13
сигнала. Отмечены сильные и слабые стороны разработанных методов. На
основании результатов исследования данной главы, обосновано увеличение
эффективности и скорости работы разработанных методов в сравнении с
используемыми
в
настоящее
время
методами
кодирования
видеоинформационного сигнала.
В заключении приводятся основные выводы и результаты, полученные в
ходе проведения исследований.
В приложении приведён код программы, моделирующий адаптивное
внутрикадровое кодирование с формированием корректирующей информации на
основе управляющих сигналов, а также код программы, моделирующий с
применением
управляющих
сигналов
адаптивный
процесс
выполнения
компенсации движения и формирования уменьшенного числа сигналов векторов
движения, необходимых для декодирования видеоинформационного потока.
14
ГЛАВА 1. ИССЛЕДОВАНИЕ МЕТОДОВ КОДИРОВАНИЯ НА ОСНОВЕ
УСТРАНЕНИЯ СТАТИСТИЧЕСКОЙ И ПСИХОФИЗИОЛОГИЧЕСКОЙ
ИЗБЫТОЧНОСТЕЙ ВНУТРИКАДРОВОГО И МЕЖКАДРОВОГО
НАПРАВЛЕНИЙ ВИДЕОИНФОРМАЦИОННОГО СИГНАЛА
1.1 Характеристики параметров зрительной системы человека
Конечной
точкой
приема
видеоинформационного
сигнала
является
зрительная система человека, которая регистрирует и обрабатывает эту
информацию, представляя ее в виде изображений. По этой причине при
проектировании новейших видеоинформационных систем или модифицировании
существующих очень важно учитывать особенности зрительной системы
человека. Учитывая данные особенности, становится возможным формировать
набор
критериев
верности
воспроизведения
изображения
на
выходе
видеоинформационной системы и дешифруемости этого изображения человеком.
Зрительная система человека состоит из глаз, зрительного нерва и мозга
[48],
совместная
работа
которых
обеспечивает формирование
объемных
изображений окружающего мира.
Глаз, как и объектив телевизионной камеры, представляет собой оптический
приемник и является тонким и сложным механизмом. От качества приходящего
на
вход
приемника
сигнала
(в
нашем
случае
сигнала
изображения),
согласованности его характеристик с обрабатывающей системой приемника и
точности обработки этим приемником будет зависеть степень верности
формирования изображения в мозгу.
Для того чтобы понять, как обеспечить согласованность приходящего
сигнала с характеристиками глаза, рассмотрим основные элементы глаза и
принцип их работы.
Глаз человека состоит из таких основных элементов как склера, зрачок,
хрусталик и сетчатка.
Склера служит биологическим корпусом глаза, который содержит в себе
остальные из, перечисленных выше, элементов.
15
Зрачок
представляет
собой
диафрагму,
регулирующую
количество
пропускаемого света.
Хрусталик является линзой, обеспечивающей фокусировку глаза на
объекты.
Сетчатку можно описать как световоспринимающую матрицу, которая
состоит из двух видов активных анализирующих элементов – палочек и колбочек.
Благодаря результатам физиологических исследований глаза известно, что
палочки активируются в темноте или в сумеречное время и воспринимают только
оттенки серого. Колбочки участвуют в дневном зрении, воспринимают цвет и,
соответственно, их разрешающая способность намного выше, чем у палочек.
Кроме того, в связи с работой в разных условиях, максимальная чувствительность
палочек и колбочек достигается на разных длинах волн.
По этой причине
чувствительность глаза человека зависит от длины волны. Диапазон длин волн, в
котором глаз способен регистрировать сигналы, составляет от 380 нм до 760 нм.
Наибольшая чувствительность, а следовательно разрешающая способность глаза,
достигается на длине волны 555 нм (зелено-желтый цвет), при дневном зрении, и
на длине волны 515 нм, при сумеречном зрении. По мере удаления от этого
значения, в обе стороны спектра, чувствительность глаза падает и начинает
стремиться к нулю, начиная со значений длин волн 380 нм – фиолетовый цвет и
760 нм – красный цвет. Все, что лежит по обе стороны границ данного диапазона,
называется ультрафиолетовым и инфракрасным излучением соответственно [1].
Спектральная характеристика - это зависимость спектральной плотности
мощности излучения от частоты (длины волны) излучения. Применительно к
глазу человека, спектральную характеристику называют кривой видности.
Соответственно для зрения человека различают две кривых видности – для
дневного и ночного зрения. У разных наблюдателей, кривые видности различны,
поэтому существуют их среднее представление, приведенное на рисунке 1.1.
16
Рисунок 1.1. Кривые видности человеческого зрения в области длин волн
Из-за сдвига между кривыми дневного зрения и ночного зрения, который
можно наблюдать на зависимостях рисунка 1.1, колбочки регистрируют синефиолетовый цвет как светлый оттенок серого, а красный – темный. Этот сдвиг
называется сдвигом Пуркинье [3] .
Кроме этого, значение дневной чувствительности глаза к излучению, к
примеру, с длиной волны 520 нм абсолютно идентично чувствительности к
излучению с длиной волны 690 нм, а значение чувствительности глаза к
излучению с длиной волны 480 нм идентично чувствительности к излучению с
длиной волны
630 нм. Таким образом, объекты, имеющие разные значения
яркости, глазом могут восприниматься как одинаково яркие или же воздействие
одинаково ярких объектов, к примеру, с синим и зеленым цветами, будет
восприниматься не одинаково [2, 3].
В связи с изложенным выше можно также отметить, что, в зависимости от
регистрируемой зрительной системой яркости, имеет место адаптация глаза.
Адаптация происходит за счет манипулирования размером зрачка глаза, а также
переходом с колбочкового зрения на палочковое или наоборот. При этом
существует темновая адаптация, под которой подразумевается переход от
воздействия яркого света к менее яркому, и световая адаптация - от темного к
яркому. Зависимость чувствительности от времени адаптации глаза при переходе
17
с колбочкового зрения на палочковое, т.е. при темновой адаптации, изображена
на рисунке 1.2 [3].
Рисунок 1.2. Кривая адаптации при переходе от колбочкового зрения к
палочковому
Таким образом, из графика на рисунке 1.2 видно, что наибольшей
чувствительностью к свету обладают палочки, при этом, как уже отмечалось, они
не способны регистрировать цвет, их разрешающая способность меньше, чем у
колбочек, вследствие меньшей концентрации первых на единицу площади
сетчатки глаза, хотя общее их количество намного выше, чем колбочек.
Перегиб на графике рисунка 1.2 иллюстрирует момент, когда колбочки
достигают максимальной чувствительности, после чего более не участвуют в
процессе адаптации – человек начинает воспринимать объекты в черно-белом
цвете.
При световой адаптации глаз подстраивает свои характеристики намного
быстрее, чем при темновой. При слишком ярком свете, который возникает в
режиме, когда глаз адаптирован на ночное зрение и имеет наивысшую
чувствительность,
появляется
неприятное
ощущение
ослепления,
т.к.
раздражение палочек, из-за слишком быстрого разложения химически активного
вещества - родопсина, чрезвычайно сильно и глаз ослеплен. При этом колбочки,
которые не успели еще выработать защитный механизм в виде химического
вещества меланина от слишком яркого света, также сильно раздражены. Верхняя
18
граница слепящей яркости зависит от времени темновой адаптации глаза,
поэтому, чем дольше происходила темновая адаптация, тем меньшая яркость
света вызывает ослепление. Если в поле зрения попадают очень ярко освещенные
или слепящие объекты, то они ухудшают восприятие сигналов на большей части
сетчатки. Только по истечении достаточного времени адаптация глаза к яркому
свету заканчивается, и глаз начинает нормально функционировать. Полная
световая адаптация достигает своего максимального значение через 8 – 10 мин,
при темновой же адаптации через 60 – 80 мин. Полную темновую адаптацию
можно назвать долговременной (десятки минут), кроме нее можно выделить
также быстровременную (доли и единицы секунд) и средневременную (десятки
секунд, минуты) [4].
Можно отметить, что динамический диапазон глаза при подстройке к
уровням яркости очень широк, но и имеет место инерционность перестройки, что
становится
очень
важным
фактором,
учитываемым
при
формировании
изображения на входе и выходе систем формирования и отображения
видеоинформационных сигналов.
Кроме самого глаза, в зрительной системе большую роль играет и работа
мозга. Поэтому, наряду с описанными выше элементами и процессами, одной из
основных особенностей работы зрения также являются обратные связи,
определяющие специфику работы зрительной системы. При этом мозг человека
реализует не только обработку поступающей видеоинформации (блок обработки
видеоинформации), но и обеспечивает управление зрительной системой в режиме
видеоконтроля по цепям обратных связей (зрительного нерва) [4] .
На рисунке 1.3, в виде структурной схемы, представлена модель,
учитывающая известные особенности функционирования зрительной системы
человека.
19
ПСС
ВВ
ОС
Д
ЭФ
СВП
ПЦД
СП
ИЭ
БОО и К
ЭД и ИА
ИЭ
БУП
БИЭ
УОП
БФСУ и ОС
УДП
УАП
УПП
Рисунок 1.3. Модель функционирования зрительной системы человек
На рисунке 1.3 ВВ – входное воздействие, ОС - оптическая система,
содержащая диафрагму Д, элемент фокусировки при проецировании объекта на
светочувствительную поверхность ЭФ, светопровод СП, светочувствительная
поверхность СВП, в которой выделены пространственно-цветовой дискретизатор
ПЦД и элементы дифференциального и интегрального анализа видеоинформации
ЭД и ИА, блок относительной обработки и кодирования видеоинформации БОО и
К,
блок
уровней
памяти
БУП,
состоящий
из
уровней
оперативной,
долговременной, ассоциативной, подсознательной и т.д. уровней памяти, блок
формирования сигнала управления и обратных связей БФСУ и ОС, блок
исполнительных элементов БИЭ, отдельные исполнительные элементы ИЭ.
При работе зрительной системы имеет место перестройка характеристик
зрительной системы в зависимости от сигналов управления, поступающих на
отдельные элементы представленной структурной схемы. В ОС следует по
крайней мере выделить два элемента с адаптивной перестройкой. Имеют место
регулирование размера диафрагмы и автоматическая перестройка плоскости
фокусировки зрения в пространство локализации объекта, подвергнутого
видеоконтролю. Уровень интегральной адаптации существенно влияет на
чувствительность и эквивалентную протяженность частотных характеристик
20
зрительной системы в пространственном, временном и цветовом направлениях,
которая определяет разрешающую
способность глаза в соответствующем
направлении. Следует отметить обратную тенденцию регулирования этих
характеристик. Активизация чувствительности, возникающая с падением средней
освещенности
контролируемых
объектов,
связана
с
возрастанием
веса
интегральной обработки видеоинформации и, следовательно, с уменьшением
разрешающей способности глаза во всех направлениях (пространство, временное
и цветовое направления). В режиме динамической адаптации характеристики
зрительной системы не оптимизированы. Как уже отмечалось выше, различается
несколько
участков
адаптационной
перестройки
режима
работы
глаза:
быстровременной, средневременной, долговременной. Процесс адаптации к
средней освещенности завершается примерно за 30-40 минут. После завершения
адаптации характеристики зрения оптимизируются для данных конкретных
условий видеоконтроля. [4]
Иллюстрационно на рисунке 1.4 показана пространственная частотная
характеристика глаза (аргумент - пространственные частоты
x ,
y
в
период/градус) и ее сечение при  y =0, а на рисунке 1.5 - временная частотная
характеристика глаза (аргумент Гц).
Рисунок 1.4. Пространственная частотная характеристика глаза
21
Рисунок 1.5. Временная частотная характеристика глаза
Таким
образом,
в
условиях
малых
яркостей
и
освещенностей
контролируемых объектов зрительная система работает как многомерный
интегратор видеоинформации. При больших освещенностях (яркостях) объектов
проявляются дифференциальные свойства зрения человека. Такую специфику
работы зрения следует учитывать как в пространстве кадра, так и в межкадровом
и цветовом направлениях. [4]
Для
зрительной
наблюдателя
системы
являются
весьма
указанные
специфичными
выше
эффекты
по
действию
на
дифференциального
видеоконтроля. Классическими экспериментами (Брок и Зульцер, 1902 г.) было
доказано, что зрительная система имеет различные характеристики при
восприятии экранов с постоянной и кратковременной освещенностью. Оказалось,
что дифференциальные эффекты проявляются только при освещенностях
больших 30 лк. За счет дифференциальных свойств восприятия экраны с
кратковременной
(≈0,05
сек)
экспозицией
оценивались
наблюдателями
приблизительно в 5 раз с большей освещенностью по отношению к фактической
(экран с постоянной освещенностью).
Таким образом, чередования длительных изображений слабоосвещенных
сцен с кратковременными засветками вызывают дискомфорт. Рассмотрим
причины
данного
явления.
При
слабых
освещенностях
возрастает
чувствительность анализирующих элементов глаза и по цепи обратной связи
успевает осуществиться регулировка (увеличения) размера зрачка (диафрагмы).
22
Поэтому
кратковременная вспышка освещенности экрана, в данном случае,
является слепящей.
Важными элементами функционирования зрительной системы являются
регулировки размера зрачка, формы хрусталика, прерывания светового потока,
движения глаз, тремор, адаптационные явления, наличие области ясного видения.
Необходимо учитывать и наличие в зрительной системе пространственной и
цветовой
элементами.
дискретизации
При
этом
входного
изображения
обеспечивается
полное
светочувствительными
подавление
искажений
дискретизации за счет выбора определенного распределения, определенной
чувствительности и размера распределенных светочувствительных элементов в
пределах области “ясного видения” и периферии.
Чувствительность
элемента
дискретизации
определяется
не
только
временем засветки, но и размерами, которые тоже могут регулироваться. Поэтому
для наблюдения слабоосвещенных сцен характерно сочетания увеличения
чувствительности
и
уменьшения
разрешающей
способности
зрения
в
пространстве кадра и, в межкадровом и цветовом направлениях.
Дифференциальная
специфика
восприятия
цвета
выявляется
при
контрастировании дополнительными цветами. При этом тремор определяет также
контрастирование границ и мелких деталей при наблюдении объектов данного
цвета по отношению, например, к фону с дополнительным цветом.
Соответственно
дискомфорт
у
наблюдателя
может
возникать
при
кратковременных изменениях цвета изображения от воспроизводимого к
дополнительному.
Дифференциальный механизм работы здесь тот же: при освещенностях
заданным цветом возрастает чувствительность элементов к дополнительному.
К элементам дифференциальной обработки видеоинформации могут быть
отнесены тремор, сканирование изображений, прерывания светового потока,
движения глаз и др. Спецификой здесь является относительное контрастирование
контролируемых объектов за счет дискретных смещений области “ясного
видения” на смежные участки контролируемой сцены. При этом имеют место
23
последовательные релаксационные изменения контролируемой видеоинформации
с многократным возвращением на контролируемый объект. Это обеспечивает
оптимизацию характеристик дифференциального восприятия, свойственных
зрительной системе человека.
Элементами
прослеживания
интегральной
движущихся
обработки
видеоинформации
являются
объектов,
регулирования
размеров
светочувствительного элемента, фиксации глаз, области “ясного видения” и др.
Управление зрительной системы реализуется на основе накопления и
классификации информационных характеристик объектов в блоке уровней
памяти. Накопленная человеком видеоинформация позволяет адаптационно
оптимизировать характеристики зрительной системы, исключает восприятие
неизменной или узнаваемой видеоинформации. С другой стороны изменениями
являются и прерывания накопленной видеоинформации. По цепям обратных
связей стимулируется дифференциальный эффект “подчеркивания ожидаемой”
видеоинформации в случаях ее относительно продолжительного отсутствия [4] .
1.2
Алгоритмы
энтропийного
кодирования
при
сжатии
спектра
видеоинформационного сигнала
Энтропия определяется количеством информации, которое содержится в
символе a, имеющем вероятность P.
При этом информация символа, имеющего вероятность P, определятся формулой
[5, 90]:
I  P    log 2 P , бит.
(1.1)
Под символом здесь подразумевается один из отличающихся друг от друга
элементов, полный набор которых, образует сообщение, которое формируется
некоторым источником сообщений.
Общая совокупность символов, доступных источнику при формировании
сообщений – алфавит А={а1, а2, … , аN}. Вероятность появления в сообщении
того или иного символа из совокупности соответственно равна (P1, P2, … , PN).
24
Имея такие данные, можно определить энтропию этого алфавита в соответствии с
формулой [5, 90]:
N
H    Pi log 2  Pi  , бит
(1.2)
i
Энтропия сообщения, которое образовано из таких символов, будет
определяться аналогичным образом. Соответственно для данного случая будет
верно сказать, что энтропия сообщения – это мера количества информации
содержащейся в этом сообщении.
Своего максимального значения энтропия будет достигать в случае
равновероятностного появления всех символов, и приобретать меньшие значения
при резко отличающихся вероятностях появления символов [5]. Для этого в
качестве примера можно рассмотреть энтропию для сообщения, алфавит которого
состоит из двух символов, т.е. двоичного сообщения. К тому же, источник таких
сообщений имеет особое значение, т.к. с его помощью можно описать процесс
передачи данных. Итак, на рисунке 1.6 видно, что максимум энтропии приходится
на случай, когда вероятности обоих символов равны 0,5 и минимум для случая,
когда один из символов не появится совсем, а другой будет появляться в 100%
случаях.
С практической точки зрения это говорит о том, что в случае максимального
значения энтропии избыточность сообщения равна 0, при этом сжать это
сообщение более не возможно. В случае резко отличающихся вероятностей
сообщений,
значение
энтропии
уменьшается,
в
сообщении
появляется
избыточность и соответственно возможность его сжатия. Таким образом,
пользуясь энтропией, можно определить теоретический предел, до которого
возможно сжать сообщение и к которому следует стремиться подбором
оптимального кодера.
25
Рисунок 1.6. Энтропия сообщения состоящего из двух символьного алфавита
Возьмем алфавит символов А=(а1, а2, а3, а4, а5, а6), вероятности которых
соответственно равны 0,3; 0,2; 0,2; 0,1; 0,1; 0,1. Вероятность того, что источник
сообщений сформирует сообщение вида а1 а1 а1 а2 а2 а3 а3 а4 а5 а6 будет равна P =
0,33 × 0,22 × 0,22 × 0,1 × 0,1 × 0,1 = 1,44 × 10–7. Информация, которую содержит
данное сообщение, соответственно равна I  P   –log 21,44  10–7  22,73 . Число
22,73 описывает наименьший объем информации, содержащийся в сообщении, и
количество бит, требуемых для кодирования этого сообщения. Кодер, в работе
которого лежат описанные выше принципы, называется энтропийным кодером.
Основным механизмом в работе энтропийного кодера является кодирование
алфавита символов переменным числом бит, еще известное как VLC (variable
length code) кодирование. Количество бит, которое будет приходиться на тот или
иной символ, напрямую зависит от вероятности появления этого символа.
Соответственно, чем ближе вероятность появления символа к единице, тем
меньшим количеством бит будет кодироваться этот символ. Такой способ
кодирования
обеспечивает
достаточно
высокую
степень
устранения
избыточности сообщения и, как следствие, высокий уровень сжатия при
кодировании без потерь. Однако обязательным требованием к кодировочному
коду символов является префиксность этого кода. Данные коды, не смотря на
переменность длины, обладают свойством следовать подряд, без разделительного
знака, и быть при этом однозначно декодированными на исходные символы.
26
На текущий момент существует несколько алгоритмов кодирования,
обеспечивающих формирование кода, отвечающего требованиям, описанным в
предыдущем абзаце. В зависимости от способа формирования кода, такие
алгоритмы кодирования принято разделять на три группы:
1. Статические алгоритмы сжатия;
2. Адаптивные алгоритмы сжатия;
3. Динамические алгоритмы сжатия.
К статическим алгоритмам сжатия относят код Хаффмана [5,6]. Идея этого
кода заключается в том, что часто используемые символы в сообщении
передаются коротким кодом, реже используемые символы – длинным. Процесс
кодирования по Хаффману является одним из самых простых и понятных.
Вначале символы алфавита располагают в порядке убывания вероятностей их
появления. Далее два символа, вероятности которых наименьшие, объединяют в
один новый составной символ, при этом вероятность составного символа будет
равна сумме вероятностей символов, из которых он составлен. Затем символы
снова располагают в порядке описанном в начале. Эти два процесса
продолжаются до момента, когда все символы будут объединены. На
завершающей стадии последнему символу, вошедшему в состав составного
символа, присваивают значение 0, а остальной части – 1. Процесс присвоения
продолжается до тех пор, пока всем символам не будут присвоены значения. Для
наглядности процесс формирования изображают в виде дерева или в нашем
случае схемой. На рисунке 1.7 представлена схема кодирования для сообщения а1
а1 а1 а2 а2 а3 а3 а4 а5 а6.
27
а2
а3
а4
а5
а6
P=0,3
P=0,2
P=0,2
P=0,1
P=0,1
P=0,1
0
1
а1
а2
а3
а4
а 5а 6
P=0,3
P=0,2
P=0,2
P=0,1
P=0,2
0
1
а1
а2
а 3а 4
а 5а 6
P=0,3
P=0,2
P=0,3
P=0,2
0
1
а1
а 2а 5а 6
а 3а 4
P=0,3
P=0,4
P=0,3
0
1
а 1а 3а 4
а 2а 5а 6
P=0,6
P=0,4
0
1
Направление присвоения “0” и “1”
Направление объединения символов
а1
а1а3а4а2а5а6
P=1
Рисунок 1.7. Схема кодирования кодом Хаффмана.
После кодирования символам присваиваются префиксные коды различной
длины. Пример присвоенных кодов для кодирования на рисунке 1.7 приведен в
таблице 1.1.
Таблица 1.1. Кодирование кодом Хаффмана для рисунка 1.7
Символ
а1
а2
а3
а4
а5
а6
Код
00
10
010
011
110
111
28
С момента открытия Хаффманом своего кодирования прошло немало
времени, но оно, в силу своей оптимальности для кодов переменной длины, все
еще остается достаточно популярным в кодировании текста, изображений, аудиои видеоинформации.
Не смотря на простоту реализации, испытанность временем и популярность,
кодирование
Хаффмана
имеет
свои
недостатки.
Основным
недостатком
кодирования Хаффмана является то, что максимальная эффективность сжатия
достигается в случае отражения значений вероятности символов величиной 2-n,
где n - целое число. В противном случае действительная степень сжатия
отличается от эффективного значения. Снижение эффективности обусловлено
появлением
избыточности
в
коде
символов,
которая
появляется
при
использовании целого числа бит.
Кроме этого, для каналов передачи данных играют роль и другие
недостатки этого кодирования:
 неодинаковые длины кодов, что приводит к неравномерным задержкам
декодирования;
 за счет снижения избыточности при кодировании, сжатый поток становится
более уязвимым к появлению в последовательности кода ошибок. Это
приводит
к
тому,
что
один
неверно
декодированный
бит
в
последовательности приводит к неверному декодированию последующих
символов закодированной последовательности;
 при кодировании по Хаффману предполагается наличие известных
вероятностей появления символов, но в реальности эти вероятности
недоступны. Это приводит к тому, что при реализации кодека необходимо
заставлять кодек сжимать сообщение в два этапа – один для набора
статистики
и
составления
кодовой
таблицы,
второй
–
для
непосредственного сжатия. Кроме того, эта же статистика должна быть
известна декодеру, что подразумевает её передачу вместе с закодированным
сообщением.
29
Примером адаптивного алгоритма служит модифицированное кодирование
Хаффмана [5]. Отличительной чертой этого кодирования от классического
статического кода Хаффмана является то, что нет необходимости знать
вероятности
символов
заранее,
кодирование
поступления
данных.
Дерево,
при
этом,
осуществляется
адаптивно
в
процессе
подстраивается
к
получающейся последовательности. Такой подход позволяет исключить из
работы кодека этап набора вероятностной статистики и дальнейшей ее передачи
на декодер.
К динамическим алгоритмам сжатия следует отнести арифметическое
кодирование [5]. Арифметическое кодирование является хорошей альтернативой
алгоритмам
Хаффмана.
Кроме
того,
на
эффективность
сжатия
при
арифметическом кодировании не влияет зависимость вероятностей символов от
величины 2-n. Идея арифметического кодирования заключается в присвоении кода
не отдельным символам, образующим сообщение, а сообщению в целом.
Объяснить идею кодирования проще на следующем примере. Имеется сообщение,
представленное набором символов a1 a2 a3 a1 a1 a4 a5 a3 a1 a1. Вероятности появления
этих символов равны: a1 = 0,5; a2 = 0,1; a3 = 0,2; a4 = 0,1; a5 = 0,1.
В
арифметическом кодировании символы выражаются значениями из интервала в
диапазоне чисел [0; 1). Диапазон каждого символа определен в соответствии с
вероятностями появления этих символов. Для нашего сообщения символы будут
выражены интервалами, представленными на рисунке 1.8.
Рисунок 1.8. Присвоенные символам интервалы в диапазоне чисел [0,1)
Далее кодек последовательно считывает символы из сообщения и
распределяет их вероятности в диапазоне чисел, который будет меняться в
зависимости от вероятности предыдущего символа, т.е., если первым следует
символ а1 и соответственно его интервал [0,5; 1), следующий за ним символ a2
должен укладываться в интервале символа а1 с соблюдением пропорций
30
интервала присвоенного a2 на начальном этапе. Эта идея поясняется на рисунке
1.9.
Рисунок 1.9. Процесс арифметического кодирования сообщения
Для того, чтобы вычислить новый интервал для последующего символа с
учетом пропорций, пользуются формулами 1.3 и 1.4.
y   x   y  x   y ',
(1.3)
x  x   y  x   x ',
(1.4)
где:
x – нижняя граница интервала предыдущего символа;
y – верхняя граница интервала предыдущего символа;
x’ – нижняя граница присвоенного, на начальном этапе, интервала
текущего символа;
y’ – верхняя граница присвоенного, на начальном этапе, интервала
текущего символа;
x’’ – новая нижняя граница текущего символа в интервале
предыдущего символа;
y’’ – новая верхняя граница текущего символа в интервале
предыдущего символа.
Процесс вычисления новых интервалов продолжается до получения
значения переменной x’’ конечного символа сообщения, при этом в записи этого
31
значения исключается целая часть, т.е. 0. В нашем случае число 0,71753375 будет
представлено значением 71753375.
Окончательным кодом арифметического кодирования, который будет
присвоен нашему сообщению, является любое число из диапазона [0,71753375;
0,717535). Для примера, с учетом исключения “0,” это может быть число 717534
как самое короткое.
На практике идея арифметического кодирования в чистом виде, описанная
выше, не используется, вследствие того, что конечный результат такой
арифметической операции может приобретать бесконечную точность, что не
реализуемо на любой из современных
аппаратных частях кодирующего
устройства. Поэтому для реализации применяют модифицированный вариант
этой
идеи.
В
модифицированном
варианте
имеет
место
искусственное
ограничение точности, где значения переменных x’’ и y’’ не превышают длины в
16 или 32 бита. В этом случае все переменные в формулах 1.3 и 1.4
представляются целыми числами, а
переменной y’’ присваивается, вместо
значения 1, значение 9999, которое соответствует бесконечной десятичной дроби
0,(9). Поэтому, если вначале символ а1 с интервалом [0;1) имел границы с
пределами
y   x   y  x   y   0, 0  1, 0  0, 0   1,0  1,
x  x   y  x   x  0,0  1,0  0, 0   0,5  0,5,
то, с учетом необходимости представление переменных целыми значениями, в
модифицированном варианте границы символа а1 будут иметь пределы
y  x   y  x   y   0  10000  0   1,0  10000,
x  x   y  x   x  0  10000  0   0,5  5000,
учитывая тот факт, что граница переменной y’’ является открытой – 10000 не
включается, нам необходимо из этой переменной вычесть 1. Тогда переменная y’’
будет иметь значение
y  x   y  x   y   0  10000  0   1,0  1  9999.
32
Если в процессе вычисления кода самые левые цифры в переменных x’’ и
y’’ совпадают, то переменные x’’ и y’’ сдвигаются на одну позицию влево, затем в
самую правую позицию переменной x’’ записывается 0, а в самую правую
позицию переменной y’’ записывается 9.
Промежуточные результаты процесса кодирования модифицированным
методом нашего примера сообщения представлены в таблице 1.2.
Таблица 1.2. Результаты расчеты числового кода для сообщения a1 a2 a3 a1 a1 a4 a5 a3
a1 a1
Кодируемый
символ
Операция вычисления
сообщения
a1
a2
a3
a1
a1
a4
a5
a3
a1
a1
y’’ = 0+(10000-0)*0.5
x’’ = 0+(10000-0)*1.0-1
y’’ = 5000+(10000-5000)*0.4
x’’ = 5000+(10000-5000)*0.5
y’’ = 0+(5000-0)*0.2
x’’ = 0+(5000-0)*0.4-1
y’’ = 0+(10000-0)*0.5
x’’ = 0+(10000-0)*1.0-1
y’’ = 5000+(10000-5000)*0.5
x’’ = 5000+(10000-5000)*1.0-1
y’’ = 7500+(10000-7500)*0.0
x’’ = 7500+(10000-7500)*0.1-1
y’’ = 5000+(7500-5000)*0.1
x’’ = 5000+(7500-5000)*0.2
y’’ = 2500+(5000-2500)*0.2
x’’ = 2500+(5000-2500)*0.4-1
y’’ = 0+(5000-0)*0.5
x’’ = 0+(5000-0)*1.0-1
y’’ = 2500+(5000-2500)*0.5
x’’ = 2500+(5000-2500)*1.0-1
Результат
Присваиваемое
операции
кодирующее
вычисления
значение
5000
9999
7000
7499
1000
1999
5000
9999
7500
9999
7500
7749
5250
5499
3000
3499
2500
4999
3750
4999
7
1
7
5
3
3750
4999
По завершению кодирования получается диапазон [0,717533750; 0,717535).
Таким образом, для того чтобы закодировать сообщение a1 a2 a3 a1 a1 a4 a5 a3 a1
a1 нам потребуется число 717534, которое будет занимать 20 бит –
33
10101111001011011110. Такой объем очень близок к энтропии нашего сообщения,
которая составляет 19,6 бит и соответственно показывает высокую эффективность
арифметического кодирования.
Если сообщение a1 a2 a3 a1 a1 a4 a5 a3 a1 a1 закодировать кодом Хаффмана, то на
выходе также получим 20 битовую последовательность, но при кодировании
более длинных последовательностей в сообщениях, арифметическое кодирование
окажется наиболее эффективным для применения. В силу этого, кодеры,
реализующие арифметическое кодирование, являются одними из лучших среди
энропийных кодеров сжатия.
Однако в отличие от кодирования по Хаффману, арифметическое является
более сложным для реализации из-за не полноценной универсальности идеи
работы этого алгоритма. Речь идет о том, что для сообщений, символы которых
имеют специфический набор вероятностей или последовательность следования,
кодек должен работать несколько иначе и в случае, если в кодере не
предусмотрены режимы для сжатия таких последовательностей, сообщение
окажется сжато не эффективно. Кроме этого, арифметическое сжатие производит
большее
количество
арифметических
операций,
чем
Хаффмана,
что
подразумевает использование больших мощностей аппаратных ресурсов.
Одним из самых современных на данный момент энтропийных методов
арифметического
кодирования,
полностью
адаптированный
для
сжатия
видеоинформационного сигнала, является метод CABAC (Context-adaptive binary
arithmetic
coding
-
Контекстно-адаптивное
двоичное
арифметическое
кодирование) [7, 47]. Он успешно используется в некоторых профилях кодера
H.264/AVC [8] и является основным методом энтропийного сжатия в стандарте
H.265/HEVC [9, 43, 47].
В отличие от описанных выше методов энтропийного кодирования, CABAC
для сжатия использует алфавит бинарной размерности, т.е. оперирует лишь 1 и 0.
Кроме того, в состав метода CABAC входят так называемые вероятностные
модели распределения, различные варианты которых задействуются для символов
в зависимости от контекста сжимаемой последовательности, тем самым
34
адаптивно
подстраиваясь
при
различных значениях частоты
следования
последовательности симолов. Алгоритм работы метода CABAC изображен на
рисунке 1.10.
Основные этапы кодирования следующие:
1. Преобразование в двоичную форму.
2. Выбор вероятностной модели распределения.
3. Двоичное арифметическое кодирование.
На первом этапе входному недвоичному символу однозначно ставится в
соответствие
двоичная
последовательность
или
так
называемая
битовая
последовательность. Если входной символ является двоичным, то как показано на
рисунке 1.10, этот шаг опускается.
Рисунок 1.10. Алгоритм работы CABAC
На втором этапе, если кодером принято решение использовать стандартный
режим кодирования, происходит выбор подходящей вероятностной модели
35
кодирования с учетом вероятностей ранее закодированных, соседних в
последовательности, символов. После назначения соответствующей модели кодер
переходит к третьему этапу. Если кодер принял решение использования
упрощенной модели кодирования, то второй этап опускается. Упрощенный режим
кодирования активируется в случае, если значение вероятности текущего символа
равно
значению
вероятности
предыдущего
символа
или
распределение
вероятностей символов одинаково.
Третий
этап
представляет
собой
кодирование
с
использованием
арифметического метода сжатия. Кодирование здесь выполняется либо с учетом
вероятностной модели, присвоенной на предыдущем этапе при стандартном
режиме кодирования, либо без нее в случае упрощенного режима. В последнем
случае кодирование выполняется намного быстрее с наименьшими затратами
вычислительных ресурсов.
Степень сжатия, которая достигается алгоритмом CABAC, является одной
из самых высоких, что делает его очень привлекательными методом для сжатия
видеоинформационных
сигналов.
Однако,
как
было
отмечено
ранее,
арифметический метод сжатия – это один из самых затратных в области
вычислительных ресурсов. По этой причине эффективное применение метода
сжатия CABAC возможно только с использования довольно мощных аппаратных
средств, как на стороне кодера, так и на стороне декодера.
Таким образом, при выборе используемого метода кодирования следует
учитывать уровень сложности вычислений и выигрыш в степени сжатия. В
подавляющем большинстве наиболее эффективным методом энтропийного
сжатия, с точки зрения соотношения сложность вычислений/степень сжатия,
является алгоритм Хаффмана, что дает ему преимущество над другими методами
сжатия. Однако, в настоящее время большинство современных аппаратных
платформ обладают достаточным объемом вычислительной мощности и для
выполнения арифметического кодирования.
Рассмотрим применение алгоритма Хаффмана на примере формата сжатия
JPEG [10], т.к. принципы именно этого стандарта в настоящее время часто
36
используются
при
устранении
внутрикадровой
избыточности
в
видеоинформационном сигнале.
В стандарте JPEG энтропийное сжатие является последнем этапом в сжатии
изображения. Предшествующие этапы кодирования доступно описаны в
литературе [11,12].
Как известно, изображение, при кодировании в JPEG, разделятся на блоки
размером 8x8 пикселей, называемые также MCU (Минимально кодируемая
единица) [10] блоками, которые можно представить в виде квадратных матриц
размером 8х8. После процедуры ДКП в такой матрице содержатся значения
составляющих спектра MCU блока, который она представляет. Кодированию
методом
Хаффмана
подвергается
последовательно каждая
из
матриц
с
использованием одной таблицы кодов Хаффмана для всех MCU. В таблице кодов
Хаффмана приведены соответствия между значениями составляющих спектра и
описывающими их кодами переменной длины (набор бит). Кодек JPEG может
использовать
стандартные
таблицы,
приведенные
в
приложении
(K)
к
спецификации стандарта JPEG, либо сформировать оригинальную таблицу, либо
оптимизировать с
учетом
специфики кодируемого сигнала
изображения
стандартную. В первом случае исключается операция набора статистических
данных по изображению и формирования на их основе дерева Хаффмана, что
приводит к снижению вычислительной нагрузки и уменьшению времени,
необходимого для кодирования изображения. В остальных случаях, в ущерб
количеству
вычислений
и
скорости
кодирования,
достигается
наиболее
эффективное сжатие изображений за счет того, что таблица кодов Хаффмана
будет составлена с учетом особенностей ансамбля кодируемых сигналов
изображений.
Для возможности последующего декодирования изображения на приемной
стороне канала связи, таблицы кодов Хаффмана введены в выходной сигнал
цифрового потока кодера. При этом в передаваемой таблице записываются только
количество бит кодов переменной длины и соответствующие этим длинам
значения коэффициентов матриц, а не фактическое перечисление “битовая строка
37
- значение коэффициента”. Пример такой таблицы в декодированном, с
использованием программы JPEGsnoop, виде приведен на рисунке 1.11.
Рисунок 1.11. Декодированная таблица Хаффмана, записанная в файл JPEG
Для оптимального кодирования значений кодов переменной длины,
полученных в результате кодирования Хаффмана, чаще всего пользуются
таблицами в количестве до 4 штук, начало которых обозначено маркером DHT
(FFC4).
Количество используемых таблиц поясним следующим образом: начальным
этапом
кодирования
изображения
в
JPEG
является
перевод
цветового
пространства RGB в YCrCb, поэтому одна таблица содержит матрицы значений
коэффициентов яркостных составляющих Y, вторая - цветовых компонентов
CrCb.
Кроме этого, при кодировании коэффициенты каждой матрицы блока 8х8
подразделяются на AC и DC коэффициенты.
DC коэффиценты - это коэффициенты постоянных составляющих или
коэффициенты низких частот. В каждой матрице M, размером 8х8, DC
коэффициент представлен крайним верхним, левым, значением M(0,0).
38
Предварительно, перед кодированием, значение коэффициента M(0,0)
меняется на величину:
  M  0,0 n  M  0,0  n1 ,
где M(0,0)n - значение коэффициента M(0,0) в текущем блоке; M(0,0)n-1 - значение
коэффициента M(0,0) в предыдущем, по порядку, блоке.
Этот шаг позволяет уменьшить общее число двоичных символов для
представления всех коэффициентов M(0,0) всех блоков изображения [1].
Остальные 63 коэффициента блока, AC коэффициенты, кодируются
независимо от коэффициентов в других блоках. Таким образом, две таблицы
используют для DC коэффициентов Y и CrCb составляющих, еще две для – АС
коэффициентов Y и CrCb составляющих.
На приемной стороне канала связи декодер считывает данные из этих
таблиц и на их основе реконструирует деревья Хаффмана, далее составляет
таблицу кодов Хаффмана, в которой отражено соответствие между кодами
переменной длины и конкретными значениями коэффициентов ДКП.
В JPEG предусмотрено и использование арифметического сжатия вместо
кодирования Хаффмана, но применяется оно крайне редко по ряду причин,
основные из которых перечислены выше, а другие связаны с отсутствием
поддержки этого кодирования большинством декодеров и наличием патентных
ограничений.
1.3 Методы кодирования с потерями
Энтропийное
кодирование
позволяет
значительно
сжать
объем
информации, требуемой для хранения или передачи видеоданных, сохраняя при
этом возможность восстановления точного оригинала передаваемого сообщения.
Однако степень сжатия, достигаемую энтоприйным кодированием, возможно
увеличить,
если
применять
это
кодирование
совместно
с
методами,
подразумевающими умышленную потерю некоторой доли незначительной
информации, присутствующей в видеоинформационном сигнале. К этой
информации обычно относят такую информацию, искажения изображений от
39
потери которой, не будут заметны зрителем вследствие особенностей зрительной
системы человека, описанных в 1.1. Методы кодирования с потерями
используются
при
пространственном
(внутрикадровое)
и
временном
(межкадровое) сжатии.
1.3.1 Методы внутрикадрового кодирования с потерями на основе ДКП
Пространственное сжатие достигается за счет устранения избыточности,
присутствующей внутри одного кадра. Обычно пространственное сжатие
реализуется в несколько этапов, в каждом из которых подвергаются модификации
определенные составляющие сжимаемого кадра. К таким составляющим
относятся яркость, цветность и детали, из которых состоит изображение.
В большинстве случаев, при формировании изображения, используются
сигналы основных цветов: красный, зелёный и синий (R,G,B). Однако, согласно
особенностям зрительной системы человека, глаз более чувствителен к градациям
яркостных составляющих, чем цветовых. По этой причине, переведя сигнал RGB
в цветоразностный сигнал формата YCbCr с выполнением условия (1.5) можно
практически без ущерба для зрительного восприятия снизить разрешение
цветоразностных компонент.
Y  0,299 R  0,587G  0,114B.
(1.5)
Соответственно, такая замена позволяет, при необходимости, использовать
цветовую субдискретизацию, результат которой приводит к
устранению
некоторой части информации из изображения [29]. В этом случае компонента
яркости Y передается с полным разрешением, а цветоразностные компоненты Cb
и Cr – с уменьшенным разрешением, т.е. с исключением некоторых пикселей
цветовой
составляющей.
Наиболее
часто
используются
форматы
субдискретизации 4:4:4, 4:2:2, 4:2:0 и т.д. [34]. В подобных форматах первый
элемент отвечает за количество выборок яркости, второй – количество выборок
цветоразностных сигналов в первой строке, третий -
количество выборок
цветоразностных сигналов во второй строке. Идея поясняется на рисунке 1.12.
40
4:4:4
4:2:2
4:2:0
+
+
+
=
=
=
Рисунок 1.12. Форматы цветовой
субдискретизации
Кроме этого, отсчеты видеосигнала в соседних точках сильно коррелируют
между собой и слабо изменяются в плоскости изображения даже после
выполнения цветовой субдискретизации. Вследствие этой корреляции двумерный
пространственный
спектр
изображения,
в
основном,
представлен
низкочастотными составляющими. Высокие частоты спектра, отвечающие за
мелкоструктурный уровень детализации изображения, присутствуют в меньшем
количестве, и их исключение позволит добиться большей степени сжатия без
видимых
потерь.
Для
спектральной области,
этого
сигнал
видеоизображения
представляют
в
квантуют и сжимают с использованием энтропийных
методов кодирования, описанных в 1.2 данной диссертации.
Представление сигнала в спектральной области является очень важным
этапом вследствие того, что в этой области данные сигнала оказываются
упорядоченными по распределению и декоррелированными [6]. Данные в таком
виде
требуют
меньшего
количества
бит
для
описания,
следовательно,
сокращается объем данных, и составляющие этих данных могут обрабатываться
независимо от контекста, в котором они присутствовали, что очень удобно при
манипуляции с составляющими изображения. К примеру, благодаря этой
особенности
возможно
провести
раздельное
квантование
спектральных
коэффициентов сигнала, которые отвечают либо за высокие частоты, либо за
41
средние и т.д. Для представления сигнала в спектральной области данные,
описывающие сигнал, в нашем случае – это информация, которая содержится в
пикселях
блока,
подвергаются
ортогональному
преобразованию.
Такое
преобразование является линейным и в его реализации обычно используется
ортогональная матрица. По этим причинам ортогональное преобразование
отличается
относительно низким объёмом вычислений и, следовательно,
простотой в реализации. Результатом такого преобразования становится набор
чисел, определенное количество которых будут иметь большие значения модуля,
остальные числа станут иметь небольшие значения. На сегодняшний день
существует несколько вариантов ортогональных преобразований. Однако самым
эффективным из них, для преобразования видеосигнала
изображения в
спектральную область, является преобразование ДКП-II (дискретно-косинусное
преобразование
второго
типа)
[13,
14],
т.к.
это
обратимое
линейное
преобразование, которое очень хорошо уплотняет энергию, содержащуюся в
видеинформационном сигнале, а также не требует больших вычислительных
ресурсов. Рисунок 1.13 содержит гистограммы, демонстрирующие свойство ДКП
в уплотнении энергии.
оригинал изображения
ДКП оригинала изображения
42
гистограмма оригинала изображения
гистограмма ДКП оригинала
изображения
Рисунок 1.13. Гистограммы, отражающие степень уплотнения энергии до и
после ДКП
Процедура такого преобразования выполняется следующим образом. Из-за
того, что процедура ДКП всего изображения потребует большего количества
арифметических операций и высокую разрядность численного анализа, чем, если
оно было бы разделено на части, и процедура выполнялась бы над всеми частями
поочередно, изображение разбивается на блоки размером 8X8 пикселей. Далее из
значений пикселей формируется матрица того же размера. Затем проводится
процедура двумерного ДКП преобразования
значений каждой матрицы по
формуле
1
1
N 1M 1
  2 x  1  u 
  2 y  1  v 
 2 2  2 2
F  u, v       C  x  C  y   f  x, y  cos 
 cos 
,
2
N
2
M
N M 
i 0 j 0




(1.6)
 1
 1
,x  0
,y 0


C  x   2
,C  y    2
,
 1, x  0
 1, y  0


где F(u,v) – значение коэффициента ДКП расположенном в строке u и столбце v;
f(x,y) – значение пикселя в строке x и столбце y; N, M – количество строк и
столбцов матрицы соответственно.
При декодировании применяется обратное преобразование ДКП, которое
выполняется по формуле
43
1
1
  2 x  1 u 
  2 y  1 v 
 2  2  2  2 N 1 M 1
f  x, y       C  x  C  y  F  u, v  cos 
 cos 
.
2N
2M
 N   M  i 0 j 0




(1.7)
На практике же работают с дискретной информацией, и, для ускорения
процесса преобразования, процедура ДКП реализуется при помощи умножения
исходных данных на матрицу ДКП, а в обратном процессе, соответственно,
умножением на обратную матрицу ДКП [14].
После процедуры ДКП преобразования полученные коэффициенты ДКП
квантуются путем их деления на матрицу квантования того же размера, что и
матрица ДКП коэффициентов.
процедуры
происходит
Как видно из рисунка 1.14, в процессе этой
огрубление
информации
о
высокочастотных
и
низкоинтенсивных составляющих в пространственном спектре изображения, т.е.
исключение, из содержания изображения, малозаметных и мелких деталей, не
различимых или слабо различимых глазом человека. Уместно также отметить,
что, согласно рисунку 1.14, б), для декодированного изображения характерное
подавление высоких пространственных частот приводит к резкому уменьшению
действия
шумового
сигнала,
высокоуровневые
составляющие
которого
сосредоточены, именно, в этой области пространственных частот.
а) исходное изображение 80х80
б) восстановленное изображение после
пикселей
процедуры квантования ДКП
коэффициентов
Рисунок 1.14. Результат применения процедуры квантования ДКП коэффициентов
Такой эффект достигается за счет того, что матрица квантования содержит
коэффициенты, значения которых различны. Так, в левой верхней области
44
матрицы коэффициенты имеют значения меньшие, чем коэффициенты в нижней
правой области. Это связано с тем, что низкочастотные составляющие
определяются верхней левой областью матрицы ДКП коэффициентов, а
высокочастотные – нижней правой. Рисунок 1.15 поясняет сказанное.
Рисунок 1.15. Структура матрицы ДКП коэффициентов. DC – коэффициент,
характеризующий среднее значение всех коэффициентов в блоке
Матрица
квантования
формируется
эмпирическим
путем,
либо
используются уже созданные стандартные матрицы. Таким образом, после
поэлементного деления на такую матрицу низкочастотные коэффициенты теряют
меньше информации, чем высокочастотные. Управление количеством теряемой
информации, а соответственно и управление скоростью выходного потока и
размером
выходного
файла,
происходит
за
счет
изменения
величины
коэффициента, на который умножаются элементы матрицы квантования.
Соответственно,
с
увеличением
или
уменьшением
значения
данного
коэффициента, пропорционально изменяются значения коэффициентов матрицы
квантования, устанавливая, таким образом, требуемую степень огрубления при
квантовании и, как следствие, степень сжатия.
Однако, если оценить энтропию данных, полученных в результате
квантования коэффициентов изображения, или – размер файла изображения, то
окажется, что сжатия не произошло. Это связано с тем, что этапы ДКП и
квантования являются подготовительными стадиями, которые без дальнейшего
энтропийного сжатия положительного результата иметь не будут и, как
45
показывает практика и эксперименты, вызовет противоположный эффект [15].
Идея
такого
подготовительного
этапа
заключается
в
том,
что
среди
коэффициентов матриц уменьшается количество соответствующих двоичных
разрядов для представления этих коэффициентов, а также появляются нулевые
коэффициенты, при этом их избыточность увеличивается настолько, что
становится возможным очень эффективно сжимать такие коэффициенты, при
кодировании энтропийными методами.
После процедуры квантования значения в матрице обычно записываются
подряд путем зигзагообразного сканирования этой матрицы [14]. Схема
последовательности следования значений коэффициентов при зигзагообразном
сканировании изображена на рисунке 1.16 [16].
0
2
3
9
10
20
21
35
1
4
8
11
19
22
34
36
5
7
12
18
23
33
37
48
6
13
17
24
32
38
47
49
14
16
25
31
39
46
50
57
15
26
30
40
45
51
56
58
27
29
41
44
52
55
59
62
28
42
43
53
54
60
61
63
Рисунок 1.16. Последовательность считывания значений из матрицы при
зигзагообразном сканировании
Такое сканирование позволяет сформировать последовательность значений,
конец которой будет содержать коэффициенты высокочастотных составляющих,
большая
часть
из
которых
равны
нулю.
Вследствие
этого
такая
последовательность является более эффективной для кодирования энтропийными
методами сжатия, описанными выше, в разделе 1.2. Кодирование энтропийными
методами является завершающим этапом [16] во внутрикадровом сжатии
информации, и поэтому эффективность выбранного метода сжатия окажет
весомый вклад в общую эффективность работы всего алгоритма.
46
1.3.2 Методы внутрикадрового кодирования с потерями на основе вейвлет
преобразований
Сжатие сигнала может происходить с использованием различных методов в
реализации алгоритмов компрессии, но в любом алгоритме существует часть,
задача которой заключается в устранении корреляции сжимаемых данных. В
отличие от методов, приведенных выше, в разделе 1.3.1, где основное устранение
корреляции происходило за счет применения ортогональных преобразований,
этот раздел посвящён вейвлет-преобразованиям, которые, по своей сути, являются
поддиапазонными и считаются конкурентами ортогональным преобразованиям на
основе классического анализа Фурье.
Вейвлетами
называют
множество
функций
заданной
формы,
представляющие собой волны небольшой длины и выступающие в роле базисов
для преобразования сигналов. Преобразование сигнала осуществляется сверткой
выбранной функции с сигналом. Результатом такой операции является сигнал,
форма представления которого будет более удобной для анализа и обработки.
Каждая вейвлет-функция отличается от других своим видом и свойствами, по
этой причине, в зависимости от выбора функции, будут выявляться различные
особенности преобразовываемого сигнала. В отличие от методов на основе
Фурье-преобразований, вейвлет-методы способны предоставлять информацию не
только о частотных составляющих сигнала, но еще и о его временных
характеристиках. В результате, вейвлет-функции обладают таким общим для них
свойством,
как
частотно-временная
локализация,
что
позволяет
вейвлет
преобразованиям составлять конкуренцию другим видам преобразований.
Формула,
которая
позволяет
вычислить
непрерывное
вейвлет
преобразование сигнала:

t b
S  a , b    s  t  
 dt ,
 a 

(1.8)
где s(t) – сигнал, a – переменная временного масштаба, b – переменная сдвига
материнского вейвлета по оси времени.
47
Как видно из формулы (1.8), основной составляющей преобразования на
основе вейвлет является функция  (t ) , называемая также материнской или
исходной. В этой функции большие значения a отвечают за низкие частоты, а
соответственно
меньшие
значения
–
за
высокие.
В
случае
обратного
преобразования ортогональная материнская функция восстанавливает мелкие
детали структуры сигнала изображения. Однако для полного восстановления, при
использовании
ортогональной
дополнительную
функцию
материнской
 (t ) ,
которую
функции,
называют
применяют
аппроксимирующей,
масштабирующей или огрубляющей функцией.
Кроме
непрерывного
или
интегрального
вейвлет-преобразования
применяется и дискретное преобразование (ДВП). Рассмотрим более подробно
ДВП, т.к. в данной диссертации все манипуляции производятся, исключительно, с
цифровыми,
ограниченными
видеоинформацию,
где
в
полосе
применение
сигналами,
описывающими
интегрального
преобразования
нецелесообразно в силу его избыточности для такого рода сигналов.
Отметим только, что, в отличие от интегрального вейвлет преобразования, в
ДВП разложение сигнала происходит на взаимно ортогональном наборе
вейвлетов. В ДВП переменные a и b являются дискретными значениями, первая
из которых выбирается равной отрицательными степеням числа 2, а вторая –
положительным степеням числа 2 [6]. В практической же реализации
преобразований,
вместо
функций
 (t ) и
 (t )
используются
однозначно
определяющие эти функции коэффициенты.
Непосредственная работа вейвлетных преобразований сводится к тому, что,
в процессе преобразования, изображение или, в нашем случае, кадр делится на
четыре подобласти. При этом в одной подобласти собраны большие значения
чисел, описывающие средние значения составляющих изображения, а в других
трех
подобластях
сгруппированные
–
в
малые
значения.
соответствующие
Числа
с
подобласти,
малыми
отражают
значениями,
различные
геометрические свойства трансформируемого кадра [6].
48
Для того, чтобы понять, какими преимуществами может обладать сжатие на
основе
вейвлетов,
нужно
разобраться
в
принципе
работы
вейвлетных
преобразований. Рассмотрим преобразование Хаара, которое является самым
простым и понятным из существующих дискретных вейвлетных преобразований.
Возьмем последовательность чисел 74; 64; 64; 64; 65; 64; 66; 69, которая
описывает пикселы одной строки монохромного изображения кадра размером 8x8
пикселей. Далее возьмем полусумму каждой последовательной пары чисел из
этого набора, т.е. вычислим среднее арифметическое для этих пар. Получим
74  64 64  64 65  64 66  69
;
;
;
2
2
2
2
последовательность
138 128 129 135
;
;
;
.
2 2 2 2
или
Однако, для восстановления исходной последовательности чисел, наличия одних
только средних арифметических не достаточно [6]. По этой причине, в
дополнение к полусумме, возьмем еще полуразность последовательных пар чисел
74  64 64  64 65  64 66  69
10 1 3
;
;
;
или
; 0; ; 
2
2
2
2
2
2 2
и получим
один
цикл
такого
преобразования
состоящая, как и исходная, из 8 чисел
стоит
обратить
внимание
на
то,
сформировалась
.
Таким образом, за
последовательность,
138 128 129 135 10 1 3
;
;
;
; ; 0; ;  . Однако,
2 2 2 2 2
2 2
что
последние
элементы
новой
последовательности имеют меньшие значения, чем элементы оригинальной
последовательности, и это обстоятельство будет способствовать в дальнейшем
некоторому сжатию последней. Продолжая те же операции, только над первыми
четырьмя
элемента
полученной
сформируется последовательность
последовательности,
на
втором
цикле
266 264 10 6 10 1 3
;
; ;  ; ; 0; ;  .
4
4 4 4 2
2 2
Из этой последовательности видно, что элементов, уменьшивших свои
значения, стало еще больше, условия для сжатия при этом также увеличили свою
положительную тенденцию. Последовательности, получаемые в результате
описанного преобразования, называются дискретным преобразованием Хаара. Его
масштабирующая функция и функция материнского вейвлета представлены на
рисунке 1.17.
49
Рисунок 1.17. Масштабирующая функция и материнский вейвлет
преобразования Хаара
Стоит уточнить, что последним циклом в преобразовании станет тот цикл,
на котором первый элемент приобретет значение среднего арифметического всей
последовательности,
а
оставшиеся
элементы
будут
полуразностями
последовательных пар чисел данной последовательности. Также отметим, что
последние циклы преобразования не всегда бывают востребованы. Такое может
произойти, например, в случае, если необходимо сократить время, затрачиваемое
на преобразование, или в отсутствии достаточно производительной аппаратной
части. К тому же при выполнении ДВП с целью декорреляции сигнала
изображения можно ограничиться тремя уровнями декомпозиции [17].
Далее,
для
того,
чтобы
трансформировать
остальные
элементы,
объединенные в двумерный массив данных размера 8х8 элементов, описывающих
изображение размера 8х8 пикселей, существуют два подхода в применении
преобразования Хаара. Первый из них, называемый стандартным вейвлетным
разложением, осуществляет
преобразование следующим образом. В начале
преобразованию подвергаются все строки массива данных, при этом, в качестве
примера, допустим, что для каждой строки преобразование осуществляется с
полным количеством циклов, т.е. пока последний элемент в строке не станет
средним арифметическим всех элементов в строке. Затем выполняют идентичное
преобразование
для
каждого
столбца
изображения.
Процесс
такого
трансформирования приведен на рисунке 1.18.
50
138 128 129 135
/2 /2 /2 /2
L1
Оригинал
10
/2
0
1
/2
-3
/2
H1
Этап 1.
Преобразование
строк, цикл № 1
266 264
/4 /4
L2
10
/4
-6
/4
H2
10
/2
0
1
/2
-3
/2
H1
Этап 2.
Преобразование
строк, цикл № 2
530 2
/8 /8
L3
H3
4 64 64 64 65 64 66 69
10
/4
-6
/4
H2
10
/2
0
1 -3
/2 /2
H1
Этап 3.
Преобразование
строк, цикл № 3
Этап 4.
Этап 5.
Этап 6.
Преобразование
Преобразование
Преобразование
столбцов, цикл № столбцов, цикл № столбцов, цикл №
1
2
3
Рисунок 1.18. Этапы стандартного вейвлет преобразования двумерного
массива данных. Lx – среднее арифметическое последовательной пары чисел;
x – номер цикла; Hx – значение полуразности последовательной пары чисел;
x – номер цикла
Второй подход называется пирамидальным вейвлетным разложением. Суть
этого преобразования в следующем. В начале строки массива данных,
описывающие изображение кадра, подвергаются вейвлетному преобразованию,
но, в отличие от стандартного метода, преобразование ограничивается только
одним циклом для каждой строки. Затем преобразуются столбцы этого массива
данных, также, как и в случае со строками, преобразование проходит лишь один
цикл для каждого столбца. В итоге двумерный массив данных, по сути,
являющийся матрицей изображения, как бы, делится на 4 части. Левая верхняя
часть в такой матрице будет содержать полусуммы значений пикселей всего
изображения кадра, т.е. среднюю составляющую, а остальные части –
51
полуразности, т.е. значения, отвечающие за детали изображения. Далее, если
необходимо, следуют дальнейшие циклы преобразования с той же очередностью,
но при этом преобразованию подвергается уже только левая верхняя часть
матрицы. Таким образом, преобразование может повторяться до тех пор, пока
левый верхний пиксел не будет равен среднему всех значений матрицы
изображения. Идея пирамидального вейвлет преобразования иллюстрируется на
рисунке 1.19.
74 64 64 64 65 64 66 69
138 128 129 135
/2 /2 /2 /2
L1
Оригинал
10
/2
0
1
/2
-3
/2
L1L1
H1L1
L2L1 H2L1
H1L1
L1H1
H1H1
L1H1
H1H1
H1
Этап 1.
Преобразование
строк, цикл № 1
Этап 2.
Преобразование
столбцов, цикл №
1
H2L2
L2L2 H2L2
H1L1
H1L1
L2H2 H2H2
L2H2 H2H2
L1H1
Этап 3.
Преобразование
строк, цикл № 2
H1H1
L1H1
H1H1
Этап 4.
Этап 5.
Этап 6.
Преобразование
Преобразование
Преобразование
столбцов, цикл № строк, цикл № 3 столбцов, цикл №
2
3
Рисунок 1.19. Этапы пирамидального вейвлет преобразования двумерного
массива данных. Lx – среднее арифметическое последовательной пары чисел;
x – номер цикла; Hx – значение полуразности последовательной пары чисел;
x – номер цикла
Как видно из описанного выше, наиболее удобным для работы с
изображениями кадров является пирамидальный вид вейвлет-разложения. Это
связано с тем, что, в результирующей
матрице пирамидального вейвлет52
преобразования изображения, формируются части или области, которые, как и
при
стандартном
вейвлет-преобразовании,
описывают
определенные
составляющие изображения. Но, в отличие от подобных областей в стандартном
вейвлет-преобразовании, здесь верхняя, левая область, представляет собой
уменьшенную в масштабе копию оригинального изображения. Верхняя же правая
часть матрицы содержит детали вертикальной части изображения, нижняя левая –
горизонтальной части, а нижняя правая – диагональной части. Кроме этого, по
мере увеличения количества этапов преобразования, эти области приобретают все
меньший масштаб, а элементы в этих областях описывают все более грубые
составляющие изображения.
Рисунок 1.20 содержит результат работы трех циклов пирамидального
вейвлет преобразования Хаара для строк и столбцов исходного изображения
размером 512х512 пикселей.
исходное изображение
результат преобразования оригинала
Рисунок 1.20. Результат пирамидального вейвлет преобразования Хаара по 3
цикла на строки и столбцы
Таким образом, начальные этапы преобразования формируют области,
содержащие
коэффициенты,
описывающие
мелкие
детали
изображения,
информацией о которых можно пренебречь или квантовать эти коэффициенты с
большей степенью, чем те, которые описывают детали изображения, выявленные
на более поздних этапах преобразования. При отбрасывании или квантовании
53
коэффициентов происходит потеря некоторой доли информации, что приводит к
уменьшению объема информации, описывающей изображение. В зависимости от
степени квантования, как и в методах в разделе 1.3.1 данной диссертации,
отсутствие
некоторой
доли
информации
может
не
обнаружиться
при
субъективной оценке качества изображения, либо быть малозаметной. Далее, для
увеличения степени сжатия, возможно применения статистических методов
сжатия, эффективность которых повысится из-за наличия большого количества
нулей
в
кодированной
последовательности,
получившихся
вследствие
квантования коэффициентов преобразования.
Как уже отмечалось, идея, на которой основан принцип работы вейвлетных
преобразований – это свертка выбранных вейвлет-функций [18] с данными,
описывающими изображение кадра. В описанном выше процессе преобразования
операция свертки не прослеживается, однако, на практике, преобразование
обычно реализуется с использованием матриц, умножением на которые и
осуществляется свертка [6, 19]. Преобразование Хаара строки изображения в один
цикл, из вышеприведенного примера, с использованием матрицы будет выглядеть
следующим образом. Матрица H1, описывающая вейвлет-преобразование Хаара,
умножается на строку S, которая, в силу требуемых правил умножения матриц,
представлена в виде столбца, и результатом этой операции является дискретное
преобразование Хаара R1. Процесс изображен на рисунке 1.21.
54
1
1
2
2
0
0
0
0
0
0
0
0
1
1
2
2
0
0
0
0
0
0
0
0
0
0
0
0
1
1
2
2
0
0
R1 = H1 × S =
1
2
0

1
0
1
1
2
2
0
0
0
0
0
1
0
0

1
0
0
0
0
0
0
×
2
0
1
2
0
0
2
2
0
0
0
0
0
0
0

1
 74 
 64 
 
 64 
 64 
 
 65 
 64 
 66 
 
 69 
2
0
1
2

1
=
 138 
 2 
 128 


2


 129 
 2 
 135 


 2 
 10 
 2 
 0 
 1 


 2 
3 


 2 
2
Рисунок 1.21. Первый цикл преобразования Хаара строки с коэффициентами,
описывающими изображение кадра.
Как видно из рисунка 1.21, результатом операции является столбец,
транспонировав который получим ту же строку, что и в случае с вычислением
первого цикла полусумм и полуразностей. Для вычислений второго цикла
необходимо использовать немного измененную матрицу H1, которая приобретет
вид матрицы H2 из рисунка 1.22. В итоге второй цикл преобразования этой же
строки коэффициентов будет выглядеть согласно рисунку 1.22.
55
1
1
2
2
0
0
1
2
R2 = H2 × R1 =
0

1
0
0
0
0
0
0
1
1
2
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
1
0
0
0
2
1
0

1
×
0
0
2
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
 138 
 2 
 128 


2


 129 
 2 
 135 


2


 10 
 2 
 0 
 1 


2


3 


 2
=
 266 
 4 
 264 


 4 
 10 
 4 
 6 
 
 4 
 10 
 2 
 0 
 1 


 2 
 3 


 2 
Рисунок 1.22. Второй цикл преобразования Хаара.
Третий
и,
если
позволяет
размерность
массива
коэффициентов,
последующие циклы реализуются с использованием измененных по указанному
выше принципу матриц преобразования Хаара. Рассматривая матричные
операции преобразования, можно заметить, что вейвлет функции являются
своеобразными фильтрами, отвечающими за пропускание верхних и нижних
частот, иначе говоря, за формирование поддиапазонов (подобластей) изображения
кадра. Преобразование Хаара, к примеру, обладает двумя такими фильтрами. Этот
набор фильтров в вейвлет-преобразованиях принято называть банком фильтров.
Соответственно банк фильтров может содержать фильтры, отличные от фильтров,
используемых в преобразовании Хаара, кроме того, их количество и количество
содержащихся в них коэффициентов также может быть разным. По этой причине
использование того или иного банка фильтров будет влиять на то, какие частоты
и особенности изображения будут выделяться больше остальных в процессе
преобразования.
К
примеру,
использование
фильтров
с
четырьмя
коэффициентами вместо двух может определить сглаживающий фильтр (рисунок
1.23), который, при определенном
условии квантования коэффициентов,
отвечающих за мелкие детали изображения, приведет к некоторой размытости
изображения. При этом, чем больше гладкость фильтра, тем большую часть ВЧ
56
полосы он подавляет, и, наоборот, чем больше количество нулевых моментов у
такого фильтра, тем большее число сингулярностей сигнала (изображения)
фильтр позволяет аппроксимировать [17].
Рисунок 1.23. Масштабирующая функция и материнский вейвлет
преобразования Добеши четвертого порядка (Добеши 4)
Размытость, о которой шла речь выше, можно заметить при сравнении
изображений
на рисунке 1.24, где приведены увеличенные области двух
изображений, восстановленных после устранения всех коэффициентов деталей
этого изображения, полученных на первых двух циклах преобразования Хаара, и
преобразования вейвлетами Добеши 4.
преобразование Хаара
преобразование вейвлетом Добеши 4
Рисунок 1.24. Увеличенные области изображения, восстановленного после
преобразования различными вейвлетами и отбрасывания некоторой доли
коэффициентов преобразования
57
Сравнивая
эти
два
изображения,
можно
отметить,
что
результат
преобразования с использованием вейвлетов Добеши выглядит действительно
несколько размытым,
и это свойство
улучшает
визуальное
восприятие
изображения.
Существуют определенные правила для формирования таких вейвлетов, как
Добеши, но в рамках данной диссертации этот вопрос не рассматривается.
Отметим только, что для эффективного преобразования изображений вейвлеты
должны
удовлетворять
избирательность,
определения.
таким
точность
критериям,
аппроксимации,
как
частотная
гладкость
и
и
временная
размер
области
В качестве примера оптимальных вейвлетов можно назвать
вейвлеты Добеши, Шеннона, Мейера, семейство биортогональных вейвлетов и
др. Однако среди существующих нет универсального, способного отвечать всем
приведенным выше критериям. По этой причине для эффективного устранения
корреляции в разных по структуре изображениях необходимо использовать
разные наборы вейвлетов. Для сравнения в таблице 1.3 приведены частотновременные характеристики разрешений для различных типов вейвлет-функций.
Локализация вейвлетов имеет место по времени и частоте, поэтому обозначим
временной интервал, в котором находится вейвлет функция – Δt , частотный –
Δɷ , а произведение этих интервалов будет называться частотно-временным
интервалом разрешения, которые можно определить так

2
1
2
Δ    t  t0    t  dt ,
E 
2

Δt2 
1 1
E 2
(1.9)

    0 
2
2
Ψ   d ,

где:
Ψ    – фурье преобразование вейвлет функции;

E
  t 

2
1
dt 
2


2
Ψ   d – энергия вейвлет функции;

58


2
2
1
1 1
t0   t   t  dt и 0 

Ψ

d  – величины определяющие центры



E 
E 2 
функций   t  и Ψ    соответственно.
Временной и частотный интервалы, которые занимает вейвлет-функция с
измененными параметрами масштаба и сжатия  t  , определяются следующими
соотношениями [20]:
Δt2
a,b
 a 2Δt2 и Δ2
a,b

1
Δ2 .
a2
(1.10)
Таблица 1.3. Частотно-временные характеристики разрешений различных типов
вейвлет-функций
Тип вейвлет-функции
Морле
Гауссов №3
Мексиканская шляпа
Гауссов №2
Симлет №3
Добеши №3
Симлет №8
Хаара
Биортогональный №6-8
Биортогональный №5-5
Временное разрешение,
t 2
0,7071
0,7416
1,080
0,7637
2,535
2,535
7,511
0,5775
8,507
5,516
Частотное
Разрешение,  2
0,7081
0,6945
0,4870
0,6889
3,087
3,087
1,224
130,6
1,308
2,195
Из таблицы 1.3 видно, что вейвлет-функция Хаара обеспечивает наилучшее
разрешение по времени, вейвлет-функция типа мексиканская шляпа – наилучшее
частотное разрешение, а вейвлет-функция Морле имеет самые сбалансированные
показатели частотно-временного разрешения.
Анализируя приведенные выше особенности работы поддиапазонных
преобразований, можно сделать вывод, что поддержание конкурентоспособности
и развитие методов сжатия, в основу которых положены вейвлет-преобразования,
реализуется за счет наличия некоторых сильных сторон у этих преобразований.
Одной из таких сторон является лучшее субъективное восприятие изображения,
восстановленного после преобразования и сжатия, чем у методов, основанных на
ортогональных
преобразованиях.
Это
положительное
качество
вейвлет59
преобразований достигается за счет того, что в процессе преобразования, при
использовании
результатом
подходящих
вейвлетов,
которого является
появляется
отсутствие
эффект
сглаживания,
явной блочной структуры
в
реконструированном изображении, которую можно заметить при ДКП. Другой
сильной стороной можно назвать возможность точного манипулирования
структурой данных, образующих изображение, за счет формирования в процессе
преобразования
поддиапазонов,
геометрические
составляющие
отвечающих
этого
за
разные
изображения,
а
частотные
также
и
наличие
независимости каждого из поддиапазонов друг от друга.
Все положительные эффекты, присущие сжатию на основе вейвлет
преобразований,
проявляются при работе с естественными изображениями,
которые в видеосигнале обнаруживаются редко. Причина этому - применяемые в
видеоинформационном
избыточности,
такие
сигнале
как
дополнительные
пространственное
и
методы
временное
устранения
предсказания,
межкадровая разность или компенсация движения. В результате работы этих
методов, полученный массив данных описывает уже не совсем естественное
изображение, которое
информации
и
энергии
отличается меньшим содержанием коррелирующей
для
уплотнения
в
спектральной
области.
Это
обстоятельство делает свойства вейвлетов менее востребованными. Напомним
также, что указанные методы в начале своей работы разбивают изображения на
блоки и все дальнейшие манипуляции по устранению избыточности происходят
уже с блоками. Такая особенность работы способствует появлению блочности на
декодированном изображении, не смотря на то, что ДВП ее не порождает.
Поэтому отмеченные особенности при сжатии видеоинформационного сигнала
сводят значительную часть положительных эффектов, достигаемых за счет
вейвлет преобразований, к нулю.
Алгоритм
Dirac
[21]
является
одним
из
алгоритмов
сжатия
видеоинформационного сигнала с использованием ДВП и по этой причине он
является хорошим примером для описания сказанного выше. Как и в большинстве
кодеков, кодек Dirac для приемлемого уровня компрессии в своей работе
60
использует пространственное и временное предсказание, компенсацию движения
и преобразование. Процесс преобразования в кодеке Dirac реализуется с
использованием различных вейвлетов, в том числе и Добеши, а также
поддерживает разложение изображения кадра до четырех уровней. Схема, по
которой кодек Dirac выполняет преобразования, изображена на рисунке 1.25.
Рисунок 1.25. Схема преобразования изображения кадра в кодеке Dirac
Однако, как уже отмечалось, в силу того, что используемые методы
подразумевают работу с блочными структурами, то и результат работы кодека
Dirac при декодировании так же окажется, искажен блочными артефактами, не
смотря на то, что вместо ДКП используется ДВП. Это видно на рисунке 1.26,
который является реконструированным кадром из видеопоследовательности
“foreman”.
Рисунок 1.26. Реконструированный кадр видеопоследовательности
“foreman”, сжатой кодеком Dirac
61
В работе [22] были проведены сравнительные тесты некоторых широко
используемых видео кодеков, среди которых кодек MC-EZBC [23], также
основанный на ДВП. На рисунке 1.27 приведен график результатов тестов и, как
видно, лидером, в большинстве случаев, является кодек H.264, в основе которого
лежит ДКП.
Рисунок 1.27. Результаты сравнительных тестов по эффективности
кодирования видео кодеков
Дополнительно обратим внимание на результаты сравнения методов
сжатия, основанных на ДВП и ДКП, которые были приведены в [24]. Сравнение
проводилось по критериям эффективности сжатия, сложности и скорости
вычисления результата. Отсюда можно заметить, что лидером в эффективности
сжатия статичных изображений является ДВП, но достигнутое им преимущество
перед ДКП крайне мало. Однако, если рассмотреть результаты сжатия видео, то
можно заметить, что в большинстве случаев преимущество в эффективности
сжатия принадлежит ДКП. Выигрыш ДКП достигает за счет того, что он быстрее
[25] и более эффективно справляется с преобразованием пространственных
составляющих изображений.
Здесь отметим, что цель внедрения ДВП в обработку изображений была
достигнута. Эта цель заключалась в устранении главного недостатка ДКП –
отсутствие
качественного
частотно-временного
представления
сигнала.
62
Дополнительный положительный эффект, который был получен в результате
использования ДВП – лучшее субъективное восприятие изображения, но он
проявляет себя в случае, если изображение преобразовывалось целиком, т.е. без
использования методов, подразумевающих поблочную работу с изображением
кадра. Тем не менее, несмотря на положительные стороны, недостатки, присущие
ДВП, до сих пор не позволяют ему заменить ДКП для применения в сжатии
видеоинформационного сигнала. В первую очередь, это связано с тем, что при
реализации ДВП затрачивается на порядок больше вычислительных ресурсов и
времени, чем при реализации ДКП. В случае, если преобразованию подвергается
кадр видео высокой четкости, этот недостаток может стать крайне критичным. К
примеру, наиболее эффективная, на сегодняшний момент, реализация ДКП
требует всего 54 операции умножения для блока 8Х8 пикселей [26], в то время,
как количество операций в ДВП зависит от длины вейвлет фильтра и, в самом
лучшем случае, имеет место одно умножение на коэффициент. Соответственно,
скорость реализации ДВП напрямую зависит от длины используемого вейвлета –
короткий (компактный) или длинный (сглаживающий). Однако стоит учитывать,
что при реализации более компактного вейвлета уменьшается степень размытости
изображения кадра [27], и это отрицательно влияет на его субъективное
восприятие и лишает ДВП одного из его положительных качеств. В
преобразовании Хаара, к примеру, используется короткий вейвлет [29] и по этой
причине реконструированное изображение, после сжатия, очень похоже на то,
которое было преобразовано ДКП. Эти два изображения представлены, для
сравнения, на рисунке 1.28.
Кроме того, чтобы сохранить преимущества ДВП с гладкими фильтрами в
отношении
улучшенного
субъективного
восприятия,
придется
усложнять
реализацию таких процедур, как компенсация движения, пространственное и
временное предсказания. Отказ же от использования таких процедур сильно
уменьшит степень сжатия видео.
63
Рисунок 1.28. Реконструированные изображения после сжатия.
Слева – ДКП блоков 8Х8 пикселей, справа – ДВП Хаара
Отметим также, что различия, которые появляются при применении ДКП
или ДВП, заметны только при субъективной оценке качества и проявляются они
при высоких коэффициентах сжатия, использование которых зачастую не
востребовано.
В настоящее время для многих потребителей важен вопрос стоимости,
которая для оборудования, аппаратно реализующего ДВП, сравнимо выше, чем
для ДКП и в большинстве таких случаях фаворитом становится ДКП.
Таким образом, преобразования ДКП и ДВП имеют свои преимуществами и
недостатками, поэтому выбирать вид преобразования необходимо под решаемую
задачу. Следовательно, с учетом анализа преимуществ и недостатков обоих типов
преобразований, для реализации передачи видеоинформационного сигнала в
режиме
реального
времени
в
цифровых
каналах
передачи
данных,
с
использованием малого количества вычислительных ресурсов, оптимальным
будет алгоритм, работа которого основана на ДКП. Это связано с наличием в
свойствах этого преобразования компромисса
между количеством требуемых
вычислительных ресурсов, скорости обработки и качеством получаемых
результатов.
64
1.3.3 Внутрикадровое предсказание
При анализе какой-либо части изображения кадра, с большой вероятностью,
окажется, что соседние, с рассматриваемой частью, пиксели будут идентичными
или похожими по характеристикам, что создает высокую степень избыточности.
Такого рода избыточность устраняют путем замены пикселей рассматриваемой
области, пикселями с теми же или похожими характеристиками из соседней, чаще
всего смежной к ней, области. Этот подход позволяет закодировать лишь одну
область, а затем вставлять её копированием в необходимые части кадра. Однако, в
случае неполной идентичности пиксельных характеристик, происходит потеря
некоторой доли информации. Такие случаи в работе алгоритма сжатия возникают
очень часто и для того, что бы избежать потери информации обычно передают
разность между текущей областью и областью, сформированной на основе
примыкающих, к текущей области, пикселей. Минусом такой операции является
уменьшение степени сжатия из-за необходимости в передаче дополнительной
информации в виде разности двух областей изображения [30].
Описанный выше процесс поиска похожих частей в пределах кадра
называется пространственным или внутрикадровым предсказанием. Такое
предсказание осуществляется на основе ряда примыкающих пикселей к области
предсказания в колонке слева, в строке сверху или, дополнительно, в строке,
смещенной вправо относительно предсказываемой области. Область, в которой
осуществляется предсказание, представляет собой блок, размеры которого
обычно составляют 4x4, 8x8 или 16x16 пикселей. Для вычисления значений
пикселей блока существуют несколько режимов предсказания или, как еще их
называют, направлений прогнозирования [30, 86]. Наиболее подходящим из этих
направлений будет считаться то, что даст наименьшее значение разности между
вычисленным
и
предсказываемым
блоком.
Принцип
работы
режимов
предсказания поясняется на рисунке 1.29.
65
1 режим
2 режим
3 режим
4 режим
вертикального
горизонтального
усреднённого
диагонального
предсказания
предсказания
(DC)
предсказания вниз,
предсказания
влево
5 режим
5 режим
7 режим
8 режим
диагонального
вертикального
горизонтального
вертикального
предсказания
предсказания
предсказания
предсказания влево
вниз, вправо
вправо
вниз
8 режим горизонтального предсказания вверх
Рисунок 1.29. Режимы внутрикадрового предсказания
Таким образом, внутрикадровое предсказание в стандарте, за счет своего
прогнозирования и на основе дальнейшей экстраполяции пикселей, позволяет
существенно, сократить объем пространственной избыточности и, как следствие,
объем передаваемой информации. Наличие различных режимов прогнозирования
позволяет кодеку гибко адаптироваться к различным текстурам кодируемого
изображения и достигать большей степени сжатия.
1.3.4 Межкадровое предсказание и кодирование
В случаи сжатия статичных изображений, фотографий или другой графики
ограничиваются пространственным сжатием, но при сжатии видео, состоящего из
66
последовательности кадров и в условиях наличия зависимости между отдельными
последовательностями этих кадров, в дополнение к пространственному сжатию
применяют временное сжатие.
Основная идея такого сжатия основана на том, что последовательности
кадров, как правило, представлены одним и тем же статичным фоновым
изображением и меняющими свое положение, от кадра к кадру, объектами на
переднем плане. По этой причине в любом видеоинформационном сигнале
присутствует временная избыточность, представленная статичным фоном и
другими,
меняющими
свои
характеристики
и
положение
в
пределах
последовательности кадров, элементами. Такой вид избыточности устраняют
следующим способом: передают содержание одного кадра целиком. Этот кадр
называется опорным. В содержании следующего кадра передают только
информацию о переместившихся объектах и их новых положениях. Примером
реализации этой идеи может служить разность двух соседних кадров
(межкадровая
разность),
передача
которой
даёт
простейшее
устранение
временной избыточности. Пример описанной операции представлен на рисунке
1.30.
а) первый кадр
б) второй кадр
в) разница между первым и вторым кадрами
Рисунок 1.30. Межкадровая разница двух последовательных кадров
67
Кроме межкадровой разницы дополнительное сжатие достигается с
применением процесса, называемого оценка и компенсация движения. Этот
процесс позволяет с более высокой точностью предсказать те части изображения,
где присутствует движение, и устранить временную избыточность. Процесс
оценки и компенсации движения работает следующим образом: изображение в
текущем кадре разбивается на блоки и для каждого блока ищется (оценивается)
его наиболее вероятное положение в соседних и опорных кадрах, сопоставляя его
со всеми блоками такого же размера в заданной области поиска блоков. К концу
поиска
формируется
совокупность
векторов
движения,
указывающих
направление смещения объектов от кадра к кадру.
Найденные, с помощью оценки движения, сместившиеся части изображения
могут не полностью соответствовать частям на опорных кадрах по причине того,
что форма блока поиска, прямоугольная область, не всегда совпадает с формой
переместившейся части изображения. Кроме того, для лучшего результата поиска,
сопоставляемые блоки могут отличаться по яркости или цветности на очень
малую величину и при этом они будут считаться кодеком как одинаковые. Эти
допущения добавляют погрешность в процесс восстановления кадра, которая
приводит к потере некоторой части информации.
Для того, чтобы исключить погрешности, возникающие в описанной выше
процедуре, вместе с векторами движения передается еще и разность между
предсказываемым блоком и найденным опорным блоком, которая называется
ошибкой предсказания. Передача ошибки предсказания позволяет избежать
потери информации за счет передачи хоть и малой, но дополнительной
информации, что ведет к уменьшению коэффициента сжатия и увеличению
времени работы кодера, как и в случае с внутрикадровым предсказанием.
Следует отметить, что в процессе сжатия видеоинформационного сигнала,
этап
оценки
и
компенсации
движения
является
наиболее
сложным
и
требовательным к вычислительными ресурсам. Точность и объем вычислений
будут зависеть от размера выбранного блока [31, 32]. Чем больше размер блока,
тем быстрее будет осуществляться поиск, и меньше векторов движения будет
68
формироваться для передачи, при этом границы объектов часто будут не
совпадать с границами блоков, что приведет к увеличению количества
передаваемой, корректирующей, информации [36]. Чем меньше размер блока, тем
дольше будет осуществляться поиск, и тем больше векторов движения будет
формироваться для передачи, но вероятность соответствия опорного и искомого
блоков больше, соответственно, количество передаваемой корректирующей
информации – меньше. При этом выбор слишком маленького размера блока ведет
к слабой помехоустойчивости системы сжатия [37]. Реализация межкадровой
разницы с компенсацией движения и влияние блоков поиска различных размеров
на результат представлена на рисунке 1.31.
а)
б)
Рисунок 1.31. Межкадровая разность с компенсацией движения – а) размер
блока поиска 8x8 пикселей, б) размер блока поиска 16x16 пикселей
В силу сказанного выше, приходится балансировать между качеством
поиска совпадений между блоками и количеством векторов движения.
Можно также отметить, что движущиеся объекты редко следуют строго
вдоль границ блоков пикселов, поэтому более эффективным может быть
использование переменных размеров блоков для оценки и компенсации движения
[33].
Если движение измерено достаточно точно (рисунок 1.31 а), то для каждого
макроблока элементов изображения можно передавать лишь относительно малые
межкадровые различия и, плюс, двумерный вектор движения.
Вектор движения для блока выбирается из условия минимальности
значения функции, определяющей критерий совпадения блоков [38]. В настоящее
69
время доступен широкий набор таких функций (SSD, SAD, MAD, MSE и др.),
отличающихся, в основном, уровнем сложности реализации и качеством
получаемого результата.
Наиболее
популярной
в
силу
своих
минимальных
требований
к
вычислительным ресурсам и простотой реализации считается функция суммы
абсолютных разностей (SAD) между элементами текущего и опорного блоков:
SAD V X ,VY    F  x, y , t   F  x  VX , y  VY , t  1 ,
(1.11)
X ,Y
где F – значение яркости, t – временной индекс кадра, (x, y) - пространственные
координаты пикселей в кадре, VX, VY – координаты вектора движения.
Оценка вектора движения должна реализовываться в условиях селективного
выделения
составляющих
видеоинформационного
сигнала,
отличающихся
достаточно высоким градиентом изменения во внутрикадровом пространстве и
сравнительно
высоким
отношением
сигнал/шум.
В
основном,
это
среднечастотные составляющие, т.к. добавление высокочастотных составляющих
ухудшает
отношение
(пространственная
сигнал/шум,
низкочастотная
а
чрезмерное
фильтрация)
интегрирование
уменьшает
уровень
составляющих, отражающих пространственно-временные искажения сигнала
изображения при передаче движения.
Форма зоны поиска соответствия блоков может быть различной, но
необходимо учитывать, что преимущественно движения осуществляются в
горизонтальном направлении.
Поиск, при котором сканируются все блоки из зоны поиска, называется
полным. Чем больше зона поиска, тем больше вероятность найти совпадающие
блоки. При этом с увеличением размера зоны поиска увеличивается количество
блоков для сканирования, а это ведет к увеличению объема вычислений. Полный
поиск может использоваться для оценки качества работы других алгоритмов
поиска. Для уменьшения требований к вычислительным ресурсам, при
сохранении
приемлемого
качества
поиска,
существуют
субоптимальные
алгоритмы оценки движения [35, 38, 40-43].
70
Из таких алгоритмов можно отметить бинарный поиск, логарифмический
(рисунок 1.32), трехшаговый (рисунок 1.33), четырехшаговый (рисунок 1.34),
ортогональный (рисунок 1.35), спиральный, иерархический и другие. Задача
субоптимальных алгоритмов сводится к сокращению числа точек поиска.
Рисунок 1.32. Логарифмический
Рисунок 1.33. Трехшаговый алгоритм
алгоритм поиска
поиска
Рисунок 1.34. Четырехшаговый
Рисунок 1.35. Ортогональный алгоритм
алгоритм поиска
поиска
Тестирование многих субоптимальных алгоритмов позволило определить
порог, в уменьшении порогового отношения сигнал/шум, при использовании
субоптимального алгоритма поиска по сравнению с полным поиском: потери в
качестве не должны опускаться ниже 0,1 дБ. При осуществлении полного поиска
в окне [-15, 15] требуется перебор 961 точки поиска. Поиск трехшаговым
алгоритмом требует перебора 33 точек поиска. Если сравнивать алгоритмы,
71
учитывая только эти два показателя, то экономия времени вычисления должна
составить (961-33)/961=0,9657 или 97%. Однако экспериментальные результаты,
проведенные
с
использованием
кодера
JM14.0,
показывают,
что
в
действительности экономится только, лишь, 73,5% времени при одинаковых
условиях кодирования (оценка производилась по занесенным в файл статистики
времени работы алгоритмов оценки движения).
Поэтому эффективность работы алгоритмов поиска движения необходимо
измерять комплексной оценкой, включающей, помимо количества точек поиска,
также время доступа к памяти, поиск за пределами видео окна, из-за специфики
шаблона поиска, условия раннего останова и другие. Следует учитывать и такой
фактор,
что если
алгоритм
работает быстро,
но оценка
производится
недостаточно точно, то возможно появление большого объема разностной
информации, который далее подвергается энтропийному кодированию.
Для того чтобы лучше понять весь процесс взаимодействия основных
частей любого алгоритма кодирования, основанного на ДКП преобразовании
видеоинформационного сигнала, на рисунке 1.36 представлена схема видео
кодера.
Рисунок 1.36. Блок схема взаимодействия основных составляющих узлов
алгоритма кодирования видеоинформационного сигнала
Таким образом, современные алгоритмы оценки движения являются
адаптивными,
что
позволяет
эффективно
устранять
временную
72
психофизиологическую избыточность. Начало поиска связано, как правило, с
вычислением прогноза определяемого вектора движения, основываясь на ранее
определенных векторах, используя свойство высокой корреляции векторов
движения между соседними макроблоками. В дополнение к этому используются
эффективные шаблоны поиска и динамическая модификация размеров зоны
поиска, что позволяет значительно ускорить процесс оценки движения и, в свою
очередь, упростить процесс межкадрового предсказания, снизив при этом
нагрузку на вычислительные ресурсы.
1.4 Перспективные направления совершенствования алгоритмов сжатия
видеоинформационных сигналов
Сегодня алгоритмы сжатия видеоинформационного сигнала достигли очень
хороших показателей по степени и скорости сжатия видео потока. Тем не менее,
этого недостаточно для того, чтобы полноценно справляться с задачами, где
необходимы малые задержки в передаче данных, осуществлять кодирование с
использованием малого количества вычислительных ресурсов [44], эффективно
работать с видео высокой четкости и ультравысокой четкости.
Как уже известно, сжатие видеоинформационного сигнала представляет
собой работу целого набора алгоритмов,
взаимосвязанное функционирование
которых обеспечивает устранение избыточности по различным направлениям.
Таким образом, центральную роль играют алгоритмы, применяемые при
ортогональных преобразованиях сигнала видео изображения, квантовании
пространственного спектра, пространственном и временном предсказания,
энтропийном кодировании. Так, новый формат сжатия видеоизображения
H.265/HEVC стал эффективным за счет принятых улучшений, именно, в этих
направлениях [46, 47].
Дискретно-косинусное преобразование - ортогональное преобразование,
которое доказало свою наибольшую эффективность на сегодняшний день, тем не
менее, добавление к работе ДКП еще одного вида ортогонального преобразования
73
положительно сказывается на процессе сжатия. Такой принцип используется в
кодеке H.264 [86], где после процедуры ДКП, дополнительно применяется
ортогональное преобразование Уолша-Адамара, и получает продолжение в H.265,
за исключением того, что вместо Уолша-Адамара, оказалось эффективнее
использовать дискретно-синусное преобразование [45].
По этой причине
становится востребован поиск наилучшей комбинации двух ортогональных
преобразований. Кроме того, к увеличению степени компрессии приводит
применение эффективных таблиц квантования. Повышение эффективности в этом
направлении можно достичь за счет применения адаптивных таблиц квантования.
За счет формирования уникальной таблицы для каждого блока или совокупности
блоков можно динамично подстраивать параметры, для исключения избыточной
информации, под каждую область изображения.
Значительная доля избыточности сокращается на этапах пространственного
и временного предсказания. Кроме того, применяемые на этих этапах алгоритмы
сложны и увеличивают время работы кодера. По этой причине улучшения
алгоритмов по этому направлению крайне важны. Как показали тесты [45] здесь
увеличение степени сжатия достигается за счет применения блоков различного
размера. Динамичность и адаптивность параметров блока дают возможность
точно
выполнять
компенсацию
движения
при
внутри-
и
межкадровом
предсказании, позволяя, вследствие этого, передавать минимальный объем
разностной информации. Стоит отметить, что очень положительно сказывается
применение блоков больших размеров, включая 64х64 пикселей и использование
точности предсказания до 1/8 пикселя при выполнении компенсации движения.
Это связано с тем, что, в сравнении с видео стандартной четкости, видео высокой
и ультравысокой четкости содержат похожие области большого размера, которые
крайне неэффективно кодируются при помощи маленьких блоков. Значительную
роль, при сжатии видеоинформационного сигнала по пространственному
направлению, играет количество доступных угловых направлений предсказания,
основные из которых были перечислены в 1.3.3. Поэтому наличие 33 возможных
способов направления предсказания помогло H.265/HEVC превзойти по степени
74
сжатия многие кодеки, обладающие значительно меньшими свободами при
выборе направления предсказания.
Алгоритмы
энтропийного
предсказания
обычно
применяются
на
завершающем этапе кодирования видео. Исключая статистическую избыточность,
они также занимают не последнее место в компрессии видео. На данный момент,
наиболее часто используемый алгоритм основывается на методе Хаффмана, а
арифметическое
кодирование,
являющееся
более
эффективным
методом
кодирования, только начинает быть востребованным по причине недоступного
ранее количества вычислительных ресурсов. По этой причине, на настоящий
момент времени, наиболее используемыми алгоритмами энтропийного сжатия
являются CAVLC и CABAC, в основе которых лежит работа метода Хаффмана и
арифметического метода соответственно. Тем не менее, эффективность их
работы, совершенствуется за счет развития быстродействия аппаратного
обеспечения.
Стоит также отметить, что улучшения в сжатие видеоинформационного
сигнала вносит и применение в алгоритмах кодирования более совершенных
интерполяционных фильтров, адаптивность и более длинная импульсная
характеристика которых, показали значительное улучшение на этапе выполнения
процедуры оценки и компенсации движения, при работе в составе кодека
H.265/HEVC. Это связано с тем, что, при наличии большого количества
направлений предсказания, чаще обнаруживаются пиксели, значения которых
требуется
интерполировать.
Чем
более
качественным
интерполяционным
фильтром будет снабжен кодек, тем сильнее ошибка предсказания будет
стремиться к нулю.
Кроме вышесказанного, стоит отметить и развитие такого нового
направления, как многоракурсная передача видео, смысл которого заключается в
использовании нескольких камер, расположенных в разных точках. Реализация
этого направления позволит более полно передавать снимаемую сцену, выбирать
различные ракурсы для передачи, а также формировать передачу трехмерного
изображения. Но это потребует доработки и адаптации существующих
75
алгоритмов для работы с многоракурсным видео, а также, очевидно, создания и
развитие алгоритмов межракурсного предсказания для устранения избыточности
по этому направлению.
Таким образом, эволюция аппаратной части и стремление к улучшению
качества видео, требуют более совершенных алгоритмов компрессии. Из
сказанного выше можно отметить, что наиболее перспективными, на данный
момент,
являются
динамические
и адаптационные
свойства
алгоритмов,
способные подстраиваться под различное качество, размер формата видео и,
соответственно, под доступные ресурсы канала передачи данных. Параллельное
усовершенствование качества работы фильтров и методик обработки, с
использованием блоков увеличенного размера, исследования совокупного
применения ортогональных преобразований в работе кодека позволят добиться
компромисса, в эффективности кодирования и сложности декодирования. Кроме
этого, приведенные меры увеличат степень сжатия и позволят справиться с
требованиями по передаче современного высококачественного видео, в том
числе, в системах передачи сигнала видео реального времени.
1.5 Выводы
1. Разработка и построение систем сжатия видеоинформационного сигнала
должны производиться с учетом особенностей зрительной системы человека,
поскольку характеристики последней позволяют устранять значительную
величину избыточности. Особенности работы зрительной системы человека
лежат в основе построения всех существующих в настоящее время систем
сжатия видеоинформационного сигнала.
2. Энтропийные методы сжатия являются одним из основных этапов при сжатии
видеоинформационного
сигнала.
Существующие
методы
энтропийного
сжатия можно условно разделить на методы, результат сжатия которых
максимально приближен к значению энтропии, но при этом они задействуют
большое количество вычислительных ресурсов, либо на методы, сжатие
76
которых меньше по сравнению с первыми, но они требуют и меньшего
количества вычислительных ресурсов для своей работы.
3. Методы кодирования с потерями – очередной и очень важный этап при
сжатии
видеоинформационного
сигнала.
Использование
этих методов
позволяет необратимо устранять значительную часть избыточности, присущей
видеоинформационному сигналу. Качество работы алгоритмов этих методов
влияет на степень компрессии и уровень заметности искажений от частичного
исключения
информационных
видеоинформационного сигнала.
составляющих
из
общего
Алгоритмы кодирования с потерями
рассчитаны на работу с блоками, на которые делится изображение.
4. Двумерное дискретно-косинусное преобразование - неотъемлемая часть
многих современных и перспективных алгоритмов кодирования с потерями. В
настоящее время ДКП является самым популярным и эффективным
ортогональным преобразованием, которое используется почти во всех
стандартизованных кодерах сжатия. Такое повсеместно использования ДКП
объясняется
тем,
математических
что
оно
операций
основывается
и,
на
соответственно,
небольшом
не
количестве
требует
больших
вычислительных ресурсов, одновременно с этим, ДКП является очень
простым и быстрым в реализации, обеспечивая тем самым хороший
компромисс между степенью уплотнения энергии и сложностью вычислений.
В
отличие
от
ДВП,
ДКП
достигает
качество
уплотнения
энергии
видеоинформационного сигнала, которое превосходит качество других
преобразований. Кроме того, распределяя энергию всего по нескольким
коэффициентам, ДКП позволяет добиться лучшей аппроксимации внутри
изображения и, следовательно, минимальных ошибок при реконструкции
изображения. Многие из перечисленных преимуществ позволяют кодерам
видеоинформационного сигнала на основе ДКП работать, практически, на
любых аппаратных платформах. В процессе работы, алгоритм ДКП оперирует
блоками, на которые поделено изображение, что очень хорошо согласуется с
алгоритмами устранения пространственного и временной избыточности.
77
Кроме этого, квантованные ДКП коэффициенты очень хорошо подвергаются
энтропийному
сжатию,
а
существующие
на
данный
момент
интерполяционные фильтры достаточно хорошо устраняют искажения,
вызванные квантованием ДКП коэффициентов.
5. Дискретные вейвлет-преобразования дают очень хороший результат в
обработке и сжатии статичных изображений с естественным набором
световых и цветовых характеристик пикселей. Однако необходимость
использования больших вычислительных ресурсов, по сравнению с ДКП, не
позволяет ДВП получить широкого распространения, особенно, в системах
передачи в реальном режиме времени. Кроме этого, блочность, отсутствие
которой в вейвлет-преобразованях является их сильной стороной, неизбежно
появляется при межкадровой обработке и кодировании, т.к. эти процедуры
нарушают естественный состав пространства кадра и, тем самым, уменьшают
положительные эффекты ДВП.
6. Межкадровая разность, компенсация движения и временное предсказание
являются основными механизмами, которым следует уделять внимание при
устранении временной избыточности. Качество выполнения компенсации
движения, прямо пропорционально, влияет на степень компрессии видео.
Временное предсказание - одна из неотъемлемых частей процесса сжатия и,
одновременно с этим, самый ресурсоемкий процесс.
7. Многоракурсное
формирование
видеоинформационного
сигнала
[48],
качество интерполяционных фильтров и варианты реализации компенсации
движения, а так же степень динамичности и адаптивности алгоритмов сжатия
видеоинформационного
сигнала
являются
основными
факторами,
в
отношении которых ведутся перспективные улучшения.
78
ГЛАВА 2. ФОРМИРОВАНИЕ СИГНАЛОВ УПРАВЛЕНИЯ ДЛЯ
АДАПТИВНОГО ПРЕОБРАЗОВАНИЯ ВИДЕОИНФОРМАЦИОННОГО
СИГНАЛА
Видеоинформационный сигнал в процессе подготовки к передаче по
цифровым каналам связи проходит множество этапов преобразований и
многоуровневых обработок, целью которых являются сокращение объема данных,
описывающих этот видеоинформационный сигнал, и создание возможности
довести модифицированный сигнал до абонента в максимально близком, к
исходному видеоинформационному сигналу, виде.
Увеличение степени корректности реализации преобразований, обработок и
этапов восстановления видеосигнала можно достичь за счет эффективного
управления процессами преобразования, а также совершенствованием алгоритмов
обработки и восстановления этого сигнала. Реализацию текущего регулирования
описанных выше процессов возможно осуществлять передачей сигналов
управления [49], каждый из которых соответствует конкретной команде, на
выполнение того или иного действия, в процессе управления и обработки сигнала.
Решение для передачи управляющего сигнала, на совершение той или иной
команды,
принимается
на
основании
выявления
изменений
внутренней
пространственной структуры изображения кадра, либо изменений во временной,
межкадровой,
области
видеосигнала.
Соответственно,
наличие
несанкционированных изменений, нарушающих пространственную и временную,
естественную,
корреляцию
элементов
видеоинформационного
сигнала,
становится источником формирования ложных сигналов управления, приводящих
к
увеличению
объема
передачи
паразитной
информации
и
деградации
восстановленного сигнала. Таким образом, при реализации способов и методов
формирования сигналов управления требуется комплексный подход, в составе
которого
будут,
видеоинформационного
обязательно,
сигнала,
присутствовать
включающие
в
этапы
себя
подготовки
противошумовую,
нелинейного и линейного типа, цифровую обработку и коррекцию апертурных
искажений.
79
2.1 Современные методы противошумовой обработки сигналов
Этап противошумовой обработки видеоинформационного сигнала является
неотъемлемой
частью
процесса
сжатия.
Эффективная
реализация
шумоподавления в кадрах видеосигнала способствует повышению качества и
точности
работы
алгоритмов
компенсации
движения.
Благодаря
этому,
значительно уменьшаются остаточные значения межкадровой разницы и, как
следствие, увеличивается степень сжатия видеоинформационного потока.
Процесс
шумоподавления
можно
охарактеризовать
как
процедуру
восстановления исходного изображения кадра из изображения, искаженного
шумами. Для реализации такого процесса существуют различные методы
шумоподавления, каждый из которых обладает различной эффективностью,
степень которой может варьироваться в зависимости от свойств и природы того
или иного обрабатываемого изображения [50].
Разработка методов шумоподавления всегда связана с рядом проблем,
которые требуется преодолеть разработчикам. Причиной этих проблем является
высокая сложность обнаружения объектов в кадре, сохранение их границ и
внутренней текстуры. Особенно остро эти проблемы проявляются при наличии в
кадре малоконтрастных областей. Фильтр шумоподавления, использующий тот
или иной метод обработки зашумленного кадра, в результате своей работы
должен обработать изображение кадра за минимальное количество времени, при
этом использовать крайне ограниченное количество вычислительных ресурсов и
оправдать ожидания разработчика по качеству получаемого результата. В случае
обработки видео реального времени эти требования становятся крайне
критичными в реализации алгоритма шумоподавления.
Стремление максимально удовлетворить вышеописанные требования к
шумоподавляющим
фильтрам,
порождает
соответственно
недостатки
в
разработанных методах шумоподавления. Так, к примеру, для ускорения процесса
обработки видео, большинство алгоритмов в своей работе учитывают лишь один
вид шума - Гауссовский или белый шум [50]. Однако в реальном сигнале природа
шумов очень различна [51]. Так, в кадрах видео часто присутствует искажения,
80
вызванные действием теплового шума, при котором искажения вносятся самим
элементом
формирования
сигнала,
импульсного
шума
или
искажения,
возникающие вследствие ошибок квантования [52]. Поэтому эффективность
методов, которые не учитывают различную природу шумов, может оказаться не
высокой, а при работе с малоконтрастными составляющими зачастую не могут
дать нужного результата. Для того, чтобы разобраться в эффективности
доступных, в настоящее время, методов подавления шума, рассмотрим некоторые
современные фильтры шумоподавления.
В общем случае фильтры шумоподавления для видеосигналов можно
разделить на фильтры, работающие в пределах одного кадра (пространственные
или внутрикадровые фильтры), фильтры, подавляющие шум, возникший, между
кадрами, с течением времени (временные фильтры), и фильтры, сочетающие в
себе комбинации первых двух (пространственно-временные фильтры) [51].
Различие между этими видами фильтров чаще всего заключается в
размерности обрабатываемых данных.
Поясним следующее, первым шагом алгоритма практически любого
фильтра,
работающего
во
временном
направлении,
является
создание
изображения межкадровой разности. Соответственно, пространственные и
временные фильтры обрабатывают изображение, описываемое двухмерным
массивом данных, поэтому для этих двух типов фильтров характерна работа с
двухмерной информацией. Однако существуют и исключения, при которых
информация может обрабатываться в виде трехмерного массива данных.
В пространственно-временных фильтрах третьей размерностью является
время, т.е., условно, можно сказать, что межкадровые фильтры обрабатывают
параллельно несколько двухмерных массивов данных и учитывают корреляцию
этих данных, как в пространственном, так и во временном направлениях. Все
функции обработки, которые используются в алгоритмах данного типа фильтров,
в подавляющем большинстве случаев, заимствованы из пространственных
фильтров, но обобщены или соотнесены с трехмерной размерностью.
81
Таким
образом,
не
касаясь
частностей,
внутрикадровые
методы
шумоподавления, можно отнести к основополагающим, т.к. в основе работы
других методов шумоподавления лежат принципы работы внутрикадровых
методов.
По этой причине более подробно рассмотрим внутрикадровые фильтры
шумоподавления, т.к. обзор всех фильтров шумоподавления не представляется
возможным в рамках данной диссертации.
На рисунке 2.1 приведены наиболее востребованные современные фильтры
шумоподавления, работающие в пределах одного кадра [53].
Рисунок 2.1. Семейство современных фильтров шумоподавления
Согласно рисунку 2.1, современные фильтры шумоподавления можно
разделить на:
 фильтры пространственной области [54-65, 72-74];
 фильтры области преобразования [66-68];
 фильтры на основе обучающегося словаря [69-71].
82
2.1.1 Фильтры пространственной области
Фильтры пространственной области, в свою очередь, подразделяются на
фильтры, использующие алгоритмы локальной обработки и алгоритмы не
локальной обработки. Работа этих двух видов алгоритмов основана на идеи
расчета средневзвешенных значений для каждого обрабатываемого пикселя
изображения в силу наличия корреляции между значениями пикселей (блоков
пикселей (патчей)), которая присутствует во всех естественных изображениях.
В алгоритмах локальной обработки коэффициенты фильтров, которыми
производится взвешивание соседних пикселей при фильтрации, имеют значения,
величины которых зависят от пространственной удаленности взвешиваемого,
соответствующим коэффициентом, пикселя от пикселя, находящегося в данный
момент в обработке [64]. Пиксель, находящийся в данный момент в обработке, –
это пиксель, который получит новое значение на основе вычислительного учёта
значений взвешенных пикселей, находящихся вокруг обрабатываемого пикселя.
Чем дальше находится взвешиваемый пиксель, а соответственно и необходимый
коэффициент взвешивания, тем меньшее значение будет иметь последний.
В алгоритмах не локальной обработки взвешивающие коэффициенты
фильтра зависят от расстояния, на которое удален целый патч, характеристики
пикселей
которого
удовлетворяют
конкретным
значениям.
Интегрально
оценивается такими алгоритмами не близость значений отдельных пикселей, а
степень похожести структуры (содержимого) их двумерных окрестностей [53, 64].
Для фильтров, основанных на первом виде алгоритма, характерна высокая
скорость работы, низкие требования к вычислительным ресурсам и невысокое
качество
результирующего
изображения
вследствие
эффекта
смазывания
(размывания), возникающего из-за усреднения значений пикселей на основе
пространственной удаленности.
Для методов, основанных на втором виде алгоритма, характерна низкая
скорость работы, высокий уровень потребления вычислительных ресурсов [64] и
более высокое качество результирующего изображения, без потери большинства
составляющих изображения.
83
Алгоритмы следующих фильтров построены на принципе локальной
обработки:
Гауссовский
фильтр,
Винеровский
фильтр,
билатеральный
(двунаправленный) фильтр, медианный фильтр, фильтр на основе наименьших
средних квадратов, анизотропный фильтр, фильтр SKR и производные от него
фильтры MSKR, KSPR.
Среди этих фильтров, уже очень давно и наиболее часто используют
Гауссовский
фильтр
[54].
Импульсная
характеристика
такого
фильтра
формируется согласно функции Гаусса или нормальному закону распределения,
который описывается формулой 2.1.

1
f  x 
e
 2
 x   2
2 2
(2.1)
.
где  – математической ожидание;  2 - дисперсия;  – среднеквадратичное
отклонение.
На
практике,
при
обработке
изображения
Гауссовским
фильтром,
используют свертку значений изображений с матрицей свертки, которая
заполнена коэффициентами по закону Гауссовского распределения. Пример такой
матрицы приведен на рисунке 2.2.
0,106997 0,113109 0,106997
0,113109 0,119571 0,113109
0,106997 0,113109 0,106997
Рисунок 2.2. Пример матрицы свертки Гауссовского фильтра
Степень фильтрации Гауссовским фильтром можно регулировать, управляя
размерностью матрицы свертки, поэтому, чем большую размерность имеет
матрица, тем выше степень фильтрации. Основным недостатком, отмеченным на
рисунке 2.3, является размытие изображения в результате фильтрации и,
соответственно, чем выше степень фильтрации, тем больше будет размыто
результирующее изображение данного кадра.
84
Оригинал изображения
Изображение с шумами
Обработанное изображение с размером
Обработанное изображение с размером
матрицы свертки 3X3
матрицы свертки 7X7
Рисунок 2.3. Обработка изображения Гауссовским фильтром
Кроме Гауссовского фильтра, стоит отметить работу анизотропного
фильтра [59], который был разработан с целью уменьшения эффекта размытия,
возникающего при обработке Гауссовским фильтром. Уменьшить эффект стало
возможным благодаря тому, что в анизотропном фильтре сглаживание
изображения происходит только в направлении, ортогональном к направлению
85
градиента [53]. Однако, в сравнении с Гауссовским фильтром, данный фильтр
является более требовательным к вычислительным ресурсам.
Медианный фильтр [72-74] также часто используется при фильтрации
изображений.
Очень
хорошо
он
зарекомендовал
себя
при
устранении
импульсного шума типа “соль-перец”. Суть работы фильтра заключается в
присвоении всей группе пикселей значения среднего, по расположению пикселя,
из этой группы, при условии что, предварительно, все пиксели группы были
упорядочены по возрастанию или убыванию.
Более
эффективные,
по
показателю
качества
восстанавливаемого
изображения фильтры, основанные на принципе локальной обработки, сохраняют
четкость объектов, размещенных в пространственной области изображения, за
счет выявления краев границы этих объектов и осуществления
фильтрации,
только, в пределах выявленных границ каждого объекта. К таким фильтрам
относится фильтр SKR [60]. Этот фильтр имеет одноименное название с методом,
который использован при его реализации - Steering Kernel Regression [75] регрессионное
восстановление
кернфункцией
(базисной
функцией)
с
управляемым воспроизводящим ядром. В отличие от предыдущих фильтров, SKR
использует
непараметрический
непараметрическую регрессию,
статистический
для
детектирования
метод,
и
а
устранения
точнее
шума.
Соответственно работа SKR фильтра основана на принципах регрессионного
анализа, в результате которого подразумевается определение регрессионной
функции с использованием базисной функции и восстановление на ее основе
исходного изображения [75]. Идея поясняется на рисунке 2.4.
86
Рисунок 2.4. Регрессионное восстановление значений пикселей в фильтре
SKR
Для того, чтобы разобраться с процессом шумоподавления в фильтре SKR,
на основе вычисления регрессионной функции, уточним, что регрессия
представляет собой зависимость математического ожидания случайной величины
от одной или нескольких других случайных величин (свободных переменных), то
есть E  y|x   z  x  .
С целью упрощения рассмотрения алгоритма фильтра SKR, перейдем к
рассмотрению
одномерного
случая,
при
котором
сигнал,
требующий
шумоподавления, описывается следующим выражением [75]
yi  z  xi    i , i  1,2, , P,
(2.2)
где yi – представляет собой значение i - го отсчета сигнала с шумом; z  –
регрессионная функция, описывающая сигнал, гипотетически идентичный
оригинальному сигналу без шума;  i – значение, описывающее аддитивный шум,
который накладывается на оригинальный сигнал и не имеет какого-либо
определенного статистического распределения.
В этом случае задача восстановления состоит в получении из значения
отчета yi , сигнала с шумами, оценку z  xi  , значение которой будет стремиться к
значению отчета исходного оригинального сигнала.
Соответственно,
т.к.
вид
регрессионной
функции
z 
неизвестен,
восстанавливается она путем определения значений пикселей функции z  xi  по
87
имеющимся данным о значениях пикселей вокруг данного пикселя. К примеру,
если пиксель x находится радом с пикселем, имеющим известное значение xi , то
для вычисления значения пикселя x можно воспользоваться локальной функцией
разложения в окрестности этой точки. Хорошо известно, что для такой цели, к
примеру, подошел бы ряд Тейлора, имеющий N членов, либо любой другой
ортогональный ряд, но в SKR для минимизации времени и упрощения
вычислений используется выражение
 xi  x 
K

 yi
H
i 1

x
y



h
i
i

 .
zˆ  x   i1P

 i1i  x   iP1K H  xi  x 
 h 
P

P
(2.3)
Выражение 2.3 называется формулой ядерного сглаживания НадараяВатсона, в которой
x x
i  x   K H  i
.
h


(2.4)
есть одномерная кернфункция, называемая также ядром или ядерной функцией;
h - параметр, называемый шириной ядра или шириной окна фильтрации. Чем
больше h, тем шире окно фильтрации и тем медленнее убывают веса i  x  по
мере удаления xi от x.
Значение ширины окна влияет на точность восстановления изображения и
на количество итераций, которое потребуется для обработки всего объекта.
Использование слишком узкого окна, приведет к тому, что некоторая доля уровня
шума останется на восстановленном изображении кадра, а время работы
алгоритма будет сокращаться. Слишком широкое окно приведет к сильному
сглаживанию текстур в изображении и увеличению времени работы.
Кернфункция обычно является однородной симметричной относительно
нуля функцией и удовлетворяет условиям tK  t  dt  0 и t 2 K  t  dt  c, где с –
R
R
некоторая постоянная.
88
Для задач обработки видео, в фильтре SKR кернфункция может быть
выражена функциями Гаусса (Гауссиан), Лапласа (лапласиан), Епанечникова
(ядро Епанечникова), треугольной (треугольное ядро) и некоторыми другими. Все
они представлены на рисунке 2.5.
Гауссиан
1
K t  
2
ядро Епанечникова
3

K  t    4 1  t 2  ,
 0
 1 
e  t2 
 2 
Лапласиан
K t  
для t  1
в иных случаях
Треугольное ядро
1
e t 
2
1  t
K t   
,
 0
для
в иных случаях
Рисунок 2.5. Виды кернфункций
Обобщение
приведенных выше
функций
для
двухмерного
случая,
происходит по выражению
K H t  
1
det  H 
K  H 1t  ,
(2.5)
89
где H – сглаживающая двухмерная квадратная матрица, коэффициенты которой
заполняются в соответствии с выбранной кернфункцией. При этом размерность
матрицы соответствует параметру h.
Помимо описанного выше, в принципе работы SKR лежит предположение,
что при обработке пикселя, расположенного у границы объекта, совокупности
других пикселей, информация о которых используется в формировании значения
данного пиксела, должны присваиваться большие веса в том случае, когда эти
пикселы расположены на той же стороне границы. Пикселям, локализованным же
на другой стороне границы объекта, присваиваются относительно более низкие
веса. Учитывая это, алгоритмом производится оценка преимущественного
направления
изменения
градиента
на
основе
данных
из
вычисленной
регрессионной функции, т.е. определяется направление следования границы
объекта. Затем полученная оценка направления используется для управления
ядерной функцией. В результате такого управления можно получить так
называемые удлиненные эллиптические контуры кернфункций, следующие вдоль
края границы объекта (рисунок 2.6).
Рисунок 2.6. Адаптация к локальным участкам управляемых и стандартных
кернфункций
Для реализации управления кернфункцией, предположим, что функция
выражена Гауссовской функцией, тогда управляемой, эта кернфункция, будет
иметь вид
90
det  Ci 
x x
KH  i

e

2 h 2
 h 
 xi  x   xi  x 

Ci 

h   h 

2
2h
(2.6)
.
где Ci – ковариационная матрица.
Таким образом, в отличие от фильтров на основе параметрических методов,
фильтр SKR за счет применения вышеописанных операций, сохраняет детали
изображения и вносит меньший уровень размытости, при этом можно отметить
увеличенную вычислительную сложность. Кроме этого, обратив внимание на
результат работы такого фильтра на рисунке 2.7, можно заметить сильно
выраженные
артефакты
и испорченную текстуру объектов,
что портит
субъективную оценку качества восстановленного изображения.
Рисунок 2.7. Изображение с шумом (слева) и восстановленное изображение
фильтром SKR (справа)
Фильтр MSKR [61] является улучшенным вариантом SKR. В частности
вычислительная сложность MSKR уменьшилась. Помимо Гауссовского шума
данный фильтр справляется с фильтрации шумов иного рода, лучше сохраняет
структуру объектов. Однако в том случае, когда в изображении кадра
присутствует
относительно
большое
количество
однородных
областей,
эффективность фильтра MSKR падает. Этот недостаток связан с так называемой
метрикой Q, которая была добавлена в алгоритм фильтрации.
91
Метрика Q [76] представляет собой дополнительный параметр, за счет
которого реализуется основное улучшение MSKR и назначение которого – это
управление эффективностью работы фильтра за счет оптимизации параметров
данного фильтра, к которым относят h (ширина окна) и количество необходимых
итераций обработки. Решения по оптимизации принимаются на основе
полученных метрикой Q данных об уровне шума и размытости изображения
кадра.
Процесс получения данных представляется следующим образом [53]:
1. Данное изображение кадра, поврежденное шумом, разделяется на M не
перекрывающихся областей размерностью N x N, для каждой из которых
рассчитывается локальная когеренция Rk по формуле
Rk 
s1  s2
,
s1  s2
(2.7)
где k = 1, 2, …, M;
s1 и s2 – параметры вычисляемые по формуле из [76].
2. Обнаруживаются неоднородные области путем порогового ограничения
значений локальной когеренции по уровню Rk ≥ τ. Порог τ определяется
из решения уравнения
 1  2 
 
2 
1 
N 2 1
,
(2.8)
где  – отклонение, значение которого задано равным 0,001.
3. Для каждой обнаруженной на шаге 2 области вычисляется локальная
метрика Qk по формуле
Qk  s1
s1  s2
.
s1  s2
(2.9)
4. Результирующая метрика Q для всего изображения вычисляется как
1
Qk 
M
m
Q ,
k
(2.10)
k 1
где m – количество обнаруженных на шаге 2 областей.
92
Слабой стороной этой метрики является высокая чувствительность только к
текстурированным областям.
В качестве улучшения данного алгоритма, а соответственно и расширения
сферы применения данного фильтра, можно предложить подбор соизмеримого
уровня чувствительности метрики Q к однородным и текстурированным областям
за счет его уменьшения в последних. Подбор уровня можно осуществлять,
варьируя значением отклонения δ.
Фильтр KSPR [62], в отличие от двух предыдущих фильтров, все
преобразования
кернфункции
Гильбертовское
пространство.
осуществляет
переводом
Соответственно
в
переменных
этом
в
пространстве
восстанавливаемое изображение будет описываться как линейный набор
кернфункций, которые отличаются от тех, что используются в SKR и MSKR. Суть
работы KSPR состоит в том, что различные области изображения обрабатываются
разными
кернфункциями
и,
при
обработке
однородных
областей,
в
сглаживающих кернфункциях задаются более высокие веса. Для различия
текстурированных
и
однородных
областей,
изображение
проходит
предобработку, в процессе которой изображение разделяется на блоки по
среднему значению градиента в каждой области. Благодаря использованию в этом
фильтре
полупараметрического
метода
обработки
изображения,
хорошо
сохраняются края объектов. Фильтр хорошо справляется с устранением
импульсного шума, но в случае Гауссовского шума - эффективность фильтрации
сильно падает. Кроме этого, анализ и оценка структуры областей по среднему
значению градиента не является надежным методом при наличии высокого
уровня шума, особенно Гауссовского.
К современным представителям фильтров, алгоритмы которых построены
на нелокальном методе обработки изображения, можно отнести фильтр NLM [63,
64] и его наиболее удачную модификацию INLM [65].
Идея
нелокальных
фильтров
основана
на
том,
что
предлагается
осуществлять фильтрацию пикселя, путем усреднения значений целых патчей
соотносящихся каким-либо образом с фильтруемым пикселем.
93
Фильтр NLM разрабатывался для эффективного устранения белого
Гауссовского шума, и в данном фильтре основная идея нелокальных фильтров
обобщена
для областей,
находящихся
вокруг
фильтруемого пикселя,
и
заключается в том, чтобы измерить сходство пиксела, используя окружающие
патчи. Здесь считается, что два пикселя похожи, когда средние значения пикселей
двух патчей одного и того же размера, центрами которых являются сравниваемые
пиксели, будут максимально близки или равны друг другу. Новые значения для
пикселей определяются по формуле (2.3), в роли кернфункции в которой
выступает любая сглаживающая функция. Кернфункцию высчитывают для
двумерного
случая
по
формуле
пространственной близости патчей,
(2.5).
Веса
среднее
выбираются
значение
на
основе
пикселей которых
совпадают или наиболее близко удовлетворяют значениям обрабатываемого, в
данный момент, пикселя или тоже патча. Условная работа по выбору
соответствующих патчей проиллюстрирована на рисунке 2.8.
Рисунок 2.8. Обнаружение сходных по параметрам патчей в фильтре NLM
Иными словами обработка в фильтре NLM происходит не на основе
отдельных пикселей, а на основе целых блоков. Такой подход позволяет очень
хорошо сохранять текстуру.
Основным недостатком фильтра, наряду с высокой вычислительной
сложностью, является появление хорошо заметных артефактов и критическое
94
падение производительности в случае, когда в изображении, искаженном
высоким уровнем шума возникает недостаток сходных по параметрам патчей [53].
Фильтр INLM [65] является улучшенной версией фильтра NLM. В этом
фильтре для каждого патча запоминается оценка дисперсии шума и в дальнейшем
используется в добавленной процедуре постобработки для дополнительного
подавления шумов, оставшихся после основных этапов (под основными этапами
подразумевается этапы алгоритма NLM). Алгоритм фильтра INLM является
итеративным. Эти улучшения в некоторой степени компенсируют недостатки
алгоритма NLM, однако добавленная в алгоритм процедура постобработки
приводит к некоторой доле размытости деталей изображения, а итеративность
усугубляет эту проблему.
Таким
образом,
опираясь
на
пространственной
области,
отметим
пространственной
области
алгоритм
вышеприведенный
что,
почти
во
шумоподавления
обзор
фильтров
всех
фильтрах
основывается
на
Гауссовской фильтрации. Использование Гауссовского распределения для задач
моделирования статистики
естественных изображений вызывает некоторые
сложности, связанные с тем, что локальные структуры естественных изображений
не могут быть достаточно точно описаны Гауссовским законом. В результате
этого у фильтров пространственной области возникают две основные проблемы:
взвешивающие коэффициенты фильтров недостаточно адаптированы к структуре
изображения, и границы объектов обычно сильно смазываются в результате
процедуры шумоподавления. Разработчики фильтров шумоподавления стремятся
преодолеть эти недостатки, в результате чего такие фильтры, как NLM и INLM,
реализуют адаптивность назначения весовых коэффициентов для каждого патча
изображения опираясь на
присутствующее в этом изображении самоподобие.
Фильтры SKR и MSKR минимизируют количество артефактов шумоподавления
за счет исключения из противошумовой обработки границ объектов изображения.
KSPR использует разные фильтры для однородных и неоднородных областей
изображения, а фильтры SKR и MSKR, за счет введенных улучшений,
увеличивают эффективность идеи KSPR.
95
В итоге, фильтры локальной обработки хорошо сохраняют границы, но
часто способствуют появлению артефактов во внутренней текстуре объекта.
Фильтры нелокальной обработки достигают хороших результатов во всех
случаях, за исключением ситуаций, при которых происходит сильное падение
уровня самоподобия в изображении.
2.1.2 Фильтры области преобразования
Группа, включающая в себя фильтры области преобразования, очень
обширна, однако наиболее востребованными являются фильтры, основанные на
дискретно-косинусном и вейвлет преобразованиях [53].
Оба из упомянутых выше преобразований могут использоваться в фильтре
BM3D [66], который является самым востребованным из фильтров своего класса,
т.к. объединяет в себе обработку данных в области преобразований, фильтрации и
метод нелокальной обработки патчей из фильтра NLM. Совмещение этих методов
дает возможность производить фильтрацию в частотной области с поиском
похожих участков изображения в пространственной области изображения и,
соответственно, одновременно использовать достоинства пространственной и
частотной обработки.
Алгоритм фильтра работает следующим образом. Вначале изображение
разбивается на пересекающиеся опорные патчи, для каждого из которых
осуществляется поиск похожих патчей внутри изображения. В данном фильтре
такая процедура называется согласованием блоков. Далее опорные патчи с
найденными к ним похожими патчами объединяются в трехмерные группы, в
каждой из которой соответственно находятся патчи со сходной пространственной
структурой. Следующим шагом алгоритма является трехмерное преобразование,
которое включает в себя двумерное преобразование значений элементов патчей
на основе ДКП или ДВП, а затем - одномерное вейвлет преобразование Хаара по
группам
патчей.
В
результате
трехмерного
преобразования
появляются
коэффициенты, которые подвергают квантованию и усреднению. Полученные
оценки,
являющиеся
источником
опорного
спектра
для
Виннеровской
96
фильтрации, обрабатываются фильтром Виннера, проходят процедуру обратного
трехмерного преобразывания и, на выходе, снова усредняются, формируя
результирующее изображение.
Тем не менее, наряду с достоинствами пространственной и частотной
обработки, данный фильтр приобрел и их недостатки. Так, в случае наличия
слишком высокого уровня шума в изображении, производительность работы
алгоритма и качество результирующего изображения резко падают. Кроме этого,
алгоритму данного фильтра присуще высокая вычислительная сложность, которая
достигает самых худших показателей при использовании ДВП. Кроме того,
фиксированные базисные функции, используемые при ДКП и ДВП в данном
фильтре, не позволяют алгоритму эффективно адаптироваться к локальной
геометрии объектов изображения.
Фильтр BLS-GSM [67, 77] основан, исключительно, на работе с
коэффициентами вейвлет преобразования. Суть работы этого фильтра состоит в
следующем: предположим, что имеется коэффициент xc вейвлет пространства,
относящийся к некоторому уровню разложения (масштабу) и некоторой
ориентации. Кроме того, имеется область x, содержащая коэффициенты,
сгруппированные
вокруг
x c.
В
действительности
x
может
содержать
коэффициенты не только из текущего уровня разложения и ориентации, но и из
других уровней разложения и ориентаций (см. главу 1, вейвлет методы). Тогда
алгоритм фильтра описывает коэффициенты области x Гауссовским процессом, а
новые значения вейвлет коэффициентам, при фильтрации, будут присваиваться
исходя из оценки методом взвешенных наименьших квадратов по Байесу.
Алгоритм действует следующим образом [77]
1. Преобразование изображения с шумом в вейвлет область;
2. Представление коэффициентов области x, согласно Гауссовскому процессу
по формуле
x  zu  n ,
(2.11)
97
z – независимый положительный случайный вектор; u – вектор с нулевым
где
средним значением на основе Гауссовской функции; n – аддитивный Гауссовский
шум.
Основываясь на этом, среднее значение области x оценивается как

E  uC | y    p  z | x  E  uC | x, z  dz ,
(2.12)
0
где E  uC | x, z  – локальная Винеровская оценка,
p  z | x  - апостериорная
плотность распределения.
3. Преобразование отфильтрованных вейвлет коэффициентов обратно, в
пространственную область.
Эффективность этого алгоритма достигается за счет субполосного
разложения коэффициентов, что даёт возможность эффективнее обрабатывать
разночастотные
составляющие.
Слабой
стороной
фильтра
является
необходимость соблюдения условия, в получении максимально близких значений
оценочной спектральной плотности мощности изображения к значениям
спектральной плотности мощности оригинального изображения. Необходимость
соблюдения этого условия отрицательно влияет на степень адаптивности
алгоритма.
Фильтр LPG-PCA [68] работает на основе алгоритма BM3D, однако, в
отличие от последнего, использует анализ основных компонент изображения,
благодаря которому формируются адаптивные базисные функции. Алгоритм
выполняет процедуру согласования блоков, которая использовалась в фильтре
BM3D. Однако затем, вместо создания трехмерной группы, патчи группируются и
для них создаются векторные переменные. Далее, в соответствии с методом
главных компонент, строится ортогональное преобразование координат, где и
происходит подавление составляющих шума. Более подробно процесс описан в
[68]. Для увеличения эффективности подавления шума, описанный процесс
повторяется еще раз. Таким образом, по утверждению [68] базисные функции
данного фильтра являются локально-адаптивными. Такое свойство позволяет
лучше сохранять края объектов в изображении, нежели это реализовано в BM3D.
98
Минус алгоритма данного фильтра кроется в том, что в повторном процессе
трансформирования и подавления шума участвуют те же самые патчи, которые
прошли обработку вначале, за исключением того, что уровень шума в этих патчах
уже менее выражен. Однако на первом этапе обработки, нередко, появляются
группы ошибок вследствие возникающих неточностей при детектировании шума,
и наличие подобных ошибок будет отрицательно сказываться на точности
результата завершающего процесса шумоподавления.
Обобщая фильтры области преобразований можно отметить, что наиболее
привлекательными в настоящее время оказываются фильтры, использующие
ДВП.
Разложение
изображения
на
множество
различных
частотных
поддиапазонов, позволяет с высокой точностью манипулировать частотными
составляющими изображения, благодаря чему становится возможным легко
детектировать шумы и детали изображения. Однако, если первостепенным
требованием к фильтру является высокая скорость работы его алгоритма, то
отдают предпочтение ДКП, которое также дает возможность работать с высокими
и низкими частотными составляющими, но при этом обрабатывает данные
быстрее и с менее точным их манипулированием. Касаясь недостатков фильтров
области преобразований, можно сказать, что они в основном зависят от вида
используемого преобразования. ДКП не позволит фильтру эффективно работать,
когда в изображении в большом количестве присутствуют резкие переходы или
множество отдельных зон со специфической структурой. ДВП станет ухудшать
работу фильтра в случае наличия в изображении зон с затянутым плавным
переходом освещенности или цвета. Кроме того, как уже отмечалось, в
большинстве методов области преобразования используются фиксированные
базисные функции, которые создают много грубых неточностей при описании
естественных изображений, имеющих узоры или сложную текстуру. Стоит также
отметить, что в результате любого из преобразований, использующихся в
описанных выше фильтрах, количество коэффициентов, описывающих пиксели
того или иного патча, равно количеству этих пикселей. Такая зависимость также
является причиной появления артефактов в обработанном изображении. В
99
фильтре BLS-GSM эта проблема решается за счет наличия, так называемого,
резервного словаря, которым создается некоторая доля избыточности в локальных
пространственных областях изображения, описываемых самоподобными патчами.
В фильтре BM3D, для решения проблем с артефактами, избыточность создается
не только за счет нелокальной группировки патчей в пространственной области,
но и – в области преобразования. Однако, в случае отсутствия достаточного
количества самоподобных патчей эффективность шумоподавления резко падает.
В таких случаях лучшим решением становится использование фильтра, алгоритм
которого основан на методе главных компонент, что делает такой алгоритм,
адаптированным к локальным структурам изображения.
2.1.3 Фильтры на основе обучающегося словаря
Фильтры на основе обучающегося словаря получили распространение с
развитием методов разреженного кодирования [78-81]. Данные методы для
некоторого множества Y, каждый элемент yi которого представлен n-мерным
вектором, создают и обучают словарь X, представляющий собой матрицу
размерностью n  m. В дальнейшем, с помощью этого словаря производится
восстановление по формуле
y  X  s,
(2.13)
где s – разреженный вектор размерностью m. Разреженный вектор – это
разреженная
матрица
вектор-строка
или
вектор-столбец.
Соответственно,
разреженный вектор вычисляется для всех y с условием получения максимально
большего количества нулевых элементов в составе вектора.
Одним из представителей данных фильтров является фильтр K-SVD [70].
Хорошие результаты работы алгоритма этого фильтра обеспечиваются за счет
применения адаптивного обучающегося словаря. Основная идея заключается в
том, что каждый патч изображения может представляться набором патчей из
словаря, который строится для всего изображения в целом. Таким образом,
каждый из патчей, в дальнейшем, может быть восстановлен с использованием
информации из ассоциированных с ним словарных патчей. Первоначальный
100
словарь этого фильтра формируется на основе коэффициентов ДКП. Однако, хоть
K-SVD и строит словарь в соответствие патчам изображения, достоверность
поиска внутри словаря является не высокой вследствие того, что возникновение
даже небольших изменений в патчах, для которых ищется решение в словаре,
может приводить к указанию на не соответствующие составляющие словаря. В
настоящее время процедура конкретизации и структурирования состава данных
обучающегося словаря не определена до конца, что также является минусом
данного фильтра. Кроме этого, алгоритмом фильтра предъявляются очень
высокие требования к вычислительным ресурсам.
Фильтр LSSC [69] также относится к представителям фильтров на основе
обучающегося словаря и является улучшением предыдущего фильтра. В данном
фильтре предложено использование комбинации методов нелокальной обработки
и модифицированного разреженного кодирования. В отличие от фильтра K-SVD,
предполагается, что схожие патчи в изображении должны иметь и схожие
разреженные вектора. Совмещая метод нелокальной обработки с процессом
разреженного кодирования, можно существенно увеличить скорость поиска
необходимых патчей в неструктурированном словаре. Однако недостаток,
связанный с уточнением процедуры определения и структурирования состава
данных обучающегося словаря, в этом фильтре также не был устранен, являясь
причиной появления артефактов.
Стоит уделить внимание и фильтру CSR [71], алгоритм которого также
пошел
по пути объединения в себе нескольких наиболее удачных методов
противошумовой обработки. В этом фильтре объединены принцип обучающегося
словаря из фильтра K-SVD и принцип структурной кластеризации (формирование
групп) из фильтра BM3D [71]. При этом CSR отличается от предыдущих двух
фильтров тем, что не требует какого-либо первоначального словаря. Словарь
данного фильтра начинает обучаться в процессе обработки изображения с
шумами. Кроме этого, в CSR, для более эффективного описания нелокального
разрежения, используется нормировка в пространстве L1. Менее удачным
решением следует признать использование пространство L2 в фильтре LSSC.
101
Таким образом, фильтры на основе обучающегося словаря позволяют
проводить противошумовую обработку изображения адаптивно к структуре
изображения. Первым представителям данных фильтров, таким, как K-SVD,
удалось добиться удовлетворительных результатов шумоподавления. Их большим
минусом стало то, что сходные по параметрам патчи могли получить очень
разную разреженную декомпозицию. Дальнейшие фильтры улучшили результаты
шумоподавления с введением кластеризации в разреженных декомпозициях. При
этом минусом здесь стало то, что производительность сильно зависела от
заданных
параметров
начального
словаря,
которые
формировались
для
высококачественного изображения, а не для изображений с шумами. Общим и
главным недостатком всех фильтров на основе обучающегося словаря является
крайне высокая степень вычислительной сложности, которая обусловлена тем,
что алгоритмы данных фильтров являются результатами симбиоза двух и более
методов обработки изображения, описанных ранее. Кроме этого, алгоритмы для
достижения, хотя бы, удовлетворительных результатов используют более одной
итерации обработки.
Завершая обзор современных методов противошумовой обработки сигналов
можно отметить следующие важные для разработки новых методов моменты:
 нелокальные
и
одновременно
итерационные
методы
обработки
зарекомендовали себя как наиболее эффективные при подавлении шума,
чем локальные, вследствие того, что самоподобие присутствующее в
изображении в целом, позволяет качественнее реализовать усреднение
аддитивного
Гауссовского
шума
по
сравнению
с
полиномиальной
аппроксимацией и аппроксимацией на основе кернфункций;
 адаптивные
эффективнее
базисные
функции,
представляют
применяемые
изображение,
в
преобразованиях,
чем
фиксированные
(периодичные) базисные функции;
 эффективность LSSC фильтра в некоторых случаях выше, чем у BM3D;
102
 мульти-масштабный анализ с переменным разрешением, предоставляемым
ДВП, зачастую эффективнее, чем одномасштабный, с фиксированным
разрешением;
 производительность BM3D фильтра, в большинстве случаев, превосходит
фильтр LPG-PCA;
 представление
изображения,
исходного
но
с
изображения
избыточностью,
в
качестве
положительно
модели
этого
сказывается
на
эффективности шумоподавления; так, фильтр KSPR показывает лучшие
итоговые результаты шумоподавления при высоких уровнях шума в
сравнении с фильтром MSKR.
Соответственно, на основании вышесказанного, можно заключить, что в
области шумоподавления наиболее эффективными на сегодняшний момент
являются фильтры LSSC, CSR и BM3D. Однако процесс реализации алгоритмов
почти всех фильтров является требовательным к вычислительным и временным
ресурсам.
2.2 Апертурная коррекция
Видеоинформационный сигнал в своем составе, помимо составляющих
шума, содержит искажения, вызванные апертурой элемента захвата передаваемой
сцены. Соответственно формирование видеоинформационного сигнала всегда
неизбежно связано с появлением в составе этого сигнала апертурных искажений
[82]. Апертурные искажения приводят к падению на высоких частотах уровня
составляющих пространственного направления изображения кадра, что ухудшает
характеристики видеоизображения в этом направлении [83].
Для коррекции таких искажений в состав оборудования формирования
видеоинформационного
сигнала
добавляют
устройства
для
апертурной
коррекции.
Апертурная характеристика обычно определяется функцией Гаусса:
2
2
k     e b  .
(2.14)
103
Поэтому для компенсации апертурных искажений, используется обратная
функция:
2
(2.15)
2
k К     eb  .
Согласно формуле 2.15 , степень апертурной коррекции принимает
экспоненциально-квадратичную зависимость от частоты и визуально
представлена на рисунке 2.9.
1.6
1.4
Kak
(f )
kК(ω)
1.2
1
0
6
110
6
210
6
310
6
410
6
510
6
610
6
710
f
2*pi*ω,
Гц
Рисунок 2.9. Влияние апертурной коррекции на уровень амплитуды
частотных составляющих шума.
Как видно из рисунка 2.9, использование обратной Гауссовской функции
приводит
к
увеличению
видеоинформационного
уровня
сигнала,
что
высокочастотных
в
свою
составляющих
очередь
корректирует
присутствующие в сигнале апертурные искажения. Поэтому простое усиление
высокочастотных составляющих формируемого сигнала является одним из самых
распространённых способов практической реализации цифровой апертурной
коррекции.
Недостатком
коррекции
такого
рода
является
увеличение,
пропорционально графику на рисунке 2.9, наряду с полезными составляющими
сигнала
уровня
составляющих
шума,
локализованного
в
ВЧ
области
корректируемого сигнала, что приводит к повышению заметности шума на
104
изображении. Кроме того, для эффективной коррекции, апертурные искажения,
локализация
которых
отмечается
только
в
пространственной
области
видеоинформационного сигнала, необходимо корректировать по горизонтальному
и вертикальному направлениям. Однако, с целью увеличения быстродействия
формирующего видеосигнал оборудования и упрощения его конструкции,
апертурную
коррекцию
обычно
используют
только
в
горизонтальном
направлении. Это приводит к характерным искажениям в случае обработки мало
интенсивных и зашумлённых сигналов, т.к. отсутствует адаптивность коррекции к
структуре самого сигнала. В силу сказанного выше, можно
апертурная
коррекция
существенно
влияет
на
отметить, что
уровень
шумов
в
видеоизображении и, соответственно, на качество формирования сигналов
управления. Наибольшую заметность это влияние приобретает в условиях низкой
средней освещённости контролируемой сцены.
Таким образом, всегда необходимо учитывать не идеальность работы
корректирующих апертурные искажения устройства, и, в случае необходимости
реализации эффективного сжатия видеосигнала, принимать меры по устранению
остаточных апертурных искажений в процессе преобразования, обработке
видеоинформационного
сигнала,
а
также
при
формировании
для
него
управляющих сигналов.
Один из наиболее эффективных методов коррекции апертурных искажений
был предложен в [84]. В данной работе получены расчётные данные, при анализе
которых получило подтверждение предположение о том, что корректировка
искажений будет выполняться эффективнее, если общий спектр частот
видеоинформационного
сигнала
разбить
на
два
(низкочастотный
и
высокочастотный) и более поддиапазонов частот, а затем, дальнейшую,
корректирующую
искажения,
обработку
проводить
над
каждым
из
поддиапазонов.
Преимущество такой обработки заключается в возможности независимого
от каждого из поддиапазонов управления регулировкой уровня порогового (по
уровню шумов вызванных этими искажениями) ограничения высокочастотных
105
составляющих изображения кадра. Это обеспечивает существенное уменьшение
деградации
высокочастотных
и
среднечастотных
составляющих
видеоинформационного сигнала, которая обусловлена нелинейностью порогового
ограничения, применяемого в процессе коррекции апертурных искажений.
При практической реализации описанной выше обработки, в качестве
одного из базисных элементом подавления искажений и шума, в процессе
формирования адаптивных сигналов управления для стационарных и движущихся
объектов на кадрах видеоинформационного сигнала, должна являться гребенчатая
фильтрация в силу своей высокой эффективности и небольших требований к
объему вычислений. Суть работы гребенчатого фильтра заключается в задержке
сигнала одного или нескольких элементов или кадров целиком, последующего
вычитания и нормализации амплитуды полученного результата делением на 2.
Структурная схема такого фильтра представлена на рисунке 2.10.
Рисунок 2.10. Гребенчатый фильтр на n задерживаемых элементов
Поступая на фильтр, сигнал U(t) проходит через блоки задержки TЗ, которые
задерживают этот сигнал на время (количество элементов или кадров), равное
n
t  Т Зn , где n определено количеством блоков задержки. Одновременно с этим
1
сигнал U(t) поступает в блок вычитания, где осуществляется вычитание сигнала
n


U(t) из задержанного сигнала U  t  Т Зn  . Далее результат вычитания поступает

1

в блок нормализации, на выходе которого формируется результирующий
разностный сигнал Uр(t).
Таким образом, в случае, если гребенчатый фильтр состоит из одного
элемента задержки TЗ, то результирующий сигнал можно записать как
U р  t   U  t   U (t  TЗ ).
(2.16)
106
Известно, что сумма и разница в реальном пространстве отражается суммой
и разностью в частотном пространстве. Поэтому в спектральной области
результирующий сигнал будет представлен выражением
S р    S    S     e  jTЗ .
(2.17)
Используя формулу Эйлера e jx  cos( x)  j sin( x) , в выражении 2.17,
определим, что комплексный коэффициент передачи фильтра K ( j ) будет равен
K  j  

S р  
S  

S    S      cosTЗ  jsinTЗ 

S  
S    S   cosTЗ  S   jsinTЗ

S  
(2.18)
 1  cosTЗ  jsinTЗ .
Амплитудно-частотная характеристика фильтра определяется модулем
коэффициента передачи фильтра и, соответственно, будет равна
K  j  
1  cosTЗ 
2
2
 sin 2TЗ 
(2.19)
2
 1  2cosTЗ  cos TЗ  sin TЗ  2  2cosTЗ .
или, с учетом нормализации АЧХ фильтра с одним элементом задержки, будет
определяться выражением
K  j  
2  2cosTЗ
.
2
(2.20)
На основе выражения 2.20 возможно формирование фильтров на различное
время задержки, с подавлением высоких, средних или низких частотных
составляющих сигнала.
С этой целью в работе [84] были получены амплитудно-частотные
характеристики
для
гребенчатых
фильтров,
производящих
многократную
гребенчатую фильтрацию с частотой среза низкочастотной составляющей около
1,5 МГц. Эти АЧХ представлены на рисунке 2.11.
107
1
6
1.710
0.8
0.6
K2( 2 f z2)
K3( 2  f z3)
K4( 2  f z4)
0.4
0.2
0
6
110
6
210
6
6
310
410
6
6
510
610
6
710
f
Рисунок 2.11. Частотные характеристики 2-х (K2), 3-х (K3)
и 4-х кратной (K4) интегральной гребенчатой фильтрации задержанного
сигнала
Анализ полученных АЧХ показывает, что наиболее эффективной в
подавлении
высокочастотного
спектра
гребенчатая фильтрация, что является
сигнала
является
четырехкратная
целесообразным в использовании ее в
процессе формирования адаптивных сигналов управления.
2.3 Разработка метода противошумовой коррекции
Обзор характеристик существующих на сегодняшний день фильтров
шумоподавления позволяет выбрать направление, в котором следует двигаться
при разработке нового метода противошумовой коррекции. Поэтому, основываясь
на заключениях первой главы данной диссертации, можно отметить, что
современные
методы,
реализующие
наиболее
качественную
фильтрацию
изображения, содержат в основе своих алгоритмов методы теории вероятности и
математической
статистики,
реализация
которых
количества вычислительных и временных ресурсов.
требуют
значительного
Одновременно с этим,
качественную фильтрацию, такие методы способны реализовать только при
наличии определенных, зачастую, жестко заданных условий, что делает
108
применение
каждого
из
современных
методов
шумоподавления
узкоспециализированным. Такие ограничения отрицательно сказываются на
обработке видеосигналов, особенно, передающихся в режиме реального времени.
Поэтому,
с
одной
стороны,
при
разработке
эффективных
методов
шумоподавления целесообразным будет стремиться к уменьшению времени
работы алгоритма, сокращению количества используемых вычислительных
ресурсов и достижению эффективности метода в отношении подавления шумов,
существенно отличающихся по своим характеристикам (как можно более
разнообразной природы). С другой стороны, достижение таких целей возможно
лишь в ущерб качеству шумоподавления. Следовательно, оптимум общей
эффективности работы метода шумоподавления, ориентированного на работу в
режимах передачи видеосигнала реального времени, будет определяться
установкой баланса именно между этими двумя сторонами.
Опираясь на вышесказанное, можно сделать вывод о том, что оптимальным
является метод, работа которого будет основана на пространственно-временной
фильтрации исходного сигнала, т.к. наличие информации по пространственному и
временному
направлениям
создает
дополнительную
избыточность
и,
соответственно, образует больше степеней свобод для корректной оценки
обрабатываемых данных. Кроме этого, как показано в предыдущем разделе,
наличие
избыточности
положительно
сказывается
на
эффективности
шумоподавления.
Такие свойства пространственно-временной области позволяют алгоритму
шумоподавления
задействовать
относительно
не
высокое
количество
вычислительных ресурсов, осуществлять обработку в сокращенных временных
рамках и получать удовлетворительное качество шумоподавления.
Суть предлагаемого метода поясняется на рисунке 2.12 и заключается в
следующем. В процессе фильтрации (реставрации) пикселя задействовалась
группа близлежащих пикселей из пространственного и временного направления,
формируя, таким образом, трехмерную группу пикселей. Для обеспечения
симметрии в обрабатываемых данных и увеличения скорости обработки фильтра,
109
количество пикселей в такой группе ограничивается областью размером 5×5×5
пикселей.
Рисунок 2.12 Группировка пикселей пространственного x,y и временного t
направлений в трехмерную группу размером 5×5×5 пикселей
Описанный выше подход формирования группы для обработки пикселей
делает доступной для алгоритма шумоподавления информацию не только о
пространственной, но и о временной корреляции значений пикселей, что
позволяет увеличить эффективность фильтрации.
В начале процесса фильтрации данная трёхмерная группа пикселей
используется для оценки фильтруемого пикселя (P0). Оценка осуществляется
первичным
интегрированием совокупностей разнородных распределений
пикселей трёхмерной группы с получением соответствующего результирующего
значения (P) и с оценкой разности (ΔP) полученного интегрированного значения с
фильтруемым (оцениваемым)
пикселем. Разность (ΔP) не должна превышать
заданного порога (S), который регулируется учётом освещённости в пределах
контролируемой сцены. В этом случае выходной пиксель определяется
полученным результирующим значением (P).
Совокупность разнородных распределений пикселей трёхмерной группы
используемых в первичном интегрировании при этом, представлена следующими
вариантами. Первоначально для интегрирования используется совокупность всех
пикселей
трехмерной
группы
5×5×5
пикселей,
которые
интегрируются
110
трехмерным окном с весовыми коэффициентами, значения которых формируются
усеченной функцией Гаусса с обобщением для трехмерного случая. При этом
усеченная
функция
Гаусса
(рисунок
2.13)
не
имеет
бесконечного,
по
протяженности, спада симметричных краев, присущего исходной функции
Гаусса.
Данная
частотной
особенность повышает крутизну среза
характеристики
фильтра
с
соответствующей
одновременным
устранением
колебательных изменений её уровня в полосе пропускания и подавления, а
использование простых линейных методов усреднения пикселов в сочетании с
трехмерностью обрабатываемых данных позволяет добиться компромисса между
скоростью работы и качеством фильтрации.
а) исходная функция Гаусса
б) функция Гаусса в двумерном
варианте
в) усеченная функция Гаусса
г) усеченная функция Гаусса в
двумерном варианте
Рисунок 2.13. Вид исходной и усеченной функции Гаусса, а также их двумерное
обобщение
111
Если в результате оценки имело место превышение заданного порога, то
размер трёхмерной группы снижается до объёма 3×3×3 пикселей и оценка
результирующего пикселя производится снова. Если и в данном случае было
выявлено превышение результатом оценки фильтруемого пикселя заданного
порога,
процесс
совокупностей
оценки
пикселей
продолжается
(режим
с
интегрированием
одномерной
оценки),
одномерных
также
имеющих
динамическую размерность от 5 до 3 пикселей и по направлениям интегрирования
согласно рисунку 2.14.
а) направления интерполяции
б) четыре трехмерных диагональных
вертикаль и две горизонтали
направления интерполяции
в) шесть одномерных диагональных направления интерполяции
Рисунок 2.14. Пример основных направлений интерполяции в пределах
трехмерной группы
Причём, при первичном интегрировании, в данном частном случае,
используется одномерное окно весовых коэффициентов, которое построено на
112
основе одномерной усеченной функции Гаусса (рисунок 2.13) для вариантов
размера групп 5 и 3 пикселя. В случае отсутствия здесь превышения порога по
какому-либо направлению, оно запоминается вместе с соответствующими ему
значениями результата первичного интегрирования (P) и оценки разности
полученного
интегрированного
значения
с
фильтруемым
(оцениваемым)
пикселем (ΔP). Далее процесс поиска одномерных направлений, на которых в
результате оценки отсутствует превышения заданного порога, продолжается до
полного перебора доступных направлений.
Таким образом, противошумовую фильтрацию (реставрация) пикселя
определяют либо соответствующие
трехмерные группы 5×5×5 или 3×3×3
пикселей, либо совокупность направлений (режим одномерной оценки), по
которым
не
было
обнаружено
превышений
заданного
порога
(S)
при
соответствующих P и ΔP. В последнем случае формируется совокупность групп
фильтрующих пикселей, которые будут участвовать в процессе реставрации
оцениваемого пикселя. Для них, на основе P и ΔP, производится формирование
необходимых
весовых
коэффициентов
суммированием,
вычисленных
по
(α)
отдельным
с
последующим
направлениям
(с
весовым
высокой
корреляцией), пикселей при формировании результирующего пикселя (Pr).
Так, весовое суммирование, при котором имеется совокупность одномерных
направлений (P1, P2, P3), соответствующих варианту отсутствия превышение
заданного порога (S):
P1  P0  P1 

P2  P0  P2   S ,
P3  P0  P3 
(2.21)
где P1  P2  P3 и, к примеру, P1  P2  P3 ,
будет представлять собой следующий процесс:
Pr  1 P1   2 P2   3 P3 .
(2.22)
где 1   2   3  1 , которые определяются следующими выражениями:
113
1 
P1
P2
P3
;2 
; 3 
;
P1  P2  P3
P1  P2  P3
P1  P2  P3
1
1
1
 k1;  k2 ;  k3 ;
1
2
3
1 
k1
k2
k3
; 2 
; 3 
;
k1  k 2  k3
k1  k 2  k3
k1  k 2  k3
(2.23)
(2.24)
(2.25)
Выражения (2.23 – 2.25) позволяют вычислить весовые коэффициенты
( 1 , 2 , 3 ), которые учитывают (нормируют) уровень вклада, вносимого каждым
из направлений (P1, P2, P3) в результат вычисления и обеспечивают, тем самым,
нахождение значения результирующего пикселя (Pr) в пределах динамического
диапазона обрабатываемого изображения.
Предложенная трехмерная фильтрация позволяет точнее отфильтровать
составляющие шума, даже в случае наличия искажения всех пикселей в
относительно большой по размеру области изображения - так называемый шум в
виде цветных пятен.
Схема практической реализации устройства трехмерной фильтрации
представлена на рисунке 2.15.
114
Рисунок 2.15. Устройство трёхмерной фильтрации
Как видно из рисунка, устройство трехмерной фильтрации имеет в своем
составе устройство формирования трехмерной группы (УФТГ), на вход которого
вначале и поступает последовательность из сигналов пяти кадров, где проходит
процедуру совмещения сигналов элементов. Схема УФТГ представлена на
115
рисунке 2.16, где для упрощения схемы пример приведен для процесса
совмещения сигналов из 3×3×3 элементов.
Рисунок 2.16. Устройство формирования трехмерной группы размером 3×3×3
В каждом из трех кадров, которые были задержаны в блоках задержки
кадров ТКn, ТКn-1, ТКn+1 , выделяются области пространственного направления
размерностью 3×3 пикселей путем задержки в каждом из таких кадров трех строк
и трех пикселей (элементов). Строки и элементы в устройстве формирования
трехмерной группы задерживаются в блоках задержки строк ТCn, ТCn-1, ТCn+1 и
элементов ТЭЛn, ТЭЛn-1, ТЭЛn+1, соответственно. В результате такой задержки в
116
памяти УФТГ формируется массив, состоящий из значений пикселей 1n-m, 2n-m, 3nm,
…, 9n-m, где n – номер центрального кадра, которому принадлежат элементы, m
– коэффициент, описывающий изменение номера кадра. Для случая 3×3×3 общее
количество пикселей, находящихся в устройстве формирования трехмерной
группы составит 27. После процедуры обработки задержанных данных
происходит освобождение блоков задержки элементов и заполнения их
следующими по очереди элементами в строках. Циклы заполнения блоков и
обработки выполняется до тех пор, пока блоки устройства не заполнятся
последними, стоящими в очереди, строками и элементами и не произойдет их
обработка. После выполненной обработки, данные содержащиеся в ТКn-1
удаляются, а место удаленных данных занимают данные из ТКn, т.е. происходит
сдвиг кадров в блоках, а в освободившийся Tkn+1 записываются данные нового
кадра, и полный цикл для строк и элементов повторяется снова.
Таким образом, это устройство, в заданный момент времени, имеет на
выходе
все
пиксели
трехмерной
группы,
к
которым
можно
получить
одновременный доступ. Одновременная доступность всех пикселей трехмерной
группы в распоряжении устройства трехмерной фильтрации позволяет применять
обработку к этой группе с использованием трехмерного и одномерного окон,
взвешивающие коэффициенты которых рассчитаны в соответствии с функцией
усеченного Гаусса.
Составляющие УФТГ можно разделить на блок совмещения кадров
(БСК(1)), блок совмещения строк (БСС(2)) и блок совмещения пикселей.
С выхода УФТГ сигналы пикселей поступают на блок распределения групп
пикселей (БРГП (4)), который формирует из хранящегося в УФТГ набора
пикселей сигналы для трёхмерных групп размерностью 5×5×5 и 3×3×3 пикселей,
а также формирует набор сигналов одномерных (1-D) групп пикселей.
Сформированные наборы поступают на соответствующие интеграторы 5, 6
и 7, из которых 5 и 6 обеспечивают интегрирование с применением трёхмерного
окна, построенного на основе усеченной функции Гаусса обобщенной для
трёхмерного
случая.
Интегратор
7
обеспечивает
последовательное
117
интегрирование поступающих на него сигналов одномерных наборов с
применением окна, построенного на основе одномерной усеченной функции
Гаусса. Для каждого полученного результата интегрирования (P1…n) вычисляется
сигнал разности ( P1...n ) с сигналом фильтруемого (оцениваемого) пикселя (P0).
После чего разностные сигналы, проходя обработку в соответствующих
формирователях модуля сигнала (ФМС) 8, 9, 10, приобретают положительные
значения и сравниваются в компараторах 11, 12, 13 с установленным пороговым
значением сигнала (S). Блоки вычисления разности, ФМС 8, 9, 10 и компараторы
11, 12, 13 являются исполнительными узлами блока управления БУ. Данный блок
формирует сигналы управления (СУ) на основе которых коммутатор (15) решает,
с какого интегратора будет использоваться сигнал (Pr) для фильтрации пикселя. В
случае же наличия СУ об отсутствии необходимости фильтрации, коммутатор
обеспечивает условие Pr=P0. Кроме коммутатора (15), сигнал управления (СУ)
может
поступить
на
блок
формирования
коэффициентов
и
весового
суммирования (БФКиВС(14)), который задействуется в режиме одномерной
фильтрации. В данном режиме в случае наличия, на выходе компаратора (13) в
сторону БФКиВС, СУ о том, что результат оценки сигнала интегрированной
одномерной совокупности пикселей с фильтруемым пикселем (P0) удовлетворяют
условию P  S , на БФКиВС поступают и накапливаются для дальнейшей
обработки значения P и P данной совокупности пикселей.
Согласно рисунку 2.14, количество одномерных совокупностей пикселей,
образующих одномерные направления 1-D больше одной, ожидание поступления
таких значений будет производиться БФКиВС до тех пор, пока компаратор не
закончит обработку всех заданных одномерных направлений 1-D. После
завершения накопления значений P и P БФКиВС осуществляет их обработку, в
соответствии с выражениями 2.21 – 2.25. Полученное, в результате обработки,
значение поступит на выход коммутатора (15) как Pr в случае наличия СУ, от
компаратора (13), в сторону этого коммутатора.
Последовательность
коммутации
при
работе
коммутатора
(15)
осуществляется следующим образом. При наличии СУ от компаратора (11)
118
осуществляется коммутация выхода с интегратора (5). Если СУ от 11 отсутствует,
осуществляется проверка СУ на компараторе (12) и, при положительном
результате проверки, коммутация выхода происходит с интегратора (6). При
отрицательном результате проверки, осуществляется проверка СУ на компараторе
(13), где в случае положительного результата выход 15 коммутируется с выходом
БФКиВС (14). В случае, если и с данного компаратора (13) отсутствует СУ, на
выход 15 подается P0 как Pr.
Стоит отметить, что
при фильтрации в пространственно-временном
направлении возникают сложности с недопущением искажения краев у объектов
в изображении кадра, а также мелких деталей, уровень сигнала которых
соизмерим по амплитуде с шумом. В этом случае решением может быть
нелинейный
пороговый
метод
фильтрации,
основанный
на
усечении
низкоуровневых составляющих в каждом из поддиапазонов, за исключением
поддиапазона низких частот.
2.4 Формирование сигналов управления для адаптивного преобразования
видеоинформационного сигнала
Один из эффективных методов формирования адаптивных сигналов
управления может основываться на результате вычисления межэлементной
разности, благодаря которому становится возможным обнаружить изменения в
пространственно-временной и цветовой структуре видеоизображений.
Под
элементами здесь понимается пиксель, строка или целый кадр. Задача сигнала
управления
сводится
к
тому,
чтобы
заранее
сообщать
о
наличии
пространственных и временных изменений внутри кадра или между кадрами,
давая команду на соответствующую обработку в зависимости от характеристик
полученного управляющего сигнала. Использование подобного сигнала повысит
точность формирования вектора движения, либо момента установки опорного
кадра. По этой причине степень точности формирования сигнала управления
влияет на степень сжатия самого видеоинформационного сигнала и на качество
восстановленного изображения. Однако при генерации адаптивных сигналов
119
управления возникают определенные сложности с точностью их формирования.
Обычно появление этих сложностей обусловлено наличием остаточных шумов
или артефактов, присутствующих в видеоинформационном сигнале из-за
неидеальной работы алгоритмов шумоподавления. По этой причине очень
важным является учет и по возможности коррекция подобных искажений,
присутствующих в отфильтрованном видеоинформационном сигнале.
Для того, чтобы более подробно рассмотреть сложности, связанные с
формированием видеоинформационного сигнала, обратим внимание на рисунок
2.17, где представлен образец видеоинформационного сигнала движущегося
объекта в изображении кадров.
а) сигнал объекта в n кадре
в) сигнал межкадрового изменения
б) сигнал объекта в n+1 кадре
г) абсолютное значение сигнала
межкадрового изменения
Риснок 2.17. Формирование управляющего сигнала на основе сигнала разности
кадров
120
Здесь можно заметить, что присутствующий в сигнале шум вносит
искажения, которые нарушают структуру естественной корреляции элементов
видеоизображения. По этой причине такой шум требуется подавить, т.к. иначе
невозможно будет добиться точного формирования сигналов управления. Как уже
отмечалось,
наличие
шума,
который
присутствует
в
составе
видеоинформационного сигнала на рисунке 2.17, обусловлен искажениями
(артефактами), вносимыми в структуру сигнала алгоритмами шумоподавления, а
также остаточными шумами, которые не удалось полностью подавить в силу
описанных в первом разделе данной главы свойств фильтров шумоподавления.
Кроме этого, в процессе формирования видеоинформационного сигнала
происходит
падение
уровня
высокочастотных
составляющих
спектра
пространственной структуры изображения вследствие неидеальной коррекции
фильтрами апертурных искажений. Заметим также, что, ко всему прочему,
уровень подобных шумов существенно увеличивается в областях изображения с
низкой или неоптимальной по уровню и спектральному составу освещенности
объектов в кадре. Поэтому учтем все вышесказанное при реализации метода
формирования сигнала управления.
Как уже отмечалось, первым шагом в формировании управляющего
сигнала, является получение сигнала межкадрового изменения n и n+1 кадров
(рисунок 2.17 в)), который затем следует продетектировать по абсолютному
значению (рисунок 2.17 г)) и подвергнуть дальнейшей пороговой обработке для
уменьшения уровня шума и улучшения качества сигнала управления. Однако
часто имеет место ситуация, при которой такая обработка не обеспечивает
достаточной
степени
подавления
шума,
а
при
детектировании
видеоинформационного сигнал по абсолютному значению, средняя составляющая
помех сигнала может увеличиться, что приведет к невозможности реализации
высокоточной
пороговой
обработки
и,
соответственно,
формирования
управляющего сигнал из-за падения отношения сигнал/шум. Имитируем
ситуацию такого рода, для чего рассмотрим рисунок 2.18, содержащий сигнал
быстродвижущегося от кадра к кадру объекта.
121
а) сигнал объекта в n кадре
г) абсолютное значение сигнала
межкадрового изменения
б) сигнал объекта в n+1 кадре
д) положительная составляющая
сигнала межкадрового изменения
в) сигнал межкадрового изменения
е) отрицательная составляющая
сигнала межкадрового изменения
Риснок 2.18. Формирование управляющего сигнала на основе сигнала разности
кадров с растянутым фронтом
122
Можно отметить, что, в сравнении с сигналом на рисунке 2.17, в данном
рисунке фронт сигнала является более растянутым. Растяжение фронта
видеоинформационного сигнала обусловлено увеличением скорости движения
объекта, которому соответствует этот сигнал, и чем выше скорость движения
объекта,
тем
более
растянутым
окажется
фронт.
Растяжение
фронта
зашумленного сигнала крайне отрицательно сказывается на качестве сигнала
межэлементного изменения.
Поэтому, если точность, с которой сигнал
управления сформируется из сигнала, представленного на рисунке 2.17 г), будет
удовлетворительной,
то
при
использовании,
для
этой
цели,
сигнала,
представленного на рисунке 2.18 г), возникает ситуация, при которой невозможно
выделить четкий управляющий сигнал. Кроме того,
детектирование любого
сигнала межэлементного изменения по абсолютному значению приводит к
увеличению средней составляющей шума, примерно, в
2 раз, что еще более
усугубляет ситуацию.
Однако, сравнивая полученные оценки уровней постоянных составляющих:
 2.25 – для абсолютного значения сигнала межкадрового изменения на
рисунке 2.18 г);
 1.17 – для положительной составляющей сигнала межкадрового
изменения на рисунке 2.18 д);
 1.08 – для отрицательной составляющей сигнала межкадрового
изменения на рисунке 2.18 е),
можно отметить, что раздельная обработка положительной и отрицательной
составляющей разнополярного сигнала позволит избежать увеличения средней
составляющей шума. После раздельной обработки осуществить объединение этих
сигналов, получая тем самым сигнал управления.
Обработку положительных и отрицательных составляющих сигнала следует
проводить с использованием нелинейного порогового ограничения, т.к. такая
обработка
способствует
формированию
наиболее
качественных
сигналов
управления. Процесс такой обработки поясняется на рисунке 2.19.
123
Рисунок 2.19. Нелинейное пороговое ограничение сигнала
После процедуры нелинейного порогового (с низким порогом) ограничения
полученный результат следует подвергнуть интегрированию и усилению до
требуемого уровня. Следует заметить, что низкоуровневое нелинейное пороговое
ограничения при формировании управляющего сигнала параллельно расширяет
спектр проникающих в область управления шумовых составляющих, что
усиливает эффект подавления их уровня при последующих интегрированиях.
Однако, в случае наличия в сигнале шумов с высоким уровнем (рисунок
2.18), следует проводить такую обработку итерационно, что увеличит степень
подавления составляющих шума и сделает её адаптивной к структуре сигнала и,
следовательно, позволить сформировать качественный управляющий сигнал.
Количество проводимых итераций должно зависеть от оценки уровня отношения
сигнал/шум. Результаты раздельной, итерационной, нелинейной пороговой
обработки положительной и отрицательной составляющих сигнала межкадрового
изменения, представленного на рисунке 2.18, и формирование для него сигнала
управления приведены на рисунке 2.20.
124
Первая итерация обработки
а) пороговое ограничение
положительной составляющей
сигнала межкадрового изменения
в) пороговое ограничение
отрицательной составляющей
сигнала межкадрового изменения
б) интегрирование положительной
составляющей сигнала межкадрового
изменения, ограниченного по порогу
г) интегрирование отрицательной
составляющей сигнала межкадрового
изменения, ограниченного по порогу
Вторая итерация обработки
а) пороговое ограничение
положительной составляющей
сигнала межкадрового изменения
в) пороговое ограничение
отрицательной составляющей
сигнала межкадрового изменения
125
б) интегрирование положительной
составляющей сигнала межкадрового
изменения, ограниченного по порогу
г) интегрирование отрицательной
составляющей сигнала межкадрового
изменения, ограниченного по порогу
Третья итерация обработки
а) пороговое ограничение
положительной составляющей
сигнала межкадрового изменения
в) пороговое ограничение
отрицательной составляющей
сигнала межкадрового изменения
б) интегрирование положительной
составляющей сигнала межкадрового
изменения, ограниченного по порогу
г) интегрирование отрицательной
составляющей сигнала межкадрового
изменения, ограниченного по порогу
126
Четвертая итерация обработки
а) пороговое ограничение
положительной составляющей
сигнала межкадрового изменения
в) пороговое ограничение
отрицательной составляющей
сигнала межкадрового изменения
б) интегрирование положительной
составляющей сигнала межкадрового
изменения, ограниченного по порогу
г) интегрирование отрицательной
составляющей сигнала межкадрового
изменения, ограниченного по порогу
управляющий сигнал
Рисунок 2.20. Этапы формирования управляющего сигнала итерационным
методом
127
Стоит отметить, что увеличение количества итераций обработки приведет к
увеличению времени работы алгоритма. Требуемое количество итераций
находится в обратной зависимости от степени интегрирования на каждом этапе
итерации ограниченного по порогу сигнала.
Таким образом, увеличивая степень интегрирования, можно добиться
наименьшего количества требуемых итераций, при этом точность формирования
управляющих сигналов будет падать. Верно и обратное. Деструктивную природу
завышенной степени интегрирования можно заметить на рисунке 2.21, на котором
приведены
сигналы
управления,
сформированные
на
основе
сигнала
межкадрового изменения, приведенного на рисунке 2.18.
а)
б)
Рисунок 2.21. Сигналы управления, полученные с использованием различных
степеней интегрирования
Здесь видно, что сигнал а), благодаря высокой степени интегрирования, был
сформирован за две итерации и, по этой же причине, имеет более растянутую
форму основания во временной области
в сравнении с сигналом б). Такое
растяжение отрицательно сказывается на качестве сигнала управления, т.к.
приводит к опережению или запаздыванию времени подачи соответствующей
команды управления при обнаружении в видеоинформационном сигнале
признаков изменения свойств элемента. В свою очередь, сигнал б) будет вовремя
определять признаки изменения элементов и управлять соответствующими
командами. Таким образом, варьируя количеством итераций обработки и
степенью интегрирования сигнала, становится возможным управлять такими
128
показателями, как качество формирования управляющих сигналов и скоростью
работы алгоритма.
При формировании управляющих сигналов для малоподвижных зон, где
сигнал межэлементного изменения n и n+1 элементов получается узким во
временной области и, скорее всего, будет утерян при нелинейной обработке,
целесообразно накапливать изменения сигнала на более длинных интервалах, т.е.
выполнять задержку сигналов на несколько элементов.
Иными словами, для
улучшения порога сигнал/шум в малоподвижных и неподвижных зонах
необходимо
выполнять
пространственную
обработку
посредством
интегрирования по временному направлению. В данном случае, формирование
управляющих сигналов для малоподвижных зон
сигнал/шум будет достигаться в
Добиваясь
улучшения
выигрыш в отношении
N раз, где N – число кадров.
порога
отношения
сигнал/шум
описанными
методами, становится возможным определять участки, имеющие наименьшую
контрастность, вследствие чего, получать незначительные ошибки предсказания,
увеличивая тем самым эффективность сжатия и используя при этом минимальное
количество вычислительных ресурсов.
Стоит учитывать, что пороговая обработка, за счёт присущей ей
нелинейности, приводит к расширению спектра обрабатываемого сигнала и
появлению ложных частотных составляющих. Такое свойство нелинейной
обработки требует в дальнейшем ограничения спектра и сглаживанию резких
перепадов яркости. Реализация такого ограничения возможна с использованием
фильтра в соответствии с [85].
2.5 Выводы
1. Шум, присутствующий в видеоинформационном сигнале, в подавляющем
большинстве случаев имеет Гауссовское распределение. Вследствие этого,
при субъективной оценке шум воспринимается как небольшие перепады
яркости с различной интенсивностью.
2. Полезная информация заключена в резких перепадах яркости и поэтому малые
перепады обнаруживают себя как шум, который требует подавления. Такой
129
подход позволяет в значительной степени сохранить контрастные границы в
изображении.
3. Нелокальные
итерационные
эффективными,
чем
методы
локальные
обработки
вследствие
являются
того,
что
более
самоподобие,
присутствующее в изображении, более эффективно реализует усреднение
аддитивного
Гауссовского
шума
по
сравнению
с
полиномиальной
аппроксимацией и аппроксимацией на основе кернфункций.
4. Адаптивные
базисные
функции,
применяемые
в
преобразованиях,
эффективнее представляют изображение, чем фиксированные базисные
функции.
5. Многомасштабный анализ с переменным разрешением (ДВП), зачастую,
эффективнее, чем одномасштабный с фиксированным разрешением.
6. Представление
изображения
избыточностью
в
виде
положительно
модели
этого
сказывается
на
изображения
с
эффективности
шумоподавления, так, фильтр KSPR показывает лучшие итоговые результаты
шумоподавления при высоких уровнях шума в сравнении с фильтром MSKR.
7. Апертурные
искажения,
неотъемлемой
также
составляющей,
как
и
аддитивные
присутствующей
в
шумы,
являются
необработанном
видеоинформационном сигнале.
8. Разделение
на
частотные
поддиапазоны
составляющих
спектра
видеоинформационного сигнала и дальнейшая обработка каждого из этих
поддиапазонов положительно сказывается на эффективности коррекции
апертурных искажений.
9. Успешное решение таких задач, как подавление шума и коррекция
апертурных искажений, напрямую влияет на корректность формирования
управляющих сигналов, и, как следствие, на увеличение степени сжатия
видеоинформационного
сигнала
на
передающей
стороне
и
качество
восстанавливаемого видеоинформационного сигнала на стороне абонента.
10. Разработанный
метод
обработки
видеоинформационного
сигнала
в
трехмерном направлении за счет наличия избыточности, создаваемой кадрами
130
во временном направлении, позволяет детектировать и подавлять шумы
различной природы без высокой вычислительной нагрузки. Это делает данный
метод более универсальным по отношению к существующим методам.
Взвешивание пикселей, участвующих в расчете значения оценки для
обрабатываемого пикселя, коэффициентами, рассчитанными на основе
усеченной
функции
Гаусса,
препятствует
возникновению
артефактов
шумоподавления в силу малых паразитных колебаний АЧХ данной функции.
Такой
подход
удовлетворительные
позволяет
получить
результаты,
по
в
разработанном
качеству
методе
шумоподавления,
с
минимальным количеством остаточных шумов и артефактов, возникающих в
процессе шумоподавления.
11. Разработанная итерационная обработка в процессе формирования сигналов
управления позволяет эффективно устранять ложные изменения структуры
изображения кадра, вызванные остаточными шумами и искажениями.
Адаптивный подход данной обработки к структуре обрабатываемого сигнала
позволяет сохранять форму управляющих сигналов и соответственно
увеличивать точность и качество их формирования.
12. Степень точности формируемых сигналов управления напрямую влияет на
значение степени сжатия видеоинформационного сигнала и качество его
восстановления на приемной стороне.
131
ГЛАВА 3. РЕАЛИЗАЦИЯ МЕТОДОВ СЖАТИЯ
ВИДЕОИНФОРМАЦИОННЫХ СИГНАЛОВ
Алгоритмы сжатия видеоинформационных сигналов разрабатываются как
универсальные
средства
видеоизображения.
по
Работа
устранению
таких
избыточности
алгоритмов
в
целом
в
сигналах
оценивается
как
удовлетворительная, т.к. одновременный охват широкого спектра задач и
областей применения, к которому стремятся разработчики этих алгоритмов,
неблагоприятно
сказывается
на
результатах
сжатия.
Отрицательные
и
положительные моменты наиболее удачных современных алгоритмов были
рассмотрены в предыдущей главе и, учитывая соответствующий опыт создания
таких
алгоритмов,
были
предложены
методы,
внедрение
которых
в
существующие алгоритмы, крайне, благотворно сказывается на качестве сжатия
видеоинформационного
сигнала.
Стоит
также
отметить,
что
благодаря
модернизации предложенными методами уже существующих алгоритмов сжатия
видеоинформационного сигнала обеспечивается высокая степень совместимости
между старыми и новыми методами сжатия.
3.1
Реализация
метода
внутрикадрового
кодирования
на
основе
управляющих сигналов с итерационным методом шумовой коррекции
Метод, описываемый в данном разделе, предназначен для внутрикадровой
обработки,
поэтому
его
реализация
имеет
в
своей
основе
хорошо
зарекомендовавшую себя и успешно использующуюся в кодеках H.264 и H.265
схему пространственной обработки кадра, включающая в себя несколько этапов,
присущих кодеку JPEG.
3.1.1 Метод внутрикадрового кодирования на основе управляющих сигналов с
итерационным методом шумовой коррекции
Ключевыми этапами упомянутой выше схемы, которые легли в основу
разработанного метода, являются разбивка пространства кадра на блоки,
132
трансформирование значений блоков в область преобразования с применением
ДКП, квантование и энтропийное кодирование.
Дополнительными и, соответственно, модернизирующими этапами к
перечисленным выше, являются этапы итерационной пороговой обработки
пространства кадра с формированием управляющих сигналов (УС) и генерация
корректирующей информации (КИ) на основе УС.
3.1.2 Структура и алгоритм работы кодера внутрикадрового кодирования на
основе управляющих сигналов с итерационным методом шумовой коррекции
Блок схема алгоритма разработанного метода с полным составом этапов
обработки, относящихся к данному методу, представлена на рисунке 3.1.
Рисунок 3.1. Алгоритм внутрикадрового кодирования на основе
управляющих сигналов с итерационным методом подавления шума
Первым этапом в разработанном методе обработки внутрикадрового
пространства является разбивка пространства кадра на блоки с размерами 16Х16
133
пикселей. В отличие от блоков с размерами 8Х8 пикселей, увеличенный размер
блоков позволяет эффективнее устранять избыточность при ДКП и квантовании
кадров, имеющих формат высокой четкости. В данном случае увеличение
эффективности связано с тем, что в формате высокой четкости взаимно
коррелирующая информация локализуется в больших по размеру областях, в
отличие от форматов стандартной четкости. В связи с этим увеличение
размерности блоков приводит к большему охвату областей, эффективному
устранению избыточности и, как следствие, увеличению степени сжатия в
сравнении с использованием блоков 8Х8 пикселей. В случае применения блоков
увеличенного размера при обработке форматов стандартного качества, появляется
более заметная блочная структура, однако, в последствие она компенсируется
передачей корректирующей информации.
Дальнейшим шагом является формирование основного изображения для
передачи. Этот шаг реализуется путем выполнения процедуры ДКП элементов
каждого из блоков 16Х16 пикселей и квантования полученных коэффициентов
ДКП. Таким образом, под основным изображением будет подразумеваться
кодированное
изображение,
прошедшее
основные
этапы
устранения
избыточности, присущие JPEG и приведенные выше.
Квантование коэффициентов блоков реализуется с использованием матрицы
квантования размером 16Х16 элементов, значения для которых были получены
путем средневзвешенной интерполяцией коэффициентов матрицы, приведенной в
рекомендации [10]. Пример матрицы квантования для яркостной компоненты
приведен на рисунке 3.2.
а)
134
б)
Рисунок 3.2. Матрицы квантования яркостных компонент
а) – из рекомендации ITU-T T.81 для яркостной компоненты;
б) – сформированная на основе таблицы а)
Формирование
изображения
данных
заканчивается
для
передачи
процедурой
по
каналу
энтропийного
связи
сжатия
основного
данных,
описывающих это изображение. Таким образом, описанная выше часть
разработанного метода своим алгоритмом последовательности действий является
схожей с алгоритмом внутрикадровой обработки кодеков H.264 [8], H.265 [9] и
сжатия изображения JPEG.
Однако выбор увеличенного размера блоков разложения изображения для
ДКП положительно сказывается на внутрикадровом сжатии, в частности, при
передаче видео высокой четкости.
Кроме формирования данных, описывающих основное изображение, в
разработанном
методе
корректирующую
происходит
информацию,
формирование
назначение
данных,
которой
описывающих
является
коррекция
искажений, полученных при формировании данных для основного изображения.
135
Формирование данных для корректирующей информации начинается с
этапа вычисления разницы между оригиналом изображения и изображения
полученного в результате преобразования, т.е. изображения над которым
выполнялись этапы разложения на блоки, ДКП и квантования. Полученная в
результате данного этапа разница (разностное изображение) содержит и
указывает
на
информацию
об
искажениях,
коррекция
которых
будет
производиться за счет передачи корректирующей информации.
Этап противошумовой обработки (шумовая коррекция) выполняет действия
по устранению из будущей корректирующей информации шума и “нулевой
информации”, т.е. информации, которая не несет сведения об искажениях.
Результатом
данной
корректирующей
обработки
информации.
являются
Реализация
данные
данного
исключительно
этапа
начинается
о
с
разложения разностного изображения на блоки размером 16Х16 элементов.
Далее, для элементов каждого такого блока рассчитывается сумма, на основе
значения которой, ограничиваясь пороговыми верхним и нижним значениями
диапазона, принимается решение об игнорировании блока как содержащего шум
или “нулевую информацию”, либо о формировании сигнала управления для
данного блока как содержащего данные о корректирующей информации. К концу
этапа такой противошумовой обработки формируется набор управляющих
сигналов, обозначающих локализацию блоков на разностном изображении,
которая идентична локализации областей с корректирующей информацией для
этих блоков в оригинальном изображении.
Соответственно,
информация
о
местоположении
описывается
управляющими сигналами, формируемыми для каждого из блоков на основе
полученных данных о локализации областей с корректирующей информацией.
Таким образом, сформированный УС при кодировании позволяет отметить
области на оригинальном изображении, набор данных из которых будет служить
в качестве корректирующей информации. Описанный выше процесс является
первым этапом формирования УС и представляет собой первую итерацию всего
процесса формирования УС. На этом этапе расположение областей в разностном
136
изображении,
которые
указывают
оригинальном
изображении,
на
корректирующую
фиксируется
приблизительно
информацию
и
при
в
этом
формируется, соответственно, грубое описание координат этих областей.
Вследствие невысокой точности описания границ областей с корректирующей
информацией зафиксированные координаты областей указывают на большое
количество излишней корректирующей информации и шума. Однако, на первом
этапе, такое грубое приближение для описания областей с корректирующей
информацией позволяет значительно ускорить вычислительное быстродействие
дальнейшего
процесса
формирования
корректирующей
информации
и
эффективнее удалить шум.
Увеличение точности формирования УС и соответственно точности
описания областей с корректирующей информацией в оригинале изображения
достигается за счет второго этапа противошумовой обработки и формирования
УС. Второй этап противошумовой обработки схож с первым этапом тем, что
вычисляется сумма для элементов каждого из блоков и на основе результата этой
суммы, ограничиваясь верхним и нижним пределами диапазона, принимается
решение о статусе блоков. Однако, в отличие от первого этапа, делению на блоки
подвергается уже не все изображение, а только те области разностного
изображения, которые описывает УС первого этапа. Кроме этого размер блоков,
на которые делятся области, составляет 4Х4 пикселей, что позволяет более точно
отметить форму грубо указанных областей первого этапа и приблизить её к
нужным границам необходимой корректирующей информации на оригинале
изображения. Процесс второго этапа шумоподавления поясняется на рисунке 3.3.
Рисунок 3.3. Уточнение границы области, содержащей корректирующую
информацию в блоке с размером 16Х16 пикселей, путем деления этого блока
на блоки 4Х4 пикселей
137
После уточнения формы границ областей с корректирующей информацией
производится формирование УС, более точно описывающего границы областей с
корректирующей информацией из оригинала изображения. На рисунке 3.4 б) и в)
иллюстрируются управляющие сигналы, отмеченные белым цветом, для двух
этапов формирования УС. Формат кадра на рисунке 3.4 относится к формату
стандартной четкости и является 94 кадром видеопоследовательности “foreman”
а) оригинал изображения
б) основное изображение для
передачи
в) УС первого этапа
г) УС второго этапа
Рисунок 3.4. Управляющие сигналы двух этапов формирования УС для кадра
формата стандартной четкости из видеопоследовательности “foreman”
Рисунок 3.5 иллюстрирует ту же картину, что и предыдущий, однако здесь
формирование
УС
выполнено
для
кадра
формата
высокой
четкости
видеопоследовательности “Rebecca Black Reacts to 'Friday'”
138
а) оригинал изображения
б) основное изображение для передачи
б) УС первого этапа
в) УС второго этапа
Рисунок 3.5. Управляющие сигналы двух этапов формирования УС для кадра
формата высокой четкости видеопоследовательности “Rebecca Black Reacts
to 'Friday'”
Продолжением двухэтапного формирования УС является этап выделения на
основе полученного УС непосредственно самой корректирующей информации из
оригинала изображения. Полученная в итоге корректирующая информация, по
сути, представляет собой небольшие части оригинального изображения, которые
будут служить заменой тех же частей, но имеющие искажения в основном
изображении.
Выделенная
на
предыдущем
шаге
корректирующая
информация
подвергается процедуре сокращения занимаемого ею объема при передаче по
каналу связи. Для этого вначале вычисляется разность между блоками,
содержащими информацию из областей оригинального изображения и блоками с
информацией об областях имеющих то же расположение, что и предыдущие, но в
основном
изображении.
Затем,
полученные,
описанным
выше
образом
разностные блоки, подвергают процедуре ДКП и квантованию.
139
В результате серии экспериментов, было обнаружено, что для обеспечения
наименьшей потери качества изображения при субъективной и объективной
оценках,
а
также
для
достижения
высокого
уровня
сжатия
данных
корректирующей информации, достаточно сохранить в процессе квантования
коэффициентов ДКП значения коэффициента, описывающего средний уровень и
первые, следующие в очереди, коэффициенты горизонтального, вертикального и
диагонального
направлений
вышесказанное,
была
пространственного
сформирована
спектра.
матрица
Опираясь
квантования
для
на
ДКП
коэффициентов корректирующей информации, взвешивающие коэффициенты
которой имеют значения, приведенные на рисунке 3.5.
16 15 100
15 15 100
100 100 100
100 100 100
100
100
100
150
Рисунок 3.5. Матрица квантования для ДКП коэффициентов
корректирующей информации
Логическим итогом описанных выше этапов является формирование маски,
которая
представляет
собой
набор
квантованных
коэффициентов
корректирующей информации и дополняющая до размера полного изображения
нулевая информация. Формирование такой маски позволяет избежать передачи
информации о координатах расположения блоков, содержащих корректирующую
информацию
на
изображении.
Кроме
этого,
уменьшается
нагрузка
на
вычислительные ресурсы, т.к. наложение маски на основное изображение
занимает меньше времени, чем считывание координат и поиск по ним нужного
блока.
Завершающим этапом подготовки корректирующей информации к передаче
по каналу связи является энтропийное кодирование данных, описывающих
сформированную на предыдущем этапе маску.
140
3.1.3 Структура и алгоритм работы декодера внутрикадрового кодирования на
основе управляющих сигналов с итерационным методом шумовой коррекции
Процедура
декодирования
кадра
при
внутрикадровом
кодировании
представлена на рисунке 3.6 и включает в себя обратные шаги, представленные в
процедуре кодирования.
Рисунок 3.6. Алгоритм декодирования видеопотока с внутрикадровым
сжатием на основе управляющих сигналов с итерационным методом
шумовой коррекции
Согласно рисунку 3.6, процесс начинается с декодирования основного
изображения,
при
котором
выполняются
процедуры
энтропийного
декодирования, сортировка данных по блокам 16Х16 коэффициентов, умножения
коэффициентов каждого из блоков на матрицу квантования и обратного ДКП.
141
После того, как было декодировано основное изображение, начинается
выполнение
процедуры
декодирования
корректирующей
информации.
Декодирование этой информации начинается с энтропийного декодирования,
результатом которого является маска, описанная выше. Блоки маски, содержащие
корректирующую
информацию,
умножаются
на
матрицу
квантования
и
полученные коэффициенты подвергаются обратному ДКП.
В результате матрица приобретает значения блоков с корректирующей
информацией, соответствующие разностному значению между этими блоками и
блоками той же позиции в основном изображении. По этой причине выполняется
операция сложения или, как её ещё можно назвать, процедура замены блоков
основного изображения на корректирующую информацию. Иными словами
производится аддитивная процедура по наложению маски с корректирующей
информацией поверх основного изображения. Полностью декодированная маска с
корректирующей информацией представлена на рисунке 3.7 а) – для формата
кадра стандартной четкости и б) – для формата кадра высокой четкости.
а)
б)
Рисунок 3.7. Маска с корректирующей информацией а) – формат кадра
стандартной четкости, б) – формат кадра высокой четкости
Таким образом, благодаря особенности разработанного метода, который
включает в себя формирование корректирующей информации, можно выделить
два независимых потока для передачи данных. Один из этих потоков несет
142
данные об основном изображении, второй из потоков, соответственно, несет
данные о корректирующей информации. Кроме этого, использование идеи JPEG в
основе всего алгоритма позволяет настраивать степень сжатия основного
изображения
при
кодировании,
а
возможность
управления
степенью
восстановления изображения кадра при помощи корректирующей информации
делает предложенный метод адаптивным к ширине канала связи. Отметим также,
что независимость описанных ранее потоков для двух типов информации
позволяет в зависимости от доступной пропускной способности канала связи либо
передавать корректирующую информацию, либо нет, что также позволяет
адаптивно подстраивать объем передаваемых видео данных в режиме реального
времени под характеристики данного канала связи [91].
3.2 Реализация метода межкадрового кодирования с предсказанием на основе
управляющих сигналов с итерационным методом шумовой коррекции
Межкадровое кодирование с предсказанием в современных системах
сжатия видеоинформационных сигналов является важным этапом всего процесса
кодирования
и
вносит
максимальный
вклад
в
степень
сжатия
видеоинформационного сигнала среди других этапов. Обеспечение высокой
степени сжатия на этом этапе обусловлено исключением избыточности
присутствующей между двумя и более кадрами видеоинформационного сигнала.
Такая межкадровая избыточность при передаче видеоинформационного сигнала
занимает на порядок больше ресурсов канала передачи, в сравнении с
внутрикадровой избыточностью, т.к. большинство объектов во внутрикадровом
пространстве
относительно
долгое
время
сохраняют
неизменными
свои
характеристики и свойства от кадра к кадру.
Однако обработка, анализ и сокращение описанной избыточности требуют
также и значительных вычислительных и временных ресурсов, недостаток
которых в аппаратных частях систем передачи видео данных, работающих в
реальном режиме времени может привести к невозможности функционирования
такой системы в целом. В связи с этим фактом актуальным направлением при
143
разработке и модернизации методов межкадрового кодирования с предсказанием
является увеличение скорости работы этих методов.
3.2.1 Метод межкадрового кодирования с предсказанием на основе управляющих
сигналов с итерационным методом шумовой коррекции
Данный раздел посвящен описанию принципа работы разработанного
метода
устранения
межкадровой
избыточности.
Этот
метод
является
усовершенствованным вариантом алгоритма, работа которого основана на
межкадровой разности с компенсацией движения. Основное преимущество
разработанного метода достигается за счет формирования и использования УС
для выполнения процедуры предсказания и последующей компенсации движения.
Формирование УС позволяет увеличить скорость выполнения предсказания и
поиска вектора движения для объектов в кадрах за счет того, что исключает
необходимость в поиске векторов движения для всех объектов в кадре. Процесс
формирования
УС
заключается
в
адаптивном
формировании
набора
управляющих сигналов, исключительно, для объектов, задействованных при
движении, давая тем самым точную команду для расчета векторов движения для
этих объектов на отмеченные УС направления движения.
Коррекция шума, реализация которой обеспечивается путем итерационной
обработки
или,
по
сути,
итерационной
пространственной
фильтрацией
разностного кадра, осуществляемой в процессе формирования УС, позволяет
эффективно бороться с паразитными векторами движения. Появление паразитных
векторов
движения
обусловлено
наличием
незначительных колебаний
в
значениях пикселей неподвижных объектов фона от кадра к кадру, вызванных
фазовыми шумами различной природы, которые при формировании УС могут
быть классифицированы как движущийся объект и потому получат в описание
своего движения паразитный вектор движения. Итерационная обработка является
для данной проблемы эффективным решением, потому, как позволяет адаптивно
и точно, этап за этапом, выделить и исключить описанные шумы из набора
объектов, для которых формируются сигналы управления.
144
3.2.2 Структура и алгоритм работы кодера межкадрового кодирования с
предсказанием на основе управляющих сигналов с итерационным методом
шумовой коррекции
Схема работы разработанного метода представлена на рисунке 3.8. Первый
этап алгоритма начинается с расчета разницы между n+1 и n кадрами, на выходе
которого
получается
результат,
называемый
межкадровой
разностью.
Межкадровая разность содержит разностные значения пикселей, для которых
имело место изменение их истинных значений в процессе смены n кадра на n+1
кадр.
n и n+1 КАДРЫ
ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ
ВЫЧИСЛЕНИЕ МЕЖКАДРОВОЙ
РАЗНИЦЫ
N
ИТЕРАЦИЙ ?
НЕТ
ИТЕРАЦИОННАЯ
ШУМОВАЯ КОРРЕКЦИЯ
И ФОРМИРОВАНИЕ УС
ДА
ПОИСК ВЕКТОРОВ ДВИЖЕНИЯ
НА ОСНОВЕ УС
ПРОВЕРКА ЭФФЕКТИВНОСТИ
ВЕКТОРОВ ДВИЖЕНИЯ
КОМПЕНСАЦИЯ ДВИЖЕНИЯ
ДКП И КВАНТОВАНИЕ
ЭНТРОПИЙНОЕ СЖАТИЕ
Рисунок 3.8. Алгоритм межкадрового кодирования на основе управляющих
сигналов с итерационным методом подавления шума
Пример такого кадра, а, именно, разность между 95 и 94 кадрами
видеопоследовательности “foreman” приведен на рисунке 3.9. Здесь серым цветом
145
отмечены области, в пределах которых отсутствуют какие-либо изменения и
потому значения пикселей этих областей равны нулю. Градациями более светлого
цвета выделены объекты, которые меняют свои параметры при переходе от 94 к
95 кадру и соответственно значения их пикселей отличаются от нуля.
Большая часть этих светлых объектов является полезной информацией для
формирования УС. Оценивая их для данного разностного кадра, можно отметить,
что в пределах изменения двух кадров меняется положение лица, а также
присутствует небольшое движение заднего фона. Однако, среди выделенных
светлым цветом объектов, присутствует и часть объектов, описывающих
изменение остаточного шума в пределах этих кадров, и поэтому они являются
паразитной информацией для формирования УС.
a)
b)
c)
Рисунок 3.9. Пример разностного кадра с) для 94 кадра а) и 95 кадра b)
видеопоследовательности “foreman”
Данный факт заставляет предпринимать меры по устранению такого шума в
кадре межкадровой разности, т.к. игнорирование его приведет в дальнейшем к
появлению паразитных векторов движения, ухудшающих степень сжатия и
отбирающих полезную вычислительную мощность. Поэтому следующим шагом в
данном алгоритме является итерационная шумовая обработка с формированием
УС. Этот этап можно представить в виде двух последовательных процессов,
работающих в режиме цикла, количество повторений которого, следует
выдерживать в пределах значений, позволяющих устранить шум до минимальных
значений и затратить на это минимальное количество времени.
Большое
количество повторений потребует большего количество времени. Данные,
146
полученные
в
результате
экспериментов,
по
скорости
работы
и
по
результирующему качеству изображения, полученные на основе разработанного
метода, позволили определить, что оптимальным пределом значений для
повторения будут 2 – 3 итерации.
Сам
процесс
итерационной
шумовой
обработки
осуществляется
с
применение фильтра. Матрица соответствующей его импульсной характеристики
(ИХ) была выбрана с учетом Гауссовской модели распределения шума:
0.000789 0.006581 0.013347 0.006581 0.000789
0.006581 0.054901 0.111345 0.054901 0.006581
0.013347 0.111345 0.225821 0.111345 0.013347
0.006581 0.054901 0.111345 0.054901 0.006581
0.000789 0.006581 0.013347 0.006581 0.000789
С учетом нормирования относительно центрального коэффициента
получим:
0.003494 0.02914
0.0591
0.02914 0.003494
0.02914
0.24312 0.49307 0.24312
0.02914
0.0591
0.49307
0.49307
0.0591
0.02914
0.24312 0.49307 0.24312
0.02914
1.0
0.003494 0.02914
0.0591
0.02914 0.003494
В реальной области ИХ данного фильтра может быть определена в виде
выражения:
g  tx , t y  
2
2
     t
kn
x

 kTx     t y  nTy  ,
(3)
k 2 n 2
где t x , t y – аргументы плоскости пространства кадра; Tx , Ty – период следования
идеализированных отсчётов для варианта условной частоты дискретизации


видеосигнала f Dx  f Dy  13.5 106 Гц Tx  Ty  1 / f Dx  1 / f Dy  0.074 106 ; k , n –
пространственные порядковые номера коэффициента фильтра;  kn – значения
коэффициентов, определяющих амплитуду отсчётов ИХ.
147
В частотной области коэффициент передачи фильтра имеет следующий вид:












(4)
K xy f x , f y  K1xy f x , f y  K 2 x f x , f y  K 2 y f x , f y  K3 x f x , f y  K 4 x f x , f y ,
где









K1xy f x , f y , K 2 x f x , f y , K 2 y f x , f y , K 3 x f x , f y , K 4 x f x , f y
 – составляющие
коэффициента передачи фильтра:




K1xy f x , f y  1  cos 2 f x  0  Tx  2 f y  0  Ty ;
 




K 2 y  f x , f y   2  0.49307  cos  2 f x  0  Tx  2 f yTy   2  0.0591  cos  2 f x  0  Tx  2 f y  2Ty  ;
K3 x  f x , f y   2  0.24312  cos  2 f x  1Tx  2 f y  1Ty   cos  2 f x  1Tx  2 f y  1Ty   
2  0.02914  cos  2 f x  2Tx  2 f y  1Ty   cos  2 f x  2Tx  2 f y  1Ty   ;
K 2 x f x , f y  2  0.49307  cos 2 f xTx  2 f y  0  T y  2  0.0591  cos 2 f x  2Tx  2 f y  0  Ty ;

 



K 4 x f x , f y  2  0.02914 cos 2 f x  1Tx  2 f y  2Ty  cos 2 f x  1Tx  2 f y  2Ty
 


2  0.003494 cos 2 f x  2Tx  2 f y  2Ty  cos 2 f x  2Tx  2 f y  2Ty
 
 .
Нормировка импульсной характеристики относительно нулевого уровня
осуществлена в соответствии с соотношением:


K 0 xy f x , f y 

K xy f x , f y
 
.
(5)
K xy 0, 0
Апертурная характеристика, с некоторым приближением, определена как
3

Ka fx , f y



 sin  2 f x 2Tx    sin 2 f y 2Ty

 
sin
2

f

2
T


x
x   sin 2 f y 2T y



3




,
(6)
где  – коэффициент апертурных искажений, для которого установлено значение
 =0,25.
Тогда результирующий коэффициент передачи с учетом влияния
апертурных искажений имеет следующий вид:






K p f x , f y  K 0 xy f x , f y  K a f x , f y .
Результаты расчета K p
(7)
 f x , f y  представлены на рисунке 3.10.
148
Рисунок 3.10. Результаты расчёта результирующего коэффициента передачи
пространственного фильтра низких частот
Сечения результирующего коэффициента передачи фильтра показаны на
рисунке 3.11.
Рисунок 3.11. Сечения вдоль оси 0 f x : 1 – апертурная характеристика датчика
видеосигнала K a f x , f y ; 2 – нормированный коэффициент передачи

фильтра K 0 xy

 f x , f y  ; 3 – результирующий коэффициент передачи K  f x , f y 
p
149
Согласно результатам расчетов (рисунки 3.10, 3.11), использование
пространственного фильтра обеспечивает достаточно эффективное подавление
пространственных высокочастотных составляющих шума при выделении сигнала
управления.
Таким образом, первым процессом в итерационном цикле будет процедура
фильтрации шума, вторым – формирование УС по результату из прошлого шага.
Итоговым результатом описанного выше этапа станет набор управляющих
сигналов, которые были сформированы исключительно для областей, в которых
присутствовало
движение.
Пример
набора
управляющих
сигналов
для
межкадровой разницы 94 и 95 кадров видеопоследовательности “foreman”
приведен на рисунке 3.12.
Рисунок 3.12. Управляющие сигналы для межкадровой разницы 94 и 95
кадров видеопоследовательности “foreman”
Как видно из рисунка 3.12 , набор управляющих сигналов упорядочен в
виде маски, имеющей размер изображения кадра. Поэтому, при наложении на
кадр и сканировании такой маски как по трафарету, выделяются области с
необходимыми координатами и, в случае удовлетворения свойств этих областей
заданным условиям соответствия для векторов движения, соответствующие
координаты используются для выполнения процедуры компенсации движения и
передачи этих координат как вектора движения на приемный конец.
Следующим этапом является поиск векторов движения на основе УС. Как
уже отмечалось, имея набор управляющих сигналов, оформленных в виде маски,
150
алгоритм, согласно этой маске, производит сканирование областей кадра, для
которого выполняется компенсация движения (кадр получатель) и кадра, который
служит последнему опорным кадром (кадр-донор), в нашем случае это 95 и 94
кадры соответственно. Сканирование начинается с разбиения кадров и маски
набора управляющих сигналов на блоки размером 8х8 пикселей. Далее, путем
последовательного сканирования блоков УС, в кадре получателе выделяется в
виде такого же блока область размером
8х8 пикселей, в зоне которой было
обнаружено изменение согласно УС. Далее вокруг выделенного блока алгоритм
формирует зону поиска общим размером 32х32 пикселя, центром которой
является выделенный блок. Эту область алгоритм по координатам переносит на
кадр донор и производит путем полного перебора поиск блока 8х8 пикселей в
пределах этой зоны поиска, который получит минимальное значение среди всех
(32 × 32) / (8 × 8) = 16 блоков. Значения для блоков рассчитываются по условию
SAD из выражения (1.11). Блок, найденный в итоге в пределах зоны поиска
кадра-донора по описанному выше условию, будет считаться блоком заменителем
для блока получателя, т.к. он будет максимально близок по своим свойствам
блоку из кадра получателя и, соответственно, даст минимальное значение
разности между ними.
Отметим, что скорость поиска векторов движения разработанным методом,
даже с использованием полного перебора всех блоков в зоне поиска, существенно
выше, чем у существующих в настоящее время алгоритмов оценки и компенсации
движения. Увеличение скорости поиска векторов движения в разработанном
методе достигается за счет того, что сформированный набор УС позволяет
выбрать только те объекты в кадре, для которых необходимо выполнить
компенсацию движения. В отличие от разработанного алгоритма, существующим
алгоритмам требуется просканировать весь кадр целиком и найти вектора
движения для всех блоков, на которые делится кадр. Только после этого
существующие
алгоритмы
решают,
для
каких
блоков
будут
находить
компенсирующие блоки, и какие вектора движения будут передаваться. Пример
сравнения
количества
найденных векторов движения,
с
использованием
151
разработанного и существующего методов, приведен на рисунке 3.11. Пример
приведен для видеопоследовательностей “foreman” и “Rebecca Black Reacts to
'Friday'”.
a)
b)
c)
d)
Рисунок 3.13. Вектора движения для
a) – “foremen” разработанный метод b) – “foremen” существующий метод
c) – “Rebecca Black Reacts to 'Friday'” разработанный метод d) – “Rebecca
Black Reacts to 'Friday'” существующий метод
На рисунке 3.13 d) отчетливо видно, что в процессе работы алгоритма без
использования УС были рассчитаны все вектора движения – нулевые вектора,
отмеченные синими точками, для блоков в которых не было движения или иных
изменений, а так же паразитные вектора движения, которые можно заметить на
неподвижном фоне изображения кадра. Для рисунка 3.13 b) эти моменты
отчетливо заметны в области каски, т.к. фон для видео последовательности
152
является подвижным. И напротив, взглянув на рисунок 3.13 c), видно, что вектора
движения здесь найдены исключительно для движущихся объектов, что
позволяло при их расчете не перегружать вычислительные ресурсы и выполнить
это за более короткое время. Паразитные вектора движения в данном случае были
также устранены за счет наличия процедуры итерационной шумовой коррекции
при формировании УС.
Следующим
этапом
является
процедура
проверки
эффективности
найденных векторов движения. Целью данной процедуры является определение
выигрыша,
получаемого
при
замене
блоков
в
разностном
кадре
на
соответствующие им скомпенсированные блоки. Выигрыш, значение которого
будет удовлетворять заданному условию, будет говорить о целесообразности
использования того или иного вектора движения. В случае, если вектор движения
не будет удовлетворять условию, он будет признан алгоритмом неэффективным.
Внедрение в алгоритм такого этапа проверки позволяет не передавать лишних
векторов движения и не выполнять процедуру компенсации движения для блоков,
не обеспечивающих степень сжатия, установленную по условию. Показателем
эффективности вектора движения на данном этапе является величина ошибки
предсказания.
Иными
словами,
алгоритмом
рассчитывается
ошибка
предсказания, т.е. разность между блоком, для которого был получен вектор
движения и его заменяющим блоком на кадре-доноре. В случае, если разность
превышает установленный порог, т.е. ошибка предсказания больше значений
пикселей блока в разностном кадре, с позицией в кадре согласно УС, или меньше
его на незначительную величину, то вектор движения передаваться не будет, т.к.
незначительное уменьшение размера данных результирующего блока, а тем более
увеличение размера данных блока приведет к нецелесообразности передаче
вектора движения из-за отсутствия экономии полосы пропускания канала связи.
Также, в процессе оценки движения, возникает ситуация, когда в зоне поиска
кадра донора обнаруживается несколько блоков, способных скомпенсировать
целевой блок в разностном кадре. В этом случае процедура проверки
эффективности позволяет выбрать наилучший (эффективный) блок в кадре
153
доноре, для формирования вектора движения.
В целом такой подход, отчасти,
позволяет решить актуальную проблему, связанную с
балансом между
количеством передаваемых векторов движения, слишком большое количество
которых, отрицательно влияет на вычислительную скорость алгоритма, и
количеством блоков, которые необходимо скомпенсировать.
По окончанию этапа проверки эффективности векторов движения,
формируется массив с координатами эффективных векторов движения. Данный
массив состоит из набора координат для блоков в кадре доноре и координат для
блоков получателей в кадре получателе.
Далее следует этап, в котором массив координат векторов движения,
сформированный на предыдущем этапе, участвует в процедуре замены блоков в
кадре межкадровой разности на блоки, которые являются разностью между
блоками из кадра получателя (в нашем случае - это 95 кадр) и блоками из кадрадонора (94 кадр) в соответствии с векторами движения. Иными словами
происходит замена соответствующих блоков на блоки ошибки предсказания.
Описанная выше процедура является процессом компенсации движения. На
рисунке 3.14 для сравнения приведены кадры межкадровой разности и
скомпенсированного кадра межкадровой разности полученного в результате
работы алгоритма разработанного метода.
a)
b)
Рисунок 3.14. Сравнение кадра межкадровой разности a) и кадра
скомпенсированной межкадровой разности b)
154
Обращая внимание на рисунок 3.14, можно не прибегая к расчету визуально
заметить, что количество информации, подготовленной для передачи значительно
меньше для скомпенсированного кадра, чем для кадра межкадровой разности.
Этап ДКП и квантование является следующим шагом в разработанном
методе,
который
позволяется
дополнительно
сократить
избыточность
в
полученном на предыдущем этапе скомпенсированном кадре. В рамках
разработанного метода на данном этапе процедура соответствует алгоритму
сжатия JPEG. Таким образом, здесь подразумевается выполнение типичной для
кодеков H.264 и H.265 процедуры внутрикадрового сжатия путем разбивки кадра
на боки 8х8 пикселей, выполнение для каждого из блоков ДКП и квантование
полученных коэффициентов ДКП.
Однако использование стандартной таблицы квантования JPEG
не
позволяет добиться адаптивности к структуре скомпенсированного кадра. В связи
с данным фактом достичь увеличения эффективности квантования можно, если
внедрить динамическое квантование коэффициентов ДКП, благодаря чему
квантование станет адаптивным, скажем по степени удаления избыточности для
той или иной области изображения кадра. Описанное динамическое квантования
можно достичь за счет использования таблиц квантования с различной степенью
квантования коэффициентов ДКП. Малые значения коэффициентов квантования
позволят меньше квантовать области с более тонкой структурой текстуры кадра,
т.е. области, грубое квантование которых приведет к заметному ухудшению в
качестве изображения кадра.
Соответственно области, структура которых не
содержит мелких деталей изображения, будут квантоваться грубо и без ущерба
для субъективной оценки качества изображения.
Благодаря экспериментам, проведенным на кафедре ТВиЗВ, известно, что
при высокой скорости движения объектов границы этих объектов размываются по
направлению их движения. Соответственно шлейф размытия, который тянется за
быстродвижущимся объектом, не содержит областей с тонкой структурой и
потому эти области могут квантоваться максимально грубо. Решение о том,
155
относится область к шлейфу размытия или нет, принимается на основе длины
вектора движения, чем длиннее вектор движения, тем выше скорость движения.
Заключительным этапом алгоритма межкадровго кодирования является
энтропийное сжатие коэффициентов, полученных в результате квантования на
предыдущем шаге, и массива координат векторов движения.
3.2.3 Структура и алгоритм работы декодера межкадрового кодирования с
предсказанием на основе управляющих сигналов с итерационным методом
шумовой коррекции
Работа декодера для разработанного метода заключается в реализации
нескольких простых шагов по алгоритму, приведенному на рисунке 3.15.
Рисунок 3.15. Алгоритм декодирования
Данные шаги являются обратными операциями части алгоритма сжатия.
Закодированная видеопоследовательность поступает в энтропийный декодер, где
извлекаются квантованные коэффициенты и координаты векторов движения.
Далее
производится
деквантование
-
умножение
на
соответствующие
156
коэффициенты матриц квантования с учетом коэффициента сжатия и обратное
ДКП извлечённых квантованных коэффициентов.
Полученный на выходе
скомпенсированный кадр межкадровой разности вначале участвует в процедуре
восстановления n+1 кадра, путем вычисления разности между n кадром и
межкадровой разности. В результате этого восстановления реконструируется n+1
кадр за исключенимем тех его блоков, которые были скомпенсированы.
Соответственно далее, по алгоритму декодирования, скомпенсированные блоки
n+1
кадра
подвергаются
процедуре
декомпенсации,
при
которой,
с
использованием извлеченных на этапе энтропийного декодирования векторов
движения,
скомпенсированные
блоки
заменятся
на
восстановленные,
оригинальные, путем вычисления разности между блоками донорами n кадра и
блоками кадра межкадровой разности. Результатом всех описанных выше
операций
является
полностью
восстановленный
n+1
кадр
видеопоследовательности.
3.3 Выводы
1. Использование
блоков
увеличенного
размера
для
обработки
кадра
видеопоследовательности формата высокой четкости позволяет эффективнее
устранять избыточность и способствует, при использовании итерационных
методов, существенному сокращению времени обработки в пространстве
кадров. В результате увеличения размеров блоков обработки кадры формата
стандартной четкости приобретают значительное количество искажений,
проявляющихся
в
кадрах
видео
в
видео
блочной
структуры
во
внутрикадровом пространстве. Эффективная коррекция таких искажений в
новом методе выполняется за счет передачи корректирующей информации,
что обеспечивает независимость данного метода от формата видео.
2. Управляющий сигнал УС разработанного метода является универсальным и
эффективным инструментом, позволяющим, при обработке изображений
кадра, формировать команды на выполнение различных операций в
необходимые моменты времени и для конкретных координат пространства
157
кадра. Использование УС в алгоритме обработки видеопоследовательности
обеспечивает уменьшение времени работы алгоритма в целом, за счет
информации,
указывающей непосредственно на объекты,
требующие
обработки. Также данная особенность упрощает работу алгоритмов поиска
при компенсации движения. Кроме того, УС позволяет сократить объем
передаваемой информации за счет игнорирования ложных движущихся
объектов и отсутствия паразитных векторов движения.
3. Итерационная шумовая обработка при формировании УС эффективно
устраняет шум и является необходимым этапом при формировании УС, т.к.
обеспечивает необходимую точность УС. Количество итераций при шумовой
фильтрации следует выбирать из соотношения качество результата и
скорость работы алгоритма. Большое количество итераций приводит к
увеличению
времени
обработки
и
получения
лучшего
результата.
Экспериментальные данные позволяют сделать вывод, что оптимальными в
рамках разработанного метода будут следующие значения итераций: две для
внутрикадровой обработки и три для межкадровой обработки.
158
ГЛАВА 4. РЕЗУЛЬТАТЫ РАБОТЫ И ЭКСПЕРИМЕНТАЛЬНОГО
ИССЛЕДОВАНИЯ РАЗРАБОТАННЫХ МЕТОДОВ ФОРМИРОВАНИЯ
УПРАВЛЯЮЩИХ СИГНАЛОВ, ВНУТРИКАДРОВОГО И
МЕЖКАДРОВОГО КОДИРОВАНИЯ
Практическая реализация разработанных методов и устройств осуществлена
программным моделированием алгоритмов работы этих методов и устройств на
базе языка программирования MATLAB [74]. Все исходные коды, относящие к
данной работе, приведены в приложении. Для того, чтобы оценить эффективность
и произвести сравнительный анализ предложенных методов, были также
смоделированы основные алгоритмы работы существующих в настоящее время
методов по кодированию видеоинформационных сигналов, взамен которых
предлагается использовать разработанные методы.
4.1 Выбор исходных данных
Тестовые изображения из видеопоследовательностей, которые участвовали
в процессе обработки и экспериментального исследования приведены на рисунках
4.1 – 4.3.
94 кадр видеопоследовательности
“foreman”
95 кадр видеопоследовательности
“foreman”
Рисунок 4.1. Тестовые кадры видеопоследовательности “foreman”
159
226 кадр видеопоследовательности
“Rebecca Black Reacts to 'Friday'”
227 кадр видеопоследовательности
“Rebecca Black Reacts to 'Friday'”
Рисунок 4.2. Тестовые кадры видеопоследовательности
“Rebecca Black Reacts to 'Friday'”
Рисунок 4.3. Тестовое изображение “Lena”
Изображения
выбирались
из
видеопоследовательностей,
основное
содержание которых представлено лицами людей, т.к. разработка методов велась
в направлении использования в системах с передачей видео в режиме реального
времени, таких, как видеоконференцсвязь.
Видеопоследовательность “foreman” является представителем тестовой
последовательности, используемой как стандарт во всем мире для тестирования
алгоритмов обработки видео данных. Она имеет формат четкости размером
352х288 пикселей.
Видеопоследовательность “Rebecca Black Reacts to 'Friday'” выбиралась по
критериям наличия в кадре человеческого лица, а видеопоток имеет формат
160
повышенной четкости. В данном случае видео имеет формат размером 1280х720
пикселей.
Изображение “Lena” также относится к представителям стандартных
тестовых
изображений.
Широкое
использование
этого
изображения
в
экспериментальных исследованиях многих алгоритмов сжатия изображений
позволяет повысить объективность оценок разработанного метода. Данное
изображение участвует только в методе внутрикадрового сжатия. Оно имеет
формат размером 512х512 пикселей.
4.2
Результаты
моделирования
работы
внутрикадрового
сжатия
с
внедрением разработанного метода кодирования
Моделирование внутрикадровой обработки проводились с использованием
алгоритма сжатия JPEG и разработанного метода кодирования. Напомним, что в
реализуемых в данной диссертации алгоритмах степень сжатия в пространстве
кадра задается коэффициентом квантования, которым производится взвешивание
коэффициентов стандартной матрицы квантования, определенной в стандарте [10]
для алгоритма JPEG, и коэффициентов модифицированной, для алгоритма
разработанного метода, матрицы. Увеличение значения данного коэффициента
позволяет использовать более низкую скорость передачи видеопотока, однако,
вместе с этим, происходит увеличение грубости квантования значений
коэффициентов преобразования, вследствие чего большинство из них обращается
в ноль. Сигнал декодированного изображения, в котором имело место большое
значение коэффициента сжатия, содержит определенного рода искажения,
заметные при субъективной оценке изображения кадра и которые дают
уменьшение значения объективной оценки.
Следует также отметить, что энтропийное кодирование квантованных
коэффициентов
производилось
методом
длин
серий
с
выполнением
зигзагообразного сканирования, а после этого - архивированием полученных
серий в формат rar с максимальной степенью сжатия.
161
Далее приведены результаты для различных значений коэффициента
сжатия, при этом оценка результатов работы алгоритмов производилась по
метрикам:
 PSNRОИ - пиковое соотношение сигнал шум для разработанного метода,
основное изображение;
 PSNRОИ+КИ - пиковое соотношение сигнал шум для разработанного метода,
основное изображение с добавлением корректирующей информацией;
 PSNRJPEG - пиковое соотношение сигнал шум для сравнительного метода
(JPEG);
 размеру сжатого файла в байтах;
 субъективной оценки качества декодированного изображения.
Сравнительные варианты результатов работы указанных алгоритмов при
одинаковых исходных данных и требованиях к результирующему изображению
представлены в таблице 4.1, таблице 4.2.
Таблица 4.1 Результаты работы алгоритмов разработанного метода (основное
изображение) и JPEG
PSNRОИ, дБ
PSNRJPEG, дБ
Размер сжатых данных, байт
разработанный
JPEG
226 кадр видеопоследовательности “Rebecca Black Reacts to 'Friday'”
45,7
45,7
20 414
27 176
42,6
42,5
12 927
17 742
40,7
40,7
9 770
13 395
38,4
38,3
7 235
10 065
36,9
36,9
5 688
8 156
35,9
35,9
4 935
7 882
35,4
35,4
4 404
6 379
изображение “Lena”
35,6
35,6
18 832
21 712
33,6
33,7
11 801
14 053
32,4
32,4
8 891
10 464
31,0
31,0
6 557
7 714
30,0
30,0
5 237
6 207
29,4
29,4
4 658
5 323
28,8
28,8
4 161
4 855
162
PSNRОИ, дБ
PSNRJPEG, дБ
Размер сжатых данных, байт
разработанный
JPEG
94 кадр видеопоследовательности “foreman”
34,4196
32,1348
30,8439
29,4944
28,4559
27,9485
27,4832
34,4349
32,1389
30,8410
29,4953
28,4915
27,9429
27,4814
9 685
6 213
4 590
3 497
2 763
2 462
2 253
10 377
6 545
4 953
3 730
2 897
2 590
2 336
Таблица 4.2 Результаты работы алгоритмов разработанного метода (основное
изображение с добавлением корректирующей информации) и JPEG
Размер сжатых данных, байт
PSNRОИ+КИ, дБ
PSNRJPEG, дБ разработанный с
JPEG
добавление КИ
226 кадр видеопоследовательности “Rebecca Black Reacts to 'Friday'”
45,8
45,8
20 582
27 538
42,8
42,9
14 073
17 830
41,3
41,3
12 668
14 632
39,8
39,7
12 121
11 955
39,0
39,0
11 915
10 919
38,4
38,4
11 901
10 065
38,3
38,3
12 052
9 456
изображение “Lena”
35,6
35,6
19 405
21 855
33,9
33,9
14 059
15 100
33,2
33,2
12 761
12 625
32,7
32,7
12 150
11 173
32,4
32,4
11 962
10 596
32,2
32,2
11 995
10 297
32,1
32,1
12 027
10 014
94 кадр видеопоследовательности “foreman”
34,5
32,5
31,8
31,2
30,8
30,7
30,6
34,5
32,5
31,8
31,2
30,8
30,7
30,6
10 116
7 613
6 842
6 530
6 311
6 212
6 322
10 446
7 076
6 041
5 329
4 939
4 762
4 710
163
Приведенные выше данные позволяют построить графики зависимости
качества изображения, выраженное значением PSNR в дБ, от объема сжатых
данных в байтах. Данные графики приведены на рисунках 4.4 – 4.9.
Рисунок 4.4. Графики зависимости качества изображения от размера
полученных данных при кодировании 226 кадра видеопоследовательности
“Rebecca Black Reacts to 'Friday'” с использованием разработанного метода
(основное изображение) и алгоритма JPEG
Рисунок 4.5. Графики зависимости качества изображения от размера
полученных данных при кодировании 226 кадра видеопоследовательности
“Rebecca Black Reacts to 'Friday'” с использованием разработанного метода
(основное изображение с добавлением корректирующей информации) и
алгоритма JPEG
164
Рисунок 4.6. Графики зависимости качества изображения от размера
полученных данных при кодировании изображения “Lena” с использованием
разработанного метода (основное изображение) и алгоритма JPEG
Рисунок 4.7. Графики зависимости качества изображения от размера
полученных данных при кодировании изображения “Lena” с использованием
разработанного метода (основное изображение с добавлением
корректирующей информации) и алгоритма JPEG
165
Рисунок 4.8. Графики зависимости качества изображения от размера
полученных данных при кодировании 94 кадра видеопоследовательности
“foreman” с использованием разработанного метода (основное изображение)
и алгоритма JPEG
Рисунок 4.9. Графики зависимости качества изображения от размера
полученных данных при кодировании 94 кадра видеопоследовательности
“foreman” с использованием разработанного метода (основное изображение с
добавлением корректирующей информации) и алгоритма JPEG
Анализируя полученные графики на рисунках 4.4, 4.6, 4.8, можно отметить,
что при сжатии изображений кадров формата высокой четкости разработанным
166
методом с использованием только основного изображения, объем занимаемых и
требуемых для передачи данных на порядок меньше, чем при кодировании этих
же изображений с использованием алгоритмов JPEG.
При сжатии с
минимальными потерями в качестве декодированного изображения, разница
между результатами работы алгоритмов, в занимаемом объеме сжатых данных,
составляет 24,9 %. При сжатии с высокой степенью потерь в качестве
декодированного изображения, разница в объеме сжатых данных составляет 31 %.
Для
форматов
использованием
стандартной
только
основного
четкости,
разработанный
изображения,
так
же
метод
показал
с
свою
эффективность в сравнении с методом JPEG, однако эффективность кодирования
становится менее выраженной с уменьшением значений размера формата. Так для
видеопоследовательности
“foreman”,
имеющей
формат
352х288
пикселей
выигрыш в сравнении с JPEG составит от 3,6 % до 6,7 %, а для изображения
“Lena” форматом 512x512 пикселей выигрыш будет в пределах от 13,3 % до 14,3
% в зависимости от заданной степени потерь в качестве изображения.
Следовательно,
разработанный
метод,
изображения, позволяет сформировать для
с
использованием
основного
передачи данные, служащие для
декодирования передаваемого изображения кадра, объем которых составит на 31
% меньше, в сравнении с объемом, занимаемым данными полученными методом
JPEG в видеоинформационном сигнале формата высокой четкости 1280x800
пикселей.
Также обратим внимание на графики, представленные на рисунках 4.5, 4.7,
4.9. Здесь видно, что использование разработанного метода, при котором, помимо
данных об основном изображении, также осуществляется передача данных
корректирующей информации, позволяет добиться большей эффективность в
сравнении с методом JPEG только при кодировании с невысокими степенями
потерь в качестве декодированного изображения. Увеличение же степени потерь
до высоких значений приводит к тому, что эффективность кодирования методом
JPEG оказывается уже выше. Так, при низких потерях выигрыш при сжатии
167
разработанным методом составляет до 25 %, при высоких же значениях потерь
проигрыш составляет 22 %.
Для субъективной оценки результатов работы разработанных методов, в
таблицах 4.3 – 4.5 представлены декодированные изображения, сжатия которых
производилось разработанными методами и методом JPEG.
Таблица 4.3. Изображения 226 кадра видеопоследовательности “Rebecca Black
Reacts to 'Friday'”, полученные в результате работы алгоритмов разработанного
метода и JPEG
PSNR,
Восстановленное
PSNR,
Восстановленное
дБ
изображение
дБ
изображение JPEG
разработанного метода
PSNRОИ
45.7
PSNRJPEG
45.7
PSNRОИ+КИ
45.8
PSNRJPEG
45.8
PSNRОИ
38.4
PSNRJPEG
38.3
PSNRОИ+КИ
39.8
PSNRJPEG
39.7
PSNRОИ
35.4
PSNRJPEG
35.4
168
PSNR,
дБ
PSNRОИ+КИ
38.3
Восстановленное
изображение
разработанного метода
PSNR,
дБ
Восстановленное
изображение JPEG
PSNRJPEG
38.3
Таблица 4.4. Изображения “Lena”, полученные в результате работы алгоритмов
разработанного метода и JPEG
PSNR,
Восстановленное
PSNR,
Восстановленное
дБ
изображение
дБ
изображение JPEG
разработанного метода
PSNRОИ
45.7
PSNRJPEG
45.7
PSNRОИ+КИ
45.8
PSNRJPEG
45.8
PSNRОИ
38.4
PSNRJPEG
38.3
169
PSNR,
дБ
Восстановленное
изображение
разработанного метода
PSNR,
дБ
PSNRОИ+КИ
39.8
PSNRJPEG
39.7
PSNRОИ
35.4
PSNRJPEG
35.4
PSNRОИ+КИ
38.3
PSNRJPEG
38.3
Восстановленное
изображение JPEG
170
Таблица 4.5. Изображения 94 кадра видеопоследовательности “foreman”,
полученные в результате работы алгоритмов разработанного метода и JPEG
PSNR,
Восстановленное
PSNR,
Восстановленное
дБ
изображение
дБ
изображение JPEG
разработанного метода
PSNRОИ
45.7
PSNRJPEG
45.7
PSNRОИ+КИ
45.8
PSNRJPEG
45.8
PSNRОИ
38.4
PSNRJPEG
38.3
PSNRОИ+КИ
39.8
PSNRJPEG
39.7
PSNRОИ
35.4
PSNRJPEG
35.4
171
PSNR,
дБ
Восстановленное
изображение
разработанного метода
PSNRОИ+КИ
38.3
PSNR,
дБ
Восстановленное
изображение JPEG
PSNRJPEG
38.3
Приведенные выше изображения позволяют отметить, что в разработанном
методе искажения в изображениях, при высоких степенях сжатия, проявляются в
виде артефактов – блоков с размазанными границами. Размазанность этих границ
проявляется за счет отсутствия резких отличий в оттенках артефактов и смежных
с
ними
областей.
Изображения,
кодирование
которых
происходит
с
использованием алгоритмов JPEG, при высоких степенях сжатия, приобретают
хорошо заметные и сильно выделяющиеся артефакты, т.к. оттенки артефактов и
смежных областей сильно контрастируют между собой. Таким образом,
изображения сжатые разработанным методом, выглядят более естественными и
являются комфортными для восприятия их глазом человека, в отличие от тех же
изображений, но сжатых алгоритмом JPEG.
4.3 Результаты моделирования работы межкадрового сжатия с внедрением
разработанного метода кодирования
Разработанный метод обеспечивает малое время поиска векторов движения
и малый объем данных при межкадровой обработке. Моделирование проводилось
с использованием базового алгоритма сжатия, стандартов семейства MPEG, с
полным перебором зоны поиска
и
c использованием разработанного метода
кодирования, в котором также происходит полный перебор зоны поиска. Оценка
эффективности работы нового метода производилась сравнением времени работы
выше перечисленных алгоритмов и количеством полученных векторов движения.
Для полной оценки эффективности работы алгоритмов и увеличения точности
172
получаемых данных обработке подвергались одиннадцать последовательных
кадров. Для видеопоследовательности “Rebecca Black Reacts to 'Friday'” - это
кадры 226 – 236, для видео последовательности “Foreman” – это кадры 95 – 104.
Результаты работы представлены в таблицах 4.6 и 4.7.
Таблица 4.6. Результаты работы алгоритмов разработанного метода и MPEG для
видеопоследовательности “Rebecca Black Reacts to 'Friday'”
Номер кадра
227
228
229
230
231
232
233
234
235
236
Время, сек.
Разработанный 55.69 64.00 72.16 74.60 74.90 76.90 74.66 72.87 69.80 63.68
метод
Время, сек.
Алгоритм
172
172
172
172
172
172
172
172
172
172
MPEG
Количество
векторов
движения.
4840 5682 6305 6590 6619 6737 6591 6505 6250 5746
Разработанный
метод
Количество
векторов
движения.
7613 9167 8739 8791 8989 8910 9499 10061 9843 9159
Алгоритм
MPEG
Таблица 4.7. Результаты работы алгоритмов разработанного метода и MPEG для
видеопоследовательности “Foreman”
Номер кадра
95
96
97
97
99
100
101
Время, сек.
Разработанный 15.23 14.60 13.18 10.91 12.39 12.43 11.00
метод
Время, сек.
Алгоритм
16
16
16
16
16
16
16
MPEG
Количество
векторов
движения.
1473 1254 871
575
686
752
555
Разработанный
метод
Количество
векторов
движения.
1553 1385 1009 626
822
894
686
Алгоритм
MPEG
102
13.26
103
104
14.02 14.00
16
16
16
629
908
1197
785
1057
1337
173
Результаты эксперимента, приведенные выше, позволяют сформировать
графики для наглядного отражения эффективности работы разработанного
метода. Графики представлены на рисунках 4.10 – 4.13.
Рисунок 4.10. Графики времени обработки кадров видеопоследовательности
“Rebecca Black Reacts to 'Friday'” для разработанного метода и метода MPEG
Рисунок 4.11. Графики количества векторов движения требуемых для
восстановления обрабатываемых кадров видеопоследовательности “Rebecca
Black Reacts to 'Friday'” для разработанного метода и метода MPEG
174
Рисунок 4.12. Графики времени обработки кадров видеопоследовательности
“Foreman'” для разработанного метода и метода MPEG
Рисунок 4.13. Графики количества векторов движения, требуемых для
восстановления обрабатываемых кадров видеопоследовательности
“Foreman” для разработанного метода и метода MPEG
Для демонстрации результатов работы ниже, на рисунках 4.14 и 4.15 ,
приведены
обработанные
и
декодированные
кадры
тестовых
видеопоследовательностей, на которых квадратами отмечены блоки, для которых
производился поиск векторов движения, а синими линями обозначены требуемые
для передачи вектора движения, с началом в белой точке.
175
Рисунок 4.14. Изображение 227 кадра видеопоследовательности “Rebecca
Black Reacts to 'Friday'” с подсвеченными блоками, для которых будет
производиться поиск векторов движения.
Слева – разработанный метод, справа - MPEG
Рисунок 4.15. Изображение 227 кадра видеопоследовательности “Rebecca
Black Reacts to 'Friday'” с подсвеченными векторами движения.
Слева – разработанный метод, справа – MPEG
Рисунок 4.16. Изображение 95 кадра видеопоследовательности “Foreman” с
подсвеченными блоками, для которых будет производиться поиск векторов
движения. Слева – разработанный метод, справа - MPEG
176
Рисунок 4.17. Изображение 95 кадра видеопоследовательности “Foreman” с
подсвеченными векторами движения.
Слева – разработанный метод, справа - MPEG
Анализируя полученные данные и данные вышеприведенных графиков,
можно отметить следующее. Время, требуемое для обработки кадра при
межкадровом
кодировании,
значительно
сокращается
при
использовании
разработанного метода. Динамический характер изменения затрачиваемого
времени, проявляющийся от кадра кадру, говорит о наличии в разработанном
методе
адаптивности
к
пространственно-временной
структуре
каждого
обрабатываемого кадра.
Результатом обработки являются вектора движения, количество которых на
порядок
ниже
при
использовании
разработанного
метода.
Уменьшение
количества векторов движения, которые в обязательном порядке должны
передаваться на приемную сторону для обеспечения процедуры декодирования,
приводит к сокращению общего объема занимаемого видеоинформационного
сигнала.
Таким
образом,
полученные
результаты
и
их анализ
служат
подтверждением эффективности разработанного метода и его способность внести
значительные
улучшения
в
существующие
алгоритмы
обработки
видеоинформационного сигнала.
177
4.4 Выводы
Полученные результаты моделирования и анализа разработанных методов
обработки пространственного и временного направлений изображений и кадров
позволяют сформулировать следующие выводы:
1. Разработанный метод внутрикадрового сжатия, при котором осуществляется
передача сжатого изображения без корректирующей информации (основное
изображение), показал наибольшую эффективность в обработке и сжатия
видео высокой четкости в сравнении с существующим методом JPEG.
2. Применение разработанного метода для видео стандартной четкости также
позволяет добиться лучших результатов, но выраженных в меньшей степени,
чем в форматах высокой четкости.
3. Разработанный метод внутрикадрового сжатия, при котором осуществляется
передача сжатого изображения с корректирующей информацией, позволяет
добиться лучшего качества изображения в сравнении с передачей только
основного
изображения.
Однако
этот
разработанный
метод
проявил
эффективность в степени сжатия и качестве восстановленного изображения
только при невысоких степенях сжатия изображения. В случае высоких
степеней сжатия разработанный метод показал эффективность только в
качестве восстановления изображения. Следовательно, в данном случае
разработанный
метод
будет
крайне
полезным
при
организации
последовательной передачи: передаче основного изображения и, в случае
наличия
достаточного
количества
ресурсов
канала
связи,
передаче
корректирующей информации. Возможность организации такой поочередной,
независимой передачи данных демонстрирует адаптивность разработанного
метод к пропускной способности канала связи.
4. Разработанные
методы
межкадровой
обработки
и
сжатия
данных
видеоинформационного сигнала затрачивают на порядок меньше времени для
реализации процедуры компенсации движения даже при полном переборе
пикселей
в
пределах
зоны
поиска,
адаптивно
подстраиваясь
к
пространственно-временной структуре кадров.
178
5. Разработанный
метод
межкадровой
обработки
и
сжатия
данных
видеоинформационного сигнала, при выполнения операции компенсации
движения, значительно сокращают количество передаваемых векторов
движения, в силу отсутствия паразитных векторов движения.
6. Внедрение разработанных методов в алгоритмы существующих стандартов
сжатия видеоинформационных сигналов позволяет значительно увеличить
эффективность работы этих алгоритмов.
7. Рекомендуется внедрять разработанные методы и устройства в системы
компрессии видеоинформационного сигнала, основанные на стандартах
сжатия H.264 и H.265.
179
ЗАКЛЮЧЕНИЕ
1. Рассмотрены особенности работы зрительной системы человека, на основе
которых производится выявление психофизиологической избыточности.
Проведен анализ современных методов сжатия сигналов изображений в
пределах пространственного и временного направлений на основе дискретнокосинусного преобразования и вейвлет функций. Исследованы, с оценкой
эффективности
и
скорости
видеоинформационных
работы,
сигналов.
Также
энтропийные
рассмотрены
методы
сжатия
современные
и
перспективные методы противошумовой коррекции с анализом принципов их
работы.
Проанализированы
устранения
межкадровой
алгоритмы
избыточности,
работы
современных
лежащие
в
основе
методов
кодеков
H.264/AVC и H.265/HEVC. В результате проделанной работы выявлены
недостатки алгоритмов этих методов.
2. Определен перечень мер, направленных на увеличение эффективности работы
рассмотренных
методов
сжатия,
сформулированы
требования
к
разработанным методам пространственного и межкадрового кодирования.
3. Предложено использовать в разработанном методе кодирования в пределах
внутрикадрового пространства блоки увеличенных размеров для кодирования
кадров формата высокой четкости.
4. Сформирована
обеспечивающая
и
успешно
эффективное
протестирована
сокращение
матрица
квантования,
избыточности
в
блоках
увеличенного размера.
5. Разработан метод трехмерной противошумовой коррекции в пределах
внутрикадрового пространства на основе адаптивной
пространственно-
временной фильтрации сигналов изображений в последовательности кадров,
реализующий эффективное подавление шумов различного происхождения и
обеспечивающий экономное использование вычислительных ресурсов.
6. Разработана структурная схема устройства трехмерной шумовой коррекции на
основе
адаптивной
пространственно-временной
фильтрации
сигналов
изображений в последовательности кадров, обеспечивающее эффективное
180
подавление шума различной природы и использование пониженного объёма
вычислительных ресурсов.
7. Разработан нелинейный итерационный метод формирования управляющих
сигналов с противошумовой коррекцией, обладающий универсальностью и
высоким быстродействием.
8. Разработан адаптивный метод кодирования пространственной структуры
кадра
с
возможностью
формирования
корректирующей
информации,
передаваемой, при необходимости, в зависимости от наличия свободных
ресурсов канала связи.
9. Разработан эффективный метод адаптивного кодирования по межкадровому
направлению видеоинформационного сигнала, обеспечивающий выполнение
компенсации
формирования
движения
с
высокой
уменьшенного
числа
производительностью
сигналов
векторов
за
счёт
движения,
достаточного для восстановления сигнала кадра.
10. Проведены моделирование и экспериментальные исследования, результаты
которых
показали
улучшенные
эффективность
результаты
в
работы
разработанных
сравнении
с
методов
и
методами-конкурентами.
Предложенные алгоритмы обеспечивают коррекцию недостатков, выявленных
при
анализе
существующих
методов
кодирования.
Рекомендуется
использование разработанных методов кодирования видеоинформационного
сигнала, как в качестве самостоятельных модулей, так и в качестве
модернизации
компрессионных
систем
на
основе
стандартов
JPEG,
H.264/AVC и H.265/HEVC.
181
СПИСОК ЛИТЕРАТУРЫ
1. В. Ф. Самойлов, Б. П. Хромой. Телевидение. – М.: Связь, 1975.
2. Прэтт У. Цифровая обработка изображений: Пер. с англ. – М.: Мир, 1982.
3. Шиффман Х.Р. Ощущение и восприятие: 5-е изд. – СПб.: 2003.
4. В.Н. Безруков, Специфика видеоконтроля изображений вещательного
телевидения, Материалы международного конгресса HAT, Москва, 2002. –
С. 215-216.
5. М. Вернер. Основы кодирования. – М.: Техносфера, 2006. –288 с.
6. Д. Сэломон. Сжатие данных, изображений и звука. – М.: Техносфера, 2004.
– 368 с.
7. Schwarz H., Marpe D., Wiegand Т. CABAC and slices, JVT document JVTD020, Klagenfurt. Austria, July 2002.
8. ITU-T Recommendation H.264. Advanced video coding for generic audiovisual
services, 2013.
9. ITU-T Recommendation H.265. High efficiency video coding, 2013.
10. ITU-CCITT
Recommendation
T.81
Information
technology
–
Digital
compression and coding of continuous-tone still images – Requirements and
Guidelines. ISO/IEC 10918-1, 1992.
11. Смирнов А. В., Пескин А. Е. Цифровое телевидение. От теории к практике.
– М: Горячая линия-Телеком, 2003. – 352 с.
12. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных.
Устройство архиваторов, сжатие изображений и видео. – М.: ДИАЛОГМИФИ, 2003. – 384 с.
13. Б.А. Локшин Цифровое вещание: от студии к телезрителю – М.: Компания
Сайрус Системс, 2001.
14. K . R . Rao, P . C . YipThe Transform and Data Compression Handbook – CRC
Press, 2000.
15. Владо Дамьяновски CCTV. Библия видеонаблюдения. Цифровые и сетевые
технологии / Пер, с англ. – М.: ООО «Ай-Эс-Эс-Пресс», 2006, – 480 с: ил.
182
16. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных.
Устройство архиваторов, сжатие изображений и видео. – М.: ДИАЛОГМИФИ, 2002. - 384 с.
17. Рабинович А.В. Кодирование изображений с применением вейвлетпреобразования // Труды НИИР, 2003.
18. Новиков Л.В. Основы вейвлет-анализа сигналов. Учебное пособие. 1999.
152 с.: ил.
19. Ярославский Л.П. Введение в цифровую обработку изображений. – М.:
Сов. радио, 1979. – 312 с., ил.
20. Борискевич А.А. Цифровая обработка речи и изображений. Электронный
учебно-методический комплекс по дисциплине Цифровая обработка речи и
изображений. Минск, 2007.
21. Onthriar, K.K. Loo, Z. Xue. Performance Comparison of Emerging Dirac Video
Codec with H.264/AVC // School of Engineering and Design, Brunel University,
UB83PH, UK, 2006.
22. Wesley De Neve, Peter Lambert, Sam Lerouge, Rik Van de Walle. Assessment
of the Compression Efficiency of the MPEG-4 AVC Specification // Proceedings
Of The Society Of Photo-Optical Instrumentation Engineers (spie). 5308, 2004,
p. 1082-1093.
23. Chen, P., Hanke, K., Rusert, T., Woods, J.W. Improvements to the MC-EZBC
scalable video coder // IEEE Transactions On Circuits And Systems For Video
Technology, Vol. 17, No. 6, June 2007, pp. 790-795.
24. Zixiang Xiong, Kannan Ramchandran, Michael T. Orchard, and Ya-Qin Zhang.
A Comparative Study of DCT- and Wavelet-Based Image Coding // IEEE
TRANSACTIONS
ON
CIRCUITS
AND
SYSTEMS
FOR
VIDEO
TECHNOLOGY, VOL. 9, NO. 5, AUGUST 1999, p. 692-695.
25. Anilkumar Katharotiya, Swati Patel, Mahesh Goyani. Comparative Analysis
between DCT & DWT Techniques of Image Compression // Journal of
Information Engineering and Applications, Vol. 1, No.2, 2011.
183
26. E. Feig. A fast scaled DCT algorithm // Proc. SPIE Image Processing Algorithms
and Techniques, Vol. 1244, Feb. 1990, pp. 2-13.
27. Воробьев В.И., Грибу-Нин В.Г. Теория и практика вейвлет-преобразования.
ВУС, 1999. – С. 1 - 204.
28. Тропченко
А.Ю., Тропченко
А.А. Методы сжатия изображений ,
аудиосигналов и видео: Учебное пособие – СПб.: СПбГУ ИТМО, 2009. –
108 с.
29. Уэлстид С. Фракталы и вейвлеты для сжатия изображений в действии. –М.:
Триумф, 2003.
30. Ян Ричардсон. Видеокодирование. H.264 и MPEG-4 – стандарты нового
поколения. –М.: Техносфера, 2005.
31. В. Никитин, М. Ефимов. Особенности использования видеокомпрессии
MPEG-4 в сетевом видеонаблюдении // Алгоритм Безопасности № 2, 2006. –
С. 16-19.
32. Власюк И.В., Сидорова А.И., Романова Е.П. Особенности межкадрового
кодирования видеоинформации по стандарту MPEG-4 // Материалы
четвертой
отраслевой
научной
конференции-форума
«Технологии
информационного общества».
33. Libo Yang, Keman Yu, Jiang Li, Shipeng Li. An Effective Variable Block-Size
Early Termination Algorithm for H.264 Video Coding // IEEE Transactions On
Circuits And Systems For Video Technology, Vol. 15, No. 6, June 2005, pp. 784
– 788.
34. Поташников
А.М.
Методы
и
алгоритмы
кодирования
цветовых
составляющих в системах цифрового телевидения // Фундаментальные
проблемы
радиоэлектронного
приборостроения
/
Материалы
Международной научно-технической конференции «INTERMATIC-2011»
14 – 17 ноября 2011 г., Москва. / Под ред. Чл.-корр. РАН А.С. Сигова. – М.:
МГТУ МИРЭА – ИРЭ РАН, 2011, часть 3, – 254 с.
35. LI Man Ho. Variable Block Size Motion Estimation Hardware for Video
Encoders // A Thesis Submitted in Partial Fulfilment of the Requirements for the
184
Degree of Master of Philosophy in Computer Science and Engineering, The
Chinese University of Hong Kong, Nov 2006.
36. D. Lin, Cheng-Tie Chen, T. Hsing. Video on phone lines: technology and
applications // Proceedings of the IEEE, Volume 83, Number 2, February 1995,
pp. 175 – 193.
37. F. Lallauret, D. Barba. Motion compensation by block matching and vector
post-processing in sub-band coding of TV signals at 15 Mbit/s // Proc. SPIE, Vol.
1605, pp. 26–36.
38. Поляков Д.Б. Блочные алгоритмы оценки движения // Труды Московского
технического университета связи и информатики: – М.: “ИД Медиа
Паблишер”, 2008.– Т.1. – С. 463–466.
39. Gharavi, H., Mills, M. Blockmatching motion estimation algorithms-new results
// Circuits and Systems, IEEE Transactions, Volume:37 , Issue: 5, 2002, pp. 649651.
40. M. R. KHAMMAR. Evaluation of different block matching algorithms to motion
estimation // International Journal of VLSI and Embedded Systems-IJVES, Vol
03, Issue 03, July-August 2012, pp. 148-153.
41. T. Koga, K. Iinuma, A. Hirano, Y. Iijima, and T. Ishiguro, Motion compensated
interframe coding for video conferencing // Proc. Nat. Telecommun. Conf., New
Orleans, LA, Nov. 29–Dec. 3 1981, pp. G5.3. 1–5 .3.5.
42. R. Li, B. Zeng, and M. L. Liou. A new three-step search algorithm for block
motion estimation // IEEE Trans. Circuits Syst. Video Technol., vol. 4, Aug.
1994, pp. 438– 442.
43. L.M. Po, W.C. Ma. A novel four-step search algorithm for fast block motion
estimation // IEEE Trans. Circuits Syst. Video Technol., vol. 6, June 1996, pp.
313– 317.
44. Дворкович В., Чобану М. Проблемы и перспективы развития систем
кодирования динамических изображений. // MediaVision информационнотехнический журнал, № 7/17, сентябрь 2011. – С. 62-63.
185
45. Пономарев О.Г., Шарабайко М.П., Поздняков А.А. Анализ эффективности
методов и алгоритмов видеокомпрессии стандарта
H.265/HEVC. //
Электросвязь, № 3, 2013. –С. 29-33.
46. Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand. Overview
of the High Efficiency Video Coding (HEVC) Standard. // IEEE Transactions On
Circuits And Systems For Video Technology, Vol. 22, No. 12, December 2012.
47. Vivienne Sze, Madhukar Budagavi. A Comparison Of CABAC Throughput For
HEVC/H.265 vs. AVC/H.264 // IEEE Workshop on Signal Processing Systems,
2013.
48. Зубарев Ю.Б., Сагдуллаев Ю.С., Сагдуллаев Т.Ю. Видеоинформационные
технологии систем связи: Монография – М.: Издательство «Спутник+»,
2011. – 296 с.: ил.
49. В.Н. Безруков, Л.И. Дьячкова, Ю.А. Воронкова. Метод сжатия спектра
телевизионного сигнала с фазо-временными преобразованиями блочной
структуры отсчетов // Материалы VI Международной научно-технической
конференции, 21 – 23 октября 2008 г., сс. 316-320.
50. Reeja S.R., N. P. Kavya. Noise Reduction in Video Sequences – The State of
Art and the Technique for Motion Detection. // International Journal of Computer
Applications (0975 – 8887) Volume 58– No.8, November 2012, pp. 31-36.
51. Xiaolin Tian, LichengJiao, Ying Duan. Video denoising via spatially adaptive
coefficient shrinkage and threshold adjustment in surfacelet transform domain. //
Springer, 15 may 2012.
52. G.Healey, R.Kondepudy. Radiometric CCD Camera Calibration And Noise
Estimation // IEEE, PAMI, 1994, pp. 267– 276.
53. Ling Shao, Ruomei Yan, Xuelong Li, Yan Liu. From Heuristic Optimization to
Dictionary Learning: A Review and Comprehensive Comparison of Image
Denoising Algorithms // Cybernetics, IEEE Transactions, Volume:44 , Issue: 7,
2013, pp. 1001-1013.
54. L. Shapiro, G. Stockman. Computer Vision. USA: Prentice Hall, 2001.
186
55. N. Wiener. Extrapolation, Interpolation, and Smoothing of Stationary Time
Series. New York, Wiley, 1949.
56. B. Widrow, S. Haykin,Least-mean-square adaptive filters. Wiley-IEEE, 2003.
57. L. Shao, H. Zhang, G. de Haan. An overview and performance evaluation of
classification-based least squares trained filters. // IEEE Trans. Image Process.,
vol. 17, no. 10, Oct.2008, pp. 1772–1782.
58. C. Tomasi, R. Manduchi, Bilateral filtering for gray and color images. // Proc.
6th Int. Conf. Computer Vision, Bombay, India, 1998, pp. 839–846.
59. G. Z. Yang, P. Burger, D. N. Firmin, S. R. Under-wood. Structure adaptive
anisotropic filtering. Image Vision Comput., vol. 14, 1996, pp. 135–145.
60. H. Takeda, S. Farsiu, P. Milanfar. Kernel regression for image processing and
reconstruction. IEEE Trans. Image Process., vol. 16, no. 2, Feb. 2007, pp. 349–
366.
61. X. Zhu, P. Milanfar. Automatic parameter selection for denoising algorithms
using a no-reference measure of image content. // IEEE Trans. Image Process.,
vol. 19, no. 12, Dec. 2010, pp. 3116–3132.
62. P. Bouboulis, K. Slavakis, S. Theodoridis. Adap-tive kernel-based image
denoising employing semi-parametric regularization. // IEEE Trans. Image
Process., vol. 19, no. 6, Jun. 2010, pp. 1465–1479.
63. A. Buades, B. Coll, J. M. Morel. A non-local algorithm for image denoising. //
inProc. IEEE Int. Conf. on Computer Vision and Pattern Recognition, vol. 2. San
Diego, CA, USA: IEEE Press, 2005, pp. 60–65.
64. С. Путилин, А. Лукин «Модификация метода нелокального усреднения для
подавления шума в видео» // Труды конференции Graphicon-2007, Москва,
Россия, июнь 2007. – С. 257–259.
65. B.Goossens, H.Luong, A.Pizurica, W.Philips. An improved non-local denoising
algorithm // in Proc. Int. Workshop on Local and Non-local Approximation in
Image Process, Tuusalu, Finland, 2008, pp. 143–156.
187
66. K. Dabov, A. Foi, V. Katkovnik, K. Egiazarian. Image denoising by sparse 3-d
transform-domain col-laborative filtering. // IEEE Trans. Image Process., vol. 16,
no. 8, Aug. 2007, pp. 2080–2095.
67. J. Portilla, V. Strela, M. J. Wainwright, and E. P. Simon-celli. Image denoising
using scale mixtures of gaussians in the wavelet domain. // IEEE Trans. Image
Process., vol. 12, no. 11, Nov. 2003, pp. 1338–1351.
68. L. Zhang, W. Dong, D. Zhang, and G. Shi. Two-stage image denoising by
principal component analysis with local pixel grouping. // Pattern Recognition,
vol. 43, no. 4, Apr. 2010, pp. 1531–1549.
69. J. Mairal, F. Bach, J. Ponce, G. Sapiro, and A. Zisserman. Non-local sparse
models for image restoration. // inProc. IEEE Int. Conf. Computer Vision, Kyoto,
Japan, 2009, pp. 2272–2279.
70. M. Elad and M. Aharon. Image denoising via sparse and redundant
representations over learned dictionaries. // IEEE Trans. Image Process., vol. 15,
no. 12, Dec. 2006, pp. 3736–3745.
71. W. Dong, X. Li, L. Zhang, G. Shi. Sparsity-based image denoising via dictionary
learning and structural clustering. // inProc. IEEE Int. Conf. on Computer Vision
and Pattern Recognition, Colorado, USA, 2011.
72. Б. В. Бардин Быстрый алгоритм медианной фильтрации. // Обработка и
представление данных. Научное приборостроение, 2011, том 21, № 3. – С.
135–139.
73. Р.Гонсалес, Р. Вудс. Цифровая обработка изображений. – М.: Техносфера,
2006.
74. Р. Гонсалес, Р. Вудс, С. Эддинс Цифровая обработка изображений в среде
MATLAB. –М.: Техносфера, 2006.
75. Hiroyuki Takeda, Sina Farsiu, Peyman Milanfar. Kernel Regression for Image
Processing and Reconstruction. // IEEE Transactions On Image Processing, Vol.
16, No. 2, February 2007, pp. 349-366.
188
76. Xiang Zhu, Peyman Milanfar. Automatic Parameter Selection for Denoising
Algorithms Using a No-Reference Measure of Image Content // Image
Processing, IEEE Transactions, Volume:19 , Issue: 12, 2010.
77. Boshra Rajaei. An Analysis and Improvement of the BLS-GSM Denoising
Method // Image Processing On Line, 4, 2014, pp. 44–70.
78. А.О. Антоненко. Кодирование и восстановление последовательностей //
Математичні машини і системи, № 4, 2006. – С. 63-68.
79. Рачковский Д.А., Слипченко С.В., Куссуль Э.М., Байдак Т.Н. Разреженное
бинарное распределенное кодирование скалярных величин // Проблемы
управления и информатики, 2005, № 3. – С. 89–103.
80. Honglak Lee, Alexis Battle, Rajat Raina Andrew Y. Ng. Efficient sparse coding
algorithms // NIPS, 2006.
81. M. Protter, M. Elad. Image sequence denoising via sparse and redundant
representations // IEEE Transactions on Image Processing, 18(1), 2009, pp. 27–
36.
82. В. Н. Безруков, П. Ю. Комаров, Л. А. Шушкевич. Адаптивная коррекция
сигнала телевизионного изображения. // Вестник связи, № 6, 2010. – С. 4245.
83. В.Н. Безруков, В.Ю. Мамаев, К.В. Селиванов. Специфика анализа
апертурных
характеристик
в
системах
Телевидения
//T-Comm.
Телекоммуникации и транспорт, № 2, 2009. – С. 35-39.
84. Медведев А.А. Методы подавления шума в вещательном телевидении.
Материалы
международной
научно-технической
конференции
«Фундаментальные проблемы радиоэлектронного приборостроения». М. –
2007.
85. Recommendation ITU-R BT.601-7. Studio encoding parameters of digital
television for standard 4:3 and wide-screen 16:9 aspect ratios, 2011.
86. В.П. Дворкович, А.В. Дворкович. Цифровые видеоинформационные
системы (теория и практика). –М.: Техносфера, 2012.
189
87. Попов А.В. Современные методы сжатия видеоинформационных сигналов
в
системах
видеоконференцсвязи
//
Фундаментальные
проблемы
радиоэлектронного приборостроения / Материалы Международной научнотехнической конференции «INTERMATIC-2011» 14 – 17 ноября 2011 г.,
Москва. / Под ред. Чл.-корр. РАН А.С. Сигова. – М.: МГТУ МИРЭА – ИРЭ
РАН, 2011, часть 3. – С. 254.
88. Попов
А.В.
Временная
видеоинформационных
психофизиологическая
сигналах
избыточность
видеоконференцсвязи
в
//
T-Comm.
в
стандарте
Телекоммуникации и транспорт, № 9, 2012. – С. 112 - 114.
89. Попов
А.В.
Пространственно-временное
предсказание
видеосжатия H.264 // Фундаментальные проблемы радиоэлектронного
приборостроения / Материалы Международной научно – технической
конференции «INTERMATIC–2012», 3–7 декабря 2012 г., Москва. / Под ред.
академика РАН А.С. Сигова. – М.: МГТУ МИРЭА – ИРЭ РАН, 2012, часть
6. – С. 215.
90. Попов А.В. Алгоритмы энтропийного кодирования при сжатии спектра
телевизионного сигнала // T-Comm. Телекоммуникации и транспорт, № 4,
2013. – С. 42 – 46.
91. Безруков В.Н., Попов А.В., Аладин В.М. Искажения сигналов изображения
в современных системах телевидения // T-Comm. Телекоммуникации и
транспорт, № 1, 2015. – С. 45 – 50.
190
ПРИЛОЖЕНИЯ
Приложение 1. Исходные коды разработанных методов внутрикадрового и
межкадрового кодирования
1. Алгоритм метода итерационного формирования управляющих сигналов и
адаптивного сжатия внутрикадрового пространства на основе
управляющего сигнала с формированием корректирующей информации:
clc
clear all
close all
%% ЗАГРУЗКА И ПОДГОТОВКА КАДРА К ПРЕОБРАЗОВАНИЯМ
A=imread('lena512color.tiff','tiff');
Argb = 0.2990*A(:,:,1) + 0.5870*A(:,:,2) + 0.1140*A(:,:,3);
[y, x]=size(Argb);
B16=zeros(y, x);
Orig2=Argb;
Argb=double(Argb); % подготовка к уменьшению до среднего уровня
Argb = Argb - (128*ones(y, x)); % уменьшение до среднего уровня
% Матрица квантования для корректирующей информации
Mask4=[16 15 100 100
15 15 100 100
100 100 100 100
100 100 100 150];
%% ФОРМИРОВАНИЕ МАТРИЦЫ КВАНОТОВАНИЯ 16X16 ИЗ 8X8
Mask8=[16 11 10 16 24 40 51 61
12 12 14 19 26 58 60 55
14 13 16 24 40 57 69 56
14 17 22 29 51 87 80 62
18 22 37 56 68 109 103 77
24 35 55 64 81 104 113 92
49 64 78 87 103 121 120 101
72 92 95 98 112 100 103 99];
M8x=ones(8,8);
for i1=1:1:8,
for i2=1:1:7,
M8x(i1,i2)=round((Mask8(i1,i2)+Mask8(i1,i2+1))/2);
end
M8x(i1,8)=Mask8(i1,i2+1)-Mask8(i1,i2)+Mask8(i1,i2+1);
end
Mx8=ones(8,8);
for i2=1:1:8,
for i1=1:1:7,
Mx8(i1,i2)=round((Mask8(i1,i2)+Mask8(i1+1,i2))/2);
end
Mx8(8,i2)=Mask8(i1+1,i2)-Mask8(i1,i2)+Mask8(i1+1,i2);
end
Mask16=ones(16, 16);
Mask16(1:2:16,2:2:16)=M8x(:,:);
Mask16(2:2:16,1:2:16)=Mx8(:,:);
191
Mask16(1:2:16,1:2:16)=Mask8;
TmpExtra=Mask16(2:2:end,end-1)-Mask16(2:2:end,end-3)+Mask16(2:2:end,end-1);
TmpExtra1=Mask16(end-1, 2:2:end)-Mask16(end-3, 2:2:end)+Mask16(end-1, 2:2:end);
Mask17=ones(17,17);
Mask17(1:end-1,1:end-1)=Mask16;
Mask17(2:2:end,end)=TmpExtra;
Mask17(end, 2:2:end)=TmpExtra1;
% Матрица для расчета среднего значения путем свертки 4-х соседних эл-в
C=[0 1 0
1 0 1
0 1 0];
MaskTmp=round(conv2(Mask17,C)/4);
Tmp=MaskTmp(3:2:end-1, 3:2:end-1);
Mask16(2:2:end,2:2:end)=Tmp;
MaskX=Mask16;
% Управеление степенью квантования основного изображения
MaskX=MaskX.*(ones(16)*8);
%---другие варианты матриц можно взять из версии V2 данного кода
%% ПРЯМОЕ И ОБРАТНОЕ ПРЕОБРАЗОВАНИЯ ОСНОВНОГО ИЗОЮРАЖЕНИЯ
AmaskT=ones(y,x);
Amask=ones(y,x);
x1=1;
y1=1;
for i1=16:16:x,
for i2=16:16:y,
AmaskT(y1:i2,x1:i1)=round(dct2(Argb(y1:i2,x1:i1))./MaskX);
Amask(y1:i2,x1:i1)=idct2(AmaskT(y1:i2,x1:i1).*MaskX);
y1=y1+16;
end
y1=1;
x1=x1+16;
end
Amask=Amask+(128*ones(y, x));% восстановление среднего уровня
Amask=uint8(Amask);
% Преобразование основного изображения без квантования
ArgbT=ones(y,x);
x1=1;
y1=1;
for i1=16:16:x,
for i2=16:16:y,
ArgbT(y1:i2,x1:i1)=round(dct2(Argb(y1:i2,x1:i1)));%
y1=y1+16;
end
y1=1;
x1=x1+16;
end
%% ФОРМИРОВАНИЕ УС НА УРОВНЕ ДКП КОЭФФИЦИЕНТОВ - РАБОТА В ОБЛАСТИ ПРЕОБ
XRD=ArgbT-AmaskT; % УПРАВЛЯЮЩИЙ СИГНАЛ УС
x1=1;
y1=1;
m1=1;
M=zeros(1,4);
for i1=16:16:x,
for i2=16:16:y,
if sum(sum(abs(XRD(y1:i2,x1:i1))))>=1050, M(m1,1:4)=[y1 i2 x1 i1];
m1=m1+1; %--формирование координатной сетки M на основе УС для блоков с ошибками
end
y1=y1+16;
end
y1=1;
x1=x1+16;
end
[q, p]=size(M);%--определение количества блоков с УС
192
%% ПОДСВЕТКА БЛОКОВ ОЩИБОК 16Х16 УС ПО СЕТКЕ "M"
for i1=1:1:q,
B16(M(i1,1):M(i1,2),M(i1,3):M(i1,4))=255; % подсветка полных блоков без деления
end
figure('name', 'Блоки УС 16Х16');
imshow(B16);
title('Блоки УС 16Х16');
%% ОБРАБОТКА БЛОКОВ ПО 4Х4 - РАБОТА В РЕАЛЬНОЙ ОБЛАСТИ
Kus=zeros(y,x); % массив для оригинальных блоков 4X4
XRDR=imabsdiff(Orig2,Amask); % формирование УС в реальной области для операции с
блоками 4X4
TmpR=ones(16,16);
n1=1;
s=1;
for i1=1:1:q,
TmpR=XRDR(M(i1,1):M(i1,2),M(i1,3):M(i1,4)); % работа с блоками указанными
в сетке "M"
x1=1;
y1=1;
for i3=4:4:16,
for i2=4:4:16,
if sum(sum(TmpR(y1:i2,x1:i3)))>=65,
TmpR(y1:i2,x1:i3)=255; N(n1,1:4)=[M(i1,1)+y1-1 M(i1,1)+y1+2
M(i1,3)+x1-1 M(i1,3)+x1+2]; n1=n1+1; TM(1,s)=M(i1,1)+y1-2; s=s+1;
%-round(dct2(Argb(y1:i2,x1:i1))./Mask); %--подсветка блоков с вычитом 4X4
Kus(M(i1,1)+y1-1:M(i1,1)+y1+2, M(i1,3)+x11:M(i1,3)+x1+2)=Orig2(M(i1,1)+y1-1:M(i1,1)+y1+2, M(i1,3)+x1-1:M(i1,3)+x1+2); %-запись в Kus оригинальных блоков 4x4 из Argb
else TmpR(y1:i2,x1:i3)=0;
end
y1=y1+4;
end
y1=1;
x1=x1+4;
end
XRDR(M(i1,1):M(i1,2),M(i1,3):M(i1,4))=TmpR;
end
Kus=uint8(Kus);
figure('name', 'С ВЫЧИТОМ БЛОКОВ 4Х4');
imshow(Kus);
title('С ВЫЧИТОМ БЛОКОВ 4Х4');
figure('name', 'С ВЫЧИТОМ БЛОКОВ 4Х4 ПОДСВЕТКА');
imshow(XRDR);
title('С ВЫЧИТОМ БЛОКОВ 4Х4 ПОДСВЕТКА');
figure('name', 'Amask - ОСНОВНОЕ ИЗОБРАЖЕНИЕ');
imshow(Amask);
title('Amask - ОСНОВНОЕ ИЗОБРАЖЕНИЕ');
%% ФОРМИРОВАНИЕ РАЗНИЦЫ (КИ) для передачи И ВОССТАНОВЛЕНИЕ из разницы
Correction=zeros(y,x); AmaskD=double(Amask); KusD=double(Kus); %ВЫЧИСЛЕНИЕ РАЗНИЦЫ
for i1=4:4:x,
for i2=4:4:y,
if sum(sum(Kus(i2-3:i2,i1-3:i1)))~=0, Correction(i2-3:i2,i13:i1)=(KusD(i2-3:i2,i1-3:i1)-AmaskD(i2-3:i2,i1-3:i1))/2;
end
end
end
CorrectionT=zeros(y, x);% массив для КВАНТОВАНОЙ РАЗНИЦЫ
for i1=4:4:x,
for i2=4:4:y,
if sum(sum(Kus(i2-3:i2,i1-3:i1)))~=0,
CorrectionT(i2-3:i2,i1-3:i1)=round(dct2(Correction(i2-3:i2,i13:i1))./Mask4);
193
Correction(i2-3:i2,i1-3:i1)=(idct2(CorrectionT(i2-3:i2,i13:i1).*Mask4))*2;
end
end
end
%ПОДГОТОВКА К ЭНТРОПИЙНОМУ КОДИРОВАНИЮ
AmaskD=double(Amask);
DecodedIMG=AmaskD+Correction; %--->ВОССТАНОВЛЕННИЕ ИЗ КОРРЕКТИРУЮЩЕЙ ИНФОРМАЦИИ
%% ВЫВОД РЕЗУЛЬТАТОВ
DecodedIMG=uint8(DecodedIMG);
figure('name', 'DecodedIMG - ОСНОВНОЕ ИЗОБРАЖЕНИЕ С КИ');
imshow(DecodedIMG);
title('DecodedIMG - ОСНОВНОЕ ИЗОБРАЖЕНИЕ С КИ');
figure('name', 'КОНТРОЛЬНОЕ');
imshow(AmaskCont);
title('КОНТРОЛЬНОЕ');
%% ПОДСЧЕТ PSNR
Orig2D=double(Orig2);
AmaskD=double(Amask);
DecodedIMGD=double(DecodedIMG);
% Для основного изображения с корректирующей информацией
PSNR=0;
for i1=1:1:y-1,
for i2=1:1:x-1,
PSNR=(Orig2D(i1,i2)-DecodedIMGD(i1,i2))*(Orig2D(i1,i2)DecodedIMGD(i1,i2))+PSNR;
end
end
PSNR=PSNR/(x*y);
PSNR_DecodedIMG=10*log10((255*255)/PSNR)
% Для основного изображения без КИ
PSNR=0;
for i1=1:1:y-1,
for i2=1:1:x-1,
PSNR=(Orig2D(i1,i2)-AmaskD(i1,i2))*(Orig2D(i1,i2)-AmaskD(i1,i2))+PSNR;
end
end
PSNR=PSNR/(x*y);
PSNR_AmaskD=10*log10((255*255)/PSNR)
2. Модуль зиг-заг сканирования и кодирования по длинам серий
cc=0; cco=0; ccom=0; %ПОДСЧЕТ НУЛЕВЫХ cco (КОМПАНОВКА В ОДИН) И НЕНУЛЕВЫХ cc
БЛОКОВ ДЛЯ ФОРМИРОВАНИЯ НУЖНОГО РАЗМЕРА ДЛЯ МАССИВА CorrT
for i1=16:16:x,
for i2=16:16:y,
if sum(sum(CorrectionT(i2-15:i2,i1-15:i1)))==0 && ccom==0, cco=cco+1;
ccom=1;end
if sum(sum(CorrectionT(i2-15:i2,i1-15:i1)))==0 && ccom~=0, cco=cco+0; end
if sum(sum(CorrectionT(i2-15:i2,i1-15:i1)))~=0, cc=cc+1; ccom=0; end
end
end
y1=1; x1=1; cx=1; ctx=0; CorrT=zeros(4,cc+cco); %группировка нулевых блоков и
ненулевых
for i2=16:16:y,
for i1=16:16:x,
if sum(sum(CorrectionT(i2-15:i2,i1-15:i1)))==0, ctx=ctx+1;
CorrT(4,cx+15)=ctx; end
194
if sum(sum(CorrectionT(i2-15:i2,i1-15:i1)))~=0 && ctx==0,
CorrT(1:16,cx:cx+15)=CorrectionT(i2-15:i2,i1-15:i1); cx=cx+16; end
if sum(sum(CorrectionT(i2-15:i2,i1-15:i1)))~=0 && ctx>=1, ctx=0; cx=cx+16;
CorrT(1:16,cx:cx+15)=CorrectionT(i2-15:i2,i1-15:i1); cx=cx+16; end
end
end
[i1, sc]=size(CorrT); Zig=zeros(1, i1*sc); z1=1; v=zeros(1,16); %зиг-заг
сканирование поочередно всех блоков
for i1=1:16:sc,
u=CorrT(1:16,i1:i1+15);
M=16; N=16; m=1; n=1; v(1)=u(m,n); d='r';
for i=2:M*N
switch d
case 'u', m=m-(m>1); n=n+(n<N); v(i) = u(m,n);
if n==N, d='d'; elseif m==1, d='r'; end
case 'l', m=m+(m<M); n=n-(n>1); v(i) = u(m,n);
if m==M, d='r'; elseif n==1, d='d'; end
case 'd', m=m+(m<M); v(i) = u(m,n);
if n==1, d='u'; else d='l'; end
case 'r', n=n+(n<N); v(i) = u(m,n);
if m==1, d='l'; else d='u'; end
end
end
Zig(1,z1:z1+255)=v;
z1=z1+256;
end
cc=0; cx=0; cco=0; [i1, sc]=size(Zig); %для ускорения вычисления определяем размер
массива Zag
for i1=1:sc,
if Zig(1,i1)==0 && cc==0, cco=cco+1; cc=1; end
if Zig(1,i1)==0 && cc~=0, continue; end
if Zig(1,i1)~=0 && cc==0,cx=cx+1; end
if Zig(1,i1)~=0 && cc~=0, cc=0; cx=cx+1; end
end
cx=1; cco=0; Zag=zeros(1,cc+cx);%группировка нулей и не нулей
for i1=1:sc,
if Zig(1,i1)==0, cco=cco+1; Zag(1,cx)=cco*10; end
if Zig(1,i1)~=0 && cco==0, Zag(1,cx)=Zig(1,i1); cx=cx+1; end
if Zig(1,i1)~=0 && cco~=0, cco=0; cx=cx+1; Zag(1,cx)=Zig(1,i1);cx=cx+1; end
end
dlmwrite('Zag.txt',Zag); % сохранение в файл
3. Алгоритм метода адаптивного межкадрового сжатия на основе
управляющих сигналов
clc
clear all
close all
tic % запуск счетчика времени
%% Загрузка и подготовка кадров для преобразований
A=imread('61.jpg','jpg'); % загрузка первого кадра
B=imread('62.jpg','jpg'); % загрузка второго кадра
Agray = 0.2990*A(:,:,1) + 0.5870*A(:,:,2) + 0.1140*A(:,:,3); % преобразование в
цветоразность первого кадра
Bgray = 0.2990*B(:,:,1) + 0.5870*B(:,:,2) + 0.1140*B(:,:,3); % преобразование в
цветоразность второго кадра
[y, x]=size(Agray); % определение размера кадра
AgrayD=double(Agray); % преобразование в формат double для корректных операций
вычитания и сложения
195
BgrayD=double(Bgray); % преобразование в формат double для корректных операций
вычитания и сложения
%% Вычисление разностного кадра
A_BD=AgrayD-BgrayD;
% разностный кадр
A_BD1=A_BD;
% дублирование разностного кадра содержащего сигнал
управления после шумовой обработки для последующего изменения
US=abs(A_BD);
% массив для УС
Kadr2D=AgrayD-A_BD;
% --для контроля-- восстановление второго кадра из разности
%% Итерационная противошумовая обработка и формирование управляющего сигнала
Fil=[0.000789 0.006581 0.013347 0.006581 0.000789; %Гауссовский фильтр
0.006581 0.054901 0.111345 0.054901 0.006581;
0.013347 0.111345 0.225821 0.111345 0.013347;
0.006581 0.54901 0.111345 0.054901 0.006581;
0.000789 0.006581 0.013347 0.006581 0.000789];
US=filter2(Fil,US);
US(US<=5)=0;
US=filter2(Fil,US);
US(US<=3)=0;
US=filter2(Fil,US);
US(US<=2.5)=0;
%% Формирование набора переменных для процесса компенсации и его контроля
ko=1;
% счетчик строки с координатами для основного массива с
набором координат для блоков кадров донора и получателя
temp=1;
% --для контроля-- счетчик для процесса отрисовки всех
блоков получателей для которых будут искаться блоки-доноры
MinBlok=zeros(1,4);
% временный массив для сохранения координат блока
давшего минимальную разность
KoordV=zeros(1,8);
% основной массив для набора координат блоков кадров
донора и получателя
Temp=zeros(1,5);
% --для контроля-- массив с набором координат всех
блоков получателей для которых будут искаться блоки-доноры
minznach=zeros(1,1);
% --для контроля-- временный массив для минимальных
значений разности (т.к. мин. значений может быть >1 нужен этот массив чтобы
сохранить только одно)
minznachTEMP=zeros(1,1); % --для контроля-- массив для минимальных значений
разности (используется вместе с minznach)
% Процесс компенсации блоков в разностном кадре
%% Формирование области поиска и вычисление разностных значений
for i1=8:8:x,
% цикл для сканирования
разностного сигнала в поисках управляющего сигнала
for i2=8:8:y,
% цикл для сканирования
разностного сигнала в поисках управляющего сигнала
if sum(sum(US(i2-7:i2,i1-7:i1)))~=0,
% Определение наличия
управляющего сигнала
Ss=BgrayD(i2-7:i2,i1-7:i1);
% Сохранение области из
второго кадра на основе определенного выше управляющего сигнала
q=1;
% счетчик строки для массива Q
- массив значений разности блоков из области поиска и Ss
ct=i2-19; if ct<1, ct=1; end;
% формирование области поиска
(если выходит за границы то ограничение 1)
ctt=i2+12; if ctt>y, ctt=y; end;
% формирование области поиска
(если выходит за границы y то =y)
bt=i1-19; if bt<1, bt=1; end;
% формирование области поиска
(если выходит за границы то ограничение 1
btt=i1+12; if btt>x, btt=x; end;
% формирование области поиска
(если выходит за границы x то =x)
Q=zeros(((ctt-ct+1)*(btt-bt+1)/64),5); % пустой массив с размером в
зависимости от количества (т.к. возможно ограничение до 1) блоков 8х8 помещающихся
в область поиска
for z1=bt:1:btt-7,
% цикл для сканирования
области поиска по x
for z2=ct:1:ctt-7,
% цикл для сканирования
области поиска по y
196
Q(q,5)=sum((sum(abs(AgrayD(z2:(z2+7), z1:(z1+7))-Ss)))); %
сохранение значения разности между каждым блоком из зоны поиска и Ss
Q(q,1:4)=[z2 (z2+7) z1 (z1+7)]; % сохранение координат блока
со значением из прошлого шага
q=q+1;
% следующая строка в массиве
для последующей записи на следущем шаге цикла
end;
end;
Temp(temp, 1:4)=[(i2-7) i2 (i1-7) i1]; % сохранение координат в
массив для отрисовки границ всех блоков для которых будут искаться блоки-доноры
temp=temp+1;
% следующая строка в массиве
для последующей записи на следущем шаге цикла
%% Определение минимального разностного значения указывающего на блок-донор
[y_min, x_min]=find (Q(:,5)==min(Q(:,5)));
% поиск координат блока с
минимальным значением в массиве (Q) всех значений блоков найденных в зоне поиска
if Q(y_min,5)<=fix(sum(abs(sum(abs(A_BD(i2-7:i2,i1-7:i1)))))*1), %
задание порога разности при котором блок имеющий эту разность может считаться
донором
MinBlok=Q(y_min,1:4);
%
сохранение координат блока с минимальным значением (их может быть >1) во временный
массив
[p q]=size(MinBlok);
%
определение размера блока с минимальными значениями для процедуры указания на
оригинальный блок если минимальных значений >1
A_BD1(i2-7:i2,i17:i1)=AgrayD(MinBlok(1,1):MinBlok(1,2),MinBlok(1,3):MinBlok(1,4))-Ss; %
КОМПЕНСАЦИЯ - замена блоков на разность блоков м/у целевым изображением и донором
KoordV(ko,1:4)=MinBlok(1,1:4);
% сохранение координат для кадра
донора
KoordV(ko,5:8)=[(i2-7) i2 (i1-7) i1]; % сохранение координат для кадра
получателя
% Если в найденных минимумах все 0, то эта часть кода выбирает
% оригинал назначения
if p>1,
for b=1:p,
if MinBlok(b,1)==i2-7 && MinBlok(b,2)==i2 && MinBlok(b,3)==i17 && MinBlok(b,4)==i1,
A_BD1(i2-7:i2,i17:i1)=AgrayD(MinBlok(b,1):MinBlok(b,2),MinBlok(b,3):MinBlok(b,4))-Ss; %
КОМПЕНСАЦИЯ - замена блоков на разность блоков м/у целевым изображением и донором
KoordV(ko,1:4)=MinBlok(b,1:4);
end;
end;
end;
% конец кода для оригинала
minznachTEMP=Q(y_min,5);
% --для контроля-- сохранение
минимальных значений разности
minznach(ko,1)=minznachTEMP(1,1);
% --для контроля-- сохранение
минимальных значений разности
ko=ko+1;
% следующая строка для массива
end;
end
end
end
%% Обозначение начала движения - начало вектора движения
for il=1:1:ko-1, % цикл для обозначения блока из которого следует вектор
Kadr2D(KoordV(il,1),KoordV(il,3))=255; % в блоке отмечается первый пиксель былым
цветом
end;
197
%% ВОССТАНОВЛЕНИЕ ВТОРОГО КАДРА ИЗ СКОМПЕНСИРОВАННОЙ РАЗНОСТИ
BD=AgrayD-A_BD1;
% Восстановление второго кадра из разности - Шаг 1
for il=1:1:ko-1,
% Цикл для восстановления во втором кадра скомпенсированных
блоков - Шаг 2 (ko-1 т.к. формируется одна лишняя строрка в цикле)
BD(KoordV(il,5):KoordV(il,6),
KoordV(il,7):KoordV(il,8))=AgrayD(KoordV(il,1):KoordV(il,2),KoordV(il,3):KoordV(il
,4))-A_BD1(KoordV(il,5):KoordV(il,6),KoordV(il,7):KoordV(il,8));
end;
toc
%% ВЫВОД РЕЗУЛЬТАТОВ
figure('name','Первый кадр - оригинал');
imshow(uint8(AgrayD));
title('Первый кадр - оригинал');
figure('name','Второй кадр - оригинал');
imshow(uint8(BgrayD));
title('Второй кадр - оригинал');
figure('name','Восстановленный второй кадр');
imshow(uint8(BD));
title('Восстановленный второй кадр');
figure('name','УС');
imshow(uint8(US)+128);
title('УС');
198
Приложение 3
Акты об использовании результатов диссертационной работы
199
200
201
202
203
Download