Программа с/к &quot

advertisement
1. Информация и энтропия. Информация – функция события. Количество И. – функция
вероятности события. Свойства I(A). I(A)=-logP(A).Энтропия ДСВ ξ как матожидание ДСВ
I(ξ=x). «Ипподромный» пример. Свойства энтропии: минимум, максимум, энтропия случайного
вектора. Кодирование исходов ξ числами или словами. Избыточность. Теоремы Шеннона об
оптимальном кодировании и о доле типичных последовательностей (без д-ва). Задача о сжатии
данных: дано слово w, нужно найти низкоэнтропийную ДСВ, для которой w является типичным
результатом серии испытаний и экономно закодировать результаты опытов.
2. Источник информации. Марковская модель источника. Состояния. ДСВ для генерации
символов и ДСВ для перехода. Энтропия марковского источника. Вычисление стационарного
распределения. Простая модель МИ: конечный автомат, переходящий по сгенерированным
символам. Пример: антисловарное сжатие на {00,111,01010}.
3. Префиксное кодирование. Префиксный код: однопроходное декодирование. Дерево ПК.
Метод Шеннона-Фано. Метод Хаффмана. Неравенство Крафта-Макмиллана. Оптимальность
кода Хаффмана в классе префиксных кодов. Особенности реализации статического МХ:
сортировка деревьев за константное время, кодирование дерева (1бит на узел). Свойство
братьев. Динамический МХ: симметричность кодирования-декодирования, возможность
адаптации (масштабирование счетчиков). Особенности реализации: узел ART, быстрая
перестройка дерева (перестановка поддеревьев для сохранения свойства братьев).
4. Арифметическое кодирование. Представление сообщения вероятности p отрезком длины p.
Выбор кратчайшего числа на отрезке, оптимальность по Шеннону. Целочисленная реализация
АК: скользящее окно и нормализация интервала. Расширение узкого интервала (вдвое от
середины), хранение и передача отложенных битов. Динамический вариант: сбор статистики,
хранение таблиц частот в упорядоченном виде.
5. Словарные алгоритмы. Обзор методов LZ77 и LZ78. Метод LZW. Кодирование символа и
обновление словаря. Симметричность кодирования/декодирования. Особая ситуация при
декодировании, ее обработка. Дожимание при помощи МХ.
6. Статистическое кодирование. Контексты (левые и правые). Глубина контекста.
Контекстная модель, ее порядок. Модель источника как дерево контекстных моделей.
Взвешивание моделей. Неявное взвешивание. Метод PPM. Символы ухода. Метод исключений
(маскировка счетчиков при кодировании). Использование АК. Обновление КМ. Исключения
при обновлении. Пример: ACGAGACGGCCCG(T). Оценка вероятности ухода. Априорные
методы A, B, C, D, XC. Адаптивные методы: средняя частота ухода из похожих контекстов.
Метод Шкарина разбиения на однотипные контексты (с учетом трех типов контекстов). Выбор
порядка модели для кодирования символа: по максимальному значению вероятности.
Наследование информации при добавлении нового счетчика в КМ. Масштабирование счетчика
последнего символа при кодировании.
7. Преобразование Барроуза-Уилера (BWT) и связанные с ним алгоритмы сжатия. Прямое
BWT. Сведение к задаче о сортировке суффиксов. Структура BWT-образа: замена контекстных
закономерностей на локальную однородность. Обратное преобразование за линейное время:
стабильная сортировка, ее свойства, совмещение вычисления обратного преобразования с
проверкой корректности BWT-образа. Алгоритм MTF («стопка книг») и его модификации.
Распределение частот символов после MTF. Алгоритмы RLE и ZLE. Кодирование (N+1) вместо
N в ZLE. Схема BWT+MTF+ZLE+ARI. Выбор порядка на алфавите. Алгоритм кодирования
расстояний (DC). Эффективные алгоритмы для сортировки суффиксов. Алгоритм
Манискалько-Пуглизи: выбор сэмпла, сортировка на основе отсортированного сэмпла,
троичная сортировка сэмпла. Обработка длинных повторов. Замена сортировки суффиксов на
k-сортировку; выполнимость обратного преобразования.
8. Сжатие бинарных и числовых данных. Черно-белые изображения: использование
двумерной структуры. Стандарт CCITT group 4: три режима, кодирование длин в
горизонтальном режиме. Бинарное BWT и дожимание результатов CCITT 4. Представление
массивов чисел: коды Элиаса, Start-Step-Stop, коды Фибоначчи. Устойчивость кодов к
единичной ошибке.
Полезные источники:
1. Д.Ватолин, А.Ратушняк, М.Смирнов, В.Юкин. Методы сжатия данных. М: Диалог-МИФИ,
2003.
2. M. Crochemore, T.Lecroq. Text data compression algorithms. In: Atallah M.J. Ed., Algorithms and
theory of computation handbook. Ch. 12. CRC Press, 1999.
3. В.В.Семенюк. Экономное кодирование дискретной информации. СПб: СПбГУ ИТМО, 2001.
4. Стандарт CCITT group 4. International telecommunication union, 1988.
5. M. Maniscalco, S. Puglisi, Faster lightweight suffix array construction, Proceedings of the 17th
Australasian Workshop on Combinatorial Algorithms (AWOCA'06), 2006. pp.16-29.
6. K.M. Likhomanov, A.M. Shur. Two combinatorial criteria for BWT images. Computer Science –
Theory and Applications. Proceedings of the 6th Symposium on Computer Science in Russia. 2011.
pp.385-396. [Lecture Notes in Computer Science Vol. 6651].
Download