УДК 621.391 ОЦЕНКА СТЕПЕНИ СЖАТИЯ АДРЕСНО

реклама
УДК 621.391
ОЦЕНКА СТЕПЕНИ СЖАТИЯ АДРЕСНО-ВЕКТОРНОГО КОДИРОВАНИЯ
И.А.Кулик, ассист.
Одним из основных показателей, характеризующих кодирование информационного источника, является
качество кодирования. При этом под показателем качества понимается избыточность кода [ 1 ].
В статье [ 2 ] рассматривался вопрос об избыточности адресно-векторного кодирования fav, но не были
указаны области его рационального использования. Адресно-векторное кодирование заключается в
переходе от векторного к адресному методу кодирования в зависимости от числа k логических единиц в nразрядном слове. Такой переход осуществляется согласно системе неравенств
0  k    1
,

n    1  k  n
(1)
где  = [ n / log2 n ].
Для оценки степени адресно-векторного сжатия возьмем в качестве модели бернуллиевский источник
S={ai:ai=n, i=1,...,S}, характеризующийся тем, что появление логической единицы или нуля в двоичной
записи ai является независимым событием. Источник Бернулли S хотя и представляет собой достаточно
неточную модель реального источника, но для больших n является единственно приемлемым [3].
Рассмотрим три наиболее распространённых случая кодирования fav, для каждого из которых определим
области рационального использования адресно-векторного кода, дающих коэффициент сжатия двоичных
сообщений больше 1.
1 Адресно-векторное кодирование fav комбинаторного источника Sk={ aj : r(aj)=k, j=1,..., Cnk }
равновесных комбинаций, где r(aj)- число логических единиц в aj.
Области рационального использования fav для таких источников определяются значениями k , при
которых выполняются неравенства условия ( 1 ). В этом случае длины адресных последовательностей без
учета служебных слов равны C(fav ,Sk)=k log2 n при 1  k < , или C(fav , Sk)=(n - k) log2 n , когда n -  < k
 n - 1. Отсюда коэффициент сжатия источника Sk

n
, 1k 

 k log2 n 

(2)
K sh Sk  1 ,   k  n  

n

, n    k  n  1.
 n  k  log2 n 

 
Значение Ksh(Sk) не зависит от распределения вероятностей ð(ai), но, очевидно, зависит от длины n
информационного сообщения и k единиц, содержащихся в нем. На рис. 1 приведен график зависимости
Ksh(Sk)= =f(k) при n=256 и 1 k  36 . Стрелками ограничены области, когда Ksh(Sk)>1.
Ksh
35
12,00
Ksh=1
30
10,00
25
8,00
Ksh
Ksh(S)
20
15
6,00
4,00
10
2,00
5
0
1
4
8
12
16
20
24
28
0,00
9,90
4,46 0,77 5,540,88 0,99
6,63
0,01 0,111,190,22 2,28
0,33 0,443,370,55 0,66
E-01
E-01
E-01
E-01
E-01
32 E-03 36 E-01
k
7,72
E-01
8,81
E-01
9,90
E-01
p
Рисунок 1 - График Ksh(Sk)=f(k) при n=256
2 Адресно-векторное кодирование fav
Рисунок 2 - График K( S)=f(p) при n=256.
вероятностного источника S={ ai :ai=
n, i=1,... ,S}, имеющего более чем один класс Sk={ aj : r(aj)=k, j=1, ..., Cnk } эквивалентности по числу k
логических единиц.
Рассматриваемый случай является общим по отношению к первому, так как здесь k - дискретная
случайная величина. Для нахождения областей применения адресно-векторного метода, кроме параметров n
и k векторов, необходимо знать распределение вероятностей Ðê появления числа k единиц, что и показывает
выражение для стоимости адресно-векторного кода [ 2 ]. Отсюда, чтобы охарактеризовать степень сжатия
источника S , следует найти математическое ожидание Ksh(S)=M[Ksh(ai)] коэффициента сжатия двоичного
слова ai , то есть
n
K sh S    Pk K sh ai  
k 0
n   1


k   1
Pk
n
n  log2 n 
 2
P
k 0
k
n


Pk
k  n   2
n
k  1 log2 n 

.
(2)
n
n  k  1 log2 n 
У источника Бернулли S величина k имеет биномиальное распределение [ 4 ] , а вероятность ее
появления находится в соответствии с выражением Ðê= Cnk ðk(1-p)n-k , где ð - вероятность появления
двоичной единицы. Примем без доказательства следующее утверждение.
Утверждение 1. Пусть вероятность, ограничивающая отклонение  случайной величины k, P{k - mk
}   , где  - заданное число, 0 < < 1, mk - среднее значение числа k. Тогда для бернуллиевского источника
S
область использования адресно-векторного кодирования , когда среднее значение Ksh(S)>1 с
вероятностью 1- , задается системой неравенств вида
1
1 

0  p  log n  n  n
 2 

,
(3)

1
1 
1 
   p1

log2 n  n n
где n , ð - параметры информационного источника S.
На рис. 2 представлена графическая зависимость Ksh(S)=f(p) при n=256, где стрелками указаны точки
пересечения графика с прямой Ksh(S)=1. Область рационального использования в этом случае
0  p  0,139
.

0,861  p  1
3 Адресно-векторное кодирование двоичных сообщений aim от нескольких источников S1,..., Sm, ..., Sl.
Пусть множество Q = { S1, ..., Sm,..., Sl }, которое будем называть информационным потоком, состоит из
бернуллиевских источников с различными вероятностями p1 ,..., pm ,..., ðl появления логических единиц.
Вероятности p1 ,..., pm ,..., ðl в общем случае различны для источников и зависят от вида передаваемых
данных. Очевидно, что разнородность передаваемой информации потока Q определяется распределением
вероятностей p(S1),..., ð(Sm),..., ð(Sl) подключения к каналу связи источников S 1 ,..., S m ,..., S l , где
p(S 1 )+...+ ð(Sm)+...+ ð(Sl)=1. В этом случае коэффициент Ksh(Q) сжатия потока определяется как
математическое ожидание значений Ksh(Sm)

l
  pS K S  
K sh Q  M K sh S m  
m
m 1
 pS M K a .
l

m
sh
(4)
m
m 1
sh
im
При наличии того же характера зависимости от n и чисел k единиц (см. формулу ( 2 )) у коэффициента
сжатия появилась дополнительная зависимость от распределения вероятностей p(Sm), m=1,...,l ( 4 ). Примем
без доказательства следующее утверждение.
Утверждение 2. Пусть Q={S1,...,Sm,...,Sl}- информационный поток, состоящий из комбинаторных или
бернуллиевских источников, которые генерируют двоичные n-разрядные слова с постоянным числом km
единиц или с их математическими ожиданиями mkm соответственно и пусть имеется хотя бы один
источник Sm, значения km или pm которого удовлетворяют условиям ( 1 ) или ( 3 ) адресно-векторного
кодирования. Тогда при n  коэффициент Ksh(Q) сжатия потока Q с распределением вероятностей
ð(Sm), m=1,...,l асимптотически равен или больше 1 для любых ð(Sm)> 0.
В целях иллюстрации утверждения 2 рассмотрим случай адресно-векторного кодирования двух
комбинаторных источников SÀ и SÂ , где p(SÀ) - вероятность подключения первого источника, а 1p(SÀ)вероятность подключения второго источника. Условимся, что SÀ и SÂ порождают 256-разрядные двоичные
комбинации, при этом все кодовые элементы SÀ содержат kA= 7 единиц, а источника SÂ - kB=128 . Условие
адресно-векторного сжатия ( 1 ) для этого случая : 0  k < 32 или 225 < k  256 . Из выражения ( 4 )
коэффициент Ksh(Q) сжатия потока Q={SÀ, SÂ} имеет вид
Ksh(Q)= 4  p(SA) + 0,97  (1- p(SA)).
Решая неравенство Ksh(Q)> 1 относительно p(SA), обнаружим, что для его выполнения необходимо
p(SA)> 0,01. А при n данная вероятность стремится к 0: p(SA) 0. Отсюда можно говорить о
практической возможности сжатия для всех p(SA), отличных от 0 при больших n . Это означает, что для
выполнения неравенства Ksh(Q)>1 при n необходимо и достаточно лишь присутствие в потоке Q
сообщений от источника, заведомо удовлетворяющего неравенствам ( 1 ), то есть в данном примере
источника SÀ .
В заключение по результатам оценки эффективности сжатия информационных источников адресновекторным методом можно сделать следующие выводы.
1 Чтобы увеличить среднее значение Ksh(S) коэффициента сжатия двоичных слов бернуллиевского
источника необходимо, с одной стороны, увеличить разрядность n сжимаемых комбинаций, а с другой уменьшить вероятность ð появления единиц в них ( 2 ).
2 Для того чтобы средний коэффициент Ksh(Q) сжатия потока Q , состоящего из сообщений
комбинаторных и бернуллиевских источников S1,..., Sm,..., Sl, был больше 1, достаточно существование хотя
бы одного источника ( точнее, существование его с очень малой вероятностью ), удовлетворяющего
условию ( 3 ).
3 Чтобы увеличить коэффициент Ksh(Q) сжатия информационного потока Q={ S1,..., Sm,..., Sl },
необходимо: а) увеличить число источников потока, удовлетворяющих условиям ( 1 , 3 ); б) увеличить
вероятности подключения таких источников к каналу связи; в) увеличить коэффициенты Ksh(ai) сжатия
сообщений или их средние значения Ksh(S) по отдельности для каждого источника.
SUMMARY
Estimating of the address-vector compression method is carried out in this article. Address-vector coding is analysed for three widedistributed cases : the first is when coding a combinatorial source, the second is when coding a Bernoulli source, and the third is when coding a
set of the combinatorial and Bernoulli sources. For all the considered cases the conditions of the compression are given.
СПИСОК ЛИТЕРАТУРЫ
1. Кричевский Р. Е. Сжатие и поиск информации. Москва: Изд-во Радио и связь, 1989.- 168 с.
2. Кулик И. А. Об избыточности адресно-векторного кодирования // Вестник Сумского государственного университета, 1996, № 1(5).C.90-93.
3. Борисенко А. А. О разложении бернуллиевских источников // Вестник Сумского государственного университета, 1995, № 3.-C. 57-59.
4. Вентцель Е. С., Овчаров Л. А. Теория вероятностей и ее приложения. - Москва: Изд-во Наука, 1988. - 480 с.
Поступила в редколлегию 3 октября 1996 г.
Скачать