ВВЕДЕНИЕ Последние достижения в области вычислительной техники, техники связи, программных средств позволяют принципиально по-новому подойти к решению проблемы совершенствования управления во всех звеньях и уровнях народного хозяйства. По существу речь идет о переходе от разработки локальных технических средств автоматизации отдельных технологических операций, процедур, задач управления к проектированию комплексных интегрированных систем управления, осуществляющих распределенную обработку данных. Такой переход предполагает в свою очередь создание совершенно новых технологий сбора, хранения, передачи и обработки информации – новых информационных технологий. В основу современных информационных технологий положен целый ряд фундаментальных теорий, основополагающих физических принципов и технических решений. Базовыми направлениями являются: создание новых сред накопления информации на машиночитаемых носителях (магнитные диски, ленты, оптические диски); развитие средств связи, обеспечивающих доставку информации в любую точку системы без существенных ограничений во времени и расстоянии; возможность автоматизированной обработки информации с помощью ЭВМ по заданным алгоритмам (сортировка, классификация, представление в нужной форме, преобразование). В создаваемых распределенных системах управления по мере совершенствования вычислительных средств увеличивается доля затрат на передачу данных в общей стоимости такой системы. Поэтому разработка специальных технологий передачи данных с накоплением и обработкой информации в любом пункте системы является чрезвычайно важной задачей в общем комплексе задач создания новых информационных технологий. Именно эти вопросы рассматриваются в данном учебном пособии. Первыми фундаментальными теоретическими исследованиями* в области передачи данных являются работы Н. Винера по проблеме обработки искаженного сигнала (фильтрации и предсказания), В.А. Котельникова по оптимальным способам кодирования. Особенно плодотворными для этого направления стали работы К. Шеннона, положившие начало новой теории – теории информации, дальнейшее развитие которой связано с трудами многих советских (А.Н. Колмогоров, Р.Л. Добрушин, А.Я. Хинчин, И.М. Гельфранд, М.С.Пинскер, А.А. Харкевич и др.) и зарубежных ученых (С. Гольдман, Р. Фано, А. Файнстейн, Р. Галлагер и др.). * Н. Винер «Кибернетика», 1948 г., перевод: 1960 г.; В.А. Котельников «Теория потенциальной помехоустойчивости», 1946 г.; К. Шеннон «Математическая теория связи», 1958 г., перевод: в сб. «Работы по теории информации и кибернетике», 1963 г.; А. Файнстейн «Основы теории информации», 1958 г., перевод: 1960 г.; Р.Фано «Передача информации. Статическая теория связи», 1961 г., перевод: 1965 г.; Р. Галлагер «Теория информации и надежная связь», 1968 г., перевод: 1974 г. Основные теоремы теории информации, устанавливающие предельные возможности методов обработки и передачи сообщений в зависимости от статических свойств источников информации и каналов связи, носят характер теорем существования и не дают конструктивных рекомендаций построения конкретных алгоритмов и технических решений. Но они являются важным инструментом анализа различных информационных систем. Благодаря общности и абстрактности информационных представлений существенно разнородные физические и технические характеристики оказывается возможным выразить через некоторые универсальные понятия (энтропию, количество информации, пропускную способность), выразить независимо от физической сущности конкретных устройств и систем, причем не только выразить, но и сопоставить, и не только качественно, но и количественно. Вопросами построения конкретных и относительно простых алгоритмов кодирования, в той или иной мере приближающихся по своим возможностям к оптимальным алгоритмам, существование которых доказывается в теории информации, занимается теория кодирования, являющаяся составной частью общей теории информации. К теории информации относят также всю совокупность приложений статистических методов к описанию способов представления и анализа сигналов как средства передачи информации, способов их преобразования на входе и выходе канала связи и оценки переносимого ими количества информации. 1. Информация в автоматизированных системах 1.1. Автоматизированные системы Одно из главных направлений применения новых информационных технологий – это автоматизированные системы сбора, хранения, передачи и обработки информации, составляющих основу современных автоматизированных систем управления (АСУ). АСУ обеспечивает управление объектом на основе потока осведомляющей информации, которая отображает действительное состояние объекта управления и окружающей среды (рис. 1.1), управляющей информации, вырабатываемой АСУ на основе преобразующей информации, включающей в себя алгоритмы обработки информации, нормативные данные, техникоэкономические модели и др. Объект Управляющая информация управления вырабатывается при Управляющая Осведомляющая непосредственном участии человека информация информация на основе исходных данных и экономико-математических методов АСУ управления, с помощью которых Преобразующая информация принимаются оптимальные управляющие решения. Поэтому Рис. 1.1 Общая схема управления АСУ определяют как «человекомашинную» систему, обеспечивающую автоматизированный сбор и обработку информации, необходимой для оптимизации управления в различных сферах человеческой деятельности (ГОСТ 19675-74). С точки зрения этих информационных процессов АСУ рассматриваются как информационные системы со следующими ступенями развития: информационно-справочные системы, обеспечивающие выдачу справочной информации по запросу или по какому-то алгоритму; информационно-советующие системы, осуществляющие подготовку и предварительную обработку информации по заданному алгоритму, выработку субоптимальных решений; информационно-управляющие системы, включающие все выше перечисленные функции, причем отдельные функции управления возлагаются на ЭВМ. Большинство автоматизированных систем функционируют на уровне отдельных организаций, предприятий, т.е. являются локальными. Происходящие в настоящее время процессы интеграции обуславливают переход к более сложным по выходной информации и структуре системам, которые становятся иерархическими как по функциональному принципу, так и при их технической реализации. Иерархия информационной системы требует построения достаточно сложных разветвленных сетей связи и организации обмена информацией в информационной сети. В заключение назовем основные сферы применения информационных систем: 1. автоматизация непосредственной сферы производства (создание роботов, гибких производственных систем, заводов автоматов) и отраслей промышленности, где присутствие человека недопустимо (химическая промышленность, атомная энергетика и др.), автоматизированные системы управления технологическими процессами (АСУТП); 2. автоматизированные системы управления организационноэкономического характера – управление предприятием (АСУП), отраслью промышленности (ОАСУ), системы регионального управления (РАСУ) и др.; 3. автоматизация проектирования (САПР) в различных сферах человеческой деятельности (промышленность, строительство и др.); 4. информационно-справочные системы, которые производят выдачу информации по запросу пользователя (медицина, диагностика, каталоги библиотек, архивов, базы данных различного назначения и др. направления); 5. современные виды информационного обслуживания – факсимильная передача информации, системы электронной почты, телеконференции, системы информационного обмена Телетекс; 6. информационные технологии в интеллектуальной деятельности – компьютеризация управленческой деятельности, обработка текстов, автоматизированные рабочие места; 7. локальные сети – обеспечивают взаимодействие пользователей внутри организации, позволяют организовать распределенную обработку информации, использовать вычислительные ресурсы других ЭВМ, подключенных к сети, значительно повышая эффективность оборудования в результате возможности совместного использования. В результате исследования интеллектуальных процессов и анализа возможности компьютерных систем появились экспертные системы как инструмент интеллектуализации процессов обработки информации. 1.2. Основные подсистемы АСУ Комплекс технических средств АСУ базируется на единстве информационного обеспечения, ряда ограничений, а также раде частных критериев, определяющих технические характеристики системы (время обработки информации, ее верность, надежность технических средств и т.д.). Промышленностью разработаны различные виды технических средств, из которых следует выделить: средства подготовки информации, обеспечивающие автоматический учет и регистрацию информации – регистраторы производства, бухгалтерские и фактурные машины, использование машиночитаемых документов и др.; средства сбора информации по различным типам каналов связи (АТ-50, ПД-200, ТФ-0П), составляющие различные варианты модемов, устройств защиты информации от ошибок; средства обмена информацией, представляющие собой оконечные установки-концентраторы (мультиплексоры передачи данных) и осуществляющие обмен информацией с ЭВМ; средства выдачи и воспроизведения информации (индикаторные табло, мнемосхемы, экраны и т.п.); средства хранения и обработки информации, представляющие собой ЭВМ, вычислительный комплекс или локальную сеть. Эти виды технических средств можно объединить в единый комплекс и представить в виде отдельных подсистем (рис.1.2). Подсистема регистрации и подготовки информации производит первичную обработку информации, которая в зависимости от расположения вычислительного центра поступает непосредственно в подсистему хранения и обработки информации либо в случае территориально распределенной системы через подсистему сбора и передачи информации. Автоматическая связь осуществляется по специально выделенным или по уплотненным каналам связи. Сбор информации неразрывно связан с ее передачей, которая заключается в переносе информации на значительные расстояния путем дополнительного преобразования сообщений в сигналы, согласованные с выбранными каналами связи. Это согласование осуществляет аппаратура передачи данных, включающая в себя процедуры кодирования и декодирования сообщений, модуляции и демодуляции, автоматическую защиту от ошибок. В подсистеме хранения и обработки информации формируется управляющая информация, причем решения принимаются либо по детерминированным алгоритмам, либо с помощью человека (в последнем случае образуется человеко-машинный комплекс). Управляющая информация выдается на подсистему выдачи и воспроизведения информации, которая оказывает управляющее воздействие на объект управления. При организационно-экономическом управлении (АСУП, ОАСУ, РАСУ) носителем информации выступает документ, в случае управления технологическим процессом выходной информацией является электрический сигнал, воздействующий на исполнительные органы объекта управления. С помощью устройства воспроизведения отображается информация о ходе процесса, а также документы, выдаваемые с определенным периодом. Некоторые технические средства совмещают функции регистрации, сбора и передачи информации, другие – функции хранения, обработки и выдачи информации. При построении автоматизированной системы и выборе технических средств особое внимание уделяется качеству функционирования, которое оценивается двумя критериями – временем преобразования информации в каждом звене и верностью ее преобразования и обработки. В целом комплекс технических средств представляет собой техническое обеспечение, которое совместно с математическим, информационным и организационным обеспечением составляет совокупность обеспечивающих подсистем АСУ. 1.3. Процесс принятия решений В основе функционирования АСУ лежит процесс принятия решения. Выбор стратегии управления и принятия решений в реальной ситуации необходимо осуществлять, учитывая как данные о самой управляемой системе, так и состояние окружающей среды. Процесс принятия решения в АСУ имеет ярко выраженный информационный характер, так как основывается на процессах получения и предварительной обработки осведомляющей (контрольной) информации, ее хранения, выработки управляющих решений (формирования управляющей информации) при выбранных экономико-математических моделях и нормативных документах (рис. 1.2). Для оценки качества принимаемых решений вводится понятие функции потерь на каждом такте управления и определяется функция среднего риска при принятии решения как функция от характеристик системы. Необходимо выбрать такую стратегию управления, которая обеспечивала бы минимум среднего риска. При таком подходе задача оценки качества принятого решения в значительной степени совпадает с задачами теории информации, учитывающими наличие помех в исходном сообщении, в каналах связи и устройствах обработки и хранения информации. 1.4. Теория информации и автоматизированные системы В современной трактовке теория информации – это научная дисциплина, изучающая способы передачи и хранения информации в наиболее экономичном и удобном виде. Развитые К.Шенноном идеи кодирования при передаче сообщений по каналам с шумами, вопросы сокращения избыточности сообщенно были распространены в область алгебраической теории кодирования, построения оптимальных кодов, получения границ вероятностей ошибок и различных информационных пределов избыточности. Идеи теории информации стали применяться и для систем хранения информации. Методы, разработанные в теории информации, могут использоваться и для оценки качества функционирования автоматизированных систем. Так, модель канала с шумом переносится на функционирование технических средств, где вводится условный канал с шумом в виде отказов аппаратуры комплекса технических средств. Это позволяет получить ряд закономерностей, оценивающих качество функционирования технических систем. Присутствие человека в структуре автоматизированной системы привело к необходимости описания человека-оператора при создании информационной модели, позволяющей оценить качество функционирования системы на этапе проектирования. В территориально распределенных технических системах, вычислительных сетях, системах обмена информацией по-прежнему актуальны вопросы согласования канала связи с сигналом (выбора оптимальных методов кодирования и модуляции), оптимального распределения информационных потоков по сети, выбора оптимальных шкал дискретизации непрерывной информации по времени и уровню. В любой подсистеме преобразование информации происходит на фоне воздействия различного рода помех. Поэтому возникают задачи выделения непрерывной и дискретной информации на фоне шума. Кроме того, на современной теории информации базируются многие задачи выбора структуры информационных массивов, оптимизации длин блоков информации, выбора методов защиты информации, построения информационно-логических задач. Применение теории информации обеспечило в настоящее время решение задачи комплексной оценки качества функционирования систем обработки и хранения информации с учетом процессов первичной обработки информации, передачи ее по каналам связи с помехами, надежности функционирования технических средств при возмущающих воздействиях в виде отказов, сбоев и других неисправностей аппаратуры. 2. Основные понятия теории информации Теория информации занимается построением математических моделей систем передачи/хранения информации и последующим анализом этих моделей с целью определения путей повышения эффективности их функционирования. В основе построения таких моделей лежит статическое описание (статические модели) источников сообщений и каналов связи, на базе которого решается основная проблема любой системы связи: достижение максимальной скорости передачи информации при достаточно малой вероятности ошибок посредством применения специальных методов кодирования. Эта максимально возможная для данного канала скорость передачи называется пропускной способностью и выражается через введенную Шенноном величину, названную им количеством информации. Введенное в теории информации понятие количества информации* определяется только вероятностными свойствами передаваемых сообщений и ни от каких других их свойств не зависит, а именно: не учитываются ни семантические (смысл текста), ни прагматические (ценность, важность и своевременность информации) аспекты. Основная часть работ по теории информации носит математический характер, и теория, возникшая из практических потребностей техники связи, становится математической дисциплиной, что предопределило возможность более широкого толкования основных идей и выводов теории информации и их использование для решения самых различных практических задач, подчас весьма далеких от задач техники связи. Первые работы такого рода связаны применением теоретико-информационных идей и методов для решения задач радиолокации. Затем появляются многочисленные работы в других областях – в биологии, физиологии, психологии, в области автоматического управления и измерительной техники, телевидении. В последние годы появился ряд работ относящихся к информационным аспектам планирования эксперимента и социологии. * По проблеме ценности информации одной из первых была статья А.А.Харкевича «О ценности информации», 1960 г. Ценность информации измеряется через ее количество, необходимое для достижения поставленной цели. Рассчитывается приращение вероятности достижения цели. Дальнейшее развитие этого подхода лежит в рамках теории принятия решений (работы М.М.Бонгарда и Р.Л.Стратоновича). Общие идеи построения семантической теории информации были предложены еще Н.Винером. Количество семантической информации, извлекаемой из сообщения, зависит от степени подготовленности получателя к восприятию такой информации и оценивается степенью изменения его индивидуального тезауруса (объема знаний о предмете). 2.1. Модель системы связи С самой общей точки зрения на процесс передачи информации модель системы связи (которую можно также интерпретировать и как модель хранения информации, рассматривая процесс хранения информации как ее передачу во времени) может быть представлена совершенно простой, введенной еще Шенноном структурной схемой – рис. 2.1. Источник информации формирует сообщения о состоянии некоторого физического объекта/системы, подлежащие передаче потребителю. Если бы состояние объекта/системы было известно заранее, не было бы смысла передавать сообщение – оно не несло бы никакой информации. Сообщение* приобретает смысл – несет в себе определенную информацию только тогда, когда состояние наблюдаемого объекта заранее не известно потребителю, а, следовательно, полученное им сообщение – случайно. Иначе говоря, источник формирует сообщение в виде случайных последовательностей символов из фиксированного алфавита {x1 , x 2 ...x n } алфавита источника. Факт генерации источника одного из символов алфавита отождествляется с одним из возможных состояний этого источника. Источник и получатель информации разделены в пространстве и во времени. Система связи и устройство хранения, предназначенные для передачи информации в пространстве или во времени, называются каналом связи. Перед поступлением в канал сообщение подвергается преобразованию, называемому кодированием, которое всегда необходимо, если сообщение не является одним из возможных входов канала, например, текст не может быть непосредственно передан по радио. Если сообщение было закодировано на входе канала, то необходима соответствующая обработка выхода канала – декодирование сообщения с целью перевода переданной информации в форму, приемлемую для получателя. Устройства, осуществляющие кодирование и декодирование сообщений, называют кодером и декодером. Вообще говоря, процедура кодирования/декодирования может повторяться несколько раз, преследуя на каждом этапе различные цели, в частности, использоваться для * Сообщение – это информация, выраженная в определенной форме и подлежащая передаче. повышения надежности связи, поскольку работа канала несовершенна, что приводит к потере некоторого количества информации. Об этом явлении говорят как о шумах или помехах в канале, под воздействием которых в передаваемых сообщениях возникают ошибки. Основная проблема функционирования такой системы (рис. 2.1) заключается в определении предела допустимой скорости передачи при обеспечении заданной (максимальной) надежности связи. При выборе стохастической модели простейшим критерием точности передачи является вероятность ошибки. Скорость передачи информации зависит от других величин, одна из которых определяется свойствами источника, а вторая – свойствами канала. Первая величина названа количеством информации, производимой источником, а вторая – пропускной способностью канала. Таким образом, нужно прежде всего научиться измерять количественно объем передаваемой информации, пропускную способность канала связи и их чувствительность к помехам. Необходимо ввести количественное описание изучаемых процессов и определить некоторые математические закономерности. Если мы рассматриваем понятие информации, величины не скалярной лишь с точки зрения обеспечения надежной и быстрой ее передачи, то нам хотелось бы ввести такую меру ее количества, которая позволила бы качественно различные виды информации считать эквивалентными. В теории информации понятие количества информации связано с понятием неопределенности. Приобретение информации сопровождается уменьшением неопределенности, поэтому количество информации можно измерять количеством исчезнувшей (снятой) неопределенности. Величина, являющаяся мерой степени неопределенности в наступлении некоторого события, была названа Шенноном энтропией. Энтропия – базовое понятие в теории информации, определяющее сущность всей системы информационных представлений. 2.2. Понятие энтропии Первоначально идеи теории информации опирались на концепцию выбора из множества {x1 , x 2 ...x n } - однородной совокупности объектов/состояний. Факт получения информации связывается с фактом выбора одного из n возможных элементов множества (реализацией одного из возможных состояний). Количество получаемой при этом информации I ( X ) определялось количеством полностью устраненной в результате выбора неопределенности – энтропии H ( X ) : I(X ) H(X ) . (2.1) Мера неопределенности – энтропия вводилась исходя из эвристических предположений относительно следующих ее свойств. Неопределенность выбора тем больше, чем более многообразны были его первоначальные возможности (чем больше число n возможных исходов), т.е. H ( X ) f (n) , где f (n) - некоторая возрастающая неотрицательная функция. При наличии одного исхода выбора неопределенности не существует, т.е. f (1) 0 . Для определения вида функции f (n) использовался вполне естественный принцип аддитивности: энтропия объединенной системы/множества должна быть равна сумме энтропий объединяемых систем/множеств. Но число равноправных возможностей объединенной системы равно произведению числа возможностей n каждой из m объединяемых систем. Согласно принципу аддитивности при n 1 f ( n m ) m f ( n) . Обозначив X n m , имеем m ln X / ln n и, следовательно, f ( X ) k ln X , (2.2) где k f (n) / ln n - положительная константа, не зависящая от X , а связанная с выбором единиц измерения информации. Если положить k 1 , то энтропия будет измеряться в натуральных единицах (натах); если k 1 / ln 2 , то будем иметь энтропию, выраженную в двоичных единицах (битах): если k 1 / ln10 , то энтропия выражается в десятичных единицах (дитах). Таким образом, количественная оценка неопределенности была введена как функция логарифма числа n возможных состояний: H ( X ) log n . (2.3) Впервые логарифмическая мера информации была предложена Р. Хартли*, поэтому величина (2.3) в дальнейшем получила название меры Хартли. Логарифм в формуле (2.3) может быть взят по любому основанию 1 , выбор основания определяет единицу измерения. На практике обычно используют двоичные логарифмы – двоичные единицы измерения (биты), что хорошо согласуется с бинарной природой используемых в вычислительной технике элементов бинарным представлением информации. Энтропия в 1 бит представляет собой неопределенность элементарного выбора из двух возможных исходов. Дальнейшее развитие информационных представлений связано с работами К.Шеннона, посвященными решению проблем теории связи (передачи сообщений). С технической стороны вопроса передачи сообщений семантические аспекты связи не существенны, важным является то, что каждое частное сообщение является сообщением, выбранным из некоторого множества сообщений. Информация в этом смысле должна находиться в связи с понятием выбора из множества и неопределенности – энтропии, устраняемой в результате этого выбора. В качестве меры энтропии естественно взять предложенную Р. Хартли логарифмическую функцию от числа возможных сообщений. Далее это определение должно быть значительно обобщено за счет учета статистической структуры исходных сообщений или статистических свойств источника. X Пусть дискретный источник информации характеризуется определенным ансамблем состояний x1 , x2 ...xn . Каждому состоянию источника xi * Р. Хартли «Передача информации», 1928 г., перевод: в кн. «Теория информации и ее приложения», 1959 г. ставится в соответствие реализуемая в этом состоянии буква xi из алфавита источника. Вообще говоря, одни состояния/буквы источника реализуются чаще, а другие реже (например, генерация текстов на естественном языке). Априорные сведения о закономерностях реализации источником своих состояний могут быть выражены посредством вероятностей появления состояний: x2 ... xn x1 x x ... xi ... xn или X 1 2 , X p(x1) p(x2) ... p(xn) p1 p2 ... pi ... pn n причем n p( xi ) 1 или i1 p i 1. i1 Энтропия такой физической системы (источника) должна определяться не только числом ее возможных состояний, но и вероятностями состояний. Энтропия H ( X ) должна быть непрерывной функцией вероятностей состояний p1 , p2 ,..., pn (функционалом распределения вероятностей). Поскольку энтропия связывается только с фактом выбора, а не множеством конкретных значений наблюдаемых явлений, то совершенно неважно, какие именно значения имеют x1 , x2 ,..., xn ; важны только количество этих значений и их вероятности. Если же все pi равны, pi 1 / n , то H ( X ) должна быть монотонно возрастающей функцией от n . В случае равновероятных состояний xi возможностей выбора или неопределенности больше, чем в случае, когда имеются разновероятные состояния (имеются априорные сведения о свойствах источника). Поэтому наибольшее значение энтропии должно достигаться при равенстве вероятностей всех состояний. Еще одно условие состоит в том, что мера неопределенности не должна зависеть от пути выбора состояния в ансамбле. Если бы выбор распался на два (несколько) последовательных выбора, то первоначальная энтропия должна была бы быть взвешенной суммой индивидуальных значений энтропий. Существует единственная функция, удовлетворяющая трем перечисленным выше свойствам: n H ( X ) k pi log pi , (2.4) i 1 где k - некоторая положительная константа, определяющая выбор единицы измерения. Если ориентироваться на измерение неопределенности в двоичных единицах, то основание логарифма следует принять равным двум: n H ( X ) pi log pi . (2.5) i 1 Формула энтропии (2.5) была найдена К.Шенноном и в дальнейшем получила название меры Шеннона, хотя само понятие энтропии использовалось ранее в статистической термодинамике Л.Больцманом* как мера неопределенности * Энтропия, измеренная по физической шкале, имеет размерность энергии, деленной на температуру, в соответствии с чем в формулах (2.2) и (2.4) K k 1,38 10 6 (постоянная Больцмана). состояния совокупности молекул нагретого тела (замкнутого пространства). Информационная энтропия Шеннона не только совпадает с физической энтропией Больцмана по форме (совпадение формул), но и является фактически таковой как функция неопределенности любого случайного явления или процесса, характеризующая степень разнообразия его состояний. Рассмотрим взаимосвязь меры Шеннона с мерой Хартли. Если все состояния источника равновероятны, то вероятность каждого из них равна p( xi ) pi 1 / n , где i 1,2,..., n и формула Хартли легко может быть получена из формулы Шеннона. Но если мы не ограничим применимость формулы Хартли случаем равновероятных состояний, то формально равенство (2.3) можно записать в более общем виде H ( xi ) log 1 / n log pi . Получим, что каждому состоянию xi соответствует своя энтропия: H ( X ) log pi (2.6) - неопределенность, приходящаяся на одно конкретное состояние источника. Причем эта неопределенность конкретного исхода (реализации конкретного состояния) зависит от вероятности исхода. Энтропию (2.6) называют частной энтропией. Частная энтропия представляет собой случайную величину, зависящую от того, какое состояние источника в действительности реализуется. Тогда формула Шеннона это собственно неопределенность, усредненная по всему ансамблю состояний источника (математическое ожидание случайной величины log pi ) – неопределенность в среднем приходящаяся на одно состояние источника n H ( X ) M H ( xi ) pi log pi , (2.7) i 1 называемая средней энтропией или энтропией ансамбля. И в этом смысле мы можем рассматривать меру Шеннона как естественное обобщение меры Хартли на случай ансамбля с неравновероятными состояниями, позволяющую учесть статистические свойства источника информации. Величина H ( X ) обладает рядом интересных свойств, которые подтверждают, что она является разумной количественной мерой возможности выбора или мерой количества информации. 1. как частная (случайная), так и средняя энтропия есть величина вещественная и всегда неотрицательная, поскольку вероятность pi 1 и, следовательно, log pi 0 и pi log pi 0 , а постоянная k в (2.2) и (2.4) берется обязательно положительной; 2. частная энтропия H ( xi ) равна нулю только в том случае, если xi имеет вероятность 1. такое состояние можно рассматривать как неслучайное и известное заранее. То состояние имеет большую энтропию, которое имеет меньшую вероятность. Для состояния, вероятность которого равна нулю, энтропия H ( xi ) принимает бесконечное значение. В теории большую роль играет не случайная H ( xi ) , а усредненная H ( X ) энтропия. Энтропия H ( X ) любого дискретного ансамбля X - величина конечная. Энтропия H ( X ) равна нулю тогда и только тогда, когда все вероятности pi , кроме одной, равны нулю, а эта единственная вероятность равна единице. Очевидно при pi 1 pi log pi 0 . При pi 0 выражение вида pi log pi по непрерывности доопределяется как 0. Основанием для такого доопределения является соотношение lim ( pi log pi ) 0 , которое нетрудно получить, pi 0 воспользовавшись правилом Лопиталя для раскрытия неопределенности типа : log 1 / pi log 1 { 1 / pi } lim lim log e 0 . pi 0 1 / p i lim ( pi log pi ) lim pi 0 Энтропия H ( X ) имеет максимальное значение, равное log n , когда возможности (состояния) равновероятны, т.е. когда pi 1 / n . Это свойство является следствием неравенства Йенсена M f ( x ) f ( M x ) , справедливого для любой выпуклой (вверх) функции f (x) . Функция f ( x) ln x является выпуклой при x>0. Обозначив x 1 / pi , имеем n M x M 1 / pi pi / pi n , f ( M x) ln n ; i 1 1 M f ( x) M log M log pi H ( X ) . pi В результате получаем H ( X ) log n . (2.8) То, что энтропия равна нулю только в случае полной определенности исхода выбора, и максимальна, если все его возможности равновероятны, чувствуется также и интуитивно. 3. последнее свойство (2.8) справедливо для любой выпуклой функции. Свойство, специфическое для логарифмической функции, есть свойство, связанное с аддитивностью энтропии: энтропия объединения нескольких статистически независимых ансамблей (источников) равна сумме исходных энтропий. Пусть x2 x1 X p( x1 ) p( x2 ) y2 y1 Y p( y1 ) p ( y 2 ) xn n , p ( xi ) 1 ; ... p ( xn ) i1 ... ym m , p ( y j ) 1 ... p ( y m ) j 1 ... два статистически независимых источника информации (ансамбля). Под объединением двух источников X и Y понимают обобщенный источник информации (X,Y), состояния которого представляют собой все возможные комбинации состояний xi и y j исходных источников X и Y. Вероятности состояний источника (X,Y) есть вероятности p( xi y j ) совместной реализации состояний xi и y j . Число возможных состояний источника (X,Y) равно n m . Энтропия объединенного источника по определению равна n m H ( X , Y ) p ( xi , y j ) log p( xi , y j ) . (2.9) i 1 j 1 Вследствие независимости X и Y p( xi , y j ) p ( xi ) p( y j ) , поэтому n m H ( X , Y ) p( xi ) p ( y j ) log[ p( xi ) p ( y j )] i 1 j 1 n m m n p( xi ) log p ( xi ) p ( y j ) p ( y j ) log p( y j ) p ( xi ) i 1 n j 1 j 1 i 1 m p( xi ) log p ( xi ) p( y j ) log p ( y j ) H ( X ) H (Y ) . i 1 j 1 Таким образом, H(X,Y)=H(X)+H(Y). (2.10) Рассмотренное свойство (2.10) является проявлением принципа аддитивности, который был взят за основу при определении энтропии и привел к логарифмической функции. Оно легко обобщается на случай нескольких независимых источников (ансамблей) X 1 , X 2 ,..., X N : H ( X 1 , X 2 ,..., X N ) H ( X 1 ) H ( X 2 ) ... H ( X N ) . (2.11) Пример 2.1. Пусть X {x1 , x2 } - двоичный ансамбль и p( x1 ) p и p ( x2 ) 1 p . Энтропия ансамбля X является функцией одной переменной p H ( X ) p log p (1 p ) log(1 p) (2.12) Эта функция показана на рисунке 2.2. Энтропия двоичного ансамбля изменяется от нуля до единицы, достигая максимума при равенстве вероятностей: p( x1 ) p p( x2 ) 1 p 0,5. (2.12) При p (1 p ) частная неопределенность H ( x1 ) велика, однако такие состояния весьма редки. Состояния x2 реализуются часто, но неопределенность H ( x2 ) очень мала. Поэтому энтропия H ( X ) ,характеризующая среднюю неопределенность на одно состояние ансамбля, также мала. Аналогично при p>>(1 – p) . В точках p=0 и p=1 энтропия H ( X ) по непрерывности доопределяется до нуля. Пример 2.2. Источник информации формирует сообщение длиной m=5 символов из алфавита объемом n=32 символа. Определить максимально возможную энтропию источника (энтропию, в среднем приходящуюся на один символ) и энтропию сообщения (энтропию, в среднем приходящуюся на одно сообщение). Энтропия источника X будет максимальной, если все его символы равновероятны. По формуле Хартли H ( X ) log n 5 бит . Энтропия ансамбля Y сообщений будет максимальной, если все сообщения равновероятны. Число возможных сообщений равно n m 32 5 . По формуле Хартли H (Y ) log n m m log n 25 бит . Если символы источника не равновероятны, то энтропия источника по формуле Шеннона равна n H ( X ) p ( xi ) log p( xi ) , (2.13) i 1 и энтропия сообщения, если его символы статистически независимы, равна n H (Y ) m p( xi ) log p( xi ) . (2.14) i 1 Концепция выбора Хартли-Шеннона в определении понятий энтропии и мер ее количества является хотя и удобной, но не единственной. В общей теории информации сформировался более широкий взгляд на энтропию. Смысл основного для теории информации понятия энтропии опирается на факт многообразия, которое, по-видимому, следует считать неотъемлемым качеством реального мира. Энтропия есть отражение этого многообразия в нашем понимании его и мера многообразия. Эти общие информационные представления в различных приложениях приобретают различные конкретные формы. Энтропию в некоторых отношениях оказывается целесообразным рассматривать как меру неопределенности выбора равновероятного (мера Хартли) или неравновероятного (мера Шеннона), как меру степени неупорядоченности или хаотичности физической системы. (мера Больцмана). Энтропия может служить мерой сложности конструктивного объекта, определяемой минимальной длиной описывающего этот объект алгоритма (алгоритмическая теория информации А.Н.Колмогорова). В связи с проблемой различения гипотез плодотворным оказалось использование меры С.Кульбака, выражаемой через так называемые «расхождения». В задачах экспериментальных исследований используется мера Р.Фишера, выражающая количество информации через функционал от условного выборочного распределения (функцию правдоподобия). И это далеко не полный перечень. Многие из известных мер информации и энтропии могут быть взаимно соотнесены друг с другом, например, мера Хартли и мера Шеннона, мера Шеннона и мера Больцмана. Некоторые из них занимают относительно обособленное место, свидетельство тому – алгоритмическая концепция Колмогорова. Но независимо от конкретных форм и предпосылок тех или иных мер информации и энтропии все они имеют смысл лишь до тех пор, пока имеет место неопределенность, неожиданность, многообразие. 2.3. Условная энтропия При оценке неопределенности выбора часто необходимо учитывать статистические связи, которые в большинстве случаев имеют место как между состояниями, последовательно выбираемыми одним источником, так и между состояниями двух или нескольких объединяемых источников/ансамблей. Чтобы найти энтропию ансамбля, составленного из зависимых элементов, нужно ввести новое понятие условной энтропии. Рассмотрим энтропию (2.9) объединения двух зависимых ансамблей n m H ( X , Y ) p ( xi , y j ) log p ( xi , y j ) . i 1 j 1 Вероятности p( xi , y j ) совместной реализации взаимозависимых состояний xi и y j можно выразить через условные вероятности p( xi / y j ) или p( y j / xi ) : p( xi , y j ) p( xi ) p ( y j / xi ) ; p ( xi , y j ) p ( y j ) p ( xi / y j ) , где p( xi / y j ) - вероятность реализации состояния xi ансамбля X при условии, что состояние y j ансамбля Y уже реализовано; p( y j / xi ) - вероятность реализации состояния y j ансамбля Y при условии, что реализовано состояние xi ансамбля X. n m H ( X , Y ) p ( xi ) p( y j / xi ) log p ( xi ) p( y j / xi ) i 1 j 1 n m n m p( xi ) log p( xi ) p( y j / xi ) p ( xi ) p ( y j / xi ) log p( y j / xi ). i 1 j 1 i 1 j 1 m Имея в виду, что p( y j / xi ) 1 , получаем j 1 n H ( X ,Y ) i 1 n p ( xi ) log p( xi ) m p ( xi ) i 1 p( y j / xi ) log p( y j / xi ). j 1 n Первая сумма p( xi ) log p( xi ) есть энтропия ансамбля X. Проанализируем, i 1 что собой представляет вторая часть формулы для энтропии H ( X , Y ) . С условной вероятности p( y j / xi ) по аналогии с (2.6) сопоставим частную условную энтропию H ( y j / xi ) log p ( y j / xi ) , (2.15) характеризующую неопределенность, приходящуюся на одно конкретное состояние y j ансамбля Y при условии, что в ансамбле X реализовано состояние xi . Эта частная неопределенность, как и раньше, представляет собой случайную величину, зависящую от того, какие состояния в действительности реализуются. Математическое ожидание этой случайной величины n H (Y / xi ) M [ H ( y j / xi )] p ( y j / xi ) log p( y j / xi ) i1 (2.16) называется частной условной энтропией ансамбля Y относительно некоторого состояния xi ансамбля X и также представляет собой случайную величину, но характеризующую неопределенность, в среднем приходящуюся на одно состояние ансамбля Y при условии, что в ансамбле X реализовано состояние xi . Условная энтропия H (Y / xi ) зависит от того, какое состояние xi реализовано; для одних состояний она будет больше, для других – меньше. При дальнейшем усреднении, уже по всем возможным состояниям ансамбля X, получим полную условную энтропию ансамбля Y относительно ансамбля X. n m H (Y / X ) M [ H (Y / xi )] p ( xi ) p ( y j / xi ) log p ( y j / xi ) i 1 n j 1 m p ( xi , y j ) log p( y j / xi ) i 1 j 1 неопределенность, в среднем приходящуюся на одно состояние ансамбля Y при условии, что в ансамбле X реализовано какое-то одно из его возможных состояний. Иначе говоря, условная энтропия H (Y / X ) характеризует степень неопределенности для Y, остающуюся после того, как состояние X полностью определилось. Пользуясь понятием условной энтропии, можно определить энтропию объединенной системы через энтропии ее составных частей: H ( X , Y ) H ( X ) H (Y / X ) (2.18) или, выражая в (2.9) p( xi y j ) через другую условную вероятность: H ( X , Y ) H (Y ) H ( X / Y ) . (2.19) Таким образом, энтропия объединения двух статически связанных ансамблей X и Y равна безусловной энтропии одного ансамбля плюс условная энтропия другого относительно первого. Обобщая понятие условной энтропии на случай N совместно заданных зависимых ансамблей X 1 , X 2 ,..., X n , нетрудно найти, что H ( X 1 , X 2 ,..., X n ) H ( X 1 ) H ( X 2 / X 1 ) H ( X 3 / X 2 X 1 ) ... H ( X N / X N 1... X 1 ) (2.20) Это свойство [(2.18), (2.19), (2.20)] является проявлением того простого принципа аддитивности, который был принят в п. 2.2. Оно является следствием выбора логарифмической функции в определении энтропии (2.2), (2.4). Легко понять, что из этого свойства вытекает свойство аддитивности (2.10), (2.11). В самом деле, для независимых случайных величин условная вероятность совпадает с безусловной. Логарифмируя эти вероятности, имеем H ( xi / y j ) H ( xi ) или H ( y j / xi ) H ( y j ) , после усреднения H ( X / Y ) H ( X ) или H (Y / X ) H (Y ) . Следовательно, равенства H ( X , Y ) H ( X ) H (Y / X ) и H ( X , Y ) H (Y ) H ( X / Y ) обращаются в H ( X , Y ) H ( X ) H (Y ) . Рассуждения легко обобщить на случай нескольких совместно заданных ансамблей X 1 , X 2 ,..., X n . Рассмотрим, в каких пределах могут изменяться условная энтропия и энтропия объединения двух ансамблей X и Y. Воспользуемся еще раз неравенством Йенсена M f ( x ) f ( M x ) для функции f ( x) ln x . Положим x p ( xi ) / p ( xi / y j ) и будем проводить усреднение с весом p( xi / y j ) : n M [ x] p( xi / y j ) i 1 n p ( xi ) p ( xi ) 1, f ( M [ x]) ln 1 0 ; p( xi / y j ) i 1 n M [ f ( x)] p( xi / y j ) log i 1 p ( xi ) , и, следовательно, p ( xi / y j ) n n p ( xi / y j ) log p ( xi / y j ) p( xi / y j ) log p ( xi ) . i 1 i 1 Усреднение этого неравенства по всем y j с весом p( y j ) приводит к неравенству n m n m p ( xi , y j ) log p ( xi / y j ) p( xi , y j ) log p ( xi ) i 1 j 1 n i 1 j 1 m n p( xi ) log p( xi ) p ( y j / xi ) p( xi ) log p( xi ), i 1 то есть j 1 i 1 * H(X /Y ) H(X ) H (Y / X ) H (Y ) . (2.21) Из соотношений (2.18), (2.19), (2.21) следует, что H ( X , Y ) H ( X ) H (Y ) . (2.22) Равенство в (2.21), (2.22) достигается, если ансамбли X и Y статистически независимы. Рассмотрим случай, когда между ансамблями X и Y имеется жесткая зависимость, но односторонняя: состояние одного полностью определяет состояние другого, но не наоборот. Если состояние X полностью определяется состоянием Y, то X называют подчиненной системой, для нее H ( X / Y ) 0 , так как условные вероятности p ( xi / y j ) в этом случае принимают значения, равные нулю или единице, и, следовательно, все слагаемые, входящие в выражение для частной условной энтропии H ( X / y j ) , равны нулю, а тогда и условная энтропия H ( X / Y ) равна нулю. Однако по состоянию подчиненной системы нельзя однозначно определить состояние другой, т.е. H (Y / X ) 0 . Поэтому H ( X , Y ) H (Y ) , (2.23) энтропия объединения равна энтропии определяющей системы. Очевидно, энтропия подчиненной системы меньше энтропии системы, которой она подчинена. Если состояние каждого из ансамблей X, Y однозначно определяет состояние другого, то они называются эквивалентными и для них H ( X ) H (Y ) и H ( X / Y ) 0, H (Y / X ) 0 . Поэтому энтропия объединения равна H ( X , Y ) H ( X ) H (Y ) . (2.24) * Аналогично доказывается, что H(X/YZ) H(X/Y), при добавлении условий условная энтропия не увеличивается. Уяснению соотношений между рассмотренными энтропиями дискретных ансамблей (источников информации) способствует их графическое отображение (рис. 2.3). Пример 2.3. Пусть X {x1 , x2 ,..., xn } - ансамбль сообщений на входе канала связи, Y { y1 , y2 ,..., yn } - ансамбль сообщений на его выходе. Ансамбли X и Y – статистически зависимы, но в силу наличия шума в канале не эквивалентны. Задана матрица вероятностей p( xi , y j ), (i 1,2,..., n; j 1,2,..., m) , совместного появления сообщений xi , y j на входе и выходе канала – матрица системы, объединяющей ансамбли X, Y: 0,1 0,1 P( X , Y ) 0 0,2 0 0 0 0,1 . 0,2 Определить условные и безусловные энтропии ансамблей X, Y, а также энтропию их объединения. Безусловные вероятности для каждого ансамбля сообщений могут быть вычислены как суммы совместных вероятностей по строкам и столбцам заданной матрицы P(Y) 0,1 0,1 0 P( X , Y ) 0 0,2 0,1 , 0,5 0,3 0 0,2 0 0,2 P( X ) 0,4 0,3 0,3 ; 3 H ( X ) p ( xi ) log p( xi ) (0,4 log 2 0,4 0,3 log 2 0,3 0,3 log 2 0,3) 1,57бит; i1 3 H (Y ) p ( y j ) log p( y j ) (0,5 log 2 0,5 0,3 log 2 0,3 0,2 log 2 0,2) 1,485бит. j 1 Для определения условных энтропий ансамблей X, Y необходимо найти условные вероятности p ( xi / y j ) и p ( y j / xi ) , для чего используем следующие соотношения: p ( xi / y j ) p ( xi , y j ) p( y j ) ; p ( y j / xi ) p ( xi , y j ) p ( xi ) . Матрицы условных вероятностей: 0,8 P( X / Y ) 0 0 3 0,2 0 1 0,33 0 0,67 0,33 ; P(Y / X ) 0 0,67 0,33 ; 0 1 0 0 0,67 3 H ( X / Y ) p ( xi , y j ) log p ( xi / y j ) (0,4 log 2 0,8 0,1 log 2 0,2 i 1 j 1 0,2 log 2 0,67 0,1 log 2 0,33) 0,635 бит; 3 3 H (Y / X ) p ( xi , y j ) log p ( y j / xi ) (0,1 log 2 0,33 0,2 log 2 0,67 i 1 j 1 0,1 log 2 0,33 0,2 log 2 0,67) 0,55 бит; 3 3 H ( X , Y ) p ( xi , y j ) log p ( xi , y j ) (0,4 log 2 0,4 0,1 log 2 0,1 i 1 j 1 0,2 log 2 0,2 0,1 log 2 0,1 0,2 log 2 0,2) 2,12 бит. Проверим результат по формулам H ( X , Y ) H ( X ) H (Y / X ) 1,57 0,55 2,12 бит; H ( X , Y ) H (Y ) H ( X / Y ) 1, 485 0,635 2,12 бит . Пример 2.4. Известны энтропии двух зависимых ансамблей H ( X ) 5бит , H (Y ) 10бит . Определить, в каких пределах будут изменяться условные энтропии этих ансамблей и энтропия объединения. При решении удобно использовать графическое отображение связи между энтропиями ансамблей X, Y (рис. 2.3). Искомые энтропии достигают максимального значения при отсутствии взаимосвязи между X и Y (рис. 2.3а). В этом случае H ( X / Y ) H ( X ) 5бит , H (Y / X ) H (Y ) 10бит и H ( X , Y ) H ( X ) H (Y ) 15бит . По мере увеличения взаимосвязи между X и Y (рис. 2.3б) значения энтропий H(X,Y), H(X,Y), H(Y/X) будут уменьшаться до тех пор, пока X не станет подчиненной для Y (рис.2.3в). В этом случае H(X/Y)=0, H(X,Y)=H(Y)=10 бит, H (Y / X ) H ( X , Y ) H ( X ) H (Y ) H ( X ) 5бит. 2.4. Количество информации как мера снятой неопределенности В настоящем параграфе рассмотрим введенное Шенноном понятие количества информации как разность априорной и апостериорной (условной) энтропий. Передача сообщений в канале связи (рис. 2.1) обычно сопровождается помехами или искажениями. Вследствие случайных искажений сообщение на одном, передающем конце канала, вообще говоря, отличается от сообщений на другом, приемном конце (в запоминающем устройстве сделанная в некоторый момент времени запись также через определенное время может исказиться). Мы можем судить по результирующему сообщению об исходном с некоторой долей вероятности, если между ними имеется определенная статистическая зависимость, описываемая соответствующими условными вероятностями – вероятностями перехода, выражающими наши знания о помехах. Сообщения, формируемые дискретным источником информации, представляют собой последовательности символов из алфавита источника – элементов сообщения. Каждому элементу сообщения соответствует определенное состояние источника (первичный сигнал). В данном параграфе количество информации рассматривается применительно к передаче отдельных статистически несвязанных элементов сообщения. Дискретный источник сообщений при этом полностью характеризуется ансамблем x X 1 p ( x1 ) x2 ... xn . p ( x2 ) ... p ( xn ) Вследствие воздействия помех полученный элемент сообщения в общем случае отличается от переданного. Обозначим ансамбль принятых элементов y Y 1 p( y1 ) Помехи y2 ... ym . p ( y 2 ) ... p ( ym ) описываются совокупностью условных вероятностей p( xi / y j ),1 i n,1 j m , того, что был послан элемент xi при принятом элементе yj . Рассмотрим, какое количество информации относительно некоторого конкретного элемента xi мы получим в результате приема элемента y j . Ранее мы связали понятие количества информации с неопределенностью выбора из ансамбля (с понятием энтропии), определив эту информацию как величину устраняемой в результате выбора, снятой неопределенности. Априори (до получения элемента сообщения) частная неопределенность появления (выбора) элемента сообщения xi H ( xi ) log p( xi ) , (2.25) где p( xi ) - априорная вероятность появления элемента xi . Энтропию (2.25) в подобной интерпретации называют априорной энтропией элемента ансамбля. Воздействие помех приводит к искажению передаваемых сообщений и потере информации. В результате после приема сообщения неопределенность не устраняется полностью. Частная неопределенность, оставшаяся у адресата относительно выдачи источником элемента сообщения xi апостериори (после получения элемента y j ), определяется значением условной или апостериорной вероятности p( xi / y j ) реализации источником элемента xi : H ( xi / y j ) log p ( xi / y j ) (2.26) и называется апостериорной энтропией элемента ансамбля. Изменение энтропии под влиянием полученных сведений и есть информация. Определим частное количество информации, получаемое при приеме элемента сообщения y j относительно некоторого реализованного источником элемента сообщения xi , как разность частных неопределенностей, имевшихся у адресата до и после получения элемента сообщения (априорной и апостериорной): I ( xi / y j ) H ( xi ) H ( xi / y j ) log p( xi / y j ) p ( xi ) (2.27) В некотором смысле это информация об xi , содержащаяся в y j . Частное количество информации (2.27) может принимать различные по знаку и величине конечные и бесконечные значения. Количество информации растет с уменьшением априорной и увеличением апостериорной вероятностей реализации источником элемента сообщения xi , что находится в полном соответствии с нашими интуитивными представлениями. В зависимости от соотношения априорной и апостериорной вероятностей количество информации I ( xi / y j ) может быть положительным, если после приема элемента сообщения y j вероятность реализации источником элемента xi увеличилась, отрицательной, если эта вероятность уменьшилась, и нулевой, если знание принятого элемента сообщения y j не меняет вероятности передачи элемента xi . Если апостериорная вероятность p( xi / y j ) равна нулю, то частное количество информации бесконечно велико и отрицательно. В случае отсутствия помех в канале вероятность p( xi / y j ) 1 и по принятому элементу сообщения можно однозначно судить о переданном. Апостериорная энтропия в этом случае равна нулю, и, следовательно, количество информации, содержащееся в конкретном элементе сообщения, равно априорной энтропии этого элемента: I ( xi ) H ( xi ) log p ( xi ) . (2.28) Это так называемая собственная информация элемента ансамбля – максимально возможное количество информации, которое можно передать с помощью этого элемента (в случае отсутствия помех). Формулу (2.27), используя соотношение p( xi , y j ) p( y j ) p( xi / y j ) , можно записать также в следующем виде: I ( xi , y j ) log p ( xi , y j ) p( xi ) p ( y j ) ,* (2.29) откуда видно, что количество информации, содержащееся в y j об xi , равно количеству информации, содержащемуся в xi об y j , вследствие * Заметим, что значение количества информации или условной энтропии может быть не определено. Неопределенности не возникает, если для любой пары ( x i , y j ), i 1, 2,..., n, j 1, 2,..., m , выполняются условия p( xi ) 0 , p( y j ) 0 . Мы исключаем из рассмотрения элементы xi X , y j Y , вероятности которых равны нулю. симметричности формулы (2.29) относительно xi и y j . Величину (2.29) называют взаимной информацией между элементами xi и y j связанных ансамблей X и Y. Взаимную информацию I ( xi , y j ) , являющуюся функцией частных исходов xi , y j , модно рассматривать как случайную величину на ансамбле и вводить для нее различные числовые характеристики, в частности математическое ожидание. Зафиксировав некоторый элемент сообщения y j Y , проведем усреднение случайной величины I ( xi , y j ) по ансамблю {xi , p ( xi / y j )} , 1 i n . Соответствующее математическое ожидание n n I ( X / y j ) M [ I ( xi , y j )] p ( xi / y j ) I ( xi , y j ) p ( xi / y j ) log i 1 i 1 n p( xi / y j ) log i 1 p ( xi , y j ) p ( xi ) p ( y j ) p ( xi / y j ) (2.30) p( xi ) представляет собой количество информации, содержащееся в среднем в конкретном принятом элементе сообщения y j относительно любого переданного, и называется взаимным количеством информации между ансамблем X и элементом y j ансамбля Y. Аналогичным образом можно определить взаимную информацию между ансамблем Y и элементом ансамбля X. Усредненная информация I ( X / y j ) , в отличие от частной информации I ( xi , y j ) , является величиной неотрицательной. Докажем это, используя очевидное неравенство для натурального логарифма: (2.31) ln x x 1 , где равенство имеет место только при x 1 (рис. 2.4). Полагая x p ( xi ) / p ( xi / y j ) , получаем ln p( xi ) p( xi ) 1 p( xi / y j ) p( xi / y j ) или ln p ( xi / y j ) p ( xi ) 1 p( xi ) . p( xi / y j ) Перейдем к двоичному логарифму: ln p ( xi / y j ) p ( xi ) 1 p( xi ) 1 . ln 2 p ( xi / y j ) Если это неравенство усреднить по xi с весом p( xi / y j ) - взять условной математическое ожидание, то будем иметь n I ( X / y j ) p ( xi / y j ) log i 1 p ( xi / y j ) p ( xi ) p ( xi ) 1 n p ( xi / y j ) 1 ln 2 i1 p ( xi / y j ) n 1 n p ( x / y ) p( xi ) 0 , i j ln 2 i 1 i 1 n так как n p( x ) 1 и p( x / y ) 1 . Таким образом i i i1 j i1 (2.32) Взаимная информация I ( X / y j ) зависит от выбора элемента y j и также может быть рассмотрена как случайная величина на ансамбле {yj, p(yj)}, 1 j m . Соответствующее математическое ожидание I(X / yj) 0 m I ( X , Y ) M [ I ( X / y j )] p ( y j ) I ( X / y j ) j 1 n m p ( xi / y j ) p ( y j ) log p ( xi / y j ) p( xi ) i 1 j 1 n m p ( xi , y j ) log i 1 j 1 p ( xi , y j ) p ( xi ) p ( y j ) (2.33) представляет собой среднее количество информации, содержащееся в каждом принятом элементе сообщения относительно любого переданного, и называется полным (средним) взаимным количеством информации между ансамблями X и Y. Заметим, среднюю взаимную информацию I ( X , Y ) между ансамблями X и Y можно определить так же, как математическое ожидание случайной величины I ( xi , y j ) на ансамбле {( xi , y j ), p ( xi , y j )} , 1 i n,1 j m . Поскольку мы определили количество информации как разность априорной и апостериорной энтропий, установим справедливость этого тезиса для среднего количества информации I ( X , Y ) : n i 1 j 1 n p ( xi , y j ) m I ( X , Y ) p( xi , y j ) log m n p( xi ) p ( y j ) m p ( xi , y j ) log p ( xi ) p( xi , y j ) log p( xi / y j ) i 1 j 1 n i 1 j 1 m n m p ( xi ) p( y j / xi ) log p ( xi ) p ( xi , y j ) log p ( xi / y j ) i 1 j 1 i 1 j 1 n m n m p( xi ) log p( xi ) p ( y j / xi ) p ( xi , y j ) log p ( xi / y j ) i 1 j 1 n n p( xi ) log p( xi ) i 1 i 1 j 1 m p( xi , y j ) log p( xi / y j ) H ( X ) H ( X / Y ) i 1 j 1 Таким образом, I ( X ,Y ) H ( X ) H ( X / Y ) , (2.34) где H(X) – априорная энтропия ансамбля X; H(X/Y) – апостериорная энтропия ансамбля X при условии, что в ансамбле Y реализовано одно из его состояний. Выражение для количества информации I ( X , Y ) можно определить через энтропию объединения ансамблей: I ( X , Y ) H ( X ) H (Y ) H ( X , Y ) . (2.35) На рис. 2.5 представлено наглядное графическое отображение соотношений, имеющихся между величинами H(X), H(Y), H(X/Y), H(Y/X),I(X,Y). Обычно, если частный характер количества информации специально не оговаривается, то имеется в виду количество информации, приходящееся в среднем на один элемент сообщения, - величина I(X,Y). Рассмотрим основные свойства количества информации: 1. Средняя взаимная информация между двумя ансамблями X,Y есть величина неотрицательная, поскольку взаимная информация (2.32) между элементом ансамбля Y, вероятность которого отлична от нуля, и ансамблем X неотрицательна, т.е. I ( X ,Y ) 0 . (2.36) Отсюда вытекает уже доказанное нами ранее свойство энтропий: H(X /Y ) H(X ) . 2. Равенство в (2.36) достигается в случае, когда ансамбли X и Y статистически несвязны и, следовательно, H ( X / Y ) H ( X ) : I ( X ,Y ) 0 , (2.37) что соответствует очень высокому уровню помех в канале. 3. Если помехи в канале полностью отсутствуют, то есть имеет место взаимно однозначное соответствие между множествами передаваемых X и принимаемых Y элементов сообщений – системы эквивалентны, то апостериорная энтропия равна нулю и H ( X ) H (Y ) , а количество информации численно совпадает с энтропией ансамблей: I ( X , Y ) H ( X ) H (Y ) . (2.38) Это максимально возможное количество информации, которое в среднем можно передать с помощью одного элемента сообщения. 4. Если между ансамблями X и Y имеет место односторонняя зависимость, и пусть подчиненной является система элементов X, тогда H ( X / Y ) 0 и I ( X ,Y ) H ( X ) , (2.39) взаимная информация равна энтропии подчиненной системы. 5. Без доказательства отметим одно из важнейших свойств средней взаимной информации, состоящее в том, что информация не увеличивается при преобразованиях. Для любого отображения z (x) ансамбля X в ансамбль z I ( X ,Y ) I (Z ,Y ) . (2.40) Причем равенство имеет место всегда, когда отображение обратимо, т.е. каждому элементу z Z соответствует единственный элемент x X . Свойство невозрастания информации при преобразованиях имеет следующее физическое истолкование. Никакая обработка наблюдений (на входе или выходе канала), при которой происходит детерминированное или случайное их преобразование, не может увеличить средней информации об интересующем нас объекте. Информация сохраняется, если преобразование обратимо. Пример 2.5.Продолжим рассмотрение примера 2.3 и определим некоторые информационные характеристики передаваемых сообщений. Определим среднее количество информации, получаемое при передаче сообщения по заданному каналу: I ( X ,Y ) H ( X ) H ( X / Y ) 1,57 0,635 0,935бит . Определим, какое количество информации будет получено, если на выходе канала зафиксировано сообщение y3: 3 p( x / y) p( x / y ) p( x / y ) log p( x) p ( x) i 1 log p ( x) log 0,3 1,737бит. I ( X / y3 ) p ( x / y ) log Определим, какое сообщение было послано, если на выходе канала зафиксировано сообщение y2. Поскольку передача происходит в условиях воздействия помех, то можно говорить лишь о том, какое сообщение было передано с наибольшей достоверностью. Оценим эту достоверность путем определения количества информации, которое содержится в принятом сообщении y2 относительно переданного xi. наиболее достоверным будем, очевидно, считать то xi, относительно которого содержится наибольшее количество информации в y2. Найдем наибольшее значение частного количества информации max I ( xi / y 2 ) max log xi xi p ( xi / y 2 ) . p( xi ) Поскольку логарифм является монотонной функцией аргумента, то для определения максимума логарифма достаточно найти максимум его аргумента: p ( xi / y2 ) . max x i p ( xi) Используя свойство взаимности частной информации, определяем p ( y 2 / xi ) или max p ( y 2 / x i ) . max xi p( y2 ) xi Взглянув на матрицу условных вероятностей { p ( y j / x i )} i , j 1, 3 , определим, что наиболее вероятно переданным является сообщение x 2 . Пример 2.6. Источник информации X может находиться в одном из четырех состояний x1, x2, x3, x4, со следующим распределением вероятностей: x 2 x3 x 4 x . X 1 0 ,1 0,2 0,4 0 ,3 Вследствие воздействия помех состояния x1 и x2, а также x3 и x4 неразличимы на выходе канала, т.е. возможно получение двух сообщений: y1 – источник информации находится в состоянии x1 или x2, y2- источник информации находится в состоянии x3 или x4. Получено сообщение, указывающее, в каком из состояний: x1, x2 или x3 ,x4- находится источник. Определить информацию, заключенную в этом сообщении. В данном примере ансамбль выходных сообщений Y={y1,y2} является подчиненной системой ансамбля сообщений на входе канала X={x1 x2 x3 x4}. Средняя взаимная информация равна энтропии подчиненной системы: I(X,Y)=H(Y). Поскольку p(y1)=p(x1)+p(x2)=0,3; p(y2)=p(x3)+p(x4)=0,7, имеем 2 I ( X , Y ) p ( y j ) log p ( y j ) 0 ,3 log 0 ,3 0 , 7 log 0 ,7 0 ,88 бит j 1 2.5. Энтропия и информация для непрерывных ансамблей и источников Все предыдущее рассмотрение относилось к случаю дискретных ансамблей X с фиксированным множеством состояний x1, x2,…, xn, что соответствует понятию дискретной случайной величины x, принимающей конечное множество значений x1, x2,…, xn с вероятностями p(x1), p(x2),..., p(xn). Дискретные ансамбли (дискретные случайные величины) являлись вероятностными моделями источников сообщений. Но класс дискретных источников не исчерпывает всего многообразия источников, встречающихся на практике. Существует немало и таких систем, в которых информация передается в форме непрерывных сообщений. Примерами могут служить системы телефонной связи и телевидения. Информационный анализ таких систем имеет определенную специфику. Моделью непрерывного источника X, множество возможных состояний которого составляет континуум, в наиболее простом случае может служить непрерывная случайная величина x, область значений которой представляет собой некоторое множество действительных чисел. Вероятность того, что случайная величина x, примет одно из своих значений xi (вероятность каждого отдельного состояния) равна нулю и, следовательно, собственная информация или энтропия таких источников бесконечна. С физической точки зрения бесконечно большая энтропия соответствует тому, что всякая непрерывная случайная величина принимает бесконечное число значений, каждое из которых можно рассматривать как некоторое состояние источника. Таким образом, непрерывные случайные объекты не допускают введения конечной абсолютной меры неопределенности. Однако можно ввести некоторые аналоги энтропий в непрерывном случае и получить для них похожие представления, основанные на дискретизации непрерывных ансамблей и последующем предельном переходе. Непрерывным ансамблем X будем называть ансамбль {x,f(x)}, задаваемый некоторой случайной величиной x и функцией f(x) распределения вероятностей случайной величины x – плотностью вероятностей. Функция f (x) характеризует как бы плотность, с которой распределяются значения случайной величины в данной точке, т.е. вероятность попадания случайной величины x на некоторый бесконечно малый интервал dx с центром в точке x равна f(x)dx, соответственно Рис.2.6. Дискретизация непрерывной случайной величины x с плотностью вероятностей f(x) f ( x ) dx 1 . Заменим непрерывную случайную величину x дискретной случайной величиной, установив некоторый предел точности измерения значений случайной величины x. Для этого разобьем область значений случайной величины x на конечное (или счетное) число малых интервалов x (рис. 2.6). В пределах каждого i-го интервала (xi, xi+ x ) непрерывная случайная величина x будет представлена одним значением xi, вероятность которого p(xi)=p(xi x<xi+ x ) приблизительно равна f ( xi )x . Теперь можно воспользоваться формулой Шеннона для приближенной оценки энтропии случайной величины x или ансамбля X: H (X ) i f ( x i ) x log f ( x i ) x f ( x i ) log f ( x i ) x log x f ( x i ) x i i Значение энтропии, вычисленное по этой формуле, тем точнее, чем меньше интервалы дискретизации x . Переходя к пределу при x 0 , получаем следующее выражение для энтропии непрерывного ансамбля (источника): H ( X ) f ( x ) log f ( x)dx lim log x . x 0 (2.41) Энтропия непрерывного ансамбля H (x) стремится к бесконечности при неограниченном уменьшении интервала x , т.е. при обеспечении бесконечно высокой точности различения значений величины x. Но в реальной жизни непрерывные величины всегда измеряются и воспринимаются приближенно, с ограниченной точностью. Поэтому в последнем выражении интервалу x вполне логично придать смысл некоторого интервала неопределенности, которым характеризуется измеряющая аппаратура, или шага квантования возможных значений непрерывной величины, т.е. так или иначе считать интервал x конечным. В этом случае при достаточно малых x выражение для энтропии непрерывного ансамбля примет следующий вид: H ( X ) f ( x) log f ( x )dx log x . (2.42) Первый член в правой части этого выражения h( X ) f ( x) log f ( x )dx - (2.43) величина конечная, не зависящая от x и имеющая структуру энтропии. Эта величина h( X ) , определяемая только функцией плотности вероятности – дифференциальным законом распределения, получила название * дифференциальной энтропии и используется в качестве относительной меры неопределенности для непрерывных ансамблей и источников. В качестве стандарта берут равномерное распределение на интервале единичной длины, тогда h( X ) есть средняя неопределенность выбора случайной величины x с произвольным законом распределения f (x) по сравнению со средней неопределенностью выбора случайной величины, имеющей равномерное распределение на единичном интервале. * Для h( X ) в литературе можно встретить названия приведенной или относительной энтропии. Рассмотрим случайную величину распределения на интервале ( , ) : 1 f (x ) 0 x* с равномерной плотностью , если x ( , ); * в остальных случаях. Запишем для нее соотношения (2.42), (2.43): * H ( X ) 1 1 log dx * log x * log( ) log x * ; (2.44) h( X * ) log( ). При ( ) , равным единице, H ( X * ) log x * ; h( X * ) 0, откуда при x x * H ( X ) H ( X * ) h( X ). Для зависимых непрерывных ансамблей X и Y можно аналогичным образом, используя операции дискретизации и предельного перехода, ввести понятия условной энтропии ансамбля X относительно ансамбля Y (и наоборот): (2.45) H ( X / Y ) f ( x / y ) f ( y ) log f ( x / y ) dxdy log x и дифференциальной условной энтропии ансамбля X относительно ансамбля Y: (2.46) h ( X / Y ) f ( x / y ) f ( y ) log f ( x / y ) dxdy , Характеризующей неопределенность выбора случайной величины x при условии, что известны результаты реализации значений другой статистически связанной с ней случайной величины y , и по сравнению с неопределенностью выбора случайной величины, изменяющейся в диапазоне, равном единице, и имеющей равномерное распределение вероятностей. По аналогии с выражением для безусловной энтропии (2.42) можно определить энтропию объединения двух зависимых ансамблей: H ( X ,Y ) f ( x, y) log f ( x, y )dxdy log xy (2.47) и дифференциальную энтропию объединения двух зависимых ансамблей: h( X , Y ) f ( x, y) log f ( x, y)dxdy (2.48) Здесь f ( x, y ) - совместная плотность распределения x, y ; f ( x), f ( y ), f ( x / y), f ( y / x) - соответственно безусловные и условные плотности распределения случайных величин x, y . Введенные дифференциальные энтропии непрерывных ансамблей имеют много общих свойств с энтропиями дискретных ансамблей. Отличающие их свойства обусловлены относительным характером этих мер неопределенности. Сформулируем основные свойства дифференциальных энтропий. 1. В силу их относительности дифференциальные энтропии могут принимать положительные, отрицательные и нулевые значения. Например, дифференциальная энтропия равномерного распределения h ( X ) log( ) принимает отрицательные значения, если ( ) 1. 2. Дифференциальная энтропия не инвариантна к преобразованиям случайных величин, т.к. определяется относительно заданной системы координат (принятого стандарта). Если изменить координаты, то энтропия, вообще говоря, изменится. В частности, изменение масштаба случайной величины влечёт за собой изменение её энтропии. Изменим масштаб случайной величины x с плотностью распределения f (x ) в k раз, обозначим y kx с плотностью распределения g ( y ) f ( y / k ) / k , тогда: f (y / k) f (y / k) f ( x) f ( x) h (Y ) g ( y ) log g ( y ) dy log dy log kdx k k k k f ( x ) log f ( x ) dx log k f ( x ) dx h ( X ) log k . Однако как и энтропия дискретного распределения, дифференциальная энтропия не зависит от конкретных значений случайной величины. В частности, дифференциальная энтропия не изменится, если к случайной величине x прибавить неслучайную величину k . Обозначим y x k с плотностью распределения g ( y ) f ( y k ) , тогда h(Y ) f ( y k ) log f ( y k )dy f ( x) log f ( x)dx h( X ). 3. Дифференциальная энтропия определяется распределением вероятностей на ансамбле, и естественно возникает вопрос о том, для каких распределений она больше. Однако такой вопрос без дополнительных ограничивающих предположений лишен смысла, поскольку дифференциальная энтропиявеличина относительная и необязательно ограниченная. Например, энтропия равномерного распределения (2.44) может быть сделана сколь угодно большой соответствующим выбором интервала ( , ) . Предположим: а) ограничена область определения случайной величины некоторым интервалом ( , ) , тогда максимальной энтропией обладает равномерное распределение вероятностей в этой области; б) ограничения на область определения случайной величины отсутствуют, но известно, что её дисперсия ограничена, тогда максимальной энтропией обладает нормальное распределение. При доказательстве решается вариационная задача определения функции f (x ) , обеспечивающей максимальное значение функционала h( X ) при заданных ограничениях: f ( x)dx 1 в первом случае, f ( x)dx 1 и x 2 f ( x )dx 2 - во втором. Искомую плотность распределения f (x ) находят, пользуясь методом неопределенных множителей Лагранжа. В первом случае максимум функционала h( X ) log( ) обеспечивает функция f ( x) 1 /( ) , x . Во втором случае она оказывается гауссовской*: f ( x) 1 2 e x2 2 2 , где - среднеквадратическое отклонение от математического ожидания M x 0 случайной величины x ( - заданное ограничение). Определим дифференциальную энтропию для гауссовского распределения вероятностей: h( X ) f ( x) log{1/( 2 )e x2 / 2 2 }dx log( 2 ) f ( x)dx f (x) loge x2 2 2 dx log( 2 ) (2.49) loge 2 x 2 f (x)dx log( 2 ) log e log( 2e ), 2 где использованы условия нормировки функции плотности вероятностей формула дисперсии 2 . 4. Свойства, которыми обладают условная дифференциальная энтропия и энтропия объединения двух непрерывных зависимых ансамблей, аналогичны свойствам соответствующих энтропий дискретных ансамблей: h( X , Y ) h( X ) h(Y / X ) h( X ) h( X / Y ); (2.50) h( X , Y ) h( X ) h(Y ), поскольку h( X / Y ) h( X ) и h(Y / X ) h(Y ) . Равенство имеет место только в случае отсутствия статистической связи между X и Y . Соотношения (2.50) легко проверить подстановкой выражений (2.43), (2.46), (2.48) для дифференциальных энтропий h( X ) , h(Y ) , h( X / Y ) , h(Y / X ) , h( X , Y ) . Таким образом, мы распространили понятие энтропии на случай непрерывных ансамблей и источников. Несмотря на относительный характер , понятие энтропии в непрерывном случае является столь же важным, как и в дискретном. Это объясняется тем, что информационные характеристики источников сообщений и каналов связи (скорость создания информации и пропускная способность канала) определяются разностью двух энтропийвзаимной информацией, и эта величина уже абсолютная, не зависящая от выбранного стандарта или заданной системы координат. * То, что математическое ожидание нулевое, не является существенным требованием. Легко показать, что нормально распределённые случайные величины, отличающиеся только математическим ожиданием, имеют одинаковые дифференциальные энтропии. Количество взаимной информации между непрерывными ансамблями X и Y определяется как разность априорной и апостериорной дифференциальных энтропий: I ( X , Y ) H ( X ) H ( X / Y ) h( X ) h( X / Y ); I ( X , Y ) H (Y ) H (Y / X ) h(Y ) h(Y / X ). (2.51) Соотношения (2.51) несложно выразить в следующем виде: I ( X ,Y ) f ( x, y ) f ( x, y) log f ( x) f ( y) dxdy. (2.52) Взаимная информация I ( X , Y ) непрерывных ансамблей X и Y обладает всеми основными свойствами, которые были сформулированы ранее для дискретного случая. В частности, это есть неотрицательная величина, обращающаяся в нуль только тогда, когда ансамбли X и Y независимы. Пример 2.7. в системах связи второй начальный момент (дисперсию) непрерывного сигнала x часто называют средней мощностью сигнала. Название связано с тем, что в случае, когда x есть напряжение, то x 2 есть мощность в единичном сопротивлении. Сравним по мощности два источника шума, используемых для организации мешающего воздействия, обладающих одинаковой энтропией и имеющих соответственно гауссовскую и равномерную на интервале ( , ) плотности распределения. Для гауссовского распределения дифференциальная энтропия определена соотношением (2.49): hН ( X ) log( Н 2e ) , где Н2 - дисперсия нормального распределения с M [ x] 0 . Для равномерного распределения дифференциальная энтропия определена соотношением (2.44): h р ( X ) log( ) . Вычислим математическое ожидание и дисперсию равномерного распределения: M [ x] m x xf ( x)dx x dx ; 2 D[x] 2р (x mx ) f (x)dx 1 2 ( )2 ( x ) dx . 2 12 Из условия обеспечения равенства энтропий следует log( Н 2e ) log( ) или Н 2e ( ) . Возведём обе части равенства в квадрат 2e Н2 ( ) 2 и разделим на двенадцать: р2 e 2 Н 1,42 Н2 . 6 Следовательно, если использовать источник шума с гауссовской плотностью распределения, то выигрыш в мощности составит 42%. Пример 2.8. Рассмотрим один важный частный случай. Пусть X и Y - два непрерывных ансамбля сообщений на входе и выходе канала, связанные равенством Y X Z , где ошибка/помеха Z статистически не зависит от X . Пусть ансамбль сообщений X распределен по нормальному закону с параметрами m x 0, x ; помеха Z также распределена по нормальному закону с параметрами m z 0, z . Определим, сколько информации об ансамбле X в среднем содержит любое сообщение ансамбля Y . Информацию I ( X , Y ) найдем как математическое ожидание случайной величины U log f ( x, y ) f ( x) f ( y / x) f ( y / x) log log . f ( x) f ( y ) f ( x) f ( y ) f ( y) (2.53) В нашем случае x2 Z2 2 1 f X ( x) e 2 X ; 2 X 2 1 f Z ( z) e 2 Z . 2 Z Ансамбль сообщений Y также будет распределен по нормальному закону с параметрами m y 0 и y2 X2 Z2 , т.к. представляет собой композицию двух нормальных законов: 1 f Y ( y) 2 X2 Z2 e y2 2 ( 2X Z2 ) . Далее заметим, что f ( y / x) - это функция плотности вероятностей случайной величины y z x при фиксированном x и, следовательно, f ( y / x) f z ( y x ) , т.е. f ( y / x) 1 2 z e ( y x )2 2 z2 . Выражение (2.53) в этом случае равно: U log X2 Z2 1 z2 y2 [ 2 ]; Z ln 2 2 Z 2( X2 Z2 ) отсюда X2 Z2 1 M[z2 ] M[y2 ] [ ]. Z ln 2 2 Z2 2( X2 Z2 ) Поскольку m z m y 0 , то M [ z 2 ] D[ z ] z2 и M [ y 2 ] D[ y ] X2 Z2 , M [U ] log I ( X , Y ) log X2 Z2 . Z 1 2 Например, при X Z I(X, Y) log 2 бит. 5 3 Если X 4, Z 3 , то I ( X , Y ) log 0,74 бит. 2.6 - энтропия Реальная чувствительность приёмных устройств, органов чувств человека и разрешающая способность различных информационно-измерительных систем ограничены. Поэтому воспроизводить непрерывные сообщения абсолютно точно не требуется. Наличие помех и искажений сигналов в реальных каналах связи делает точное воспроизведение сообщений невозможным. С каждым потребителем информации связан свой предел точности, к которому нужно стремиться при воспроизведении сообщений, но превышать который не имеет смысла. В условиях приближенного восприятия реализации случайного объекта нас интересует количество информации, приходящееся на один отсчет или на единицу времени, которое необходимо для воспроизведения этого случайного объекта с заданной точностью. Рассмотрим простейший случай, когда отдельные состояния источника информации представляют собой независимые реализации случайной величины x . Пусть ансамбль реализаций случайной величины x описывается плотностью распределении вероятностей f (x) . О значениях случайной величины x судят по значениям другой случайной величины y - на выходе канала связи. Если мера их различия не превышает заданной верности воспроизведения, то говорят, что y воспроизводит x . Для количественной оценки степени сходства x и y необходимо ввести некоторую функцию «расстояния» ( x, y ) . Тогда в качестве критерия верности удобно использовать среднее значение функции ( x, y ) , взятое по всему множеству значений x и y : M [ ( x, y )] . При использовании среднеквадратического критерия, когда функция h( x, y ) представляет собой квадрат евклидова расстояния, требование к верности воспроизведения задается следующим образом: M [( x y ) 2 ] 2 , где заданное значение. Если случайная величина y воспроизводит случайную величину x с некоторой точностью , то можно вычислить среднее количество получаемой информации I ( X , Y ) h( X ) h( X / Y ). Определим -энтропию непрерывной величины x как минимальное количество информации I ( X , Y ) , при котором величина y воспроизводит x со средней квадратической погрешностью, не превышающей заданного значения : H ( X ) min I ( X ,Y ) min {h( X ) h( X / Y )} (2.54) f ( y / x) f ( y / x) при ограничении M [( x y ) 2 ] 2 . Поскольку величина x задана, т.е. определена плотностью распределения f (x) , то минимум вычисляется по всем возможным условным законам распределения f ( y / x) . Пусть, для примера, в канале действует аддитивная помеха , тогда y x . Условно примем, что M [ ] 0 , M [ 2 ] 2 . Как видно из соотношения (2.54), - энтропия достигает минимума, если условная дифференциальная энтропия h( X / Y ) достигает максимума H ( X ) h( X ) max h( X / Y ) f ( x / y) Так как x y , то условная энтропия h( X / Y ) при принятом y полностью определяется ошибкой воспроизведения , поэтому max h( X / Y ) max h( ), f (x / y) f ( ) где f ( ) - закон распределения помех. Учтем, что мощность помехи M [ 2 ] ограничена величиной 2 , тогда максимальная энтропия помехи, отнесенная к одному отсчету, определится по (2.49): max h( ) log 2e . С учетом этого: f ( ) H ( X ) h( X ) log 2e . - энтропия имеет максимальное значение, если случайная величина x является гауссовской: X2 1 max H ( X ) log 2e X log 2e log 2 . f ( x) 2 Отношение сигнал/шум X2 / 2 характеризует то количество полученной информации, при котором принятый y и переданный x сигналы схожи в среднеквадратическом смысле с точностью до 2 2 . Значение - энтропии определено для одного независимого отсчета. 3. ИНФОРМАЦИОННЫЕ ХАРАКТЕРИСТИКИ ИСТОЧНИКОВ СООБЩЕНИЙ И КАНАЛОВ СВЯЗИ 3.1.Модели источников Основной информационной характеристикой источников сообщений, через которую выражаются все остальные, является энтропия. Понятие энтропии как средней неопределенности, приходящейся на одно состояние источника, было введено в предположении, что вероятностной моделью ансамбля возможных состояний источника является дискретная или непрерывная случайная величина. Вырабатываемые источником последовательности символов (сообщений) характеризовались отсутствием корреляционных связей между отдельными символами. Поведение источника полностью определялось вероятностями реализации символов. Но последовательности, вырабатываемые реальными источниками, как правило, характеризуются наличием корреляционных связей. Вероятность появления символа в такой последовательности зависит от того, какие символы были реализованы источником в предыдущие моменты времени. Для описания поведения источника тогда используется вероятностная модель в виде дискретного или непрерывного случайного процесса. Для построении модели необходимо знать объем алфавита символов, из которых источник формирует сообщения, и вероятности реализации источником этих символов с учетом возможных взаимосвязей между ними. При доказательстве основных положений теории информации использована модель, так называемых эргодических источников, для которых предполагается, что создаваемые ими случайные последовательности удовлетворяют условиям стационарности и эргодичности. Свойство стационарности означает, что вероятностное описание источника не зависит от начала отсчета времени. Свойство эргодичности состоит в том, что любая достаточно длинная последовательность с вероятностью, сколь угодно близкой к единице, будет типичной, т.е. при ее исследовании могут быть установлены все статистические закономерности, присущие этому источнику. В качестве примера эргодических источников сообщений можно привести литературные и технические тексты, которые, несмотря на их различное содержание, имеют в среднем одинаковое относительное число отдельных букв и буквосочетаний*. Это важное обстоятельство позволяет применять математический аппарат для изучения структуры различных языков при построении информационных систем и систем связи. Характер формируемых источником сообщений зависит от вероятностей реализуемых символов, а они различны, и существующих между символами корреляционных связей. Поэтому вероятности самих сообщений, вообще говоря, существенно различаются, фундаментальное свойство длинных последовательностей (сообщений), создаваемых эргодическим источником X , заключается в следующем: для любых заданных сколь угодно малых 1 и 2 можно найти достаточно большое M такое, что все последовательности длины m M распадаются на два класса: - множество последовательностей, суммарная вероятность которых меньше 1 ; - незначительное число типичных последовательностей, вероятности p появления которых практически одинаковы и удовлетворяют неравенству 1 log(1 / p ) H ( X ) 2 . M (3.1) В общем случае сформулированное свойство эргодических последовательностей доказывается с привлечением математического аппарата случайных процессов (цепей Маркова). Рассмотрим стационарный источник, реализующий каждый символ формируемой последовательности независимо от других символов. Такой источник является эргодическим. Его также называют источником без памяти. Если источник формирует достаточно длинные сообщения из M символов алфавита x1, , x 2 ,..., x n с вероятностями p1 , p 2 ,..., p n , то по закону больших чисел сообщение с большой вероятностью содержит p1 M раз символ x1 , p 2 M раз- символ x 2 и т.д. Тогда вероятность p реализации любой типичной последовательности близка к величине p p1p1M p 2p2 M ... p npn M n или log p M pi log pi , откуда i 1 log p MH ( X ) и H ( X ) 1 log(1 / p ) . M Общее число n1 всех возможных последовательностей длиной M из алфавита объемом n символов равно n M 2 M log n . Число типичных * При условии исключения из рассмотрения специальных терминов и обозначений, зависящих от специфики текста. последовательностей n2 , принимая во внимание (3.1), можно записать виде 2 MH ( X ) . Тогда n1 2 M [log n H ( X )] . n2 Так как, H ( X ) log n , то n2 n1 и неравенство усиливается с увеличением M , т.е. при достаточно большом M типичные последовательности составляют незначительную долю от общего числа возможных последовательностей. Соотношение (3.1), называемое также свойством асимптотической равновероятности длинных последовательностей, было использовано К.Шенноном в теоремах об эффективном кодировании. Немного поясним его. Поскольку при M источник с вероятностью, сколь угодно близкой к единице, выдает только типичные последовательности, принимаемое во внимание число последовательностей равно 1 / p . Неопределенность создания каждой такой последовательности с учетом их равновероятности составляет log(1 / p) . Тогда величина 1 log(1 / p) представляет собой неопределенность, M приходящуюся в среднем на один символ. Конечно, эта величина практически не должна отличаться от энтропии источника H ( X ) , что и констатируется соотношением (3.1). Вернемся к описанию источников, формирующих последовательности, в которых вероятность появления каждого символа зависит от того, какие символы были реализованы источником ранее. Их также называют источниками с памятью. Для реальных источников с памятью на эти корреляционные связи можно наложить определенные ограничения по времени и учитывать их на ограниченном участке последовательности. Вероятностной моделью таких источников может служить Марковский случайный процесс. Дискретный Марковский процесс называют также Марковской цепью. K- связная цепь Маркова характеризует последовательность событий (символов), для которой вероятность появления очередного события зависит от того, какие K событий ему предшествовали. Эти K событий (символов) и определяют состояние источника, в котором он находится в момент выдачи очередного символа. При объеме алфавита n символов число R различных состояний источника не превышает n K . Обозначим через s1 , s 2 ,..., s R возможные состояния источника. Пусть дл каждого состояния s j определена вероятность p( s j ) того, что источник находится в этом состоянии, а также вероятности p( xi / s j ) реализации источником различных символов алфавита xi , 1 i n . Естественно предположить, что к моменту выдачи очередного символа известны все символы, созданные источником ранее, а, следовательно, и то, в каком состоянии находится источник. Частная энтропия источника, находящегося в конкретном состоянии s j , определится соотношением n H s j ( X ) p( xi / s j ) log p( xi / s j ). i 1 (3.2) Усредняя случайную величину H s j ( X ) по ансамблю состояний {s j , p ( s j )} , 1 j R , получаем энтропию Марковского источника n R H ( X ) p ( s j ) p ( xi / s j ) log p( xi / s j ), (3.3) i 1 j 1 характеризующую неопределенность, приходящуюся в среднем на один символ, вырабатываемый источником. Если появления символа xi зависит только от того, какой был в последовательности предыдущий символ x j , то в качестве модели источника используют простую (односвязную) цепь Маркова. При этом максимальное число R различных состояний источника равно объему алфавита n и p( xi / s j ) p ( xi / x j ) , 1 i n , 1 j n . Выражение для энтропии источника принимает вид n n H ( X ) p ( x j ) p ( xi / x j ) log p( xi / x j ), (3.4) i 1 j 1 Если корреляционные связи между символами отсутствуют полностью, то после появления очередного символа состояние источника не меняется, источник имеет одно характерное состояние s1 , вероятность которого p( s1 ) 1 . Тогда энтропия источника определяется известной формулой: n H ( X ) H s1 ( X ) p ( xi ) log p( xi ). (3.5) i 1 Основанием широкого использования марковских моделей послужило то, что любой (стационарный) марковский источник либо является эргодическим, либо может быть представлен совокупностью нескольких эргодических источников. Пример 3.1. Определим, является ли эргодическим стационарный дискретный источник сообщений, алфавит которого состоит из четырех символов x1 , x 2 , x3 , x 4 , причем безусловные вероятности выборы символов одинаковы: p( x1 ) p( x 2 ) p( x3 ) p ( x 4 ) 1 / 4 , а условные вероятности p( xi / x j ) , отражающие корреляционные связи между символами, заданы таблицей. Анализ таблицы показывает, что источник xi x1 x2 x3 x4 имеет два режима работы. С вероятностью, xj x1 1/3 1/3 1/3 0 равной 3/4, первым будет выбран один из x2 1/3 1/3 1/3 0 символов x1 , x 2 , x3 и источник начнет формировать с равновероятным x3 1/3 1/3 1/3 0 последовательность x4 0 0 0 1 появлением этих символов. Неопределенность, приходящаяся на один символ достаточно длинной последовательности (энтропия последовательности), в этом режиме равна log 3 1,586 бит . Если же первым будет выбран символ x 4 (вероятность такого случая равна 1/4), то генерируется последовательность, содержащая только символы x 4 . Энтропия последовательности в этом случае равна нулю. 3 4 1 3 1 4 Энтропия источника в соответствии с (3.3) H ( X ) log log 1 1,19 бит . Поскольку энтропии формируемых последовательностей не совпадают с энтропией источника, он не является эргодическим, но может быть представлен совокупностью двух эргодических источников. 3.2. Понятие избыточности Наличие корреляционных связей между символами и неравновероятность их появления в последовательностях/сообщениях, формируемых реальными источниками, ведет к уменьшению средней неопределенности выбора источником отдельного символа, а следовательно, и переносимого этим символом количества информации. Количественно эти потери информации характеризуют отношением энтропии реального источника H ( X ) к максимально возможному значению H max ( X ) , которого могла бы достичь энтропия при том же объеме n алфавита, равному для дискретных источников * log n : H(X ) H(X ) . H max ( X ) log n (3.6) Эту безразмерную величину называют относительной энтропией. Она определяет, насколько рационально работает источник, насколько он информативен (насколько информативен каждый символ его алфавита). Если относительная энтропия источника равна единице H ( X ) H max ( X ) , то формируемые им последовательности оптимальны в смысле наибольшего количества переносимой информации. Наименьшее, нулевое значение относительная энтропия имеет, если энтропия источника H ( X ) 0 и вырабатываемые им последовательности не несут никакой информации. Проблему снижения информативности символов в реальных источниках рассматривают в теории информации как проблему избыточности. Информационную нагрузку на каждый символ последовательности, вырабатываемой данным источником, при равновероятном и некоррелированном выборе можно обеспечить, используя алфавит меньшего объема. В связи с этим говорят об избыточности алфавита источника или просто об избыточности источника. Мерой избыточности служит величина r H max ( X ) H ( X ) H(X ) H(X ) 1 1 , H max ( X ) H max ( X ) log n (3.7) называемая коэффициентом избыточности и равная 1 . Коэффициент избыточности (3.7), как и относительная энтропия (3.6), определяет, насколько хорошо используются символы данного источника. Если избыточность источника равна нулю H ( X ) H max ( X ) , то каждый символ его алфавита переносит максимально возможное количество информации. Если источник обладает избыточностью, то информативность его символов уменьшается, и * Избыточность непрерывного источника определяется так же, как для дискретного. Избыточность равна нулю, когда распределение сигнала гауссовское. она тем меньше, чем больше избыточность источника. Если избыточность максимальна, равна единице, то H ( X ) 0 и символы источника не информативны. Рассмотрим теперь понятие избыточности применительно к сообщениям источника. Для передачи определенного количества информации I при отсутствии помех в случае, если избыточность источника равна нулю, необходимо минимальное число mmin I / H max ( X ) символов в сообщении. Для передачи того же количества информации источником, обладающим избыточностью, число символов в сообщении должно быть увеличено до числа m I / H ( X ) . В связи с этим говорят об избыточности символов в сообщении или просто об избыточности сообщения, характеризуя её теми же параметрами. Коэффициент избыточности r H max ( X ) H ( X ) m mmin m 1 min , H max ( X ) m m (3.8) в этой интерпретации определяет долю избыточности символов в сообщении по сравнению с соответствующим ему оптимальным сообщением. Как будет показано далее, коэффициент избыточности определяет, какая часть сообщения может быть отброшена посредством оптимального кодирования. Относительная энтропия, или коэффициент сжатия, H (X ) m min H max ( X ) m (3.9) определяет долю символов оптимального сообщения в данном сообщении, т.е. определяет степень «сжатия» реального сообщения, которое можно осуществить оптимальным кодированием. Пример 3.2. Пусть алфавит источника содержит n 8 символов, а энтропия источника составляет H ( X ) 1 бит . Определим, обладает ли источник избыточностью. Максимально возможная энтропия при объеме алфавита n 8 символов составила бы H max ( X ) log n log 8 3 бита информации. Следовательно, источник избыточен. Коэффициент избыточности r 1 H(X ) 2 показывает, log n 3 что информативность каждого символа источника составляет одну треть 1 3 (относительная энтропия 1 r ) от максимально возможной. Пусть теперь надо сформировать сообщение для передачи I 18 бит информации. Данному источнику потребуется m I / H ( X ) 18 символов. Минимально возможное число символов для передачи такого количества информации составило бы mmin I / H max ( X ) 6 символов. Определим ещё раз коэффициент избыточности r 1 mmin 2 m 1 и коэффициент сжатия min . m 3 m 3 Доля избыточных символов в сообщении составляет две трети от общего числа символов. Посредством оптимального кодирования можно «сжать» сообщение и сохранить в нем лишь 1/3 символов. Передача избыточных сообщений по каналам связи, с одной стороны, требует дополнительных затрат, например увеличения длительности передачи или расширения практической ширины спектра сигнала. С этой точки зрения избыточность нежелательна. С другой стороны, при передачи сообщения в условиях воздействия помех избыточность могла бы быть использована для повышения помехоустойчивости передаваемых сообщений. Однако алгоритмы обнаружения и исправления ошибок, базирующиеся на статистических закономерностях функционирования источника, оказываются слишком сложными для их технической реализации. При обмене информации в автоматизированных системах «естественная» избыточность подлежит устранению посредством специального (оптимального) кодирования сообщений. При этом на выходе кодирующего устройства должна быть реализована по возможности последовательность равновероятных и статистически независимых символов. Для повышения помехоустойчивости полученных кодовых комбинаций затем вводится незначительная «рациональная» избыточность, позволяющая обеспечить обнаружение и исправление наиболее вероятных и опасных по последствиям ошибок простыми техническими средствами. Комбинация подобных методов кодирования позволяет увеличить скорость передачи информации в канале при обеспечении приемлемой верности передачи. Пример 3.3. Определим возможный эффект от устранения избыточности при передаче текста на русском языке. Максимальная энтропия текста на русском языке с учетом 32 букв алфавита: H max ( X ) log 32 5 бит . Энтропия с учетом неравномерного распределения вероятностей появления отдельных букв, определяемая по формуле Шеннона (3.5), составила бы H ( X ) 4,42 бита . Исходя из предположения, что статистическая структура текста описывается простой цепью Маркова, можно установить в соответствии с отношением (3.4), что энтропия уменьшается до 3,52 бит. Учет всех ограничений языка, включая связи между словами, позволяет оценить минимальную величину энтропии значением 1,5 бита. Таким образом, избыточность русского языка составляет: r 1 H(X ) 1,5 1 0,7 и H max ( X ) 5 1 r 0,3 . Это означает, что полное устранение избыточности русского текста ведет к повышению эффективности передачи более чем в 3 раза. 3.3. Производительность источника Под производительностью источника сообщений подразумевают количество информации, вырабатываемое источником в среднем в единицу времени. Количество информации, приходящееся в среднем на один символ алфавита, определяется энтропией источника. При работе любого реального источника отдельные символы появляются через некоторые интервалы времени. В этом смысле можно говорить о длительности символов и определить количество информации, вырабатываемое источником в единицу времени. В общем случае длительность отдельных символов может быть различной и зависеть от состояния источника. Обозначим длительность символа xi , реализуемого источником в состоянии s j , через s j xi (см. п. 3.1). тогда средняя длительность выдачи источником X одного символа n R X p (s j ) p( xi / s j ) s j xi . (3.10) i 1 j 1 Производительность источника I ( X ) теперь можно выразить формулой I(X ) H(X ) . X (3.11) Эту характеристику называют также скоростью создания сообщений или потоком входной информации. Размерность этой величины выражается в дв.ед/с или бит/с. Повышение производительности источника возможно не только за счет увеличения энтропии, но и за счет снижения средней длительности. При этом длительность символов желательно выбирать обратно пропорционально вероятности их появления. Если длительность символов не зависит от состояния источника, для всех символов одинакова и равна , то выражение для I ( X ) принимает следующий вид I(X ) H(X ) . (3.12) Наибольшая производительность источника в этом случае достигается при максимальной энтропии. Для определения производительности непрерывного источника используется понятие - энтропии (см.п. 2.6), в соответствии с которым вводится понятие -производительности H ( X ) источника как минимальное количество информации, которое необходимо создать источнику в единицу времени, чтобы обеспечить заданную точность воспроизведения непрерывной величины X посредством величины y : H ( X ) min I ( X , Y ) (3.13) f ( y / x) при условии M [( x y ) 2 ] 2 . Величина характеризует скорость формирования источником отсчетов. Пример 3.4. Рассмотрим двоичный источник X {x1 , x 2 } и покажем, как влияют на энтропию, производительность и избыточность неравновероятное появление символов и корреляционные связи между ними. Если символы независимы и равновероятны, то p( x1 ) p( x 2 ) 1 / 2 и H max log 2 1 бит . Следовательно, 1 бит- это максимальное среднее количество информации, которое может перенести один символ двоичного источника. Производительность источника максимальна, избыточность отсутствует. Если символы независимы и неравновероятны: p( x1 ) p , p( x 2 ) 1 p , то H ( p ) p log p (1 p ) log(1 p ) . Функция H ( p ) (рис. 2.2) достигает максимума H max 1 бит/симв при p 1 / 2 и равна нулю при p 0 и p 1 . Так как H ( p ) H max при p 1 / 2 , то производительность такого источника меньше максимальной, а избыточность r ( p ) 1 H ( p) / H max 0 . Например, если p( x1 ) 0,125 , p( x 2 ) 0,875 , то H ( p ) 0,576 бит/симв, r ( p ) 0,42 . Пусть символы равновероятны и коррелированны. Предположим, что корреляционные связи имеют место только между соседними символами, причем p( x1 / x1 ) p ( x 2 / x 2 ) q , а p( x1 / x 2 ) p( x 2 / x1 ) (1 q) . Тогда в соответствии с (3.4) энтропия источника H (q ) q log q (1 q ) log(1 q ) . Например, если q 0,7 , (1 q ) 0,3 , тогда H (q ) 0,883 бит/симв, r (q ) 0,12 . Следовательно, наличие статистических связей между символами также приводит к уменьшению энтропии и увеличению избыточности источника. Пусть символы коррелированны и неравновероятны. Предположим, что p( x1 / x 2 ) 0,1 , p( x1 / x1 ) 0,3 , p( x 2 / x1 ) 0,7 , p( x 2 / x 2 ) 0,9 . Вероятности p( x1 ) и p( x 2 ) могут быть определены исходя из формулы полной вероятности: p( x1 ) p( x1 ) p ( x1 / x1 ) [1 p( x1 )] p ( x1 / x 2 ) . Отсюда p( x1 ) p( x1 / x 2 ) /[1 p( x1 / x 2 ) p( x1 / x1 )] 0,125 , p( x 2 ) 1 p( x1 ) 0,875 . Тогда энтропия источника в соответствии с (3.4) H ( X ) 0,125(0,3 log 0,3 0,7 log 0,7) 0,875(0,1log 0,1 0,9 * log 0,9) 0,51 бит/симв. Из-за влияния корреляции и неравномерности распределения вероятностей появления символов значение энтропии примерно вдвое меньше максимального, а избыточность 49%. Рассмотрение информационных характеристик двоичного источника наглядно иллюстрирует, что увеличить энтропию источника и уменьшить избыточность можно двумя способами: «выравниванием» распределения вероятностей появления символов и устранением корреляционных связей между ними. Эти идеи лежат в основе построения оптимальных эффективных кодов. 3.4. Модели каналов Понятие канала связи как некоторой физической среды, используемой для передачи сообщений, было введено в связи с представлением общей структурной схемы системы связи (рис. 2.1). материальными носителями сообщений в канале являются сигналы: отдельному символу сообщения соответствует некий элементарный сигнал, а последовательности символов ставится в соответствие сложный сигнал. Сложные сигналы различаются числом, составом и взаимным расположением элементарных сигналов. Для теории информации физическая природа сигналов и шумов несущественна. Сигналы на входе и выходе канала рассматриваются как элементы/символы некоторых абстрактных множеств/алфавитов. Каналы связи тогда могут быть описаны в терминах множества входных символов, которые имеются на входе канала; множества выходных символов, имеющихся на выходе канала, и вероятностной меры на выходных событиях для каждого входного символа при условии, что этот входной символ задан. В предыдущем изложении мы различали дискретные и непрерывные источники. Аналогичная классификация имеет место и для каналов. Канал связи называется дискретным, если он предназначен для передачи дискретных сигналов, т.е. множества его входных и выходных символов конечны (счётны). Канал связи называется непрерывным, если он предназначен для передачи непрерывных сигналов, т.е. множества его входных и выходных символов несчетны. Информационная модель дискретного канала задается множеством символов на входе канала u1 , u 2 ,..., u nk , поступающих с выхода кодирующего устройства; множеством символов на выходе канала v1 , v 2 ,..., v mk множеством условных вероятностей p(v j / u i ) появление на выходе канала символа v j при передаче символа u i . Алфавиты кодовых символов на входе и выходе канала могут не совпадать, т.е., в частности, nk mk . Условные вероятности p(v j / u i ) называются также вероятностями перехода или переходными вероятностями и кратко обозначаются pij . Значения переходных вероятностей в реальных каналах определяются многими факторами: свойствами сигналов, характером и интенсивностью воздействующих на канал помех, способом выделения сигнала на приемной стороне. В зависимости от поведения переходных вероятностей можно рассматривать различные модели дискретных каналов. Если переходные вероятности канала изменяются с течением времени, что характерно практически для всех реальных каналов, то канал связи называется нестационарным. Если эти изменения несущественны, используется модель стационарного канала, переходные вероятности которого считаются постоянными для определенных интервалов времени. Если переходные вероятности зависят от того, какие символы передавались и принимались ранее, то такой канал называется каналом с памятью (с последствием). Рассматривают канал с памятью как канал, имеющий некоторое множество различных состояний, каждое из которых определяется одной из возможных последовательностей передаваемых и принимаемых ранее символов. В каждом состоянии канал характеризуется своей матрицей условных вероятностей p(v j / u i ) . Такие каналы с памятью иногда называют марковскими, поскольку математически они могут быть описаны цепью Маркова. Если переходные вероятности не зависят от передаваемых ранее символов, то канал связи называется каналом без памяти. При теоретических исследованиях вопросов передачи информации часто используется модель стационарного дискретного канала без памяти или модель однородного дискретного канала. Переходные вероятности таких каналов постоянны, иначе говоря, статистические характеристики процесса передачи по такому каналу не зависят момента начала передачи и сохраняются постоянными на протяжении всего времени передачи. Использование подобной модели для описания реальных каналов связи возможно в предположении, что параметры реального канала постоянны, а действующие в канале помехи могут быть представлены стационарным случайным процессом. Например, стационарный дискретный двоичный канал без памяти, у которого число различных символов на входе и выходе одинаково и равно двум (условно обозначенным 0 и 1), однозначно определяется четырьмя условными вероятностями: p(0 / 0) p 00 , p(1 / 0) p01 , p(0 / 1) p10 , p(1 / 1) p11 . Причем p 00 p 01 1 и p11 p10 1 . Такую модель канала принято изображать в виде вероятностного графа, представленного на рис. 3.1, где p00 и p11 - вероятности правильной передачи символов, а p 01 и p10 - вероятности искажения (трансформации) символов. Иногда используют более сильные допущения, считая дискретный однородный канал симметричным. Симметричным называют такой стационарный дискретный канал, в котором вероятности искажения любого из символов одинаковы. В частности, для двоичного Рис.3.1. Модель симметричного канала можно принять вероятности стационарного дискретного двоичного канала без памяти p(0 / 1) и p(1 / 0) равными: p10 p01 p . Тогда символы на выходе канала принимаются неверно с вероятностью p и принимаются правильно с вероятностью 1 p . Распределение ошибок в таком канале подчиняется биномиальному закону. Именно эти модели каналов исследовались наиболее интенсивно не столько в силу своей практической значимости (большинство реальных каналов описывается ими весьма приближенно), сколько в силу простоты математического описания. Важнейшие результаты, полученные для двоичного симметричного кода, в последующем были распространены на более широкие классы каналов. К таким каналам, представляющим значительно больший практический интерес, относятся прежде всего симметричные каналы с памятью. Распределение ошибок в таком канале описывается более сложной математической моделью (простой цепью Маркова, моделью Гильберта и пр.). В качестве примера дискретного канала, в котором алфавит на выходе отличается от алфавита на входе, отметим модель дискретного канала со стиранием, приобретающую в последнее врем все большое значение. На входе канала, как и ранее, появление двух символов 0 и 1, на выходе канала помимо этих символов может быть зафиксирован, так называемый, символ стирания s . Этот символ соответствует ситуации, когда принятый сигнал с равным основанием может быть отнесен как к единице, так и к нулю, поэтому сигнал «стирается». При декодировании исправить такие символы значительно легче, чем ошибочно определенные. На рис. 3.2 приведены вероятностные графы модели стирающего канала при отсутствии (рис. 3.2, а) и при наличии (рис. 3.2, б) трансформации символов. Рис.3.2. Модели дискретного канала со стиранием Для анализа непрерывных каналов разработаны математические модели различных уровней сложности и степени адекватности реальным каналам. Модели, получившие наиболее широкое распространение,- это разновидности гауссова канала. Под гауссовым каналом понимают математическую модель реального канала, построенную при следующих основных допущениях: параметры канала не зависят от времени и являются детерминированными величинами; в канале действует аддитивная флуктуационная помехагауссовый белый шум (случайный гауссовский процесс). 3.5. Скорость передачи информации и пропускная способность канала Характеризуя дискретные и непрерывные каналы связи, в теории информации используют два понятия: информационную скорость, или скорость передачи информации, и пропускную способность канала. Пусть за время T на вход канала поступило некоторое дискретное или непрерывное сообщение U T (точнее соответствующий ему дискретный или непрерывный сигнал). В результате передачи этого сообщения по каналу связи на приемном конце воспринимается сообщение VT , которое в общем случае при наличии шумов в канале отличается от U T . Количество информации I (U T ,VT ) , содержащееся в сообщении VT на выходе канала относительно сообщения U T на входе, зависит от статистических свойств формируемых сообщений и статистических свойств помех, действующих в канале. Кроме того, I (U T ,VT ) зависит также от интервала времени, в течение которого происходила передача. Величина I (U T ,VT ) / T определяет количество информации, переданное в данном случае по каналу связи в единицу времени. По мере увеличения длительности временного интервала T значение скорости I (U T ,VT ) / T уточняется. При эргодическом характере формируемых сообщений и шумов в канале следует ожидать, что при T переданное U T и принятое VT сообщения с вероятностью, сколь угодно близкой к единице, будут типичными. Тогда величина I (U T ,VT ) T T I (U ,V ) lim (3.14) может служить информационной характеристикой работы канала, определяющей количество информации, передаваемое в среднем по каналу связи в единицу времени, т.е. скоростью передачи информации. Переход к пределу при T для эргодических случайных процессов равносилен усреднению скорости по ансамблю всех возможных сообщений (сигналов). Рассмотрим подробнее передачу дискретных сообщений. Пусть за время T по каналу связи передано M кодовых символов, средняя длительность которых составляет K . В частном случае можно принять длительность передаваемых символов одинаковой: K . Выражение (3.14) тогда можно записать в следующем виде I (U T , VT ) , M M K I (U , V ) lim откуда для типичных последовательностей U T и VT получаем I (U ,V ) 1 I(U, V) , K где I (U , V ) - среднее количество информации, переносимое одним символом. Величина 1 / определяет среднее количество символов, передаваемых по каналу в единицу времени, и называется технической скоростью передачи или скоростью манипуляции: vM 1 . K (3.15) Она зависит от технических характеристик линий связи, от быстродействия аппаратуры канала. Единицей измерения технической скорости служит бодскорость, при которой за одну секунду передается один символ. При известной скорости манипуляции информационная скорость задается соотношением I (U ,V ) v M I (U ,V ). (3.16) Она зависит не только от технических характеристик канала, но и от статистических свойств передаваемых последовательностей, от статистических свойств помех в канале, от объема алфавита используемых символов на входе и выходе. Единицей измерения информационной скорости служит бит/сскорость, при которой за одну секунду передается одна двоичная единица информации. В общем случае технические и информационные скорости отличаются друг от друга. В частности, при использовании кодов с основанием (алфавитом) n K 2 информационная нагрузка, приходящаяся на каждый кодовый символ, может превышать одну двоичную единицу. Это означает, что при выборе основания кода n K 2 можно получить I (U ,V ) v , чем и пользуются на практике для увеличения скорости передачи информации при минимальной длительности передаваемых символов. Для теории и практики важно выяснить, до какого предела можно повысить скорость передачи информации по конкретному каналу. Предельные возможности канала на передаче информации характеризуются его пропускной способностью. Пропускная способность канала равна максимальной скорости передачи информации по данному каналу при самых совершенных способах передачи и приема: (3.17) При известных технических характеристиках канала, выбранных таким образом, чтобы обеспечить наибольшую скорость манипуляции v M , максимум информационной скорости достигается при максимальном значении I (U , V ) , которое определяется по множеству p{U } возможных распределений вероятностей входных сигналов при заданной средней мощности передаваемого сигнала в непрерывном случае. Таким образом, C v M max I (U ,V ), (3.18) C max I (U ,V ) max vM I (U ,V ). p{U } предельное значение скорости передачи информации по каналу может быть достигнуто посредствам изменения в кодирующем устройстве вероятностных свойств передаваемых сообщений. Пропускная способность канала, как и скорость передачи информации, измеряется числом двоичных единиц информации в секунду: бит/с. При отсутствии помех в канале имеет место взаимно однозначное соответствие между множеством сигналов на выходе канала на его входе. В этом случае I (U ,V ) H (u ) . Максимум энтропии H (u ) дискретного ансамбля u из n K элементов равен log n K . Для достижения пропускной способности дискретного канала без помех C Д v M log nK (3.19) последовательность символов, формируемых источником информации, должна быть подвергнута такому преобразованию в кодирующем устройстве, при котором различные символы u1 ,..., u nK его выходной последовательности были бы по возможности равновероятны и статистически независимы. Это выполнимо для любой эргодической последовательности символов, если кодирование осуществлять блоками такой длины, при которой справедлива теорема об их асимптотической равновероятности (см. далее теоремы Шеннона). Расширение объема алфавита символов n K приводит к повышению пропускной способности канала (рис. 3.3), однако и возрастает и сложность технической реализации. При наличии помех соответствие между сигналом на входе и выходе канала связи перестает быть однозначным. Величина I (U , V ) определяется в этом случае соотношением Рис.3.3. Пропускная способность дискретного канала без помех I (U ,V ) H (V ) H (V / U ) H (U ) H (U / V ) где апостериорная энтропия характеризует уменьшение количества переданной информации вследствие возникновения ошибок и искажений. Величина априорной и апостериорной энтропий определяется известными формулами в зависимости от статистических свойств передаваемых сигналов и действующих в канале связи помех. Воздействие помехи на полезный сигнал учитывается соответствующей совокупностью переходных вероятностей (см. п. 3.4). считая скорость манипуляции v M предельно допустимой при заданных технических характеристиках канала, величину I (U , V ) можно максимизировать, изменяя статистические свойства сообщений на входе канала посредством процедуры кодирования. Получаемое при этом значение пропускной способности канала с помехами вычисляется с помощью соотношения (3.18). Важно подчеркнуть, что при наличии помех пропускная способность канала определяет наибольшее количество информации в единицу времени, которое может быть передано со сколь угодно малой вероятностью ошибки. Теоретически достигнуть пропускной способности канала возможно, кодируя эргодическую последовательность символов источника блоками такой длины, при которой справедлива теорема об асимптотической равновероятности длинных последовательностей (см. теоремы Шеннона). Однако на практике предельные возможности канала никогда не используются полностью. Произвольно малая вероятность ошибки достижима только теоретически, когда длина кодируемых блоков становится бесконечной. При удлинении же блоков возрастает сложность технической реализации кодирующих и декодирующих устройств и возникают задержки в передаче сообщений, обусловленные необходимостью накопления требуемого числа символов в блоке. Обычно поступают следующим образом: в рамках допустимой сложности технической реализации процедур кодирования/декодирования либо при заданной скорости передачи информации стремятся обеспечить минимальную ошибку, либо при заданной достоверности- скорость передачи, приближающуюся к пропускной способности канала. Для оценки степени загрузки канала применяют еще одну информационную характеристику- коэффициент использования канала I (U ,V ) , C (3.20) который показывает, в какой степени скорость передачи информации приближается к пропускной способности канала. Коэффициент может изменяться в пределах от 0 до 1. Пример 3.5. Определим пропускную способность C Д двоичного симметричного канала (рис. 3.4) со скоростью манипуляции v M в предположении независимости передаваемых символов. Для определения C Д при заданной v M необходимо найти максимальное значение I (U , V ) , для чего воспользуемся формулой I (U ,V ) H (V ) H (V / U ), 2 где 2 H (V / U ) p (u i ) p (v j / ui ) log p (v j / u i ) p (0)[(1 p) * log(1 p) p log p] i 1 j 1 p (1)[ p log p (1 p ) log(1 p )] [ p (0) p(1)][ p log p (1 p ) log(1 p )]. Так как p(0) p(1) 1 , то H (V / U ) p log p (1 p ) log(1 p ) . Величина H (V / U ) не зависит вероятностей входных сигналов, что является следствием симметрии канала. Пропускная способность двоичного симметричного канала C Д v M [ H max (V ) p log p (1 p) log(1 p)] . Максимум H (V ) достигается при равенстве вероятностей символов на выходе канала и равен 1. Отсюда C Д vM [1 p log p (1 p ) log(1 p)]. (3.21) Величина H ( Z ) p log p (1 p) log(1 p) представляет собой энтропию системы с двумя возможными состояниями и характеризует потери информации на один символ, являющиеся следствием помех в канале. Рис.3.4. Модель двоичного симметричного канала Рис.3.5. Пропускная способность двоичного симметричного канала Зависимость C Д ( p ) пропускной способности двоичного симметричного канала от вероятности трансформации символа p при v M 1 бод показана на рис. 3.5. при увеличении вероятности p от 0 до 0,5 C Д ( p ) уменьшается от 1 до 0. Если p 0 , то шум в канале отсутствует и его пропускная способность v M 1 бод. Если p 0,5 , то пропускная способность канала равна 0, символы на приемной стороне не различимы, канал бесполезен для передачи. Пример 3.6. Определим пропускную способность гауссова канала. Пусть по каналу передается непрерывный сигнал u (t ) со средней мощностью, ограниченной величиной u2 . В канале действует аддитивная и статистически не связанная с входным сигналом гауссова помеха (t ) , среднюю мощность которой обозначим 2 . Принятый сигнал v(t ) u (t ) (t ) . Пусть полоса частот входного и выходного сигнала и помехи ограничены величиной F . Тогда на интервале времени T они могут быть представлены 2 FT отсчетами (см. теорему Котельникова). Количество информации, приходящееся на один отсчет, определится так h(V ) h(V / U ) или h(V ) h( ) , поскольку помеха (t ) и сигнал u (t ) независимы; h(V ) , h( ) - дифференциальные энтропии на один отсчет сигнала и помехи. Количество информации для сигналов uT (t ) и vT (t ) длительности T равно I T (U ,V ) 2 FT [h(V ) h( )] . Скорость передачи информации в этом случае может быть представлена как I (U , V ) lim T I T (U , V ) 2 F [h(V ) h( )]. T Пропускная способность непрерывного канала C Н max I (U , V ), { f ( u )} где максимум находится по всем возможным законам распределения входного сигнала. Учтем, что помеха имеет нормальное (гауссово) распределение* с 1 2 дисперсией 2 и энтропию h( ) log 2e 2 . Поскольку энтропия h( ) не зависит от закона распределения входного сигнала, то для получения максимальной скорости передачи информации достаточно обеспечить максимум энтропии h(V ) . Так как выходной сигнал образуется в результате суммирования входного сигнала и помехи, средняя мощность которых ограничена, то и средняя мощность выходного сигнала v(t ) ограничена. Максимальное значение энтропии h(V ) будет достигаться при распределении v(t ) по нормальному закону. При нормально распределенной помехе (t ) выходной сигнал v(t ) u (t ) (t ) может быть представлен как сумма двух нормально распределенных случайных величин при нормально распределенном входном сигнале u (t ) . Он будет иметь ту же функцию распределения с суммарной 1 2 дисперсией и h(V ) log 2e( u2 2 ) . Получаем выражение для пропускной способности гауссова канала: C Н F log(1 u2 ), 2 (3.22) устанавливающее зависимость пропускной способности от ширины полосы пропускания канала и отношения сигнал/шум. Для достижения пропускной способности по статистическим свойствам входной сигнал должен приближаться к помехе, т.е. должен быть шумоподобным. 3.6. Теорема Шеннона для дискретного канала без помех. Методы оптимального кодирования. Можно показать, что при надлежащем кодировании любые сообщения могут передаваться со скоростью, сколь угодно близкой к пропускной способности канала. Таким образом, при любом источнике сообщений пропускная способность канала может быть полностью использована. Теорема Шеннона Если имеется канал с пропускной способностью С, то сообщения любого источника с энтропией Н на символ можно так закодировать, что окажется возможным передавать эти сообщения со скоростью, сколь угодно близкой к С /H символов в секунду, или, что то же самое, С двоичных единиц в секунду. Вторая теорема Шеннона * При рассмотрении гауссовой помехи (белого шума) учитывается случай максимального искажающего воздействия помехи на передаваемый непрерывный сигнал. Существует такой способ кодирования, при котором средняя длина кодовой комбинации, приходящаяся на один символ сообщения, определяется следующим образом: H H ncp ; >0 – б.м.в., то есть ncp ; ncp H при mk 2 log mk log m k Определение Кодирование, которое обеспечивает скорость передачи информации, близкую к пропускной способности канала, называют оптимальным. Оптимальное кодирование основано на избыточности источника сообщений, связанное с неодинаковыми вероятностями букв. Оптимальное кодирование можно рассматривать с помощью метода Шеннона-Фано и метода Хаффмена. Метод Шеннона-Фано используется для построения, как правило, бинарного кода. Любой оптимальный код должен удовлетворить следующим условиям: 1) вероятности символов на выходе кодера примерно одинаковы; 2) сообщениям меньшей вероятности должны соответствовать кодовые операции большей длины; 3) оптимальный код не должен требовать разделительных знаков. Код Морзе не является оптимальным, так как требует разделительных знаков. Процедура построения кода Шеннона-Фано: 1) все буквы (символы) источника располагают в порядке убывания их вероятности; 2) все символы делим на две группы с соблюдением примерного равенства вероятностей этих групп (делим чертой); 3) символам верхней группы присваиваем знак 1, а символам нижней – 0; Кодовые Длина кодовой xi P(xi) Знаки кодовой операции комбинации комбинации ni х1 1/2 1 1 1 х2 1/4 0 1 01 2 х3 1/8 0 0 1 001 3 х4 1/16 0 0 0 1 0001 4 х5 1/32 0 0 0 0 1 00001 5 х6 1/32 0 0 0 0 0 00000 5 4) каждую группу символов делим на две подгруппы с соблюдением того же примерного равенства вероятностей; 5) символам верхних подгрупп ставим знак 1, а нижних – 0; 6) повторяем пп. 4 и 5 пока в подгруппе не останется по одному сообщению. Проверим на разделительные знаки. Пример: 01, 001, 1, 1, 1, 1, 1, 01,…. х2 х3 х1 х1 х1 х1 х1 х2 Таким образом, разделительные знаки не нужны. Чтобы код не требовал разделительных знаков, никакая его кодовая операция не должна быть началом другой. Вычислим среднюю длину кодовых комбинаций: 6 1 1 1 1 1 1 знака ncp P xi ni 1 2 3 4 5 5 1,94 , 2 4 8 16 32 32 символ i 1 то есть в среднем примерно надо два знака для передачи символа. Энтропия: 6 1 1 1 1 1 1 1 1 H P( xi ) log P( xi ) log 2 log 2 log 2 log 2 2 2 4 4 8 8 16 16 i 1 2 2 бит log 2 1,94 . 32 32 символ H H H , log 2 mk log 2 2 тогда скорость передачи информации будет равна пропускной способности I CД . Строение кода удобно преобразить в виде кодового дерева. Оно строится так: из узла исходит число ветвей, равное основанию кода. Верхняя ветвь означает знак 1, а нижняя - знак 0. Каждый узел характеризуется порядком начиная от вершины. Рассмотрим на нашем примере построение кодового дерева: Получили ncp H , но по теореме Шеннона ncp 1 х1 1/2 х2 1/4 х3 1/8 1 0 1 0 1 х4 1/16 0 1 х5 х6 1/32 0 1/32 0 Декодирование надо начинать с вершины. Все кодовые комбинации концевые, поэтому код не требует разделительных знаков. Оптимальное кодирование позволяет повысить скорость передачи информации при наличии канала без помех. Если есть помехи, то достаточно одной ошибки, чтобы неправильно декодировалась не только кодовая операция, но и целая декада. При наличии помех оптимальное кодирование используют как первую ступень перед помехоустойчивым кодированием. Рассмотренная методика Шеннона-Фано не всегда приводит к однозначному построению кода. Ведь при разбиении на подгруппы можно сделать большей по вероятности как верхнюю, так и нижнюю подгруппы. От указанного недостатка свободна методика Хаффмена. Она гарантирует однозначное построение кода, с наименьшим для данного распределения вероятностей средним числом символов на букву. Принцип построения оптимального кода (метод Хаффмена): 1. Все символы располагаются в порядке убывания их вероятностей. 2. Выбираются 2 символа с наименьшими вероятностями и объединяются в одну точку с суммарной вероятностью. 3. С учетом полученной точки анализируются вероятности символов и объединяются очередные два символа с наименьшими вероятностями. 4. Процесс продолжается до тех пор, пока линии, идущие от каждого символа, не сольются в общей точке с суммарной вероятностью, равной единице. Пример. По каналу связи передаются сообщения, состоящие из 8 символов с разными вероятностями. Необходимо оптимальным образом закодировать сообщения. От каждой точки отходят влево две линии. Верхняя линия обозначается «1», а нижняя – «0». Кодом каждого символа будет последовательность знаков, которая встречается на пути от общей точки с вероятностью 1 к соответствующему символу. x1 x2 x3 x4 x5 x6 x7 x8 0.5 0.15 0.12 0.1 0.04 0.04 0.03 0.02 . . . . . . . . xi P(xi) Кодовая комбинация x1 x2 x3 x4 x5 x6 x7 x8 0.5 0.15 0.12 0.1 0.04 0.04 0.03 0.02 1 001 011 010 00011 00010 00001 00000 1 1 1 1 1 0 . 0.05 0 . 0.08 0 1 . 0.13 . 0.22 0 Длина кодовой комбинации ni 1 3 3 3 5 5 5 5 . 0.28 0 1 . 0.5 . 0 1 Вычислим энтропию: 8 H P xi log P xi 0.5 log 2 0.5 0.15 log 2 0.15 0.12 log 2 0.12 i 1 0.1log 2 0.1 0.04 log 2 0.04 0.04 log 2 0.04 0.03 log 2 0.03 0.02 log 2 0.02 2.21 бит символ . Вычислим среднюю длину кодовых комбинаций: 8 ncp P xi ni 0.5 1 0.15 3 0.12 3 0.1 3 0.04 5 0.04 5 0.03 5 i 1 0.02 5 2.26 бит символ . Достоинства и недостатки оптимального кодирования Достоинства: повышается скорость передачи информации или уменьшается требуемая пропускная способность канала; уменьшается емкость памяти при записи информации. Недостатки: низкая помехоустойчивость; эффект размножения ошибки; наличие задержки, что усложняет техническую реализацию. 3.7. Согласование статистических свойств источника и канала Качество функционирования системы связи, представленной схемой Шеннона на рис. 2.1, зависит от решения дух задач. Задача помехоустойчивости возникает в связи с тем, что передача сообщений по каналу может сопровождаться шумом, вследствие чего появляются ошибки и потери информации. Другая задача возникает в связи с тем, что источник может создавать информацию со скоростью, превышающей пропускную способность канала, что приводит к снижению эффективности функционирования системы. Предельные возможности по эффективности и помехоустойчивости системы определяются фундаментальными теоремами теории информации, согласно которым проблема решается посредством введения кодирующихдекодирующих устройств, осуществляющих согласование статистических свойств источника и канала. К сожалению, данные теоремы не определяют структуру единого алгоритма оптимального кодирования. Оптимизация системы связи на практике осуществляется следующим образом. Кодирующее устройство разбивают на кодер источника и кодер канала (рис. 3.6), что позволяет изучать проблемы кодирования источника и канала по отдельности. Кодер источника зависит только от статистических свойств источника и осуществляет преобразование сообщений, поступивших из источника за некоторый промежуток времени, в другую последовательность сообщений, обладающую более оптимальными статистическими свойствами. По существу кодер источника устраняет избыточность исходных сообщений- осуществляет их сжатие, что приводит к повышению скорости передачи информации и эффективности функционирования эффективное кодирование. системы. Источник информации Помеха Кодер источника Канал связи Кодер канала Кодирующее устройство Это оптимальное или Получатель информации Декодер Декодер канала источника Декодирующее устройство Рис. 3.6. Схема системы связи с раздельным кодированием Кодер канала зависит только от статистических свойств канала (помехи) и решает задачу повышения надежности связи за счет введения так называемой «рациональной» избыточности. Количество избыточной информации необходимой для обеспечения достоверной передачи безизбыточных сообщений, невелико и равно потерям информации, обусловленным действием помех. Это помехоустойчивое кодирование. Обоснованность подобного разделения не вполне очевидно. Одним из результатов теории информации является доказательство того, что при достаточно общих условиях возникающие потери несущественны. Библиографический список 1. Советов Б.Я. теория информации. Теоретические основы передачи данных в АСУ. Л.: Изд-во Ленингр. ун-та, 1977. 184с. 2. Куликовский Л.Ф., Мотов В.В. теоретические основы информационных процессов: Учеб. пособие. М.: Высш. шк., 1987, 248 с. 3. Дмитриев В.И. Прикладная теория информации: Учеб. пос. для вузов. М.: Высш. шк., 1989, 320 с. 4. Игнатов В.А. теория информации и передачи сигналов: Учеб. пос. для вузов. М.: Радио и связь, 1991,280 с. 5. Колесников В.Д., Полтырев Г.Ш. курс теории информации. М.: Наука, 1982, 416 с.