10 класс Как измерить информацию Информация = качественные показатели + количественные показатели Как измерить информацию Измерение количества информации Измерение информации в теории информации Содержательный подход Уменьшение неопределенности знаний Измерение информации в технике Технический подход Единицы измерения количества информации Бит – такое кол-во информации, которое содержит сообщение, уменьшающее неопределенность знаний в два раза, наименьшая единица информации (0 или 1) Байт - основная единицу измерения количества информации (Международная система СИ) Байт Байт 1 байт = 23 бит = 8 бит Килобит Кбит 1Кбит = 210 бит = 1024 бит КилоБайт Кб 1 Кб = 210 байт = 1024 байт МегаБайт Мб 1 Мб = 210 Кб = 1024 Кб ГигаБайт Гб 1 Гб = 210 Мб = 1024 Мб ТераБайт Тб 1 Тб = 210 Гб = 1024 Гб Измерение информации: содержательный подход Измерение информации Содержательный подход – равновероятные события Сообщение, уменьшающее неопределенность знаний человека в два раза, несет для него 1 бит информации. Количество информации, заключенное в сообщении, определяется по формуле Хартли: i= log2 N, N = 2i Измерение информации Если обозначить возможное количество событий, или, другими словами, неопределенность знаний N, а буквой i количество информации в сообщении о том, что произошло одно из N событий, то можно записать формулу: i= log2 N, N = 2i N – количество равновероятных событий; i – количество информации (бит), заключенное в сообщении об одном из событий. Количество информации, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения показательного уравнения: 2i = N Пример 1: После сдачи зачета или выполнения контрольной работы ученик мучается неопределенностью, он не знает, какую оценку получил. «Зачет», «незачет»? «2», «3», «4» или «5»? Наконец, учитель объявляет результаты, и он получает одно из двух информационных сообщений: «зачет» или «незачет», а после контрольной работы одно из четырех информационных сообщений: «2», «3», «4» или «5». Информационное сообщение об оценке за зачет приводит к уменьшению неопределенности знания в два раза, так как получено одно из двух возможных информационных сообщений. 2 = 21 1 сообщ – 1 бит инф Информационное сообщение об оценке за контрольную работу приводит к уменьшению неопределенности знания в четыре раза, так как получено одно из четырех возможных информационных сообщений. 4 = 22 1 сообщ – 2 бита инф Пример 2: На книжном стеллаже восемь полок. Книга может быть поставлена на любую из них. Сколько информации содержит сообщение о том, где находится книга? Задаем вопросы: - Книга лежит выше четвертой полки? - Нет. 8=2 - Книга лежит ниже третьей полки? - Да . - Книга — на второй полке? - Нет. - Ну теперь все ясно! Книга лежит на первой полке! 3 1 сообщ – 3 бита инф Каждый ответ уменьшал неопределенность в два раза. Всего было задано три вопроса. Значит набрано 3 бита информации. И если бы сразу было сказано, что книга лежит на первой полке, то этим сообщением были бы переданы те же 3 бита информации. Задание 1: Сколько информации содержит сообщение о выпадении грани с числом 3 на шестигранном игральном кубике? Задание 1: Сколько информации содержит сообщение о выпадении грани с числом 3 на шестигранном игральном кубике? Решение: N=6 i-? 2i = N 2i = 6 22 < 6 < 2 3 i = 2.58496 бит i = 3 бита Задание 2: Сколько информации содержит сообщение о том, что из колоды карт достали король пик? Задание 2: Сколько информации содержит сообщение о том, что из колоды карт достали король пик? Решение: В колоде 36 карты. В перемешенной колоде выпадение любой карты равновероятное событие. N = 36 i-? 2i = N 2i = 36 26 = 64 (36 входит в это число) i = 6 бит Задание 3: 3-1. Сколько информации содержит сообщение о том, что на поле 4х4 клетки одна из клеток закрашена? 3-2. В книге 512 страниц. Сколько информации несет сообщение о том, что закладка лежит на какой-либо странице? Измерение информации Закон аддитивности информации Количество информации, заключенное в сообщении о событии, состоящем в том, что произошло несколько независимых событий, равно сумме количеств информации, заключенных в сообщениях об отдельных событиях i (x1,x2) = iх1 + ix2 n I= I k 1 k Информационный объем совокупного события складывается из информационных объемов, входящих в него событий Пример: Для компьютерной карточной игры используются 36 карт (4 масти по 9 карт). Двоичный код каждой карты состоит из двух частей: кода масти и кода карты. По сколько бит должно быть выделено на кодировку карты? Какая должна быть длина кода (i)? i = iм+ iк n 4 масти (Nм) 9 карт (Nк) I k i 2 4=2 =2 9 <= 2i = 24 iм = 2 i = iм+ iк k=21 + 4 = 6 iк = 4 Задача: Для общения в языке племени Мумбо-Юмбо используется 13 основных понятий и 5 связок, позволяющие соединять эти понятия. Для передачи сообщений племя использует двоичный код: сочетание звонких и глухих звуков барабана. Сообщения передаются порциями – понятие + связка. Сколько ударов требуется для кодировки каждой порции сообщения? i = i п+ iс Nп = 13 16 = 24 Nс=5 8 = 23 i = i п+ i с = 4 + 3 = 7 Измерение информации Содержательный подход – неравновероятные события Количество информации в сообщении о некотором событии зависит от вероятности этого события: i = log 2 (1/p) = - log 2 p N I pi log 2 pi , i 1 Где i – количество информации, содержащееся в сообщении об одном из неравновероятных событий Измерение информации Сообщение, уменьшающее неопределенность знаний человека в два раза, несет для него 1 бит информации. N = 2i N – количество равновероятных событий; i – количество информации (бит), заключенное в сообщении об одном из событий. Всегда ли сообщение уменьшает неопределенность знаний именно в два раза? Играем в Крестики-Нолики на поле 4*4, Какое количество информации будет получено вторым игроком после первого хода? N = 16 – поле 4*4 X и 0 – 2 возм. равнов. события N=2i 16=2i i=4 На световом табло 5*5, можно делать ходы. Лампочка может быть включена, выключена, мигает. Какое количество информации несет один ход? N = 25 – поле 5*5 Вкл, выкл, мигает – 3 возм. равнов. соб. N=3i 25<=3i i = 3 Измерение информации N = si N – количество равновероятных событий; s - количество знаков, с помощью которого кодируются равновероятные события i – количество информации (бит), заключенное в сообщении об одном из событий. Некоторое сигнальное устройство за одну секунду передает один из пяти сигналов. Сколько различных сообщений длиной в три секунды можно передать при помощи этого устройства? Дано ? – 5 сигналов ? – сигнал длиною в 3 сек S=5 I=3 N =? N = si N = 53 N = 125 Измерение информации: алфавитный (технический) подход Измерение информации Алфавитный (технический, объемный) подход Основан на подсчете числа символов в сообщении Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой, то количество информации, заключенное сообщении вычисляется по формуле: Ic = i * k N=2i Ic – информационный объем сообщения k – количество символов N – мощность алфавита (количество символов) i - информационный объем 1 символа Алфавит и его мощность Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами. Полное количество символов алфавита принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из заглавных русских букв и отмеченных дополнительных символов равна 54. АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЬЪЭЮЯ0123456789().,!?«»:-; (пробел) Сколько информации несет один символ в русском языке Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. В каждой очередной позиции текста может появиться любой из N символов. Тогда, согласно известной нам формуле 2I = N , каждый такой символ несет i бит информации, которое можно определить из решения уравнения: 2I = 54. Получаем: I = 5.755 бит или I = 6 бит Вот сколько информации несет один символ в русском тексте! Пример: Определите информационный объем страницы книги, если для записи текста использовались только заглавные буквы русского алфавита, кроме буквы Ё. Решение: 1. 2. 3. 4. 5. N = 32 2i = N 2i = 32 i=5 На странице 3000 знаков, тогда объем информации = i * k = 5 * 3000= 15000 бит. При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита Задание 1: Племя Мумбу-Юмбу использует алфавит из букв: αβγδεζηθλμξσφψ, точки и для разделения слов используется пробел. Сколько информации несет свод законов племени, если в нем 12 строк и в каждой строке по 20 символов? мощность алфавита N= 16 Ic = 4* (20*12) = 960 бит i-? i=4 16=24 Вопросы: Что такое «алфавит»? Что такое «мощность алфавита»? Как определяется количество информации в сообщении с алфавитной точки зрения? Что больше 1 Кбайт или 1000 байт? Сколько информации содержится в сообщении, если для кодирования одного символа использовать 1 байт: Компьютер – универсальный прибор Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 64 символа, второй – мощностью 32 символа. Во сколько раз отличается количество информации в этих текстах? Представление информации в ПК Представление и кодирование информации в компьютере Все виды информации кодируются на машинном языке, в виде двоичного кода: Двоичный код Вся информация, которую обрабатывает компьютер, представлена двоичным кодом помощью двух цифр – 0 и 1 Эти два символа 0 и 1 принято называть битами (наименьшая единица информации) Кодирование – преобразование входной информации в машинную форму (в двоичный код) Декодирование – преобразование двоичного кода в понятную человеку Почему двоичное кодирование С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде последовательности нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента. Эти состояния легко различать. 0 – отсутствие электрического сигнала; 1 – наличие электрического сигнала. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных. Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук. Способы кодирования Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа символьная (буквы, цифры, знаки) графические изображения звук Двоичное кодирование числовой информации Представление чисел Для записи информации о количестве объектов используются числа Числа записываются с использование особых знаковых систем, которые называют системами счисления 100 → 11001002 Система счисления – совокупность приемов и правил записи чисел с помощью определенного набора символов Позиционные и непозиционные системы счисления Все системы счисления делятся на две большие группы: ПОЗИЦИОННЫЕ НЕПОЗИЦИОННЫЕ Количественное значение каждой цифры числа зависит от того, в каком месте (позиции или разряде) записана та или иная цифра. Количественное значение цифры числа не зависит от того, в каком месте (позиции или разряде) записана та или иная цифра. 0,7 7 70 XIX Двоичное кодирование текстовой информации Двоичный алфавит А что если алфавит состоит только из двух символов 0 и 1? В этом случае: N = 2; 2i = N; 2i = 2; i = 1! При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) один двоичный знак несет 1 бит информации. Интересно, что сама единица измерения информации «бит» получила свое название от английского сочетания «binary digit» - «двоичная цифра». Достаточный алфавит Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24 = 16. А если N =32, то один символ «весит» 5 бит. Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. С ним мы скоро встретимся при работе с компьютером. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания... Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ей даже присвоили свое название — байт. 1 байт = 8 бит Кодирование текстовой информации Процесс кодирования текстовой информации состоит в том, что каждому символу присваивается уникальный десятичный (или шестнадцатеричный) код, который затем представляется в виде двоичного. Данный код называется кодом символа. Конкретное соответствие между символами и их кодами называется системой кодировки. Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же коду в разных таблицах поставлены в соответствие разные символы. Таблицы кодировки ASCII - Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита. (256 символов – 1 байт каждый символ) В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251 (WIN-1251), СР866, Mac, ISO). и одна универсальная кодовая таблица для латинского алфавита В настоящее время получил широкое распространение новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216= 65536) различных символов. Обратите внимание! Цифры кодируются по стандарту ASCII в двух случаях – при вводе-выводе и когда они встречаются в тексте. Если цифры участвуют в вычислениях, то осуществляется их преобразование в другой двоичных код (по правилам систем счисления) Возьмем число 57 При использовании в тексте каждая цифра будет представлена своим кодом в соответствии с таблицей ASCII Код передаваемого числа будет – 00110101 00110111 При использовании в вычислениях код этого числа будет получен по правилам перевода в двоичную систему и получим – 00111001 Информационный объем символа: N= i 2 В 2-х символьном алфавите каждый символ весит 1 бит. В 4-х символьном алфавите каждый символ весит 2 бита. В 256-ти символьном алфавите каждый символ весит 8 бит (ASCII) В кодировке Unicode 1 символ весит 2 байта Информационный объем текста Если весь текст состоит из k символов, то при алфавитном подходе размер содержащейся в ней информации равен: Iт = i * k где i – информационный вес одного символа k – количество символов Вопросы и задания: В чем заключается кодирование текстовой информации в компьютере? Как изменится объем текста при его преобразовании из стандартной кодировки в кодировку Unicode? Сколько существует кодировок латинского алфавита? Сколько существует кодировок русского алфавита? Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения из пушкинского четверостишия: Певец-Давид был ростом мал, Но повалил же Голиафа! Пример: А теперь для того, чтобы найти информационный объем текста, нужно посчитать число символов в нем (k) и умножить на информационный объем 1 символа (i). Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается k = 50 * 60 =3000 знаков. Тогда объем информации будет равен: I = i * k = 8 * 3000 = 24000 бит. Задание: Вычислите какова мощность алфавита, с помощью которого записано сообщение, содержащее 2048 символов, если его объем составляет 1.25 Кбайта. N -? Ic = 1.25 Кб к = 2048 Ic = 1.25*8*1024 = 10*210 бит к = 2048 = 2*210 i = Ic \ к = 10*210 \ 2*210 = 5 N = 25 = 32 символа Двоичное кодирование графической информации Дискретизация графики Примером аналогового представления графической информации может служить, например, живописное полотно, цвет которого изменяется непрерывно, а дискретного — изображение, напечатанное с помощью струйного принтера и состоящее из отдельных точек разного цвета. . Дискретизация – это преобразование непрерывных изображений и звука в набор дискретных значений в форме кодов. Кодирование растровой графики Графическая информация на экране монитора представляется в виде растрового изображения, которое формируется из точек (пикселей), причем каждой точке присваивается значение его цвета (код цвета). Чем меньший размер имеет точка, тем, соответственно, больше точек на экране и тем выше качество изображения. Количество точек на экране, называется разрешающей способностью монитора. Растр - разложение изображения с помощью специальной сетки. на отдельные точки Кодирование растровой графики Растровое изображение представляет собой совокупность точек (пикселей) разных цветов. Пиксель - минимальный участок изображения, цвет которого можно задать независимым образом. В процессе производится дискретизация. кодирования изображения его пространственная Пространственную дискретизацию изображения можно сравнить с построением изображения из мозаики (большого количества маленьких разноцветных стекол). Изображение разбивается на отдельные маленькие фрагменты (точки), причем каждому фрагменту присваивается значение его цвета, то есть код цвета (красный, зеленый, синий и так далее). Кодирование растровой графики При формировании изображения на экране монитора используется RGB- модель черный 000000 красный FF0000 зеленый 00FF00 синий 0000FF белый FFFFFF Кодирование растровой графики При подготовке печатных изображений используется CMYK - модель. 000000 00FFFF FFFFFF FF00FF 808080 FFFF00 True Color На практике же, для сохранения информации о цвете каждой точки цветного изображения в модели RGB обычно отводится 3 байта (т.е. 24 бита) - по 1 байту (т.е. по 8 бит) под значение цвета каждой составляющей. Таким образом, каждая RGB-составляющая может принимать значение в диапазоне от 0 до 255 (всего 28=256 значений), а каждая точка изображения, при такой системе кодирования может быть окрашена в один из 16 777 216 цветов. Такой набор цветов принято называть True Color (правдивые цвета), потому что человеческий глаз все равно не в состоянии различить большего разнообразия. Кодирование графической информации Количество цветов, которые используются для воспроизведения изображения, называется цветовой палитрой. Качество двоичного кодирования изображения определяется разрешающей способностью экрана и глубиной цвета. N= i 2 N – мощность палитры i – глубина цвета Измерение объема графической информации Если изображение состоит из К точек, объем графической информации равен: Iгр = i * k где i – глубина цвета к – размер изображения (пиксел) Вычислим объем видеопамяти Для того чтобы на экране монитора формировалось изображение, информация о каждой точке (код цвета точки) должна храниться в видеопамяти компьютера. Рассчитаем необходимый объем видеопамяти для одного из графических режимов. В современных компьютерах разрешение экрана обычно составляет 1280х1024 точек. Т.е. всего 1280 * 1024 = 1310720 точек. При глубине цвета 32 бита на точку необходимый объем видеопамяти: I = i * k = 32 *1310720 = 41943040 бит = 5242880 байт = 5120 Кб = 5 Мб. Кодирование векторной графики Одним из способом представления изображений на компьютере является векторная графика. Основным ее элементом является линия, которая задается в виде формулы, то есть в виде нескольких параметров. Для описания прямой линии достаточно всего два параметра: y = kx +b. Кривые второго порядка (параболы, гиперболы) задаются пятью параметрами. Кривые третьего порядка имеют точку Для их описания необходимо 9 параметров. перегиба. Вопросы и задания: Какие виды компьютерных изображений вы знаете? В растровом графическом редакторе минимальным объектом, цвет которого можно изменить, является ... В векторном графическом редакторе минимальным объектом, размер которого можно изменить, является ... Двоичный код изображения, выводимого на экран дисплея ПК, хранится в… Какое максимальное количество цветов может быть использовано в изображении, если на каждую точку отводится 3 бита? Что вы знаете о цветовой модели RGB? Цветное (с палитрой 256 цветов) растровое графическое изображение имеет размер 10*10 точек. Какой объем памяти займет это изображение? Рассчитайте необходимый объем видеопамяти для графического режима: разрешение экрана 800х600, качество цветопередачи 16 бит. Двоичное кодирование звуковой информации Кодирование звуковой информации Звуковая волна - это непрерывная волна с меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон. Временная дискретизация звука В процессе кодирования звукового сигнала производится его временная дискретизация – непрерывная волна разбивается на отдельные маленькие временные участки и для каждого такого участка устанавливается определенная величина амплитуды. Таким образом непрерывная зависимость амплитуды сигнала от времени заменяется на дискретную последовательность уровней громкости. Глубина кодирования звука Качество двоичного кодирования звука определяется частотой дискретизации и глубиной кодирования. Частота дискретизации – количество измерений уровня сигнала в единицу времени. Количество уровней громкости определяет глубину кодирования. Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. При этом количество уровней громкости равно N = 2i = 216 = 65536. N= i 2 N – количество различных уровней сигнала i – глубина кодирования звука Информационный объем звуковой информации Объем звуковой информации равен: Iзв = i * k * t где i – глубина звука (бит) k – частота вещания (качество звука) (Гц) t – время звучания (сек) Кодирование звуковой информации Качество радиотрансляции: частота дискретизации - 8 КГц глубина кодирования - 8 бит Среднее качество : частота дискретизации – 24 КГц глубина кодирования - 16 бит Качество DVD: частота дискретизации – 2*48 КГц глубина кодирования - 24 бит Задание: Вычислите объем звукового файла, если известно, что его длительность составляет 1 минуту, глубина звука – 16 бит, а качество вещания – 48 кГц (стереофайл). Iзв = i * k * t Iзв = 16 * 48000*2 * 60 = 11 Мб Двоичное кодирование видео информации Представление видеоинформации В последнее время компьютер все чаще используется для работы с видеоинформацией. Простейшей такой работой является просмотр кинофильмов и видеоклипов. Следует четко представлять, что обработка видеоинформации требует очень высокого быстродействия компьютерной системы. Что представляет собой фильм с точки зрения информатики? Прежде всего, это сочетание звуковой и графической информации. Кроме того, для создания на экране эффекта движения используется дискретная по своей сути технология быстрой смены статических картинок. Исследования показали, что если за одну секунду сменяется более 10-12 кадров, то человеческий глаз воспринимает изменения на них как непрерывные.