Алфавитный и содержательный подходы к определению количества информации Как измерить информацию? Вопрос: «Как измерить информацию?» очень непростой. Ответ на него зависит от того, что понимать под информацией. Но поскольку определять информацию можно по-разному, то и способы измерения тоже могут быть разными. Алфавитный подход к определению количества информации Алфави́т (греч. ἀλφάβητος) — форма письменности, основанная на стандартном наборе знаков. Алфавитный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст. Способ измерения информации, который не связывает количество информации с содержанием сообщения, называется алфавитным подходом. При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы. Применение алфавитного подхода удобно прежде всего при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые — старые», «понятные — непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода. Основные сведения: Количество информации, заключённой в сообщении, определяется объёмом знаний, который несёт это сообщение. Единица измерения количества информации – бит. Сообщение, уменьшающее неопределённость знаний человека в 2 раза, несёт 1 бит информации. Алфавитный подход к определению количества информации позволяет определить количество информации заключённой в тексте. Каждый человек воспринимает информацию по разному. Алфавитный подход является объективным. Он не зависит от человека (субъекта), воспринимающего информацию. Множество символов используемых при записи текста, называется алфавитом. Количество знаков в различных алфавитах разное. Чем больше алфавит, тем больше информации несёт 1 символ алфавита. Алфавит и его мощность Все множество используемых в языке символов будем традиционно называть алфавитом. Алфавит – это вся совокупность символов, используемых в некотором языке для представления информации. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами. ) Алфавит и его мощность Полное количество символов алфавита принято называть мощностью алфавита. Мощность алфавита символов в алфавите. – это количество Будем обозначать эту величину буквой N. Например, мощность алфавита из заглавных русских букв и отмеченных дополнительных символов равна 54 (33 буквы, 10 цифр и 11 знаков (препинания, скобки, пробел и др.). АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЬЫЪ ЭЮЯ0123456789().,!?«»:-; (пробел) Количество информации, которое содержит сообщение, закодированное с помощью знаковой системы Количество информации , которое несет один знак Количест во знаков Каждый символ текста имеет свой «информационный вес», который зависит от мощности алфавита. Количество информации (IС ), которое содержит сообщение, равно произведению количества символов в сообщении (K) на «информационный вес» одного знака в данном алфавите (IЗ ): I С = IЗ ∙ K А что если алфавит состоит только из двух символов 0 и 1? Компьютер хранит всю информацию с помощью двух символов – 0 и 1. Это двоичный алфавит. Информационный вес символа двоичного алфавита – 1 бит. Бит - это наименьшая единица информации, известная в природе. Бит – это 0 или 1. «binary digit» - «двоичная цифра». Посчитайте количество бит: 100011010 Достаточный алфавит Алфавит мощностью 256 символов называется достаточным. Это русские и латинские строчные и прописные буквы, цифры, знаки препинания, всевозможные скобки, знаки арифметических операций и др. N = 2i 256 = 28 Один символ достаточного алфавита «весит» 8 бит. 8 бит – это байт. На клавиатуре компьютера 256 символов. Количество информации, которое приходится на 1 символ и количество знаков в алфавите связывают формулой: N= 2I N – количество знаков в алфавите знаковой системы(мощность алфавита); I – количество информации, которое несет каждый знак. Количество информации в сообщении: IС = I З ∙ K IС – кол-во информации в сообщении; IЗ – количество информации в одном знаке; K – количество знаков в сообщении (длина кода) Более крупные единицы информации Название Условное обозначение Соотношение с другими единицами Килобит Кбит 1 Кбит = 1024 бит = 210 бит ≈ 1000 бит Мегабит Мбит 1 Мбит = 1024 Кбит = 220 бит ≈ 1 000 000 бит Гигабит Гбит 1 Гбит = 1024 Мбит = 230 бит ≈ 1 000 000 000 бит Килобайт Кбайт (Кб) Мегабайт Мбайт (Мб) Гигабайт Гбайт (Гб) 1 Кбайт = 1024 байт = 210 байт ≈ 1000 байт 1 Мбайт = 1024 Кбайт = 220 байт ≈ 1 000 000 байт 1 Гбайт = 1024 Мбайт = 230 байт ≈ 1 000 000 000 байт Количество информации в тексте Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов. В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах. Сколько информации несет один символ в русском языке Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. В каждой очередной позиции текста может появиться любой из N символов. Тогда, согласно 2I = N , каждый такой символ несет I бит информации, которое можно определить из решения уравнения: 2I = 54. Получаем: I = 5.755 бит. Вот сколько информации несет один символ в русском тексте! Количество информации в тексте А теперь для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на I. Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50x60=3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит. При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита. Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит страница байт информации. содержит 40x60=2400 Объем всей информации в книге: 2400 х 150 = 360 000 байт. 360000 байт= 351,5625 Кб = 0,34332275Мб. Объем книги 0,34 Мб. Задание №1 Определите информационный объем страницы книги, если для записи текста использовались только заглавные буквы русского алфавита, кроме буквы Ё. Решение: 1. N = 32 2. 2I = N 3. 2I = 32 4. I = 5 5. На странице 3000 знаков, тогда объем информации = 3000 * 5 = 15000 бит. Задание №2 1. Какое количество байтов понадобится компьютеру, чтобы закодировать фразы: а) «МИРУ МИР»; б) «Компьютер – универсальный прибор.»? 2. Что больше: 4 байта или 32 бита? 3. Что больше: 1000 байт или 1 Кбайт? 4. Расположите единицы измерения информации в порядке возрастания: Гигабайт; Байт; Мегабайт; Килобайт. 5. Компьютерная игра имеет объем 10 Мбайт. Сколько дискет объемом 1,44 Мбайт понадобится, чтобы записать игру? Скорость передачи информации Прием-передача информации могут происходить с разной скоростью. Количество информации, передаваемое за единицу времени, есть скорость передачи информации или скорость информационного потока. Очевидно, эта скорость выражается в таких единицах, как бит в секунду (бит/с), байт в секунду (байт/с), килобайт в секунду (Кбайт/с) и т.д. Информация передается со скоростью 2 кбайт/сек. Какой объем информации будет передан за 30 минут? Ответ дайте в мегабайтах. Пример решения задачи: Информационное сообщение объемом 1,5 Кб содержит 3072 символа. Сколько символов содержит алфавит, при помощи которого было записано это сообщение? Дано: Ic=1,5Кб К=3072 N-? Решение. Ic = 1,5 Кб = 1,5 1024 = 1536 байта = 1536 8 = 12288 бит. N = 2I Iз = 12288/3072 з= 4 бита. N = 24 = 16 символов. Найти объем информации, содержащейся в тексте из 3000 символов, написанном русскими буквами (33 буквы +21 специальных символов). Решение: 1) Найдем мощность алфавита: N=33 русских прописных буквы + 33 русских строчных буквы + 21 специальный знак = 87 символов. 2) Найдем информационный объем одного символа: i=log287=6,4 бит. 3) Найдем объем всего текста: 6,4 бит*3000=19140 бит = 2392,5 байт = 2,3 Кбайт. Найти количество информации, содержащейся в немецком тексте с таким же количеством символов (26 букв). Решение: 1) Найдем мощность немецкого алфавита: N=26 немецких прописных буквы + 26 немецких строчных буквы + 21 специальный знак = 73 символа. 2) Найдем информационный объем одного символа: i=log273=6,1 бит. 3) Найдем объем всего текста: 6,1 бит*3000=18300 бит = 2287,5 байт = 2,2 Кбайт. Найти объем текста, записанного на языке, алфавит которого содержит 128 символов и 2000 символов в сообщении. Дано: К=2000, N=128. Найти: VT - ? Решение: 1) i=log2N=log2128=7 бит – объем одного символа. 2) VT= i*K=7*2000=14000 бит = 1750 байт = 1,7 Кбайт – объем сообщения. Ответ: 1,7 Кбайт . Книга, набранная с компьютера, содержит 150 страниц: на каждой странице – 40 строк, в каждой строке – 60 символов. Каков объем информации в книге? Дано: К=150*40*60, N=256. Найти: I c- ? Решение: 1) Iз =log2N=log2256=8 бит – объем одного символа. 2) Ic= Iз *K=8*150*40*60=2880000 бит = 360000 байт = 351,6 Кбайт– объем сообщения. Ответ: 351,6 Кбайт. Система оптического распознавания символов позволяет преобразовывать отсканированные изображения страниц документа в текстовый формат со скоростью 4 страницы в минуту и использует алфавит из 65 536 символов. Какое количество информации будет нести текст, каждая страница которого содержит 40 строк по 50 символов, после 10 минут работы приложения? Дано:N=65536, К=40*50, V = 4 стр/мин, t = 10 мин. Найти: VT - ? Решение: 1) i=log2N=log265536=16 бит – объем одного символа. 2) VT стр=40*50*16 бит = 32000 бит– объем сообщения в одной странице. 3) VT общ= 4стр/мин*10 мин* 32000бит =1280000 бит = 160000 байт = 156,25 Кбайт– объем всего сообщения Ответ: 156,25 Кбайт.