Введение Текстовая информация представляет собой набор символов, которыми могут быть буквы, цифры, знаки препинания. В компьютерной технике символы закодированы с помощью чисел, каждый символ кодируется своим набором цифр — кодом Кодовая таблица — это представление символов в компьютерной технике на внутреннем уровне. Базой для компьютерных стандартов кодирования является кодировка ASCII. Однако этот стандарт рассчитан на передачу текстовой информации, которая состоит из букв английского алфавита. Форматы текстовых файлов: Наиболее распространённый и простой формат текстовых файлов: .txt. Усовершенствованный формат, который позволяет хранить форматирование: .rtf. Для документов Microsoft Word: .doc, .docx. Позволяет работать с презентациями, формами, анимацией, аудио и видео: .pdf. Для документов OpenOffice: .odt. Для чтения электронных книг: .fb2, .djvu, .mobi, .epub. На заре компьютерной эры на каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти 3232 символа входили только управляющие символы и строчные буквы английского алфавита. С ростом производительности компьютеров стали появляться таблицы кодировок с большим количеством символов. Первой семибитной кодировкой стала ASCII7. В нее уже вошли прописные буквы английского алфавита, арабские цифры, знаки препинания. Затем на ее базе была разработана ASCII8, в которым уже стало возможным хранение 256256 символов: 128128 основных 3 и еще столько же расширенных. Первая часть таблицы осталась без изменений, а вторая может иметь различные варианты (каждый имеет свой номер). Эта часть таблицы стала заполняться символами национальных алфавитов. Но для многих языков (например, арабского, японского, китайского) 256256 символов недостаточно, поэтому развитие кодировок продолжалось, что привело к появлению UNICODE. Unicode это стандарт информационной технологии для последовательного кодирования, представления и обработки текста, выраженного в большинстве мировых систе м письма. Единая форма кодирования и измерения количества информации Как измерять количество информации? Для этого нужно иметь универсальный способ, позволяющий представить любую ее форму (текстовую, графическую и др.) в едином стандартном виде. За такой способ принята так называемая двоичная форма представления информации. Она заключается в записи любой информации в виде последовательности только двух символов: 0 и 1 (то есть в виде двоичных чисел) и с технической точки зрения наиболее проста и удобна (есть ток/нет тока, намагничено/размагничено, высокое напряжение/низкое напряжение). Рассмотрим сначала одноразрядное двоичное число – бит. Оно может принимать два различных значения: 0 и 1. Если с помощью одноразрядного числа попробовать закодировать какую-либо информацию (например, ответ на вопрос «идет ли дождь?»), то мы успешно справимся с поставленной задачей, поскольку количество различных вариантов кодирования в данном случае равно двум (0-не идет, 1-идет). 4 Сколько различных вариантов информации может быть закодировано в зависимости от количества разрядов? 2 разряда: 00, 01, 10, 11 – всего 4 варианта значений; 3 разряда: 000,001,010,100,011,101,110,111 – 8 вариантов; 4 разряда: 16 вариантов значений; n разрядов: 2n - вариантов значений. Единицы измерения информации Таким образом, можно утверждать: информацию можно измерять в битах, то есть в количестве двоичных разрядов. Бит является наименьшей единицей измерения количества информации. Легко понять, что измерять информацию в битах очень громоздко и неудобно – получаются огромные числа. Чтобы облегчить бремя таких вычислений, были введены дополнительные единицы измерения информации: байт; килобайт (Кбайт); мегабайт (Мбайт); гигабайт (Гбайт); терабайт (Тбайт). Соотношения между этими единицами: 1 байт = 8 бит 1 Кбайт = 1024 байт = 210 байт 1 Мбайт = 1024 Кбайт = 220 байт 1 Гбайт = 1024 Мбайт = 230 байт 5 1 Тбайт = 1024 Гбайт = 240 байт Примеры объёмов информации: Таблица 1: Страница книги 2,5 Кбайт Учебник 0,5 Мбайт БСЭ 120 Мбайт Газета 150 Кбайт Черно-белый телевизионный кадр 300 Кбайт Цветной кадр из трёх цветов 1 Мбайт 1,5 часовой цветной художественный 135 Гбайт фильм В 100 Мб можно уместить: Таблица 2: Страниц текста 50000 Цветных слайдов высочайшего качества 150 Аудиозапись 1,5 часа Музыкальный фрагмент качества CD- 10 минут стерео Фильм высокого качества записи 15 секунд Протоколы операций по банковским За 1000 счетам лет 6 Кодирование текстового сообщения Каждому символу ставится в соответствие двоичное число, причем таким образом, что чем дальше символ расположен от начала алфавита, тем больше значение двоичного числа, которое является кодом данного символа. Сколько разрядов (бит) требуется, чтобы закодировать все буквы, знаки препинания, математические и специальные символы? Легко подсчитать: кириллица (большие и малые буквы) - 66; латинские (большие и малые буквы) - 52; цифры - 10; знаки препинания (. , : ; ‘ « ! ? -) - 9; знаки математических операций (+ - * / ^) - 5. ИТОГО: 142 Находим, что для кодирования всех символов необходимо 8-разрядное двоичное число. Каждому символу ставится в соответствие свое уникальное значение восьмиразрядного двоичного числа. Так, если 10000000 – код буквы А, а 10001100 – код буквы М, то слово «МАМА» кодируется последовательностью из 32-х двоичных цифр (бит): 10000000 10001100 10000000 10001100, именно в такой форме данное текстовое сообщение и будет закодировано компьютером с использованием ровно 32-х бит. 7 Таблица кодирования ASCII Как мы уже выяснили, традиционно для кодирования одного символа используется 8 бит. И, когда люди определились с количеством бит, им осталось договориться о том, каким кодом кодировать тот или иной символ, чтобы не получилось путаницы, т.е. необходимо было выработать стандарт – все коды символов сохранить в специальной таблице кодов. В первые годы развития вычислительной техники таких стандартов не существовало, а сейчас наоборот, их стало очень много, но они противоречивы. Первыми решили эти проблемы в США, в Институте стандартизации. Этот институт ввел в действие таблицу кодов ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США). Рассмотрим таблицу кодов ASCII: Таблица 3: 8 Таблица ASCII разделена на две части. Первая – стандартная – содержит коды от 0 до 127. Вторая – расширенная – содержит символы с кодами от 128 до 255. Первые 32 кода отданы производителям аппаратных средств и называются они управляющие, т.к. эти коды управляют выводом данных. Им не соответствуют никакие символы. Коды с 32 по 127 соответствуют символам английского алфавита, знакам препинания, цифрам, арифметическим действиям и некоторым вспомогательным символам. Коды расширенной части таблицы ASCII отданы под символы национальных алфавитов, символы псевдографики и научные символы. Все буквы расположены в них по алфавиту, а цифры – по возрастанию. Этот принцип последовательного кодирования позволяет определить код символа, не заглядывая в таблицу. Коды цифр берутся из этой таблицы только при вводе и выводе и если они используются в тексте. Если же они участвуют в вычислениях, то переводятся в двоичную систему счисления. 9 Заключение Люди имеют дело со многими видами информации. Услышав прогноз погоды, можно записать его в компьютер, чтобы затем воспользоваться им. В компьютер можно поместить фотографию своего друга или видеосъемку о том как вы провели каникулы. Но ввести в компьютер вкус мороженого или мягкость покрывала никак нельзя. Компьютер - это электронная машина, которая работает с сигналами. Компьютер может работать только с такой информацией, которую можно превратить в сигналы. Если бы люди умели превращать в сигналы вкус или запах, то компьютер мог бы работать и с такой информацией. У компьютера очень хорошо получается работать с числами. Он может делать с ними все, что угодно. Все числа в компьютере закодированы "двоичным кодом", то есть представлены с помощью всего двух символов 1 и 0, которые легко представляются сигналами. Вся информация с которой работает компьютер кодируется числами. Независимо от того, графическая, текстовая или звуковая эта информация, что бы ее мог обрабатывать центральный процессор она должна тем или иным образом быть представлена числами. Для преобразования числовой, текстовой, графической, звуковой информации в цифровую необходимо применить кодирование. Кодирование это преобразование данных одного типа через данные другого типа. В ЭВМ применяется система двоичного кодирования, основанная на представлении данных последовательностью двух знаков: 1 и 0, которые называются двоичными цифрами (binary digit - сокращенно bit). 10