Uploaded by vikariya648

Представление текстовой информации

advertisement
Представление текстовой информации в компьютере
Текстовая
информация
представляет
собой набор
символов,
которыми могут быть буквы, цифры, знаки препинания. В компьютерной
технике символы закодированы с помощью чисел, каждый символ
кодируется своим набором цифр — кодом. Существуют специальные
таблицы кодировок, в которых хранятся такие наборы кодов символов.
Для
кодирования
одного
символа
используется
количество
информации, равное одному байту, т.е. I = 1 байт = 8 бит.
Если рассматривать символы как возможное событие, то можно
вычислить, какое количество различных символов можно закодировать:
К=2I =28 =256
Такое количество символов достаточно для представления текстовой
информации, включая прописные и заглавные буквы русского и латинского
алфавита, цифры, знаки, графические символы и т.д. Кодирование
заключается в том что каждому символу ставится в соответствие уникальный
десятичный код от 0 до 255 или соответствующий ему двоичный код
00000000 до 11111111.Таким образом человек различает символы по их
начертанию, а компьютер по их коду.
При вводе в компьютер текстовой информации изображение символа
преобразуется в его двоичный код. Пользователь нажимает на клавиатуре
клавишу
с
символом
–
и
в
компьютер
поступает
определенная
последовательность из восьми электрических импульсов (двоичный код
символа). Код символа хранится в оперативной памяти компьютера, где
занимает одну ячейку.
В процессе вывода символа на экран происходит обратный процесс –
преобразование кода символа в его изображение.
Для удобства пользователя были созданы специальные таблицы
кодировок, в которые внесены наборы кодов символов.
Кодовая таблица — совокупность цифровых (двоичных) кодов и их
значений.
Кодовые
таблицы
необходимы
для
распознавания
кода
(определённого языка), который используется на веб-странице.Самой первой
системой кодирования текстовой информации была ASCII (американский
стандартный код для обмена информацией).
Таблица ASCII была разработана в США в шестидесятые годы прошлого
столетия. Появление такой единой унифицированной системы кодировки
символов было продиктовано необходимостью реализации компьютерного
взаимодействия и обмена информацией.
Первоначально таблица использовалась для кодировки только 128
знаков, затем была расширена до 256 символов. Первые тридцать два
символа в таблице ASCI не имеют печатных эквивалентов и используются
для управления. Числа в диапазоне 32 –127 предназначены для кодирования
прописных и строчных латинских букв, цифр и знаков препинания.
Таблица ASCII в интервале символов от 0 до 127 остается неизменной
для любых программ. Диапазон кодовых значений от 128 до 255 может
варьироваться в зависимости от языковых и национальных особенностей.
Существуют различные национальные варианты системы кодирования.
Для кодирования букв русского алфавита используются:

IBM cp866

Win-1251

KOI8
Рис 2. Кодовая таблица Win-1251
В любой кодовой таблице выполняется принцип последовательного
кодирования латинского (английского) алфавита и алфавита десятичной
системы счисления.
Это важное обстоятельство, которое часто учитывается в программах
обработки символьной информации.
При выполнении операций отношений, применительно к символьным
величинам, учитываются коды этих величин. Чем больше значение кода, тем
символ считается больше. Истинными являются следующие отношения: ‘А’ с
‘В’, ‘Z’ > ‘Y’, ‘а’ > ‘А’. Значение символьной переменной С является
прописной
(заглавной) латинской буквой, если истинно
логическое
выражение:
(С >= ‘А’) and (C <= ‘Z’)
Значение символьной переменной С является цифрой, если истинно
логическое выражение:
(С >= ’0′) and (С <= ‘9’)
В латинском алфавите 26 букв. Поэтому разница между кодами букв
‘Z’ и ‘А’, а также ‘z’ и ‘а’ равна 25
Download