Представление текстовой информации в компьютере Текстовая информация представляет собой набор символов, которыми могут быть буквы, цифры, знаки препинания. В компьютерной технике символы закодированы с помощью чисел, каждый символ кодируется своим набором цифр — кодом. Существуют специальные таблицы кодировок, в которых хранятся такие наборы кодов символов. Для кодирования одного символа используется количество информации, равное одному байту, т.е. I = 1 байт = 8 бит. Если рассматривать символы как возможное событие, то можно вычислить, какое количество различных символов можно закодировать: К=2I =28 =256 Такое количество символов достаточно для представления текстовой информации, включая прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д. Кодирование заключается в том что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код 00000000 до 11111111.Таким образом человек различает символы по их начертанию, а компьютер по их коду. При вводе в компьютер текстовой информации изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом – и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку. В процессе вывода символа на экран происходит обратный процесс – преобразование кода символа в его изображение. Для удобства пользователя были созданы специальные таблицы кодировок, в которые внесены наборы кодов символов. Кодовая таблица — совокупность цифровых (двоичных) кодов и их значений. Кодовые таблицы необходимы для распознавания кода (определённого языка), который используется на веб-странице.Самой первой системой кодирования текстовой информации была ASCII (американский стандартный код для обмена информацией). Таблица ASCII была разработана в США в шестидесятые годы прошлого столетия. Появление такой единой унифицированной системы кодировки символов было продиктовано необходимостью реализации компьютерного взаимодействия и обмена информацией. Первоначально таблица использовалась для кодировки только 128 знаков, затем была расширена до 256 символов. Первые тридцать два символа в таблице ASCI не имеют печатных эквивалентов и используются для управления. Числа в диапазоне 32 –127 предназначены для кодирования прописных и строчных латинских букв, цифр и знаков препинания. Таблица ASCII в интервале символов от 0 до 127 остается неизменной для любых программ. Диапазон кодовых значений от 128 до 255 может варьироваться в зависимости от языковых и национальных особенностей. Существуют различные национальные варианты системы кодирования. Для кодирования букв русского алфавита используются: IBM cp866 Win-1251 KOI8 Рис 2. Кодовая таблица Win-1251 В любой кодовой таблице выполняется принцип последовательного кодирования латинского (английского) алфавита и алфавита десятичной системы счисления. Это важное обстоятельство, которое часто учитывается в программах обработки символьной информации. При выполнении операций отношений, применительно к символьным величинам, учитываются коды этих величин. Чем больше значение кода, тем символ считается больше. Истинными являются следующие отношения: ‘А’ с ‘В’, ‘Z’ > ‘Y’, ‘а’ > ‘А’. Значение символьной переменной С является прописной (заглавной) латинской буквой, если истинно логическое выражение: (С >= ‘А’) and (C <= ‘Z’) Значение символьной переменной С является цифрой, если истинно логическое выражение: (С >= ’0′) and (С <= ‘9’) В латинском алфавите 26 букв. Поэтому разница между кодами букв ‘Z’ и ‘А’, а также ‘z’ и ‘а’ равна 25