Расширенная таблица ASCII (*)

advertisement
Расширенная таблица
ASCII
Кодировка русских букв
Недостатки кодировки ASCII
• Как легко заметить, в этой кодировке представлены только
латинские буквы, причём те, которые используются в
английском языке.
• Есть также арифметические и другие служебные символы.
Но нет ни русских букв, ни даже специальных латинских
для немецкого или французского языка.
• Это легко объяснить – кодировка разрабатывалась именно
как американский стандарт.
• Когда компьютеры стали применяться во всём мире,
потребовалось кодировать и другие символы.
Таблица ASCII
• Как видно из таблицы, код каждого символа начинается
с 0. Это значит, что используется только 7 бит из байта.
Но если использовать все 8 бит …
Расширенная таблица ASCII
• … мы получим
расширенную таблицу, где
можно разместить 256
символов.
• Мы видим здесь символы,
которые используются в
европейских языках: Å Æ
Ñ ß ä æ ç ð Ǿ Δ Ξ Ψ Ω ₤;
• а также символы
псевдографики ─ │ ┌ ┐ ╩
╬, которые использовались
в текстовых редакторах для
рисования таблиц.
• ┌───┬───┐
│
│
│
├───┼───┤
╘═══╧═══╛
Псевдографика
• Псевдографические символы позволяют, выводя на экран только
текстовые символы, обеспечивать некоторое подобие графики.
При помощи псевдографики можно даже создавать некое
подобие рисунков.
Шедевры псевдографики
• И даже
копировать
всемирно
известное
произведение
Леонардо да
Винчи.
• (Джоконда, Лувр)
КОИ-8
• Разработана в 70-80-е годы. Является общепринятым
стандартом для передачи почтовых сообщений в
российском Интернете. Широко применяется также в
операционных системах семейства Unix, включая
Linux. Вариант КОИ-8, рассчитанный на русский язык,
называется КОИ-8R.
KOI-8R
•В КОИ-8R
порядок
русских букв
кажется
случайным. Но
на самом деле
это не так.
• Русские буквы поставлены в чёткое соответствие с
латинскими. Если убрать восьмой бит, строчные
русские буквы превращаются в заглавные латинские, а
заглавные русские – в строчные латинские.
• КОИ-8 позволяет сохранять читаемость русского
текста при потере 8-го бита. “Привет всем”
превращается в “pRIWET WSEM”.
Кодировка CP1251
• Как можно заметить, в таблице кодировки CP1251
русские буквы расположены в алфавитном порядке (за
исключением, правда, буквы Ё). Благодаря такому
расположению компьютерным программам очень
просто осуществлять сортировку по алфавиту.
Сюрпризы кодировки
• Из-за того, что распространённых кодировок оказалось две, при
работе с Интернетом (почта, просмотр Web-сайтов) иногда можно
вместо русского текста увидеть бессмысленный набор букв.
Например, “Я СБЮФЕМХЕЛ”. Это всего лишь слова “с
уважением”; но они были закодированы в кодировке CP1251, а
компьютер декодировал текст по таблице КОИ-8.
• Если те же слова были, наоборот, закодированы в КОИ-8, а
компьютер декодировал текст по таблице CP1251, результатом
будет “У ХЧБЦЕОЙЕН”.
• Иногда бывает, что компьютер расшифровывает русскоязычные
письма и вовсе по таблице, не предназначенной для русского
языка. Тогда вместо русских букв появляются бессмысленный
набор символов.
• В большинстве случаев современные программы справляются с
определением кодировок документов Интернета (электронных
писем и Web-страниц) самостоятельно. Но иногда они “дают
осечку”, и тогда можно увидеть странные последовательности
русских букв. Как правило, чтобы в такой ситуации вывести на
экран настоящий текст, достаточно выбрать кодировку вручную в
меню программы.
Download