Кодирование текстовой информации

Автор: Пользователь скрыл имя, 15 Января 2015 в 04:07, лекция

Краткое описание

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т. е. преобразование кода символа в его изображение.

Файлы: 1 файл

Кодирование текстовой информации.doc

— 128.00 Кб (Скачать)

 

Предпосылки создания и развитие Юникода. К концу 1980-х годов стандартом стали 8-битные символы, при этому существовало множество разных 8-битных кодировок и постоянно появлялись всё новые. Это объяснялось как постоянным расширением круга поддерживаемых языков, так и стремлением создать кодировку, частично совместимую с какой-нибудь другой (характерный пример – появление альтернативной кодировки для русского языка, обусловленное эксплуатацией западных программ, созданных для кодировки CP437). В результате появилась необходимость решения нескольких задач:

 

  • Проблема «крокозябров» (показа документов в неправильной кодировке): её можно было решить либо последовательным внедрением методов указания используемой кодировки, либо внедрением единой для всех кодировки.
  • Проблема ограниченности набора символов: её можно было решить либо переключением шрифтов внутри документа, либо внедрением «широкой» кодировки. Переключение шрифтов издавна практиковалось в текстовых процессорах, причём часто использовались шрифты с нестандартной кодировкой, т. н. «dingbat fonts» – в итоге при попытке перенести документ в другую систему все нестандартные символы превращалось в крокозябры.
  • Проблема преобразования одной кодировки в другую: её можно было решить либо составлением таблиц перекодировки для каждой пары кодировок, либо использованием промежуточного преобразования в третью кодировку, включающую все символы всех кодировок.
  • Проблема дублирования шрифтов: традиционно для каждой кодировки делался свой шрифт, даже если эти кодировки частично (или полностью) совпадали по набору символов: эту проблему можно было решить, делая «большие» шрифты, из которых потом выбираются нужные для данной кодировки символы – однако это требует создания единого реестра символов, чтобы определять, чему что соответствует.

Было признано необходимым создание единой «широкой» кодировки. Кодировки с переменной длиной символа, широко использующиеся в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Использование 32-битных символов казалось слишком расточительным, поэтому было решено использовать 16-битные.

 

Unicode (Юнико́д, или Унико́д) – международный стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. В документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становятся ненужными кодовые страницы.

Unicode отводит на каждый символ не один байт, а два, и поэтому с его помощью можно закодировать не 256 символов, а 65536 (216) различных символов. Эту кодировку поддерживает платформа Microsoft Windows&Office 97 и выше.

Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium), объединяющей крупнейшие IT-корпорации.

Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format). Универсальный набор символов задаёт однозначное соответствие символов кодам – элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F.

Юникод включает практически все современные письменности, в том числе:

• арабскую,

• армянскую,

• бенгальскую,

• бирманскую,

• греческую,

• грузинскую,

• деванагари,

• иврит,

• кириллицу,

• коптскую,

• кхмерскую,

• латинскую,

• тамильскую,

• хангыль,

• хань (Китай, Япония, Корея),

• чероки,

• эфиопскую,

• японскую (катакана, хирагана, кандзи)

• и другие.

С академической целью добавлены многие исторические письменности, в том числе: руны, древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.

 

 

1 ASCII была создана в 1963 году, в качестве стандарта впервые опубликована в 1967, последнее обновление - в 1986В честь кода ASCII даже был назван небольшой астероид – «3568 ASCII» (открыт в 1936 году, название получил позже).


Информация о работе Кодирование текстовой информации