Кодирование текстовой информации

Лекция, 15 Января 2015, автор: пользователь скрыл имя

Краткое описание

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т. е. преобразование кода символа в его изображение.

Скачать в ZIP (25.15 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Кодирование текстовой информации.doc

— 128.00 Кб (Скачать)

Предпосылки создания и развитие Юникода. К концу 1980-х годов стандартом стали 8-битные символы, при этому существовало множество разных 8-битных кодировок и постоянно появлялись всё новые. Это объяснялось как постоянным расширением круга поддерживаемых языков, так и стремлением создать кодировку, частично совместимую с какой-нибудь другой (характерный пример – появление альтернативной кодировки для русского языка, обусловленное эксплуатацией западных программ, созданных для кодировки CP437). В результате появилась необходимость решения нескольких задач:

Проблема «крокозябров» (показа документов в неправильной кодировке): её можно было решить либо последовательным внедрением методов указания используемой кодировки, либо внедрением единой для всех кодировки.
Проблема ограниченности набора символов: её можно было решить либо переключением шрифтов внутри документа, либо внедрением «широкой» кодировки. Переключение шрифтов издавна практиковалось в текстовых процессорах, причём часто использовались шрифты с нестандартной кодировкой, т. н. «dingbat fonts» – в итоге при попытке перенести документ в другую систему все нестандартные символы превращалось в крокозябры.
Проблема преобразования одной кодировки в другую: её можно было решить либо составлением таблиц перекодировки для каждой пары кодировок, либо использованием промежуточного преобразования в третью кодировку, включающую все символы всех кодировок.
Проблема дублирования шрифтов: традиционно для каждой кодировки делался свой шрифт, даже если эти кодировки частично (или полностью) совпадали по набору символов: эту проблему можно было решить, делая «большие» шрифты, из которых потом выбираются нужные для данной кодировки символы – однако это требует создания единого реестра символов, чтобы определять, чему что соответствует.

Было признано необходимым создание единой «широкой» кодировки. Кодировки с переменной длиной символа, широко использующиеся в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Использование 32-битных символов казалось слишком расточительным, поэтому было решено использовать 16-битные.

Unicode (Юнико́д, или Унико́д) – международный стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. В документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становятся ненужными кодовые страницы.

Unicode отводит на каждый символ не один байт, а два, и поэтому с его помощью можно закодировать не 256 символов, а 65536 (216) различных символов. Эту кодировку поддерживает платформа Microsoft Windows&Office 97 и выше.

Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium), объединяющей крупнейшие IT-корпорации.

Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format). Универсальный набор символов задаёт однозначное соответствие символов кодам – элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F.

Юникод включает практически все современные письменности, в том числе:

• арабскую,

• армянскую,

• бенгальскую,

• бирманскую,

• греческую,

• грузинскую,

• деванагари,

• иврит,

• кириллицу,

• коптскую,

• кхмерскую,

• латинскую,

• тамильскую,

• хангыль,

• хань (Китай, Япония, Корея),

• чероки,

• эфиопскую,

• японскую (катакана, хирагана, кандзи)

• и другие.

С академической целью добавлены многие исторические письменности, в том числе: руны, древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.

1 ASCII была создана в 1963 году, в качестве стандарта впервые опубликована в 1967, последнее обновление - в 1986В честь кода ASCII даже был назван небольшой астероид – «3568 ASCII» (открыт в 1936 году, название получил позже).

Кодирование текстовой информации

Краткое описание

Файлы: 1 файл

Кодирование текстовой информации.doc

Информация о работе Кодирование текстовой информации

Связанные документы

Кодирование текстовой информации

Кодирование текстовой информации

Кодирование текстовой, графической информации

Кодирование текстовой информации

Кодирование текстовой информации

Кодирование текстовой информации

Похожие темы

Технологии обработки текстовой информации

Сбор информации

Роль информации