Автор: Пользователь скрыл имя, 15 Января 2015 в 04:07, лекция
При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т. е. преобразование кода символа в его изображение.
Предпосылки создания и развитие Юникода. К концу 1980-х годов стандартом стали 8-битные символы, при этому существовало множество разных 8-битных кодировок и постоянно появлялись всё новые. Это объяснялось как постоянным расширением круга поддерживаемых языков, так и стремлением создать кодировку, частично совместимую с какой-нибудь другой (характерный пример – появление альтернативной кодировки для русского языка, обусловленное эксплуатацией западных программ, созданных для кодировки CP437). В результате появилась необходимость решения нескольких задач:
Было признано необходимым создание единой «широкой» кодировки. Кодировки с переменной длиной символа, широко использующиеся в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Использование 32-битных символов казалось слишком расточительным, поэтому было решено использовать 16-битные.
Unicode (Юнико́д, или Унико́д) – международный стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. В документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становятся ненужными кодовые страницы.
Unicode отводит на каждый символ не один байт, а два, и поэтому с его помощью можно закодировать не 256 символов, а 65536 (216) различных символов. Эту кодировку поддерживает платформа Microsoft Windows&Office 97 и выше.
Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium), объединяющей крупнейшие IT-корпорации.
Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format). Универсальный набор символов задаёт однозначное соответствие символов кодам – элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.
Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F.
Юникод включает практически все современные письменности, в том числе:
• арабскую,
• армянскую,
• бенгальскую,
• бирманскую,
• греческую,
• грузинскую,
• деванагари,
• иврит,
• кириллицу,
• коптскую,
• кхмерскую,
• латинскую,
• тамильскую,
• хангыль,
• хань (Китай, Япония, Корея),
• чероки,
• эфиопскую,
• японскую (катакана, хирагана, кандзи)
• и другие.
С академической целью добавлены многие исторические письменности, в том числе: руны, древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.
1 ASCII была создана в 1963 году, в качестве стандарта впервые опубликована в 1967, последнее обновление - в 1986В честь кода ASCII даже был назван небольшой астероид – «3568 ASCII» (открыт в 1936 году, название получил позже).