Автор: Пользователь скрыл имя, 15 Января 2015 в 04:07, лекция
При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т. е. преобразование кода символа в его изображение.
При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т. е. преобразование кода символа в его изображение.
Используя 1 двоичную цифру (бит), можно закодировать два символа – 0, 1. Двухбитовых комбинаций может быть 4=22 – 00, 01, 10, 11. С помощью тех бит можно получить 8 комбинаций (8=23). Для кодирования 32 символов необходимо 5 бит (32=25). Этот код использовался в работе телеграфа в 20-е годы прошлого века. Вместо знаков препинания ставили ТЧК и ЗПТ. Используя 7 бит, можно закодировать 128 символов (128=27)
Восьми разрядов достаточно для кодирования 256 (28) различных символов Пользователь нажимает на клавиатуре клавишу – и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.
Для кодирования текстовой информации принят международный стандарт ASCII1 (American Standard Code for Information Interchange – американский стандартный код для обмена информацией; по-американски произносится [э́ски], тогда как в Великобритании чаще произносится [а́ски]; по-русски также произносится [а́ски]) разработанный Институтом стандартизации США (ANSI – American National Standard Institute). Система ASCII представлена двумя таблицами:
Национальные системы кодирования используют расширенную часть таблицы ASCII (коды с 128 по 255). Отсутствие единого стандарта привело к тому, что существует пять различных кодовых таблиц для русских букв (КОИ-8, СР1251, СР866, ISO, MAC.), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.
KOI8 (код обмена информацией, 8 битов)– восьмибитовая ASCII-совместимая кодовая страница, разработанная для кодирования букв кириллических алфавитов.
.0 |
.1 |
.2 |
.3 |
.4 |
.5 |
.6 |
.7 |
.8 |
.9 |
.A |
.B |
.C |
.D |
.E |
.F | |
|
─ |
│ |
┌ |
┐ |
└ |
┘ |
├ |
┤ |
┬ |
┴ |
┼ |
▀ |
▄ |
█ |
▌ |
▐ |
|
░ |
▒ |
▓ |
⌠ |
■ |
∙ |
√ |
≈ |
≤ |
≥ |
|
⌡ |
° |
² |
· |
÷ |
|
═ |
║ |
╒ |
ё |
╓ |
╔ |
╕ |
╖ |
╗ |
╘ |
╙ |
╚ |
╛ |
╜ |
╝ |
╞ |
|
╟ |
╠ |
╡ |
Ё |
╢ |
╣ |
╤ |
╥ |
╦ |
╧ |
╨ |
╩ |
╪ |
╫ |
╬ |
© |
|
ю |
а |
б |
ц |
д |
е |
ф |
г |
х |
и |
й |
к |
л |
м |
н |
о |
|
п |
я |
р |
с |
т |
у |
ж |
в |
ь |
ы |
з |
ш |
э |
щ |
ч |
ъ |
|
Ю |
А |
Б |
Ц |
Д |
Е |
Ф |
Г |
Х |
И |
Й |
К |
Л |
М |
Н |
О |
|
П |
Я |
Р |
С |
Т |
У |
Ж |
В |
Ь |
Ы |
З |
Ш |
Э |
Щ |
Ч |
Ъ |
Существует также семибитовая версия кодировки, не полностью совместимая с ASCII – КОИ-7. КОИ-7 и КОИ-8 описаны в ГОСТ 19768-74 (сейчас недействителен).
Разработчики КОИ-8 поместили символы русского алфавита в верхней части кодовой таблицы таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается «читабельный» текст, хотя он и написан латинскими символами. Например, слова «Русский Текст» превратились бы в «rUSSKIJ tEKST». Как побочное следствие, символы кириллицы оказались расположены не в алфавитном порядке.
Windows-1251 – кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990–1991 гг. совместно представителями «Параграфа», «Диалога» и российского отделения Microsoft. Первоначальный вариант кодировки сильно отличался от представленного ниже в таблице (в частности, там было значительное число «белых пятен»).
Windows-1251 выгодно отличается от
других кириллических
.0 |
.1 |
.2 |
.3 |
.4 |
.5 |
.6 |
.7 |
.8 |
.9 |
.A |
.B |
.C |
.D |
.E |
.F | |
|
Ђ |
Ѓ |
‚ |
ѓ |
„ |
… |
† |
‡ |
€ |
‰ |
Љ |
‹ |
Њ |
Ќ |
Ћ |
Џ |
|
ђ |
‘ |
’ |
“ |
” |
• |
– |
– |
™ |
љ |
› |
њ |
ќ |
ћ |
џ | |
|
|
Ў |
ў |
Ј |
¤ |
Ґ |
¦ |
§ |
Ё |
© |
Є |
« |
¬ |
|
® |
Ї |
|
° |
± |
І |
і |
ґ |
µ |
¶ |
· |
ё |
№ |
є |
» |
ј |
Ѕ |
ѕ |
ї |
|
А |
Б |
В |
Г |
Д |
Е |
Ж |
З |
И |
Й |
К |
Л |
М |
Н |
О |
П |
|
Р |
С |
Т |
У |
Ф |
Х |
Ц |
Ч |
Ш |
Щ |
Ъ |
Ы |
Ь |
Э |
Ю |
Я |
|
а |
б |
в |
г |
д |
е |
ж |
з |
и |
й |
к |
л |
м |
н |
о |
п |
|
р |
с |
т |
у |
ф |
х |
ц |
ч |
ш |
щ |
ъ |
ы |
ь |
э |
ю |
я |
(Показаны только отличающиеся строки, поскольку всё остальное совпадает)
.0 |
.1 |
.2 |
.3 |
.4 |
.5 |
.6 |
.7 |
.8 |
.9 |
.A |
.B |
.C |
.D |
.E |
.F | |
|
Ұ |
Ғ |
‚ |
ғ |
„ |
… |
† |
‡ |
€ |
‰ |
Ө |
‹ |
Ң |
Қ |
Һ |
Ү |
|
ұ |
‘ |
’ |
“ |
” |
• |
– |
– |
™ |
ө |
› |
ң |
қ |
һ |
ү | |
|
|
Ў |
ў |
Җ |
¤ |
Ҳ |
¦ |
§ |
Ё |
© |
Є |
« |
¬ |
|
® |
Ї |
|
° |
± |
І |
і |
ҳ |
µ |
¶ |
· |
ё |
№ |
є |
» |
җ |
Ә |
ә |
ї |
.0 |
.1 |
.2 |
.3 |
.4 |
.5 |
.6 |
.7 |
.8 |
.9 |
.A |
.B |
.C |
.D |
.E |
.F | |
|
Ђ |
Ѓ |
‚ |
ѓ |
„ |
… |
† |
‡ |
€ |
‰ |
Љ |
‹ |
Ӑ |
Ӗ |
Ҫ |
Ӳ |
|
ђ |
‘ |
’ |
“ |
” |
• |
– |
– |
™ |
љ |
› |
ӑ |
ӗ |
ҫ |
ӳ |
.0 |
.1 |
.2 |
.3 |
.4 |
.5 |
.6 |
.7 |
.8 |
.9 |
.A |
.B |
.C |
.D |
.E |
.F | |
|
Ә |
Ѓ |
‚ |
ѓ |
„ |
… |
† |
‡ |
€ |
‰ |
Ө |
‹ |
Ү |
Җ |
Ң |
Һ |
|
ә |
‘ |
’ |
“ |
” |
• |
– |
– |
™ |
ө |
› |
ү |
җ |
ң |
һ |