Кодирование текстовой информации

Автор: Пользователь скрыл имя, 15 Января 2015 в 04:07, лекция

Краткое описание

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т. е. преобразование кода символа в его изображение.

Файлы: 1 файл

Кодирование текстовой информации.doc

— 128.00 Кб (Скачать)

Кодирование текстовой информации

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т. е. преобразование кода символа в его изображение.

Используя 1 двоичную цифру (бит), можно закодировать два символа – 0, 1. Двухбитовых комбинаций может быть 4=22 – 00, 01, 10, 11. С помощью тех бит можно получить 8 комбинаций (8=23). Для кодирования 32 символов необходимо 5 бит (32=25). Этот код использовался в работе телеграфа в 20-е годы прошлого века. Вместо знаков препинания ставили ТЧК и ЗПТ. Используя 7 бит, можно закодировать 128 символов (128=27)

Восьми разрядов достаточно для кодирования 256 (28) различных символов Пользователь нажимает на клавиатуре клавишу – и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.

Для кодирования текстовой информации принят международный стандарт ASCII1  (American Standard Code for Information Interchange – американский стандартный код для обмена информацией; по-американски произносится [э́ски], тогда как в Великобритании чаще произносится [а́ски]; по-русски также произносится [а́ски]) разработанный Институтом стандартизации США (ANSI – American National Standard Institute). Система ASCII  представлена двумя таблицами:

  1. базовая – это  кодовая таблица  которая содержит 128 (27) ( 7-ми разрядных) кодов для кодирования :
  • 0-31 содержит управляющие коды, используются производителями вычислительной техники;
  • 32-127 содержит цифры, символы латинского алфавита, знаки препинания, математические символы.
  1. расширенная (добавление 8-го разряда позволяет увеличить   количество кодов  таблицы ASCII до 255.) –  содержит коды использованы для кодирования некоторых символов, отличающихся от латинского алфавита, и встречающихся в языках с письменностью, основанной на латинском алфавите, - немецком, французском, испанском и др. Кроме этого, часть кодов использована для кодирования символов псевдографики, которые можно использовать, например, для оформления в тексте различных рамок и текстовых таблиц.

Национальные системы кодирования используют расширенную часть таблицы ASCII (коды с 128 по 255). Отсутствие единого стандарта привело к тому, что существует пять различных кодовых таблиц для русских букв (КОИ-8, СР1251, СР866, ISO, MAC.), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

 

KOI8 (код обмена информацией, 8 битов)– восьмибитовая ASCII-совместимая кодовая страница, разработанная для кодирования букв кириллических алфавитов.

Кодировка KOI8-R (русская)

 

.0

.1

.2

.3

.4

.5

.6

.7

.8

.9

.A

.B

.C

.D

.E

.F

 
8. 
 

─ 
2500

│ 
2502

┌ 
250C

┐ 
2510

└ 
2514

┘ 
2518

├ 
251C

┤ 
2524

┬ 
252C

┴ 
2534

┼ 
253C

▀ 
2580

▄ 
2584

█ 
2588

▌ 
258C

▐ 
2590

 
9. 
 

░ 
2591

▒ 
2592

▓ 
2593

⌠ 
2320

■ 
25A0

∙ 
2219

√ 
221A

≈ 
2248

≤ 
2264

≥ 
2265

 
A0

⌡ 
2321

° 
B0

² 
B2

· 
B7

÷ 
F7

 
A. 
 

═ 
2550

║ 
2551

╒ 
2552

ё 
451

╓ 
2553

╔ 
2554

╕ 
2555

╖ 
2556

╗ 
2557

╘ 
2558

╙ 
2559

╚ 
255A

╛ 
255B

╜ 
255C

╝ 
255D

╞ 
255E

 
B. 
 

╟ 
255F

╠ 
2560

╡ 
2561

Ё 
401

╢ 
2562

╣ 
2563

╤ 
2564

╥ 
2565

╦ 
2566

╧ 
2567

╨ 
2568

╩ 
2569

╪ 
256A

╫ 
256B

╬ 
256C

© 
A9

 
C. 
 

ю 
44E

а 
430

б 
431

ц 
446

д 
434

е 
435

ф 
444

г 
433

х 
445

и 
438

й 
439

к 
43A

л 
43B

м 
43C

н 
43D

о 
43E

 
D. 
 

п 
43F

я 
44F

р 
440

с 
441

т 
442

у 
443

ж 
436

в 
432

ь 
44C

ы 
44B

з 
437

ш 
448

э 
44D

щ 
449

ч 
447

ъ 
44A

 
E. 
 

Ю 
42E

А 
410

Б 
411

Ц 
426

Д 
414

Е 
415

Ф 
424

Г 
413

Х 
425

И 
418

Й 
419

К 
41A

Л 
41B

М 
41C

Н 
41D

О 
41E

 
F. 
 

П 
41F

Я 
42F

Р 
420

С 
421

Т 
422

У 
423

Ж 
416

В 
412

Ь 
42C

Ы 
42B

З 
417

Ш 
428

Э 
42D

Щ 
429

Ч 
427

Ъ 
42A


 

 

Существует также семибитовая версия кодировки, не полностью совместимая с ASCII – КОИ-7. КОИ-7 и КОИ-8 описаны в ГОСТ 19768-74 (сейчас недействителен).

 

Разработчики КОИ-8 поместили символы русского алфавита в верхней части кодовой таблицы таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается «читабельный» текст, хотя он и написан латинскими символами. Например, слова «Русский Текст» превратились бы в «rUSSKIJ tEKST». Как побочное следствие, символы кириллицы оказались расположены не в алфавитном порядке.

Windows-1251 – кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990–1991 гг. совместно представителями «Параграфа», «Диалога» и российского отделения Microsoft. Первоначальный вариант кодировки сильно отличался от представленного ниже в таблице (в частности, там было значительное число «белых пятен»).

 

Windows-1251 выгодно отличается от  других кириллических кодировок  наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения); она также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского языков.

 

Кодировка Windows-1251 (синоним CP1251)

 

.0

.1

.2

.3

.4

.5

.6

.7

.8

.9

.A

.B

.C

.D

.E

.F

 
8. 
 

Ђ 
402

Ѓ 
403

‚ 
201A

ѓ 
453

„ 
201E

… 
2026

† 
2020

‡ 
2021

€ 
20AC

‰ 
2030

Љ 
409

‹ 
2039

Њ 
40A

Ќ 
40C

Ћ 
40B

Џ 
40F

 
9. 
 

ђ 
452

‘ 
2018

’ 
2019

“ 
201C

” 
201D

• 
2022

– 
2013

– 
2014

 

™ 
2122

љ 
459

› 
203A

њ 
45A

ќ 
45C

ћ 
45B

џ 
45F

 
A. 
 

 
A0

Ў 
40E

ў 
45E

Ј 
408

¤ 
A4

Ґ 
490

¦ 
A6

§ 
A7

Ё 
401

© 
A9

Є 
404

« 
AB

¬ 
AC

 
AD

® 
AE

Ї 
407

 
B. 
 

° 
B0

± 
B1

І 
406

і 
456

ґ 
491

µ 
B5

¶ 
B6

· 
B7

ё 
451

№ 
2116

є 
454

» 
BB

ј 
458

Ѕ 
405

ѕ 
455

ї 
457

 
C. 
 

А 
410

Б 
411

В 
412

Г 
413

Д 
414

Е 
415

Ж 
416

З 
417

И 
418

Й 
419

К 
41A

Л 
41B

М 
41C

Н 
41D

О 
41E

П 
41F

 
D. 
 

Р 
420

С 
421

Т 
422

У 
423

Ф 
424

Х 
425

Ц 
426

Ч 
427

Ш 
428

Щ 
429

Ъ 
42A

Ы 
42B

Ь 
42C

Э 
42D

Ю 
42E

Я 
42F

 
E. 
 

а 
430

б 
431

в 
432

г 
433

д 
434

е 
435

ж 
436

з 
437

и 
438

й 
439

к 
43A

л 
43B

м 
43C

н 
43D

о 
43E

п 
43F

 
F. 
 

р 
440

с 
441

т 
442

у 
443

ф 
444

х 
445

ц 
446

ч 
447

ш 
448

щ 
449

ъ 
44A

ы 
44B

ь 
44C

э 
44D

ю 
44E

я 
44F


 

Другие варианты

(Показаны  только отличающиеся строки, поскольку  всё остальное совпадает)

Кодировка CP1251-k (KazWin, казахская кодировка)

 

.0

.1

.2

.3

.4

.5

.6

.7

.8

.9

.A

.B

.C

.D

.E

.F

 
8. 
 

Ұ 
4B0

Ғ 
492

‚ 
201A

ғ 
493

„ 
201E

… 
2026

† 
2020

‡ 
2021

€ 
20AC

‰ 
2030

Ө 
4E8

‹ 
2039

Ң 
4A2

Қ 
49A

Һ 
4BA

Ү 
4AE

 
9. 
 

ұ 
4B1

‘ 
2018

’ 
2019

“ 
201C

” 
201D

• 
2022

– 
2013

– 
2014

 

™ 
2122

ө 
4E9

› 
203A

ң 
4A3

қ 
49B

һ 
4BB

ү 
4AF

 
A. 
 

 
A0

Ў 
40E

ў 
45E

Җ 
496

¤ 
A4

Ҳ 
4B2

¦ 
A6

§ 
A7

Ё 
401

© 
A9

Є 
404

« 
AB

¬ 
AC

 
AD

® 
AE

Ї 
407

 
B. 
 

° 
B0

± 
B1

І 
406

і 
456

ҳ 
4B3

µ 
B5

¶ 
B6

· 
B7

ё 
451

№ 
2116

є 
454

» 
BB

җ 
497

Ә 
4D8

ә 
4D9

ї 
457


 

Кодировка Windows-1251 (чувашский вариант)

 

.0

.1

.2

.3

.4

.5

.6

.7

.8

.9

.A

.B

.C

.D

.E

.F

 
8. 
 

Ђ 
402

Ѓ 
403

‚ 
201A

ѓ 
453

„ 
201E

… 
2026

† 
2020

‡ 
2021

€ 
20AC

‰ 
2030

Љ 
409

‹ 
2039

Ӑ 
4D0

Ӗ 
4D6

Ҫ 
4AA

Ӳ 
4F2

 
9. 
 

ђ 
452

‘ 
2018

’ 
2019

“ 
201C

” 
201D

• 
2022

– 
2013

– 
2014

 

™ 
2122

љ 
459

› 
203A

ӑ 
4D1

ӗ 
4D7

ҫ 
4AB

ӳ 
4F3


 

Татарский вариант

 

.0

.1

.2

.3

.4

.5

.6

.7

.8

.9

.A

.B

.C

.D

.E

.F

 
8. 
 

Ә 
4D8

Ѓ 
403

‚ 
201A

ѓ 
453

„ 
201E

… 
2026

† 
2020

‡ 
2021

€ 
20AC

‰ 
2030

Ө 
4E8

‹ 
2039

Ү 
4AE

Җ 
496

Ң 
4A2

Һ 
4BA

 
9. 
 

ә 
4D9

‘ 
2018

’ 
2019

“ 
201C

” 
201D

• 
2022

– 
2013

– 
2014

 

™ 
2122

ө 
4E9

› 
203A

ү 
4AF

җ 
497

ң 
4A3

һ 
4BB

Информация о работе Кодирование текстовой информации