Кодирование текстовой информации

Лекция, 15 Января 2015, автор: пользователь скрыл имя

Краткое описание

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. В процессе вывода символа на экран компьютера производится обратный процесс – декодирование, т. е. преобразование кода символа в его изображение.

Скачать в ZIP (25.15 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Кодирование текстовой информации.doc

— 128.00 Кб (Скачать)

Кодирование текстовой информации

Используя 1 двоичную цифру (бит), можно закодировать два символа – 0, 1. Двухбитовых комбинаций может быть 4=22 – 00, 01, 10, 11. С помощью тех бит можно получить 8 комбинаций (8=23). Для кодирования 32 символов необходимо 5 бит (32=25). Этот код использовался в работе телеграфа в 20-е годы прошлого века. Вместо знаков препинания ставили ТЧК и ЗПТ. Используя 7 бит, можно закодировать 128 символов (128=27)

Восьми разрядов достаточно для кодирования 256 (28) различных символов Пользователь нажимает на клавиатуре клавишу – и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.

Для кодирования текстовой информации принят международный стандарт ASCII1 (American Standard Code for Information Interchange – американский стандартный код для обмена информацией; по-американски произносится [э́ски], тогда как в Великобритании чаще произносится [а́ски]; по-русски также произносится [а́ски]) разработанный Институтом стандартизации США (ANSI – American National Standard Institute). Система ASCII представлена двумя таблицами:

базовая – это кодовая таблица которая содержит 128 (27) ( 7-ми разрядных) кодов для кодирования :

0-31 содержит управляющие коды, используются производителями вычислительной техники;

32-127 содержит цифры, символы латинского алфавита, знаки препинания, математические символы.

расширенная (добавление 8-го разряда позволяет увеличить количество кодов таблицы ASCII до 255.) – содержит коды использованы для кодирования некоторых символов, отличающихся от латинского алфавита, и встречающихся в языках с письменностью, основанной на латинском алфавите, - немецком, французском, испанском и др. Кроме этого, часть кодов использована для кодирования символов псевдографики, которые можно использовать, например, для оформления в тексте различных рамок и текстовых таблиц.

Национальные системы кодирования используют расширенную часть таблицы ASCII (коды с 128 по 255). Отсутствие единого стандарта привело к тому, что существует пять различных кодовых таблиц для русских букв (КОИ-8, СР1251, СР866, ISO, MAC.), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

Каждая кодировка задается своей собственной кодовой таблицей. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

KOI8 (код обмена информацией, 8 битов)– восьмибитовая ASCII-совместимая кодовая страница, разработанная для кодирования букв кириллических алфавитов.

Кодировка KOI8-R (русская)

─
2500

│
2502

┌
250C

┐
2510

└
2514

┘
2518

├
251C

┤
2524

┬
252C

┴
2534

┼
253C

▀
2580

▄
2584

█
2588

▌
258C

▐
2590

░
2591

▒
2592

▓
2593

⌠
2320

■
25A0

∙
2219

√
221A

≈
2248

≤
2264

≥
2265

⌡
2321

°
B0

²
B2

·
B7

÷
F7

═
2550

║
2551

╒
2552

ё
451

╓
2553

╔
2554

╕
2555

╖
2556

╗
2557

╘
2558

╙
2559

╚
255A

╛
255B

╜
255C

╝
255D

╞
255E

╟
255F

╠
2560

╡
2561

Ё
401

╢
2562

╣
2563

╤
2564

╥
2565

╦
2566

╧
2567

╨
2568

╩
2569

╪
256A

╫
256B

╬
256C

ю
44E

а
430

б
431

ц
446

д
434

е
435

ф
444

г
433

х
445

и
438

й
439

к
43A

л
43B

м
43C

н
43D

о
43E

п
43F

я
44F

р
440

с
441

т
442

у
443

ж
436

в
432

ь
44C

ы
44B

з
437

ш
448

э
44D

щ
449

ч
447

ъ
44A

Ю
42E

А
410

Б
411

Ц
426

Д
414

Е
415

Ф
424

Г
413

Х
425

И
418

Й
419

К
41A

Л
41B

М
41C

Н
41D

О
41E

П
41F

Я
42F

Р
420

С
421

Т
422

У
423

Ж
416

В
412

Ь
42C

Ы
42B

З
417

Ш
428

Э
42D

Щ
429

Ч
427

Ъ
42A

Существует также семибитовая версия кодировки, не полностью совместимая с ASCII – КОИ-7. КОИ-7 и КОИ-8 описаны в ГОСТ 19768-74 (сейчас недействителен).

Разработчики КОИ-8 поместили символы русского алфавита в верхней части кодовой таблицы таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается «читабельный» текст, хотя он и написан латинскими символами. Например, слова «Русский Текст» превратились бы в «rUSSKIJ tEKST». Как побочное следствие, символы кириллицы оказались расположены не в алфавитном порядке.

Windows-1251 – кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990–1991 гг. совместно представителями «Параграфа», «Диалога» и российского отделения Microsoft. Первоначальный вариант кодировки сильно отличался от представленного ниже в таблице (в частности, там было значительное число «белых пятен»).

Windows-1251 выгодно отличается от других кириллических кодировок наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения); она также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского языков.

Кодировка Windows-1251 (синоним CP1251)

Ђ
402

Ѓ
403

‚
201A

ѓ
453

„
201E

…
2026

†
2020

‡
2021

€
20AC

‰
2030

Љ
409

‹
2039

Њ
40A

Ќ
40C

Ћ
40B

Џ
40F

ђ
452

‘
2018

’
2019

“
201C

”
201D

•
2022

–
2013

–
2014

™
2122

љ
459

›
203A

њ
45A

ќ
45C

ћ
45B

џ
45F

Ў
40E

ў
45E

Ј
408

¤
A4

Ґ
490

¦
A6

§
A7

Ё
401

Є
404

«
AB

¬
AC

®
AE

Ї
407

°
B0

±
B1

І
406

і
456

ґ
491

µ
B5

¶
B6

·
B7

ё
451

№
2116

є
454

»
BB

ј
458

Ѕ
405

ѕ
455

ї
457

А
410

Б
411

В
412

Г
413

Д
414

Е
415

Ж
416

З
417

И
418

Й
419

К
41A

Л
41B

М
41C

Н
41D

О
41E

П
41F

Р
420

С
421

Т
422

У
423

Ф
424

Х
425

Ц
426

Ч
427

Ш
428

Щ
429

Ъ
42A

Ы
42B

Ь
42C

Э
42D

Ю
42E

Я
42F

а
430

б
431

в
432

г
433

д
434

е
435

ж
436

з
437

и
438

й
439

к
43A

л
43B

м
43C

н
43D

о
43E

п
43F

р
440

с
441

т
442

у
443

ф
444

х
445

ц
446

ч
447

ш
448

щ
449

ъ
44A

ы
44B

ь
44C

э
44D

ю
44E

я
44F

Другие варианты

(Показаны только отличающиеся строки, поскольку всё остальное совпадает)

Кодировка CP1251-k (KazWin, казахская кодировка)

Ұ
4B0

Ғ
492

‚
201A

ғ
493

„
201E

…
2026

†
2020

‡
2021

€
20AC

‰
2030

Ө
4E8

‹
2039

Ң
4A2

Қ
49A

Һ
4BA

Ү
4AE

ұ
4B1

‘
2018

’
2019

“
201C

”
201D

•
2022

–
2013

–
2014

™
2122

ө
4E9

›
203A

ң
4A3

қ
49B

һ
4BB

ү
4AF

Ў
40E

ў
45E

Җ
496

¤
A4

Ҳ
4B2

¦
A6

§
A7

Ё
401

Є
404

«
AB

¬
AC

®
AE

Ї
407

°
B0

±
B1

І
406

і
456

ҳ
4B3

µ
B5

¶
B6

·
B7

ё
451

№
2116

є
454

»
BB

җ
497

Ә
4D8

ә
4D9

ї
457

Кодировка Windows-1251 (чувашский вариант)

Ђ
402

Ѓ
403

‚
201A

ѓ
453

„
201E

…
2026

†
2020

‡
2021

€
20AC

‰
2030

Љ
409

‹
2039

Ӑ
4D0

Ӗ
4D6

Ҫ
4AA

Ӳ
4F2

ђ
452

‘
2018

’
2019

“
201C

”
201D

•
2022

–
2013

–
2014

™
2122

љ
459

›
203A

ӑ
4D1

ӗ
4D7

ҫ
4AB

ӳ
4F3

Татарский вариант

Ә
4D8

Ѓ
403

‚
201A

ѓ
453

„
201E

…
2026

†
2020

‡
2021

€
20AC

‰
2030

Ө
4E8

‹
2039

Ү
4AE

Җ
496

Ң
4A2

Һ
4BA

ә
4D9

‘
2018

’
2019

“
201C

”
201D

•
2022

–
2013

–
2014

™
2122

ө
4E9

›
203A

ү
4AF

җ
497

ң
4A3

һ
4BB

Кодирование текстовой информации

Краткое описание

Файлы: 1 файл

Кодирование текстовой информации.doc

Кодирование текстовой информации

Кодировка KOI8-R (русская)

Кодировка Windows-1251 (синоним CP1251)

Другие варианты

Кодировка CP1251-k (KazWin, казахская кодировка)

Кодировка Windows-1251 (чувашский вариант)

Татарский вариант

Информация о работе Кодирование текстовой информации

Связанные документы

Кодирование текстовой информации

Двоичное кодирование текстовой информации

Кодирование текстовой информации

Кодирование текстовой информации

Кодирование текстовой информации

Кодирование текстовой информации

Кодирование текстовой информации

Кодирование звуковой и текстовой информации

Кодирование текстовой, графической информации

Двоичное кодирование текстовой, графической и звуковой информации

Кодирование звуковой текстовой и графической информации

Основные сведения о кодировании информации. Кодирование текстовых данных

Кодирование и декодирование текстовой информации циклическим кодом с исправлением тройных одиночных ошибок

Кодирование информации

Похожие темы

Кодирование информации

Текстовая информация

Обработка текстовой информации