Автор: Пользователь скрыл имя, 21 Января 2013 в 16:30, лекция
Понятие информация является одним из фундаментальных в современной науке вообще и базовым для изучаемой нами информатики. Информацию наряду с веществом и энергией рассматривают в качестве важнейшей сущности мира, в котором мы живем.
Человек воспринимает информацию об окружающем мире с помощью органов чувств (зрения, слуха, обоняния, осязания и вкуса), причем может это делать на большом расстоянии.
Виды информации и способы ее представления в ЭВМ. Классификация информационных единиц, обрабатываемых ЭВМ. Типы данных, структуры данных, форматы файлов. Числовые и нечисловые типы данных и их виды. Структуры данных и их разновидности. Кодирование символьной информации. Символьные коды: ASCII, UNICODE и др. Кодирование графической информации. Двоичное кодирование звуковой информации. Сжатие информации. Кодирование видеоинформации. Стандарт MPEG.
Понятие информация является одним из фундаментальных в современной науке вообще и базовым для изучаемой нами информатики. Информацию наряду с веществом и энергией рассматривают в качестве важнейшей сущности мира, в котором мы живем.
Человек воспринимает информацию об окружающем мире с помощью органов чувств (зрения, слуха, обоняния, осязания и вкуса), причем может это делать на большом расстоянии.
Генетическая информация передается по наследству и хранится во всех клетках живых организмов. Генетическая информация определяет строение и развитие живых организмов и передается по наследству.
Хранится генетическая информация в клетках организмов в структуре молекул ДНК(дезоксирибонуклеиновая кислота).
В простейшем бытовом понимании с термином «информация» обычно ассоциируются некоторые сведения, данные, знания и т.п. Информация передается в виде сообщений, определяющих форму и представление передаваемой информации. Примерами сообщений являются музыкальное произведение; телепередача; команды регулировщика на перекрестке; текст, распечатанный на принтере; данные, полученные в результате работы составленной вами программы и т.д. При этом предполагается, что имеются «источник информации» и «получатель информации».
Сообщение
от источника к получателю передается
посредством какой-нибудь среды, являющейся
в таком случае «каналом связи» (рис.
1.3). Так, при передаче речевого сообщения
в качестве такого канала связи можно
рассматривать воздух, в котором
распространяются звуковые волны, а
в случае передачи письменного сообщения
(например, текста, распечатанного на принтере)
каналом сообщения можно
Информация (от лат. informatio, разъяснение, изложение, осведомленность) — сведения о чем-либо, независимо от формы их представления.
Информация - сведения об окружающем мире и протекающих в нем процессах, воспринимаемые человеком или специальным устройством.
Классификация информации
По способам восприятия:
- визуальная - воспринимаемая органами зрения.
- аудиальная воспринимаемая органами слуха.
- тактильная - воспринимаемая тактильными рецепторами.
- обонятельная - воспринимаемая обонятельными рецепторами.
- вкусовая - воспринимаемая вкусовыми рецепторами.
По формам представления:
По назначению
По значению
Свойства информации:
- запоминаемость;
- передаваемость;
- преобразуемость;
- воспроизводимость;
- стираемость.
Свойство запоминаемости - одно
из самых важных. Запоминаемую информацию
будем называть макроскопической (имея
ввиду пространственные масштабы запоминающей
ячейки и время запоминания). Именно с
макроскопической информацией мы имеем
дело в реальной практике.
Передаваемость информации с помощью
каналов связи (в том числе с помехами)
хорошо исследована в рамках теории информации
К.Шеннона. В данном случае имеется ввиду
несколько иной аспект - способность информации
к копированию, т.е. к тому, что она может
быть "запомнена" другой макроскопической
системой и при этом останется тождественной
самой себе. Очевидно, что количество информации
не должно возрастать при копировании.
Воспроизводимость информации тесно
связана с ее передаваемостью и не является
ее независимым базовым свойством. Если
передаваемость означает, что не следует
считать существенными пространственные
отношения между частями системы, между
которыми передается информация, то воспроизводимость
характеризует неиссякаемость и неистощимость
информации, т.е. что при копировании информация
остается тождественной самой себе.
Фундаментальное свойство информации
- преобразуемость. Оно означает, что
информация может менять способ и форму
своего существования. Копируемость есть
разновидность преобразования информации,
при котором ее количество не меняется.
В общем случае количество информации
в процессах преобразования меняется,
но возрастать не может.
Свойство стираемости информации также не является независимым. Оно связано с таким преобразованием информации (передачей), при котором ее количество уменьшается и становится равным нулю.
Информация хранится, передается и обрабатывается в символьной (знаковой) форме. Одна и та же информация может быть представлена в различной форме:
1) Знаковой письменной, состоящей из различных знаков среди которых выделяют символьную в виде текста, чисел, спец. символов; графическую; табличную и т.д.
2) В виде жестов или сигналов.
3) В устной словесной форме (разговор).
Чтобы сообщение было передано от источника к получателю, необходима некоторая материальная субстанция - носитель информации. Сообщение, передаваемое с помощью носителя, назовем сигналом. В общем случае сигнал - это изменяющийся во времени физический процесс. Такой процесс может содержать различные характеристики (например, при передаче электрических сигналов могут изменяться напряжение и сила тока). Та из характеристик, которая используется для представления сообщений, называется параметром сигнала.
В случае когда параметр сигнала принимает последовательное во времени конечное число значений (при этом все они могут быть пронумерованы), сигнал называется дискретным, а сообщение, передаваемое с помощью таких сигналов -дискретным сообщением. Информация, передаваемая источником, в этом случае также называется дискретной. Если же источник вырабатывает непрерывное сообщение (соответственно параметр сигнала - непрерывная функция от времени), соответствующая информация называется непрерывной. Пример дискретного сообщения - процесс чтения книги, информация в которой представлена текстом, т.е. дискретной последовательностью отдельных значков (букв). Примером непрерывного сообщения служит человеческая речь, передаваемая модулированной звуковой волной; параметром сигнала в этом случае является давление, создаваемое этой волной в точке нахождения приемника - человеческого уха.
Типы данных:
- Числовые. Среди числовых типов данных главными являются целые числа. Они бывают различной длины: обычно 8, 16, 32 и 64 бита. Целые числа применяются для подсчета различных предметов (например, позволяют узнать, сколько на складе отверток), для идентификации различных объектов (например, банковских счетов), а также для других целей. В большинстве современных компьютеров целые числа хранятся в двоичном виде, хотя в прошлом использовались и другие системы.
- Нечисловые. Хотя самые первые компьютеры работали в основном с числами, современные машины часто используются для выполнения нечисловых приложений, например, для обработки текстов или управления базами данных. Для этих приложений нужны другие, нечисловые, типы данных. Наиболее распространенными символьными кодами являются ASCII и UNICODE. Они поддерживают 7-разрядные и 16-разрядные символы соответственно.
Кодирование:
Представление символьной информации в ЭВМ
Для кодирования символьной или текстовой информации применяются различные системы: при вводе информации с клавиатуры кодирование происходит при нажатии клавиши, на которой изображен требуемый символ, при этом в клавиатуре вырабатывается так называемый scan-код, представляющий собой двоичное число, равное порядковому номеру клавиши.
Номер нажатой клавиши никак не связан с формой символа, нанесенного на клавише. Опознание символа и присвоение ему внутреннего кода ЭВМ производятся специальной программой по специальным таблицам: ДКОИ (двоичный код для обмена информацией), КОИ-7 (семибитная кодировка для русского языка и обмена информацией), ASCII (American Standard Code for Information Interchange).
Всего существует множество кодировочных таблиц. Рассмотрим сначала кодировочную таблицу ASCII (Американский стандартный код для обмена информацией). Эта кодировка является наиболее известной. На практике обычно не бывает проблем с кодированием англоязычных текстов, поскольку первая половина кодировки стандартизована, но, к сожалению, для кодировки русских букв существует несколько кодировочных таблиц, что иногда создает проблемы при работе с текстами. Всего с помощью таблицы кодирования ASCII (табл. 2.1) можно закодировать 256 различных символов. Для кодировки одного символа из таблицы отводится 8 бит. При обработке текстовой информации один байт может содержать код некоторого символа - буквы, цифры, знака пунктуации, знака действия и т.д. Каждому символу соответствует свой код в виде целого числа. Дисплей по каждому коду символа должен вывести на экран изображение символа - не просто цифровой код, а соответствующую ему картинку, так как каждый символ имеет свою форму. юди в разных странах используют символы для записи слов их родных зыков. В наши дни большинство приложений, включая системы электронной почты и вэб-браузеры, являются чисто 8-битными, то есть они могут показывать и корректно воспринимать лишь 8-битные символы, согласно стандарту ISO-8859-1.
Поскольку ASCII изначально предназначался для обмена информацией, в нём, кроме информационных символов, используются символы-команды для управления связью.
.0 |
.1 |
.2 |
.3 |
.4 |
.5 |
.6 |
.7 |
.8 |
.9 |
.A |
.B |
.C |
.D |
.E |
.F | |
0. |
NUL |
SOH |
STX |
ETX |
EOT |
ENQ |
ACK |
BEL |
BS |
TAB |
LF |
VT |
FF |
CR |
SO |
SI |
1. |
DLE |
DC1 |
DC2 |
DC3 |
DC4 |
NAK |
SYN |
ETB |
CAN |
EM |
SUB |
ESC |
FS |
GS |
RS |
US |
2. |
! |
" |
# |
$ |
% |
& |
' |
( |
) |
* |
+ |
, |
— |
. |
/ | |
3. |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
: |
; |
< |
= |
> |
? |
4. |
@ |
A |
B |
C |
D |
E |
F |
G |
H |
I |
J |
K |
L |
M |
N |
O |
5. |
P |
Q |
R |
S |
T |
U |
V |
W |
X |
Y |
Z |
[ |
\ |
] |
^ |
_ |
6. |
` |
a |
b |
c |
d |
e |
f |
g |
h |
i |
j |
k |
l |
m |
n |
o |
7. |
p |
q |
r |
s |
t |
u |
v |
w |
x |
y |
z |
{ |
| |
} |
~ |
DE |
В этой таблице
представлены коды от 0
до 127 (буквы английского
алфавита, знаки математических
операций, служебные
символы и т.д.),
причем коды от 0 до 32
отведены не символам,
а функциональным
клавишам.
Коды с 128 по 255 выделены для национальных стандартов каждой страны. Этого достаточно для большинства развитых стран.
Для России были введены несколько различных стандартов кодовой таблицы (коды с 128 по 255).
Вот некоторые из них:
КОИ8-Р, СР1251, СР866, Мас, IS
Существует более 256 символов в мире (если учесть кириллицу, арабский, китайский, японский, корейский и тайский языки), а также появляются все новые и новые символы. И это создает следующие пробелы для многих пользователей:
Невозможно использовать символы различных наборов кодировок в одном и том же документе.
Так как каждый текстовый документ использует свой собственный набор кодировок, то возникают большие трудности с автоматическим распознаванием текста.
Появляются новые символы (например: Евро), вследствие чего ISO разрабатывает новый стандарт ISO-8859-15, который весьма схож со стандартом ISO-8859-1.
Разница состоит в следующем: из таблицы кодировки старого стандарта ISO-8859-1 были убраны символы обозначения старых валют, которые не используются в настоящее время, для того, чтобы освободить место под вновь появившиеся символы (такие, как Евро). В результате у пользователей на дисках могут лежать одни и те же документы, но в разных кодировках.
Решением этих проблем является принятие единого международного набора кодировок, который называется универсальным кодированием или Unicode.
Существует 4 основных способа кодировки байтами в формате Unicode:
UTF-8: 128 символов кодируются одним байтом (формат ASCII), 1920 символов кодируются 2-мя байтами ((Roman, Greek, Cyrillic, Coptic, Armenian, Hebrew, Arabic символы), 63488 символов кодируются 3-мя байтами (Китайский, японский и др.) Оставшиеся 2 147 418 112 символы (еще не использованы) могут быть закодированы 4, 5 или 6-ю байтами.
UCS-2: Каждый
символ представлен 2-мя
UTF-16:Является расширением UCS-2, включает 1 114 112 символов формата Unicode. Первые 65 535 символов представлены 2-мя байтами, остальные - 4-мя байтами.
USC-4: Каждый символ кодируется 4-мя байтами.
Стандарт Unicode был разработан с целью создания единой кодировки символов всех современных и многих древних письменных языков. Каждый символ в этом стандарте кодируется 16 битами, что позволяет ему охватить несравненно большее количество символов, чем принятые ранее 7- и 8-битовые кодировки. Еще одним важным отличием Unicode от других систем кодировки является то, что он не только приписывает каждому символу уникальный код, но и определяет различные характеристики этого символа, например: