Автор: Пользователь скрыл имя, 17 Июня 2013 в 20:55, курс лекций
Тема 1 Цель, задачи, предмет и метод информатики. Основные понятия и методы информатики
Понятие и роль информатизации в развитии общества
Информатизация – направленный процесс системной интеграции компьютерных средств, информационных и коммуникационных технологий с целью получения новых общесистемных свойств, позволяющих более эффективно организовать продуктивную деятельность человека, группы, социума.
Для измерения информации могут применяться различные подходы, но наибольшее распространение получили статистический (вероятностный), семантический и прагматический методы.
Статистический (вероятностный) метод измерения информации был разработан К. Шенноном в 1948 году, который предложил количество информации рассматривать как меру неопределенности состояния системы, снимаемой в результате получения информации. Количественно выраженная неопределенность получила название энтропии. Если после получения некоторого сообщения наблюдатель приобрел дополнительную информацию о системе Х, то неопределенность уменьшилась. Дополнительно полученное количество информации определяется как:
где - дополнительное количество информации о системе Х, поступившее в форме сообщения;
- начальная неопределенность (энтропия) системы X;
- конечная неопределенность (энтропия) системы X, наступившая после получения сообщения.
Если система X может находиться в одном из дискретных состояний, количество которых n, а вероятность нахождения системы в каждом из них равна и сумма вероятностей всех состояний равна единице , то энтропия вычисляется по формуле Шеннона:
где - энтропия системы Х;
а - основание логарифма, определяющее единицу измерения информации;
n – количество состояний (значений), в котором может находится система.
Энтропия величина положительная, а так как вероятности всегда меньше единицы, а их логарифм отрицательный, поэтому знак минус в формуле К.Шеннона делает энтропию положительной. Таким образом, за меру количества информации принимается та же энтропия, но с обратным знаком.
Взаимосвязь информации и энтропии можно понимать следующим образом: получение информации (ее увеличение) одновременно означает уменьшение незнания или информационной неопределенности (энтропии)
Таким образом, статистический подход учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Количество информации достигает максимального значения, если события равновероятны.
Измерение информации выражается в
ее объёме. Чаще всего это касается
объёма компьютерной памяти и объёма
данных, передаваемых по каналам связи.
За единицу принято такое
Если в качестве основания логарифма в формуле Хартли используется натуральный логарифм ( ), то единицей измерения информации является нат (1 бит = ln2 ≈ 0,693 нат). Если в качестве основания логарифма используется число 3, то - трит, если 10, то - дит (хартли).
На практике чаще применяется более крупная единица - байт (byte), равный восьми битам. Такая единица выбрана потому, что с ее помощью можно закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).
Кроме байтов информация
измеряется полусловами (2 байта), словами
(4 байта) и двойными словами (8 байт).
Широко используются также еще более
крупные единицы измерения
1 Килобайт (Кбайт - kilobyte) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт - megabyte) = 1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт - gigabyte) = 1024 Мбайт = 230 байт.
1 Терабайт (Тбайт - terabyte) = 1024 Гбайт = 240 байт,
1 Петабайт (Пбайт - petabyte) = 1024 Тбайт = 250 байт.
Семантический подход. Синтаксической меры не достаточно, если требуется определить не объем данных, а количество нужной в сообщении информации. В этом случае рассматривается семантический аспект, позволяющий определить содержательную сторону сведений.
Для измерения смыслового содержания информации можно воспользоваться тезаурусом ее получателя (потребителя). Идея тезаурусного метода была предложена Н. Винером и развита нашим отечественным ученым А.Ю. Шрейдером.
Тезаурусом называется совокупность сведений, которыми располагает получатель информации. Соотнесение тезауруса с содержанием поступившего сообщения позволяет выяснить, насколько оно снижает неопределенность..
Согласно зависимости, представленной на графике, при отсутствии у пользователя какого-либо тезауруса (знаний о существе поступившего сообщении, то есть =0), или наличия такого тезауруса, который не изменился в результате поступления сообщения ( ), то объем семантической информации в нем равен нулю. Оптимальным будет такой тезаурус ( ), при котором объем семантической информации будет максимальным ( ). Например, семантической информации в поступившем сообщении на незнакомом иностранном языке будет ноль, но и такая же ситуация будет в том случае, если сообщение уже не является новостью, так как пользователю уже все известно.
Прагматическая мера информации определяет ее полезность в достижении потребителем своих целей. Для этого достаточно определить вероятность достижения цели до, и после получения сообщения и сравнить их. Ценность информации (по А.А. Харкевичу) рассчитывается по формуле:
где - вероятность достижения цели до получения сообщения;
- вероятность достижения цели поле получения сообщения;
Количественно выраженная неопределенность получила название энтропии. Если после получения некоторого сообщения наблюдатель приобрел дополнительную информацию, то неопределенность уменьшилась.(смотри предыдущий параграф)
Информацио́нная энтропи́я — мера неопределённости или непредсказуемости информации. Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотой, поэтому неопределённость появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв встречаются очень редко, то неопределённость уменьшается еще сильнее.
Энтропия — это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения.
Измерение неопределенности смотри предыдущий билет
Современный компьютер может обрабатывать
числовую,
текстовую,
графическую,
звуковую
и видеоинформацию.
Все эти виды информации в компьютере представляются в двоичном коде (с помощью двух символов 0 и 1:
Целые числа в компьютере кодируются двоичным кодом (путем деления числа на два).
Существуют два формата
Первый способ применяется к целым числам, а второй - к вещественным числам (целым и дробным).
Под точкой подразумевается знак-
Представление целых чисел в формате с фиксированной точкой. Однобайтовое представление (8 битов) применяется только для положительных целых чисел. Например, число в двоичной системе счисления А2 = 111100012 будет храниться в ячейке памяти следующим образом:
Наибольшее положительное
В 16-разрядном представлении
Для представления отрицательных чисел используется дополнительный код, который существенно упрощает работу процессора и увеличивает его быстродействие.
Дополнительный код для отрицательного числа равен дополнению его величины до числа, возникающего при переполнении его разрядной сетки.
Использование такого кода удобно тем, что процессору достаточно уметь лишь складывать числа, так как операция вычитания двух чисел сводится к сложению с дополнительным кодом вычитаемого, что можно записать следующим образом:
где А – положительное число;
В – отрицательное число;
- дополнительный код числа В.
Представление чисел в формате с плавающей точкой. Вещественные числа хранятся и обрабатываются в компьютере в формате с плавающей точкой. Формат чисел с плавающей точкой базируется на экспоненциальной форме записи, в которой может быть представлено любое число. Так, число А можно записать в виде:
где m - мантисса числа;
- основание системы
n - порядок числа.
Числа с плавающей точкой должны записываются в нормализованной форме, требующей представление мантиссы в виде правильной дроби и имеющей после запятой цифру, отличную от нуля.
Кодирование текстовой информации
Текстовая информация состоит из символов: букв, цифр, знаков препинания и др. Одного байта достаточно для хранения 256 различных значений, что позволяет размещать в нем любой из алфавитно-цифровых символов. Первые 128 символов (занимающие семь младших бит) стандартизированы с помощью кодировки ASCII (American Standart Code for Information Interchange). Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255. Для кодировки русских букв используют различные кодовые таблицы (КОI-8R, СР1251, CP10007, ISO-8859-5):
KOI8R — восьмибитовый стандарт кодирования букв кириллических алфавитов (для операционной системы UNIX). Разработчики KOI8R поместили символы русского алфавита в верхней части расширенной таблицы ASCII таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что из текста написанного в KOI8R, получается текст, написанный латинскими символами. Например, слова «дом высокий» приобретают форму «dom vysokiy»;
СР1251 – восьмибитовый стандарт кодирования, используемый в OS Windows;
CP10007 - восьмибитовый стандарт кодирования, используемый в кириллице операционной системы Macintosh (компьютеров фирмы Apple);
ISO-8859-5 – восьмибитовый код, утвержденный в качестве стандарта для кодирования русского языка.
Кодирование графической информации
Графическую информацию можно представлять в двух формах: аналоговой и дискретной. Живописное полотно, созданное художником, - это пример аналогового представления, а изображение, напечатанное при помощи принтера, состоящее из отдельных (элементов) точек разного цвета, - это дискретное представление.
Путем разбиения графического изображения (дискретизации) происходит преобразование графической информации из аналоговой формы в дискретную. При этом производится кодирование - присвоение каждому элементу графического изображения конкретного значения в форме кода. Создание и хранение графических объектов возможно в нескольких видах - в виде векторного, фрактального или растрового изображения. Отдельным предметом считается 3D (трехмерная) графика, в которой сочетаются векторный и растровый способы формирования изображений.
Векторная графика используется для представления таких графических изображений как рисунки, чертежи, схемы.
Они формируются из объектов
- набора геометрических примитивов (точки,
линии, окружности, прямоугольники), которым
присваиваются некоторые
Изображение в векторном формате упрощает процесс редактирования, так как изображение может без потерь масштабироваться, поворачиваться, деформироваться. При этом каждое преобразование уничтожает старое изображение (или фрагмент), и вместо него строится новое. Такой способ представления хорош для схем и деловой графики. При кодировании векторного изображения хранится не само изображение объекта, а координаты точек, используя которые программа каждый раз воссоздает изображение заново.
Основным недостатком векторной графики является невозможность изображения фотографического качества. В векторном формате изображение всегда будет выглядеть, как рисунок.
Растровая графика. Любую картинку можно разбить на квадраты, получая, таким образом, растр - двумерный массив квадратов. Сами квадраты — элементы растра или пиксели (picture's element) - элементы картинки. Цвет каждого пикселя кодируется числом, что позволяет для описания картинки задавать порядок номеров цветов (слева направо или сверху вниз). В память записывается номер каждой ячейки, в которой хранится пиксель.