Измерение информации и источники информации

Автор: Пользователь скрыл имя, 13 Октября 2013 в 23:43, реферат

Краткое описание

В зависимости от форм адекватности различают меры информации: синтаксическую, семантическую и прагматическую.
Синтаксическая мера информации определяется объемом данных, количеством информации и коэффициентом информативности.

Файлы: 1 файл

Измерение информации_источники информации.docx

— 1.19 Мб (Скачать)

Министерство  образования и науки Российской Федерации

 

ФГБОУ ВПО

«Новгородский государственный университет имени Ярослава Мудрого»

 

 

 

Кафедра управления земельными ресурсами

 

 

 

 

 

 

 

 

 

 

«Измерение информации

Источники информации»

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Измерение информации

В зависимости от форм адекватности различают меры информации: синтаксическую, семантическую и прагматическую.

Синтаксическая мера информации определяется объемом данных, количеством информации и коэффициентом информативности.

Объем данных – это количество символов в сообщении. Оно измеряется в битах и дитах. Бит (bit – binary digit) – двоичный разряд, дит – десятичный. Например, в электронном тахеометре запись, состоящая из ряда чисел составляет объем данных V=34 дит, то есть в этой записи насчитывается 34 десятичных цифры. Если запись перевести в двоичную систему счисления, то число двоичных знаков определит количество информации в битах. Пример этой записи такой:

2001 – номер пикета,

1.600 – высота отражателя на пикете,

11.0300 – расстояние от станции до пикета в метрах,

49.05000 – отсчет по горизонтальному кругу,

359.03050 – отсчет по вертикальному кругу,

11:43:00 – время съемки.

Количество информации – это разность между неопределенностью (неполнотой) знаний до получения сообщения об объекте и после его получения.

Неопределенность (неполнота) знаний выражается энтропией,

Энтропия системы – это степень (мера) неопределенности (неосведомленности) о состоянии системы.[2, 3с.]

которая вычисляется так:

где вероятность исхода события, о котором принимается сообщение.

Если через обозначить энтропию события до полученного сообщения, а через его энтропию после получения сообщения, то количество информации будет:

Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы (теория Шеннона).[2, 3с.]

Мера информации по Шеннону

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция H(α), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β) неопределенность состояния системы стала Hβ (α).

Тогда количество информации Iβ(α) о системе, полученной в сообщении β, определится как:

Iβ(α) = H(α) - Hβ (α),

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность Hβ (α) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Iβ(α) = H(α). Иными словами, энтропия системы H(α) может рассматриваться как мера недостающей информации.

Энтропия системы H(α), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где Pi – вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi =(1/N), ее энтропия определяется соотношением:

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

N=m^n,

где N – число всевозможных отображаемых состояний;

m – основание системы счисления (разнообразие символов, применяемых в алфавите);

n – число разрядов (символов) в сообщении.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.:

,

причем 0<Y<1.

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.[2, 3-4с.]

Пример. На абрисе тахеометрической съемки точки рельефа, между которыми возможна интерполяция горизонталей соединяются стрелками, которые указывают направление ската. До проведения эксперимента допустимо предположение соединения некоторой точки n с остальными n – 1 точками. При этом вероятность каждого соединения равна

где число соединений.

Однако в результате эксперимента было установлено (получено экспериментально), что точка n соединилась лишь с одной точкой. Вероятность этого события а вероятность соединения с остальными точками равна нулю.

Тогда очевидно, что

Следовательно, количество информации, доставляемой такой линией абриса равно

Коэффициент информативности определяется величиной

 

Семантическая мера информации – измеряется совокупностью сведений, которыми располагает пользователь о предметной области, называемой тезаурусом пользователя. В данном случае количество информации определяется компетентностью пользователя. Для некомпетентного пользователя (тезаурус равен нулю) при любых соотношениях количество семантической информации будет нулевым.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус.

Рис. 2. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса Ic = F(Sp)

Максимальное количество информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и Sp.

Относительной мерой количества семантической информации может служить коэффициент содержательности C, который определяется как отношение количества семантической информации к ее объему:[2, 4-5с.]

Пример. Определим число классов геодезической сети равным четырем. И пусть некомпетентный пользователь знает, что геодезические сети строятся только одного класса точности. Пусть сообщение о классе точности пункта сети равно 3. Определить количество информации, получившееся для компетентного и некомпетентного пользователей.

Зная, что существует лишь один класс точности некомпетентный пользователь определит:

То есть данное сообщение для этого пользователя приносит 0 семантической информации.

Для компетентного:

Здесь знание вероятности принадлежности пункта к третьему классу равно 1 после получения сообщения.

Поскольку   Рi=1/4

то количество информации, полученное компетентным пользователем равно

Коэффициент содержательности семантической информации определяется формулой:

Прагматическая мера информации определяется ее полезностью для достижения определенных целей. Она может измеряться количеством информации также как синтаксическая и семантическая, но здесь пользователь должен быть компетентным в целесообразности информации.

Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же единицах (или близких к ним), в которых измеряется целевая функция.[2, 5с.]

[2, 2-3с.]

Источники информации

Типы данных и их источники

По форме представления данные подразделяются на графические и текстовые. Текстовые бывают буквенные, цифровые и буквенно-цифровые.

По степени предварительной обработки данные подразделяются на первичные и вторичные. Первичные данные это такие, которые хранятся в таком виде, в каком они были получены. Это результаты непосредственных измерений и наблюдений. Вторичные – это данные, прошедшие предварительную обработку. Это карты, планы, фотоплан и др. К текстовым следует отнести следующие данные.

1. Идентификационные, которые однозначно определяют местоположение объектов или территориальных единиц. К ним относятся координаты точек, результаты измерений, съемок. Эти данные относятся к разряду основных данных ГИС. Они представляются в основном в цифровой форме. Их источник – каталог координат пунктов созданной геодезической сети, журналы измерений и съемок.

2. Описательные, которые относятся к тематическим данным, связанным определенной территориальной единицей. Это в основном буквенно-цифровые данные. Примером таких данных может быть административное описание положения геодезического опорного пункта, тип его центра, наружного оформления, данные привязки к местным предметам. Источником таких данных являются результаты описей и измерений по привязке геодезических пунктов, журналы выполнения геодезических измерений и съемок.

3. Нормативные данные – это данные планирования, полученные из нормативной документации, инструкций, положений.

4. Статистические данные – это такие, которые являются отражением деятельности определенной отрасти народного хозяйства. Их источником являются данные государственной статистики, статистической отчетности по различным отраслям хозяйственной деятельности. К таким данным относятся результаты наблюдений за различными природными явлениями – гидрологическими, метеорологическими, геоботаническими, океанографическими и др.

Источником графических данных являются картографические и аэрокосмические материалы.

К картографическим материалам следует отнести следующие:

1. Общегеографические карты. Это топографические карты – масштаба 1:200000 и крупнее, обзорно-топографические – масштаб менее 1:200000 до 1:1000000 и обзорные – масштаба 1:1000000.

2. Тематические карты. К ним относятся природные карты и социально-экономические. Природные карты делятся на геологические, геодезические, метеорологические и климатические, океанографические, почвенные, геоботанические, охранно-природные, земельно-ресурсные.

Социально-экономические карты подразделяются на карты промышленности, сельского хозяйства и др.

 Аэрокосмические материалы называются еще материалами дистанционного зондирования. Они получаются на основе аэрофотосъемок и космических съемок. В разряд дистанционных методов зондирования можно отнести съемки и методы наземного зондирования. К ним относятся фототеодолитная съемка, сейсмо-, электро-, и магниторазведка, гидроакустические съемки морского дна с кораблей.

Космические съемки выполняются как с фотографических, так и со сканерных систем. Системы съемки могут быть как пассивные, так и активные.

Пассивные системы воспринимают отражение от объектов и фиксируют его на фотопленке или электромагнитных накопителях.

Активные излучают электромагнитные сигналы по направлению к объекту и фиксируют отражение этих сигналов на электромагнитных носителях.

Рассмотрим на конкретном примере как тип данных и его источник влияет на конечный результат представления объекта. Основано на статье Абросимова А.В. «Инвентаризация охотничьих угодий по результатам классификации мультиспектральных изображений».[3]

 

  • Проблема: Низкий уровень использования «революционных», «новаторских» технологий в повседневной работе земле- и охотустроителя.
  • Замечание: Однако задачи связанные с владением и применением геоинформации на современном этапе уже решаются при помощи ГИС-технологий.
  • Постановка задачи: Построение схемы территориального планирования (проекта охотустройства) с применением ГИС-технологий.
  • Конкретизация задачи: Инвентаризация охотничьих (с/х) угодий.
  • Основа для решения задачи: Цветные снимки и результаты их распознавания.
  • Выбор подхода

Информация о работе Измерение информации и источники информации