Системы обработки экономической информации

Автор: Пользователь скрыл имя, 02 Марта 2013 в 11:12, реферат

Краткое описание

С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.

Файлы: 1 файл

L_SOEI_Part1.doc

— 442.50 Кб (Скачать)
  • пертинентность – это соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными;
  • релевантность – это соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, называются релевантными.

Автоматизация процесса информационного поиска потребовала  формализации представления основного  смыслового содержания информационного запроса и документов в виде соответственно поискового предписания и поисковых образов документов. Для записи поискового предписания и поисковых образов применяются специальные языки, называемые информационно-поисковыми или просто поисковыми языками.

В процессе проведения информационного  поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления поискового предписания и поисковых образов. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или  невыдаче  документа в ответ  н запрос принимается на основании  некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между поисковым предписанием и поисковым образом. Такой набор правил получил название критерия смыслового соответствия.

  1. Общая функциональная структура ДИПС

В состав типичной ДИПС входят, как правило, четыре основных подсистемы:

  • Подсистема ввода и регистрации;
  • Подсистема обработки;
  • Подсистема хранения;
  • Подсистема поиска.

Подсистема ввода и  регистрации решает следующие основные задачи:

  • создание электронных копий бумажных документов, включая распознавание текста или ввод с клавиатуры;
  • подключение к каналам доставки электронных документов;
  • преобразование при необходимости формата электронного документа;
  • присвоение электронным документам уникальных идентификаторов (имен).

Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск  осуществляется по алгоритмам, аналогичным используемым в классических базах данных.

Далее документы поступают  на вход подсистемы обработки, задачей  которой является формирование для  каждого документа его поискового образа. В поисковый образ заносится  информация, необходимая для последующего поиска документа.

Поисковые образы документов сохраняют в индексах. Индексы  представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.

3. Формальное  представление смыслового содержания  текста

Естественный язык является универсальной знаковой системой, служащей для обмена информацией между  людьми. Несмотря на то, что  документы создаются и хранятся на естественном языке, использование его в ДИПС практически невозможно в связи со спецификой естественного языка (в других случаях эта специфика может быть и достоинством), в частности

  • многообразием и неформализуемостью средств передачи смысла:((контекст, ссылки, текстуальные отношения между словами и др.);
  • семантическая неоднозначность, связанная с наличием синонимов и различной трактовки одних и техм же слов;
  • многозначность;
  • эллипсность (возвраты и пропуски слов)..

Невозможность использования естественного языка в качестве основного средства представления информации в ДИПС приводит к необходимости разработки и использования искусственных языковых средств.

Информационно-поисковым  языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности их последующего поиска.

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ принято разбивать  на два основных класса:

  • классификационные языки;
  • дескрипторные языки.

Особенностью классификационных  языков является то, что заранее, группой  экспертов, отбираются понятия ИПЯ в виде слов ЕЯ или сочетаний слов. В этом случае построение сложных языковых конструкций заменяется выбором из набора простых и сложных понятий. Происходит своего рода классификация терминов и выражений входящего сообщения, с чем и связано название этого типа искусственных языков. Примером такого класса языков является рубрикатор (напр.УДК), состоящий из рубрик и многоуровневых вложенных подрубрик.

В дескрипторных языках заранее заданы только простые лексические  единицы, но не отношения между ними. Сложные понятия естественного языка как бы описываются набором слов искусственного языка, откуда и происходит название – дескрипторные (дескрипция в переводе значит описание).

Тема «Обработка и поиск текстовой информации»

1.  Обработка  входящей текстовой информации

На входе ДИПС документы представлены на естественном языке. Задача входной  обработки таких документов –  перевод их содержания с ЕЯ на ИПЯ (искусственный поисковый язык).

Тип используемого ИПЯ  оказывает сильное влияние как  на суть процессов обработки информации в конкретных ДИПС, так и на конечный поисковый образ документа. В наиболее общем виде все ИПЯ делятся на два класса:

  • классификационные (рубрицирование) и
  • дескрипторные (индексирование).

Соответственно в случае применения ИПЯ дескрипторного типа операция входной обработки документов (перевода) называется индексированием, при использовании рубрикаторов – рубрицированием.

Независимо  от используемого  языка, в операции перевода выделяют  два основных этапа:

  • анализ смыслового содержания текста с целью выделения из него сведений об известных на уровне ИПЯ объектах, их свойствах, а также отношениях между ними. Такой смысловой анализ принято называть лингвистическим анализом текта;
  • выражение этих сведений на ИПЯ, т.е. принятие решения о приравнивании отдельных выражений входного документа отдельным элементам или их сочетаниям на ИПЯ. Как уже упоминалось, в зависимости от используемого языка этот процесс называется индексированием или рубрицированием.

Рассмотрим детальнее  содержание этих этапов.

Лингвистический анализ текста, в свою очередь, также состоит из двух этапов:

  • морфологического анализа;
  • синтаксического анализа.

Цель морфологического анализа заключается в получении  основ слов (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (часть речи, род, число, падеж и т.д.) для каждой из словоформ.

  Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи в виде дерева зависимостей.

Собственно, выражение  таких зависимостей на основе текста на ЕЯ, и припавнивание их некоторым  конструкциям ИПЯ – это уже задача второго этапа обработки входной информации – рубрицирования или индексирования. Существуют различные подходы к установлению соответствия. В настоящее время наиболее широко используются следующие:

  • автоматическое индексирование. Определяется количество вхождений какого-либо термина, либо группы терминов  в документ, в зависимости от количества вхождений присваиваются весовые коэффициенты;
  • автоматическое рубрицирование, основанное на знаниях: в этом случае заранее создаются некоторые базы знаний, в которых на основе знаний экспертов закладываются наиболее важные термины и их сочетания. Процесс создания подобных систем во многом напоминает создание экспертных систем для диагностики и классификации;
  • автоматическое рубрицирование, основанное на обучении и примерах – в этом случае используются нейросетевые технологии.

2. Поиск текстовой  информации

Методы поиска текстовой  информации в значительной мере определяются принципами переработки (перевода) входной информации. В общем случае процесс поиска включает в себя следующие элементы:

  • представление документов и запросов;
  • критерии смыслового соответствия;
  • методы ранжирования результатов запроса;
  • механизмы обратной связи, обеспечивающие оценку релевантности документов пользователем.

Существует большое  количество методов поиска, наиболее известны следующие:

  • метод булевой модели. При этом, если слово хотя бы раз входит в исходный текст, оно получает значение единица (истина), если ни разу – нуль (ложь). При поиске возможно использовать любые логические комбинации, включая операторы «и» и «или». Эффективность этого метода невысока, поскольку не отличаются документы с однократным и многократным вхождением слова;
  • метод весовых коэффициентов. Подобен методу булевой модели, однако численные значения коэффициентов пропорциональны количеству вхождений данного слова в документ. Аналогичный принцип используется и при поиске информации в Интернет;
  • третий метод – использование нечеткой логики для поиска в случае большого набора элементов (например, если при поиске в документе найдено 9 слов из требуемых 10). Пограничные ситуации даются на решение пользователю. На практике не дает заметных преимуществ по сравнению с предыдущим методом;
  • нейросетевые методы.

Все эти (как и другие возможные) методы предполагают механизм обратной связи с пользователем.. В отличие от классических (табличных) баз данных, где запрос формулируется точно и однозначно, в случае поиска текстовой информации пользователи обычно начинают с неточного и неполного запроса, а следовательно – с низкой эффективностью поиска, постепенно уточняя его методом итераций.

Существуют два основных подхода к использованию такой  обратной связи:

  • модификация запроса и
  • модификация представления документов.

Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но не сказываются  на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.

  1. Оценка качества ДИПС

Как уже отмечалось,  поисковый образ документа содержит лишь основное, сокращенное смысловое  содержание документа. Некоторые черты реального исходного документа в поисковом образе отсутствуют. Это приводит к тому, что информационный поиск, основанный на сопоставлении поискового предписания и поискового образа документа, не в состоянии обеспечить отыскание всех документов, отвечающих информационному запросу, т.е., часть документов, отвечающих запросу (релевантных ему) остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е., не являются релевантными. Таким образом, практически любой реальной ДИПС присущи два вида ошибок:

  • ошибка первого рода (или пропуск цели – термин из теории управления): невыдача потребителю фактически релевантных его запросу документов;
  • ошибка второго рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают его запросу.

Введем следующие обозначения:

  • а – количество выданных релевантных документов,
  • b – количество выданных нерелевантных документов,
  • с – не выданных релевантных документов,
  • d – количество не выданных нерелевантных документов.

Эти обозначения позволяют  выразить основные показатели эффективности  ДИПС:

  • коэффициент полноты, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:

                                             p = a/(a + c)

  • коэффициент точности, характеризующий долю выданных релевантных документов во всем массиве выданных документов:

                                        n = a/(a + b)

 

Тема «ЗНАНИЯ И ИХ ПРЕДСТАВЛЕНИЕ»

  1. Понятие о знании

Информация  об окружающем человека мире может  быть представлена в двух основных формах: в виде данных, и в виде знаний.

Информация о работе Системы обработки экономической информации