Системы обработки экономической информации

Реферат, 02 Марта 2013, автор: пользователь скрыл имя

Краткое описание

С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.

Скачать в ZIP (144.89 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

L_SOEI_Part1.doc

— 442.50 Кб (Скачать)

пертинентность – это соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными;
релевантность – это соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, называются релевантными.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания и поисковых образов документов. Для записи поискового предписания и поисковых образов применяются специальные языки, называемые информационно-поисковыми или просто поисковыми языками.

В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления поискового предписания и поисковых образов. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ н запрос принимается на основании некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между поисковым предписанием и поисковым образом. Такой набор правил получил название критерия смыслового соответствия.

Общая функциональная структура ДИПС

В состав типичной ДИПС входят, как правило, четыре основных подсистемы:

Подсистема ввода и регистрации;
Подсистема обработки;
Подсистема хранения;
Подсистема поиска.

Подсистема ввода и регистрации решает следующие основные задачи:

создание электронных копий бумажных документов, включая распознавание текста или ввод с клавиатуры;
подключение к каналам доставки электронных документов;
преобразование при необходимости формата электронного документа;
присвоение электронным документам уникальных идентификаторов (имен).

Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск осуществляется по алгоритмам, аналогичным используемым в классических базах данных.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его поискового образа. В поисковый образ заносится информация, необходимая для последующего поиска документа.

Поисковые образы документов сохраняют в индексах. Индексы представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.

3. Формальное представление смыслового содержания текста

Естественный язык является универсальной знаковой системой, служащей для обмена информацией между людьми. Несмотря на то, что документы создаются и хранятся на естественном языке, использование его в ДИПС практически невозможно в связи со спецификой естественного языка (в других случаях эта специфика может быть и достоинством), в частности

многообразием и неформализуемостью средств передачи смысла:((контекст, ссылки, текстуальные отношения между словами и др.);
семантическая неоднозначность, связанная с наличием синонимов и различной трактовки одних и техм же слов;
многозначность;
эллипсность (возвраты и пропуски слов)..

Невозможность использования естественного языка в качестве основного средства представления информации в ДИПС приводит к необходимости разработки и использования искусственных языковых средств.

Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности их последующего поиска.

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ принято разбивать на два основных класса:

классификационные языки;
дескрипторные языки.

Особенностью классификационных языков является то, что заранее, группой экспертов, отбираются понятия ИПЯ в виде слов ЕЯ или сочетаний слов. В этом случае построение сложных языковых конструкций заменяется выбором из набора простых и сложных понятий. Происходит своего рода классификация терминов и выражений входящего сообщения, с чем и связано название этого типа искусственных языков. Примером такого класса языков является рубрикатор (напр.УДК), состоящий из рубрик и многоуровневых вложенных подрубрик.

В дескрипторных языках заранее заданы только простые лексические единицы, но не отношения между ними. Сложные понятия естественного языка как бы описываются набором слов искусственного языка, откуда и происходит название – дескрипторные (дескрипция в переводе значит описание).

Тема «Обработка и поиск текстовой информации»

1. Обработка входящей текстовой информации

На входе ДИПС документы представлены на естественном языке. Задача входной обработки таких документов – перевод их содержания с ЕЯ на ИПЯ (искусственный поисковый язык).

Тип используемого ИПЯ оказывает сильное влияние как на суть процессов обработки информации в конкретных ДИПС, так и на конечный поисковый образ документа. В наиболее общем виде все ИПЯ делятся на два класса:

классификационные (рубрицирование) и
дескрипторные (индексирование).

Соответственно в случае применения ИПЯ дескрипторного типа операция входной обработки документов (перевода) называется индексированием, при использовании рубрикаторов – рубрицированием.

Независимо от используемого языка, в операции перевода выделяют два основных этапа:

анализ смыслового содержания текста с целью выделения из него сведений об известных на уровне ИПЯ объектах, их свойствах, а также отношениях между ними. Такой смысловой анализ принято называть лингвистическим анализом текта;
выражение этих сведений на ИПЯ, т.е. принятие решения о приравнивании отдельных выражений входного документа отдельным элементам или их сочетаниям на ИПЯ. Как уже упоминалось, в зависимости от используемого языка этот процесс называется индексированием или рубрицированием.

Рассмотрим детальнее содержание этих этапов.

Лингвистический анализ текста, в свою очередь, также состоит из двух этапов:

морфологического анализа;
синтаксического анализа.

Цель морфологического анализа заключается в получении основ слов (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (часть речи, род, число, падеж и т.д.) для каждой из словоформ.

Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи в виде дерева зависимостей.

Собственно, выражение таких зависимостей на основе текста на ЕЯ, и припавнивание их некоторым конструкциям ИПЯ – это уже задача второго этапа обработки входной информации – рубрицирования или индексирования. Существуют различные подходы к установлению соответствия. В настоящее время наиболее широко используются следующие:

автоматическое индексирование. Определяется количество вхождений какого-либо термина, либо группы терминов в документ, в зависимости от количества вхождений присваиваются весовые коэффициенты;
автоматическое рубрицирование, основанное на знаниях: в этом случае заранее создаются некоторые базы знаний, в которых на основе знаний экспертов закладываются наиболее важные термины и их сочетания. Процесс создания подобных систем во многом напоминает создание экспертных систем для диагностики и классификации;
автоматическое рубрицирование, основанное на обучении и примерах – в этом случае используются нейросетевые технологии.

2. Поиск текстовой информации

Методы поиска текстовой информации в значительной мере определяются принципами переработки (перевода) входной информации. В общем случае процесс поиска включает в себя следующие элементы:

представление документов и запросов;
критерии смыслового соответствия;
методы ранжирования результатов запроса;
механизмы обратной связи, обеспечивающие оценку релевантности документов пользователем.

Существует большое количество методов поиска, наиболее известны следующие:

метод булевой модели. При этом, если слово хотя бы раз входит в исходный текст, оно получает значение единица (истина), если ни разу – нуль (ложь). При поиске возможно использовать любые логические комбинации, включая операторы «и» и «или». Эффективность этого метода невысока, поскольку не отличаются документы с однократным и многократным вхождением слова;
метод весовых коэффициентов. Подобен методу булевой модели, однако численные значения коэффициентов пропорциональны количеству вхождений данного слова в документ. Аналогичный принцип используется и при поиске информации в Интернет;
третий метод – использование нечеткой логики для поиска в случае большого набора элементов (например, если при поиске в документе найдено 9 слов из требуемых 10). Пограничные ситуации даются на решение пользователю. На практике не дает заметных преимуществ по сравнению с предыдущим методом;
нейросетевые методы.

Все эти (как и другие возможные) методы предполагают механизм обратной связи с пользователем.. В отличие от классических (табличных) баз данных, где запрос формулируется точно и однозначно, в случае поиска текстовой информации пользователи обычно начинают с неточного и неполного запроса, а следовательно – с низкой эффективностью поиска, постепенно уточняя его методом итераций.

Существуют два основных подхода к использованию такой обратной связи:

модификация запроса и
модификация представления документов.

Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.

Оценка качества ДИПС

Как уже отмечалось, поисковый образ документа содержит лишь основное, сокращенное смысловое содержание документа. Некоторые черты реального исходного документа в поисковом образе отсутствуют. Это приводит к тому, что информационный поиск, основанный на сопоставлении поискового предписания и поискового образа документа, не в состоянии обеспечить отыскание всех документов, отвечающих информационному запросу, т.е., часть документов, отвечающих запросу (релевантных ему) остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е., не являются релевантными. Таким образом, практически любой реальной ДИПС присущи два вида ошибок:

ошибка первого рода (или пропуск цели – термин из теории управления): невыдача потребителю фактически релевантных его запросу документов;
ошибка второго рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают его запросу.

Введем следующие обозначения:

а – количество выданных релевантных документов,
b – количество выданных нерелевантных документов,
с – не выданных релевантных документов,
d – количество не выданных нерелевантных документов.

Эти обозначения позволяют выразить основные показатели эффективности ДИПС:

коэффициент полноты, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:

p = a/(a + c)

коэффициент точности, характеризующий долю выданных релевантных документов во всем массиве выданных документов:

n = a/(a + b)

Тема «ЗНАНИЯ И ИХ ПРЕДСТАВЛЕНИЕ»

Понятие о знании

Информация об окружающем человека мире может быть представлена в двух основных формах: в виде данных, и в виде знаний.

Системы обработки экономической информации

Краткое описание

Файлы: 1 файл

L_SOEI_Part1.doc

Информация о работе Системы обработки экономической информации

Связанные документы

Автоматизированая система обработки экономической информации

Автоматизированная система обработки экономической информации

Автоматизированные системы обработки экономической информации

Автоматизированные системы обработки экономической информации

Автоматизированная система обработки экономической информации совместного хозяйства

Автоматизированные системы обработки экономической информации

Анализ автоматизированной системы обработки экономической информации предприятия “Дорремстрой”

Виды экономической информации. Системы обработки данных. Первичная информация в информационных системах

Разработка базы данных экономической информационной системы для обработки информации по списанию основных средств

Разработка экономической информационной системы для автоматизации обработки информации по договорам с покупателями

Похожие темы

Система экономической информации

Автоматизированные системы обработки информации

Способы обработки экономической информации