Системы обработки экономической информации
Реферат, 02 Марта 2013, автор: пользователь скрыл имя
Краткое описание
С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.
Файлы: 1 файл
L_SOEI_Part1.doc
— 442.50 Кб (Скачать)- пертинентность – это соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными;
- релевантность – это соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, называются релевантными.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания и поисковых образов документов. Для записи поискового предписания и поисковых образов применяются специальные языки, называемые информационно-поисковыми или просто поисковыми языками.
В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления поискового предписания и поисковых образов. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).
Решение о выдаче или невыдаче документа в ответ н запрос принимается на основании некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между поисковым предписанием и поисковым образом. Такой набор правил получил название критерия смыслового соответствия.
- Общая функциональная структура ДИПС
В состав типичной ДИПС входят, как правило, четыре основных подсистемы:
- Подсистема ввода и регистрации;
- Подсистема обработки;
- Подсистема хранения;
- Подсистема поиска.
Подсистема ввода и регистрации решает следующие основные задачи:
- создание электронных копий бумажных документов, включая распознавание текста или ввод с клавиатуры;
- подключение к каналам доставки электронных документов;
- преобразование при необходимости формата электронного документа;
- присвоение электронным документам уникальных идентификаторов (имен).
Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск осуществляется по алгоритмам, аналогичным используемым в классических базах данных.
Далее документы поступают
на вход подсистемы обработки, задачей
которой является формирование для
каждого документа его
Поисковые образы документов сохраняют в индексах. Индексы представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.
3. Формальное
представление смыслового
Естественный язык является универсальной знаковой системой, служащей для обмена информацией между людьми. Несмотря на то, что документы создаются и хранятся на естественном языке, использование его в ДИПС практически невозможно в связи со спецификой естественного языка (в других случаях эта специфика может быть и достоинством), в частности
- многообразием и неформализуемостью средств передачи смысла:((контекст, ссылки, текстуальные отношения между словами и др.);
- семантическая неоднозначность, связанная с наличием синонимов и различной трактовки одних и техм же слов;
- многозначность;
- эллипсность (возвраты и пропуски слов)..
Невозможность использования естественного языка в качестве основного средства представления информации в ДИПС приводит к необходимости разработки и использования искусственных языковых средств.
Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности их последующего поиска.
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
ИПЯ принято разбивать на два основных класса:
- классификационные языки;
- дескрипторные языки.
Особенностью
В дескрипторных языках заранее заданы только простые лексические единицы, но не отношения между ними. Сложные понятия естественного языка как бы описываются набором слов искусственного языка, откуда и происходит название – дескрипторные (дескрипция в переводе значит описание).
Тема «Обработка и поиск текстовой информации»
1. Обработка входящей текстовой информации
На входе ДИПС документы представлены на естественном языке. Задача входной обработки таких документов – перевод их содержания с ЕЯ на ИПЯ (искусственный поисковый язык).
Тип используемого ИПЯ оказывает сильное влияние как на суть процессов обработки информации в конкретных ДИПС, так и на конечный поисковый образ документа. В наиболее общем виде все ИПЯ делятся на два класса:
- классификационные (рубрицирование) и
- дескрипторные (индексирование).
Соответственно в случае применения ИПЯ дескрипторного типа операция входной обработки документов (перевода) называется индексированием, при использовании рубрикаторов – рубрицированием.
Независимо от используемого языка, в операции перевода выделяют два основных этапа:
- анализ смыслового содержания текста с целью выделения из него сведений об известных на уровне ИПЯ объектах, их свойствах, а также отношениях между ними. Такой смысловой анализ принято называть лингвистическим анализом текта;
- выражение этих сведений на ИПЯ, т.е. принятие решения о приравнивании отдельных выражений входного документа отдельным элементам или их сочетаниям на ИПЯ. Как уже упоминалось, в зависимости от используемого языка этот процесс называется индексированием или рубрицированием.
Рассмотрим детальнее содержание этих этапов.
Лингвистический анализ текста, в свою очередь, также состоит из двух этапов:
- морфологического анализа;
- синтаксического анализа.
Цель морфологического
анализа заключается в
Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи в виде дерева зависимостей.
Собственно, выражение таких зависимостей на основе текста на ЕЯ, и припавнивание их некоторым конструкциям ИПЯ – это уже задача второго этапа обработки входной информации – рубрицирования или индексирования. Существуют различные подходы к установлению соответствия. В настоящее время наиболее широко используются следующие:
- автоматическое индексирование. Определяется количество вхождений какого-либо термина, либо группы терминов в документ, в зависимости от количества вхождений присваиваются весовые коэффициенты;
- автоматическое рубрицирование, основанное на знаниях: в этом случае заранее создаются некоторые базы знаний, в которых на основе знаний экспертов закладываются наиболее важные термины и их сочетания. Процесс создания подобных систем во многом напоминает создание экспертных систем для диагностики и классификации;
- автоматическое рубрицирование, основанное на обучении и примерах – в этом случае используются нейросетевые технологии.
2. Поиск текстовой информации
Методы поиска текстовой информации в значительной мере определяются принципами переработки (перевода) входной информации. В общем случае процесс поиска включает в себя следующие элементы:
- представление документов и запросов;
- критерии смыслового соответствия;
- методы ранжирования результатов запроса;
- механизмы обратной связи, обеспечивающие оценку релевантности документов пользователем.
Существует большое количество методов поиска, наиболее известны следующие:
- метод булевой модели. При этом, если слово хотя бы раз входит в исходный текст, оно получает значение единица (истина), если ни разу – нуль (ложь). При поиске возможно использовать любые логические комбинации, включая операторы «и» и «или». Эффективность этого метода невысока, поскольку не отличаются документы с однократным и многократным вхождением слова;
- метод весовых коэффициентов. Подобен методу булевой модели, однако численные значения коэффициентов пропорциональны количеству вхождений данного слова в документ. Аналогичный принцип используется и при поиске информации в Интернет;
- третий метод – использование нечеткой логики для поиска в случае большого набора элементов (например, если при поиске в документе найдено 9 слов из требуемых 10). Пограничные ситуации даются на решение пользователю. На практике не дает заметных преимуществ по сравнению с предыдущим методом;
- нейросетевые методы.
Все эти (как и другие возможные) методы предполагают механизм обратной связи с пользователем.. В отличие от классических (табличных) баз данных, где запрос формулируется точно и однозначно, в случае поиска текстовой информации пользователи обычно начинают с неточного и неполного запроса, а следовательно – с низкой эффективностью поиска, постепенно уточняя его методом итераций.
Существуют два основных подхода к использованию такой обратной связи:
- модификация запроса и
- модификация представления документов.
Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.
- Оценка качества ДИПС
Как уже отмечалось,
поисковый образ документа
- ошибка первого рода (или пропуск цели – термин из теории управления): невыдача потребителю фактически релевантных его запросу документов;
- ошибка второго рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают его запросу.
Введем следующие обозначения:
- а – количество выданных релевантных документов,
- b – количество выданных нерелевантных документов,
- с – не выданных релевантных документов,
- d – количество не выданных нерелевантных документов.
Эти обозначения позволяют выразить основные показатели эффективности ДИПС:
- коэффициент полноты, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:
- коэффициент точности, характеризующий долю выданных релевантных документов во всем массиве выданных документов:
Тема «ЗНАНИЯ И ИХ ПРЕДСТАВЛЕНИЕ»
- Понятие о знании
Информация об окружающем человека мире может быть представлена в двух основных формах: в виде данных, и в виде знаний.