Автор: Пользователь скрыл имя, 02 Марта 2013 в 11:12, реферат
С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания и поисковых образов документов. Для записи поискового предписания и поисковых образов применяются специальные языки, называемые информационно-поисковыми или просто поисковыми языками.
В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления поискового предписания и поисковых образов. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).
Решение о выдаче или невыдаче документа в ответ н запрос принимается на основании некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между поисковым предписанием и поисковым образом. Такой набор правил получил название критерия смыслового соответствия.
В состав типичной ДИПС входят, как правило, четыре основных подсистемы:
Подсистема ввода и регистрации решает следующие основные задачи:
Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск осуществляется по алгоритмам, аналогичным используемым в классических базах данных.
Далее документы поступают
на вход подсистемы обработки, задачей
которой является формирование для
каждого документа его
Поисковые образы документов сохраняют в индексах. Индексы представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.
3. Формальное
представление смыслового
Естественный язык является универсальной знаковой системой, служащей для обмена информацией между людьми. Несмотря на то, что документы создаются и хранятся на естественном языке, использование его в ДИПС практически невозможно в связи со спецификой естественного языка (в других случаях эта специфика может быть и достоинством), в частности
Невозможность использования естественного языка в качестве основного средства представления информации в ДИПС приводит к необходимости разработки и использования искусственных языковых средств.
Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности их последующего поиска.
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
ИПЯ принято разбивать на два основных класса:
Особенностью
В дескрипторных языках заранее заданы только простые лексические единицы, но не отношения между ними. Сложные понятия естественного языка как бы описываются набором слов искусственного языка, откуда и происходит название – дескрипторные (дескрипция в переводе значит описание).
Тема «Обработка и поиск текстовой информации»
1. Обработка входящей текстовой информации
На входе ДИПС документы представлены на естественном языке. Задача входной обработки таких документов – перевод их содержания с ЕЯ на ИПЯ (искусственный поисковый язык).
Тип используемого ИПЯ оказывает сильное влияние как на суть процессов обработки информации в конкретных ДИПС, так и на конечный поисковый образ документа. В наиболее общем виде все ИПЯ делятся на два класса:
Соответственно в случае применения ИПЯ дескрипторного типа операция входной обработки документов (перевода) называется индексированием, при использовании рубрикаторов – рубрицированием.
Независимо от используемого языка, в операции перевода выделяют два основных этапа:
Рассмотрим детальнее содержание этих этапов.
Лингвистический анализ текста, в свою очередь, также состоит из двух этапов:
Цель морфологического
анализа заключается в
Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи в виде дерева зависимостей.
Собственно, выражение таких зависимостей на основе текста на ЕЯ, и припавнивание их некоторым конструкциям ИПЯ – это уже задача второго этапа обработки входной информации – рубрицирования или индексирования. Существуют различные подходы к установлению соответствия. В настоящее время наиболее широко используются следующие:
2. Поиск текстовой информации
Методы поиска текстовой информации в значительной мере определяются принципами переработки (перевода) входной информации. В общем случае процесс поиска включает в себя следующие элементы:
Существует большое количество методов поиска, наиболее известны следующие:
Все эти (как и другие возможные) методы предполагают механизм обратной связи с пользователем.. В отличие от классических (табличных) баз данных, где запрос формулируется точно и однозначно, в случае поиска текстовой информации пользователи обычно начинают с неточного и неполного запроса, а следовательно – с низкой эффективностью поиска, постепенно уточняя его методом итераций.
Существуют два основных подхода к использованию такой обратной связи:
Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.
Как уже отмечалось,
поисковый образ документа
Введем следующие обозначения:
Эти обозначения позволяют выразить основные показатели эффективности ДИПС:
Тема «ЗНАНИЯ И ИХ ПРЕДСТАВЛЕНИЕ»
Информация об окружающем человека мире может быть представлена в двух основных формах: в виде данных, и в виде знаний.
Информация о работе Системы обработки экономической информации