Автор: Пользователь скрыл имя, 17 Декабря 2012 в 17:35, реферат
Целью исследования является рассмотрение в теории и практике возможности использования информационно-поисковых языков в различных поисковых системах сети.
Для достижения поставленной цели необходимо решить следующие задачи:
провести анализ теоретической и научно-методической литературы по данной теме;
описать основные типы информационно-поисковых языков;
рассмотреть различные ИПС и провести сравнительный анализ применения в них информационно-поисковых языков.
Введение
Современный этап развития цивилизации
характеризуется переходом
В 90-е гг. ХХ в. человечество
получило доступ к огромному массиву
информации в самых разных предметных
областях – миллионам связанных
документов, которые расположены
на компьютерах по всему миру. Интернет
сегодня – это
Быстрый рост и динамическое развитие информационных ресурсов обязывает каждого иметь разнообразные навыки сложного поиска. Уметь быстро и правильно искать в Интернете значит экономить время, владеть достоверной и актуальной информацией, а значит делать верные выводы и принимать правильные решения.
Все это свидетельствует об актуальности более глубокогоизучения информационно-поисковых языков в сети Интернет, что и определило выбор темы нашего исследования.
В этой связи целью исследования является рассмотрение в теории и практике возможности использования информационно-поисковых языков в различных поисковых системах сети
Объектом
исследования является интернет как единая информационная среда.
Предметом
являются информационно-
Для достижения поставленной цели необходимо решить следующие задачи:
l
провести анализ теоретической
и научно-методической
l
описать основные типы
l
рассмотреть различные ИПС и
провести сравнительный анализ
применения в них
Глава
I
. Обзор информационно-поисковых языков сети Интернет
§1.Информационно-поисковые языки: классификация
Главная задача информационно-поисковой системы - это поиск информации релевантной информационным потребностям пользователя. Слово релевантность означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно еще представить как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Естественно, что здесь возникает две задачи, которые следует решить: представление информации в системе и формулирование информационных потребностей пользователя. Эти две проблемы тесно связаны друг с другом.
Наиболее распространенными
моделями представления документов
в информационно-поисковой
Информационно поисковый язык — искусственный язык, предназначенный для формализованного описания смыслового содержания документов, данных, отдельных понятий или терминов и обеспечения последующего их поиска в информационно-поисковых массивах.
Формализация лексики
и создание различных ИПЯ вызвано
необходимостью устранения "избыточности"
и "недостаточности" естественного
языка для целей
Как и в естественных языках,
в информационно-поисковых
Основными элементами ИПЯ являются алфавит, лексика и грамматика. Алфавит ИПЯ система знаков, используемых для записи слов и выражений ИПЯ. Лексика, или словарный состав, ИПЯ совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.[1]
По области или по сфере применения информационно-поисковых языков можно выделить:
1.
Коммуникативные (
2. Локальные (внутренние) ИПЯ - предназначенные для использования в рамках отдельной системы;
3.
Внешние ИПЯ - используемые в
других системах и
Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (дескрипторные), а также процедурные языки - языки запросов и манипулирования данными .
Классификационные информационно-поисковые языки
Информационно-поисковые каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов.
Первоначальные подходы к классификации тематики документов основывались на формировании списка предметных аналогов, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.
Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством рубрик, отражающих содержание документ. Для осуществления поиска необходимых документов по классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.
При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (не пересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы предметной области, выражаемые в родовидовых отношениях основных категорий, понятий и классов.
Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся выделенные полрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.
Перечислительный и
Дескрипторные информационно-поисковые языки(ДИПЯ)
В основе построения дескрипторных
информационно-поисковых языков лежит
принцип координатного
Основными элементами ДИПЯ являются:
l словарь лексических единиц;
l
правила применения ИПЯ (
l правила построения ИПЯ.
Словари лексических единиц делятся на две группы:
l основные лексические словари, составляющие лексику ИПЯ;
l
морфологические словари,
В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.
Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор - это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.
Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).
Тезаурус (от греч. «хранилище»,
«сокровищница») в узком смысле представляет
собой специальный словарь-
Наиболее важными
l соподчинение;
l род-вид;
l часть—целое;
l причина-следствие;
l функциональное сходство.
Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию. Словарная часть — алфавитный список дескрипторов с их словарными статьями. Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования поискового образа документа и поискового образа запроса, а также правила ведения ИПТ.
Отличием информационно-
Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескриптивного подхода. Однако в процессе индексирования учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию документа поисковый образ и повышает эффективность поиска документов.
В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.
Среди наиболее перспективных направлений развития автоматических тезаурусов можно указать следующие:
1.
Получение справки по
2.
Контекстные замены по
3.
Автоматическая оценка стиля.
Если слова и словосочетания
в тезаурусе снабдить