Автор: Пользователь скрыл имя, 17 Декабря 2012 в 17:35, реферат
Целью исследования является рассмотрение в теории и практике возможности использования информационно-поисковых языков в различных поисковых системах сети.
Для достижения поставленной цели необходимо решить следующие задачи:
провести анализ теоретической и научно-методической литературы по данной теме;
описать основные типы информационно-поисковых языков;
рассмотреть различные ИПС и провести сравнительный анализ применения в них информационно-поисковых языков.
§2. Типы информационно-поисковых языков
Булевый поиск
Наиболее распространенным ИПЯ является язык, позволяющий составить логические выражения из набора терминов. При этом используются булевые операторы AND, OR, NOT. Запрос при этом может выглядеть следующим образом: ((информационная and система ) or ИПС) not СУБД
В данном случае эта фраза означает: "Найди все документы, которые содержат одновременно слова "информационная" и "система", либо слово "ИПС", но не содержат слова "СУБД"".
Запрос можно рассматривать как и реальный документ из базы данных. В нашем случае, фактически, мы имеем дело с двумя запросами: информационная and система not СУБД и ИПС not СУБД каждый из которых подразумевает как бы два действия: сначала найти все документы, содержащие необходимые пользователю термины, а потом отсеять те, которые содержат термин "СУБД".
Такая схема достаточно проста,
и поэтому наиболее широко применяется
в современных информационно-
Булевый поиск плохо масштабирует
выдачу. Оператор AND может очень сильно
сократить число документов, которые
выдаются на запрос. При этом все
будет очень сильно зависеть от того,
насколько типичными для базы
данных являются поисковые термины.
Оператор OR напротив может привести
к неоправданно широкому запросу, в
котором полезная информация затеряется
за информационным шумом. Для успешного
применения этого ИПЯ следует
хорошо знать лексику системы
и ее тематическую направленность.
Как правило, для системы с
таким ИПЯ создаются
Модификацией булевого поиска
является взвешенный булевый поиск.
Идея такого поиска достаточно проста.
Считается, что термин описывает
содержание документа с какой-то
точностью, и эту точность выражают
в виде веса термина. При этом взвешивать
можно как термины документа,
так и термины запроса. Запрос
может формулироваться на ИПЯ, описанном
выше, но выдача документов при этом
будет ранжироваться в
Языки типа "Like this"
При внимательном рассмотрении взвешенного поиска закрадывается естественное желание вообще обойтись без логических коннекторов и измерять близость документа и запроса какими-либо другими критериями. Наиболее простой моделью этого типа является линейная модель индексирования и поиска, когда близость документа и запроса рассматривается как угол между ними. В этом случае высчитывается sin угла, который получают как скалярное произведение двух векторов. В соответствии со значением меры близости происходит ранжирование документов при выдаче ссылок на них пользователю. Вообще говоря, скалярное произведение не очень хорошо подходит для информационно-поисковых систем Интернет, так как длина запроса обычно невелика. Это в традиционных системах существовали специальные службы, которые отлаживали длинные запросы, а в Интернет такие службы только нарождаются. Поэтому реально применяются другие меры близости, но принцип остается тот же: сначала вычисляется мера, а потом происходит ранжирование.
Рассмотренный подход дает возможность
более мягкого расширения и уточнения
запросов, но он также не гарантирует
высоких показателей
Поиск в нечетких множествах
При этом типе поиска весь массив документов описывается как набор нечетких множеств терминов. Каждый термин определяет некую монотонную функцию принадлежности документам документального массива. Когда запрашивается AND, то это интерпретируется как минимум из двух функций, соответствующих терминам запросов, OR - как максимум, NOT - как 1-<значение функции>. В соответствии с полученными значениями результат поиска также ранжируется, как и в случае с поиском по мерам близости.
Следует сразу сказать, что этот метод поиска используется только в исследовательских системах и распространен крайне ограничено.
Пороговые модели
Как было видно из предыдущего
изложения, на конечном этапе поиска
выборка найденных документов ранжируется.
Но, совершенно очевидно, что меры близости
или поиск в нечетких множествах
приводит к ранжированию всего массива
документов в базе данных. Современные
информационно-поисковые
Кластерная модель и вероятностная модель информационного поиска
В кластерной модели может использоваться два подхода. Первый заключается в том, что массив заранее разбивается на подмножества документов и при поиске высчитывается близость запроса некоторому подмножеству. В другом подходе кластер "накручивается" вокруг запроса и ближайших к нему терминов. Наиболее часто эта модель применяется в системах, уточняющих запрос по релевантности найденных документов.
При вероятностной модели
вычисляется вероятность
Коррекция запроса по релевантности
Многие системы применяют
механизм коррекции запроса по релевантности.
Это означает, что процедура поиска
носит интерактивный и
Глава
II
. Применение ИПЯ в различных поисковых системах
§1. Анализ популярных поисковых систем сети Интернет
При описании и классификации информационно-поисковых систем ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми пользуются в Сети.
Lycos
Как и большинство систем,
Lycos дает возможность использовать
простой запрос и более изощренный
метод поиска. В простом запросе
в качестве поискового критерия вводится
предложение на естественном языке.
Lycos производит нормализацию запроса,
удаляя из него так называемые stop-слова,
и только после этого приступает
к его выполнению. Почти сразу
выдается информация о числе документов
на каждое слово, а уже позже и
список ссылок на формально релевантные
документы. В списке напротив каждого
документа указывается его мера
близости запросу, число слов из запроса,
которые попали в документ и оценочная
мера близости, которая может быть
больше или меньше формально вычисленной.
На апрель 1996 года в Lycos не был реализован
булевый поиск, такие планы были
анонсированы. Последнее предложение
подразумевает только то, что нельзя
вводить эти операторы в строке
вместе с терминами, но использовать
логику через систему меню Lycos позволяет.
Последнее относится к
Таким образом мы видим, что
Lycos относится к системе с языком
запросов типа "Like this", но предполагается
его расширения и на другие способы
организации поисковых
AltaVista
Наиболее интересным с точки зрения информационно-поискового языка в AltaVista является возможность расширенного поиска. Здесь стоит сразу выделить, что в отличии от многих систем AltaVista поддерживает одноместный оператор NOT. Кроме этого есть еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой словарь этих фраз. Кроме всего прочего, при поиске в АltaVista можно задать имя поля где должно встретиться слово. Это может быть гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но сказано, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.
Yahoo
Данная система появилась
в сети одной из первых, и поэтому
говорить будем о сегодняшнем
состоянии Yahoo, а не о состоянии
годовой давности. В настоящее
время Yahoo сотрудничает со многими производителями
средств информационного поиска
и на различных ее серверах используется
различное программное
OpenText
Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Все описания больше напоминают рекламу, чем реальное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов поиска сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести без сомнения к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.
InfoSeek
Система InfoSeek обладает довольно
развитым информационно-поисковым
языком, который позволяет не просто
указывать какие термины должны
встречаться в документах, но и
своеобразно взвешивать их. Достигается
это при помощи специальных знаков
"+" - термин обязан быть в документе,
"-" - термин обязан отсутствовать
в документе. Кроме этого InfoSeek позволяет
проводит то, что называется контекстным
поиском. Это значит, что используя
специальную форму запроса
WAIS
WAIS является одной из
наиболее изощренных поисковых
систем Интернет. В отличии от
многих поисковых машин, ИПЯ
системы позволяет строить не
только вложенные булевые
Применение языков на практике
Рассмотрим теперь небольшой сравнительный пример использования описанных выше поисковых машин. В качестве запроса использовалась фраза:
"Best on the Web"
Подразумевалось, что следует найти документ, связанный с конкурсами "Лучший на Сети". Эта фраза задавалась в качестве набора слов и при этом получались следующие результаты.
AltaVista - после нормализации
лексики от запроса осталось
только Best. Естественно, что при
этом качество поиска было
неудовлетворительным. Однако, использование
поиска по фразе как по
Lycos - здесь отсеялись "on
the" и документ был указан
только в конце списка. Поиск
по фразе улучшения
InfoSeek - при расширенном поиске нужный документ был найден третьим в списке из десяти документов. Уточнение поиска привело только к миграции документа вглубь списка.
OpenText - документ занимает пятую строчку в списке из десяти документов. Как и в случае с InfoSeek уточнение запроса результатов не дало.
Yahoo - документ попал в
список найденных и занял
В завершении хотелось бы обратить
внимание еще на один аспект выбора
информационно-поисковой
Заключение
Итоги теоретического исследования
позволили нам выявить
Так как каждая поисковая
система предоставляет
Анализ ИПЯ сети интернет поможет провести свой собственный выбор наиболее подходящего средства поиска, которое обеспечивало актуальность, быстроту и точность результатов.