Автор: Пользователь скрыл имя, 12 Сентября 2011 в 19:43, курсовая работа
Существует мнение, что в сети Интернет есть всё или почти всё. Однако этим богатством надо ещё уметь воспользоваться, что представляет собой задачу нетривиальную. Во-первых, объём данных, размещённых в сети, очень велик, а сама эта информация практически никак не структурирована. Во-вторых, Интернет очень изменчив: ежедневно в нём появляются новые данные – страницы или целые сайты, что-то исчезает, а часть ресурсов меняет адрес.
Введение…………………………………………………………………..3
История……………………………………………………………………5
Информационный поиск как процесс…………………………………...6
Средства поиска информации…………………...…...…………...6
Основные методы поиска информации в Интернете…….…..….7
Виды поиска ………..……………...……………………….…….10
Проблемы, возникающие в процессе поиска информации…....10
Структура ИПС для Интернет………..………………...……….12
4. Примеры поисковых систем и их описание……………………………13
4.1. Yandex..…………………...…………………………………………13
4.2. Google..………………………………………………………………14
4.3. Yahoo!.................................................................................................15
4.4. Рейтинг поисковых систем - март 2011 г (в России)…….….…..19
4.5. Рейтинг английских поисковых систем…………..………………20
Заключение……….…………………………………………….………..21
Литература………………………………………………………………22
Содержание
4. Примеры поисковых систем и их описание……………………………13
4.1. Yandex..…………………...………………………………
4.2. Google..…………………………………………………………
4.3. Yahoo!........................
4.4. Рейтинг поисковых систем - март 2011 г (в России)…….….…..19
4.5. Рейтинг английских поисковых систем…………..………………20
1.
Введение
Существует мнение, что в сети Интернет есть всё или почти всё. Однако этим богатством надо ещё уметь воспользоваться, что представляет собой задачу нетривиальную. Во-первых, объём данных, размещённых в сети, очень велик, а сама эта информация практически никак не структурирована. Во-вторых, Интернет очень изменчив: ежедневно в нём появляются новые данные – страницы или целые сайты, что-то исчезает, а часть ресурсов меняет адрес. Наконец сетевые публикации в целом отличаются меньшей достоверностью, чем публикации бумажные, так что информацию, размещённую в сети, нужно ещё каким-то образом оценить или проверить. Всё это затрудняет задачу поиска и превращает выбор поисковой стратегии в сложную проблему, не имеющую общего решения. Тем не менее, оказывается вполне возможным выработать некоторые принципы поиска.
Бурный рост объема информации в Интернет делает поиск незаменимым методом доступа к этой информации. Можно выделить две основные формы поиска в Интернет:
Первое, что нужно сделать, приступая к поиску данных в Интернет, особенно в сложном случае, - это определить цель поиска. Очень полезно ответить для себя на следующие вопросы:
Хотите ли Вы составить общее представление о вопросе или найти какую-то специальную информацию по данной теме
От того, как именно поставлена
задача, во многом зависит и
стратегия поисковой
Побудительной
причиной осуществления информационного
поиска является информационная потребность
, выраженная в форме информационного
запроса .
2.
История
Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.
Информационный поиск (англ. Information retrieval) — процесс нахождения, отбора и выдачи определенной заранее заданными признаками информации (в т.ч. - документов, их частей и/или данных) из массивов и записей любого вида и на любых носителях.
Сначала
системы автоматизированного
В
зависимости от степени привлечения к
информационному поиску технических средств
и участия в нем человека различают: "ручной",
"машинный" и "автоматизированный"
информационный поиск. Последний может
производиться в режиме диалога или пакетной
обработки запросов.
3.
Информационный поиск как процесс
Поиск
информации представляет собой процесс
выявления в некотором
Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.
В общем случае поиск информации состоит из четырех этапов:
3.1.
Средства поиска информации
По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.
Каталог
Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.
Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.
Поисковые машины
Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.
При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.
Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
3.2. Основные методы поиска информации в Интернете
Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:
1. Непосредственный поиск с использованием гипертекстовых ссылок:
Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.
Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу.
Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.
2. Использование поисковых машин
Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.
Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать.
Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.
3. Поиск с применением специальных средств
Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.
Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.
Фактически
это автоматизированный вариант
просмотра с помощью
Нет
нужды говорить, что результаты автоматического
поиска обязательно требуют
Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин).
В ряде случаев этот метод может быть очень эффективен.
Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.
4. Анализ новых ресурсов
Поиск
по новообразованным ресурсам может
оказаться необходимым при
Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема.
Это
соображение может оказаться
весьма существенным при проведении
поиска в узкоспециальной предметной
области.
3.3.
Виды поиска
Полнотекстовый
поиск - поиск по всему содержимому документа.
Пример полнотекстового поиска — любой
интернет-поисковик, например www.yandex.ru, www.