Средства поиска информации в сети Internet. Технология поиска информации

Автор: Пользователь скрыл имя, 30 Ноября 2011 в 16:06, контрольная работа

Краткое описание

Сегодня каждый день множество людей неожиданно открывает для себя существование глобальных компьютерных сетей, объединяющих компьютеры во всем мире в едином информационном пространстве, имя которому - Интернет. Интернет многогранен и нельзя четко определить, что это такое. С технической точки зрения, Интернет - объединение транснациональных компьютерных сетей, работающих по самым разнообразным протоколам, связывающих всевозможные типы компьютеров, физически передающих данные по телефонным проводам и оптоволокну, через спутники и радиомодемы. Сегодня практически любой человек, обладающий доступом к компьютеру с простейшим модемом, может использовать в своей деятельности огромные информационные ресурсы, предоставляемые Интернет.

Оглавление

Введение 3 - 5
Технология поиска информации в Интернете 6 - 11
Приемы эффективного поиска 12 - 20
Прикладное значение. Лучший поисковик. 21 - 29
Заключение 30 - 32
Список литературы 33

Файлы: 1 файл

готовая информатика.doc

— 881.00 Кб (Скачать)

3.3. Нахождение  информации с применением серверов  глобального поиска.

     Пожалуй, самой полезной чертой Интернет является наличие в нем поисковых серверов. Это выделенные компьютеры, которые автоматически просматривают все ресурсы Интернет, которые могут найти, и индексируют их содержание. Затем Вы можете передать такому серверу фразу или набор ключевых слов, описывающих интересующую Вас тему, и сервер возвратит Вам список ресурсов, соответствующих Вашему запросу. Сегодняшние поисковые системы поддерживают индексы, включающие весьма значительную часть ресурсов Интернет. Таких серверов существует довольно-таки много, более десятка, и вкупе они охватывают практически все доступные ресурсы. К самым популярным я отнес бы InfoSeek (http://www.infoseek.com/), Lycos (www.lycos.com), WebCrawler (www.webcrawler.com). Если в Интернет есть информация, которая Вас интересует, то ее наверняка можно найти при помощи поисковых серверов. Это самое мощное средство нахождения ресурсов в сети (список наиболее популярных смотрите на страничке "Глобальные поисковые системы").

2.3. Нахождение информационных ресурсов в каталогах.

     В каталогах Интернет хранятся тематически  систематизированные коллекции  ссылок на различные сетевые ресурсы, в первую очередь на документы World Wide Web. Ссылки в такие каталоги заносятся не автоматически, но их администраторами. Более того, занимающиеся этим люди стараются сделать свои коллекции наиболее полными, включающими все доступные ресурсы на каждую тему. В результате пользователю не нужно самому собирать все ссылки по интересующему его вопросу, но достаточно найти этот вопрос в каталоге - работа по поиску и систематизации ссылок уже сделана за него.

     Каталоги  обычно имеют древовидную структуру и похожи на очень большой список закладок, которые наверняка есть в Вашем WWW-навигаторе, вообще говоря, и произойдя от последних. Когда World Wide Web только начинала развиваться, и ее серверы еще можно было пересчитать, некоторые пользователи вели их списки. Со временем WWW-серверов становилось все больше, каждый день появлялись новые, и механизма закладок стало недостаточно для того, чтобы хранить эту информацию. Некоторые пользователи WWW стали создавать специальные программы для поддержания базы данных по ссылкам на ресурсы Интернет, ее автоматической синхронизации и управления ею. Именно так и родились глобальные каталоги сети, как, например, наиболее известный и крупный - YAHOO.(список наиболее популярных смотрите на страничке "Глобальные поисковые системы").

     Как правило, хорошие каталоги Интернет обеспечивают разнообразный дополнительный сервис: поиск по ключевым словам в  своей базе данных, списки последних  поступлений, списки наиболее интересных из них, выдачу случайной ссылки, автоматическое оповещение по электронной почте о свежих поступлениях. Все это делает использование таких коллекций весьма удобным.

2.4. Сопоставление поисковых серверов и каталогов.

     Поисковые системы индексируют документы  автоматически, не оценивая его завершенности или полезности. Поэтому они могут находить информацию в самых "глухих" углах Интернет. С другой стороны, если Вы неудачно сформулируете Ваш запрос, сервер может и не возвратить ссылки на нужный документ. В этом случае, если Вы определенно знаете, что из себя представляет искомый ресурс, и он наверняка хорошо известен, разумно обратиться к каталогам Интернет. Это решение также является адекватным в случае, когда Вам требуется наиболее полный список ресурсов по некоторому вопросу. Если же Вам нужна хотя бы одна ссылка, то использовать поисковый сервер гораздо быстрее. Последний разумно также применять в случае, когда вы не знаете точно, что из себя представляет искомый предмет. Это звучит несколько дико, поэтому я приведу пример. Допустим, Вы прочитали в газете, что акции компании XYZ выросли в три раза за день. Но что из себя представляет компания XYZ? Сервера www.xyz.com не оказалось, а искать компанию в каталоге, не зная, чем она занимается, неразумно. Тут как раз и приходит на помощь поисковый сервис, который если и не найдет сервера самой компании (которого может и не существовать), то найдет места, где она упоминается в других документах.

     Когда же Вас заинтересует, какие изданы книги по языку постскрипт, то ничего не надо искать - достаточно обратиться к одному из каталогов. То есть условно можно сказать, что они - средство сфокусированного поиска информации, а поисковые серверы - рассеянного.

     Поработав немного с различными каталогами, Вы наверняка выберите из них один, наиболее удобный и симпатичный  Вам. Вы научитесь быстро искать в нем информацию, и другие коллекции ссылок Вам уже будут казаться ненужными. С другой стороны, никогда не бывает достаточно одного поискового сервера. Во-первых, разные серверы охватывают различные области информации в Интернет, частично перекрывающиеся. Они используют различающиеся методы индексирования документов и способы оценки значимости слов в них. Если Вы не нашли искомую информацию при помощи одного из серверов, то достаточно велики шансы найти при помощи другого. Во-вторых, существуют специализированные серверы поиска по отдельным типам ресурсов Интернет (как, например, система поиска в сетевых новостях DejaNews), а существуют универсальные, охватывающие все виды сервисов.

     Каталоги  и поисковые серверы - две стороны  поиска информации в Интернет. Они разные по методам, но едины в целях. Научившись быстро использовать один, наиболее подходящий для Вас, каталог и несколько хороших поисковых серверов, Вы получите средство быстрого и эффективного нахождения информации в глобальной сети. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

      ПРИКЛАДНОЕ  ЗНАЧЕНИЕ 

      Лучший поисковик 

      Наверняка все задаются вопросом, какой поисковик самый лучший и можно ли не потерять время, пользуясь не самым эффективным поисковиком. Очень часто приходиться тратить много времени, чтобы найти действительно что-то полезное в Интернете. Поэтому я скачала информацию про различные поисковики с точки зрения эффективности нахождения в них полезной информации.

      Сравним самые популярные поисковики по различным  критериям:

      1. По количеству проиндексированных русскоязычных страниц.

      На 12 ноября 2008 года 

      Наименование поисковика       Количество  веб-страниц
      Яндекс       4 693 190 938
      Google       4 285 199 774
      Rambler       Нет данных
      Апорт       Нет данных
      Нигма       6`626`034`539
 

      Таким образом, на Яндексе индексировано 4,693 млн. страниц, на Гугле 4,285 млн. страниц, а на Нигме 6,626 млн. страниц. Информация о количестве индексированных страниц поисковыми системами Апорт и Рамблер отсутствует. 

      2. Качество поиска. В качестве критерия поиска выбрано то место, на которое поставит поисковая система необходимый сайт. В качестве цели поиска взят официальный сайт Глазьева С. – известного отечественного экономиста и политика. В поисковую строку вводил следующее: «Глазьев С. Официальный сайт».

      Поисковая система должна найти следующую  страницу: http://www.glazev.ru/ 

      Наименование поисковика Место искомой  страницы по результатам поиска
      Яндекс       1
      Google       1
      Rambler       1
      Апорт       78
      Нигма       1
 

      Апорт оказался абсолютно неконкурентоспособен, так как поставил необходимый  сайт аж на 78 место. В первой семерке  сайтов он выдал следующее:

 

      Яндекс  сразу же нашел искомый сайт и  поставил его на первое место по результатам запроса:

 

      Гугл, также как и Рамблер нашел  искомый сайт и поставил его на первое место. Результаты поиска в них  показаны ниже:

 

        

      Также хороший результат показал поисковик  Нигма, он также поставил искомый  сайт на первое место, но кроме того слева от результатов поиска вывел основные характеристики запроса, из которых можно узнать что Глазьев депутат, участвует в политике, что он российский политик, а также выдал его отчество и имя. Результаты использования этого поисковика приведены ниже:

 

      3. Размер главной страницы поисковика. Это очень важный вопрос, так  как в условиях дорогого трафика  и зачастую недоступности высокоскоростных  сетей передачи данных скорость  загрузки играет очень большую  роль.

      При измерении веса главных страниц поисковиков, было рассмотрено два варианта: в первом случае была отключена функция отображение рисунков, а во втором с отображением рисунков. Под главной страницой поисковика понималось полное торговое название поисковика (например для яндекса это страница www.yandex.ru, а не www.ya.ru). Результаты представлены в таблице. 

Наименование  поисковика Размер страницы без картинок (байт) Размер страницы с картинками Среднее значение
      Яндекс       78821       144043       111432
      Google       10504       10504       10504
      Rambler       112926       347356       230141
      Апорт       60619       68724       64671,5
      Нигма       93360       103836       98598
 

      Как видно, размеры страниц различных  поисковиков очень сильно разняться.

      Наименьший  размер страницы у Гугла, который  составляет 10504 байт, это очень мало, по сравнению с лидером по величине страницы – Рамблером, размер главной страницы которого составляет 112926 байт без загрузки картинок и 347356 байт с загрузкой картинок.

      Неплохие  результаты также показал поисковик  Апорт и Нигма.

      В целом по результатом измерения  размера страницы можно проранжировать сайты начиная с наилучшего по этому показателю:

      - Гуугл;

      - Апорт;

      - Нигма;

      - Яндекс;

      - Рамблер.

      Результаты  исследования по данному критерию приведены  на рисунке:

 
 

      4. Информативность первой страницы  поисковика. К сожалению данный показатель является исключительно субъективным. Исходя из своих субъективных оценок по количеству информации представленной на главной странице, можно отдать первое место Яндексу, второе Рамблеру, третье Нигме, четвертое Апорту и пятое Гууглу. 
 

Информация о работе Средства поиска информации в сети Internet. Технология поиска информации