Автор: Пользователь скрыл имя, 10 Марта 2013 в 20:47, контрольная работа
Одно из главных отличий Интернета от всего остального, что связано с компьютерами, — это то, что для успешной работы с ним, вообще говоря, не нужно никаких книг. Сам Интернет может служить и справочником, и учебником, и энциклопедией самого себя. Однако на начальном этапе, как мне кажется, польза от книги, внятно и доступно излагающей основы, может быть весьма значительной. Именно такую книгу я и постарался написать.
Введение
1. Основные протоколы в Internet и поиск в них
2. Инструменты поиска
2.1. Тематические каталоги
2.2. Автоматические индексы
2.3. Российские системы поиска
Список литературы
URL одного из пунктов Gopher - меню состоит из адреса Gopher- сервера и перечисленных тех пунктов меню, которые приведут вас к исходному пункту:
gopher://< адрес сервера>/< пункт меню>
WWW
Несмотря на то, что в первые годы своего существования Gopher завоевал большую популярность, назревала нужда в какой-то более простой и в тоже время максимально универсальной системе, в которой связи между ресурсами были бы более свободными и ассоциативными. Такая система была разработана в 1993 году и названа World Wide Web (WWW). Система WWW строиться на понятии гипертекста, или, точнее гипермедиа. Гипертекст — это текст составные части которого связаны друг с другом и с другими текстами с помощью ссылок. Гипермедиа — это то что получится из гипертекста, если заменить в его определении слово “текст” на “любые виды информации”: графические изображения, видео, звук и т.д.
World Wide Web означает буквально
“всемирная паутина”. Почему она
так называется. Как ясно из
названия, она глобальна. Вы не
всегда знаете в какой части
света находится компьютер, к
которому вы подключаетесь. Вы
можете начинать читать
И все-таки главное в World Wide
Web — это не удобства доступа к
FTP- архива и Gopher-меню. Большинство серверов
системы WWW предлагают информацию, которая
без WWW вряд ли вообще когда- либо попала
бы в сеть. Быстрота создания и обновления,
богатые изобразительные
С другой стороны, быстрому распространению системы, столь естественно объединяющей разнородные ресурсы, способствовало не в последнюю очередь ее зарождение не в недрах коммерческой фирмы, а в научном учреждении — Европейской лаборатории физики частиц, сотрудники которой не стали делать секретов из своей разработки и даже не попытались на ней разбогатеть.
К счастью, сама природа WWW как прежде всего средства поиска и организации информации позволяет надеяться, что это замечательное изобретение не превратиться в инструмент одной лишь коммерции и рекламы (Кирсанов, 1996).
Серверы и клиенты WWW связываются между собой по специальному протоколу HTTP (Hyper Transfer Protocol, протокол передачи гипертекста). URL для WWW выглядит как :
http://< адрес сервера>
Переходить от одной странице Web к другой — интересный способ исследования World Wide Web, однако вам рано или поздно понадобится найти что-то конкретное. Но таким образом это сделать не удастся. В Internet имеются специальные инструменты Web-поиска.
Инструменты поиска в WWW.
Инструментов поиска информации в Internet, построенных на разных принципах и преследующих разные цели, существует немало. Но все их объединяет то, что они располагаются на специально выделенных сетевых компьютерах с мощными каналами связи, обслуживают ежеминутно огромное количество посетителей и требуют от своих владельцев значительных затрат на поддержку и обновление. Тем не менее, почти все они отвечают на запросы пользователей совершенно бескорыстно, а платят за это удовольствие спонсоры и рекламодатели. По масштабам влияния на сетевое сообщество поисковые системы, без сомнения, являются одним из краеугольных камней Internet.
Классификацию поисковых систем удобнее всего строить на основании того, на сколько автоматизирован в них сбор и обработка информации, предоставляемой пользователям, — иначе говоря, кто набирает базу данных, в которой производится поиск: люди или сами компьютеры.
2. Инструменты поиска
Условно инструменты поиска подразделяются на поисковые средства справочного типа (directories) и поисковые системы в чистом виде (search engines).
2.1 Тематические каталоги
Поисковые инструменты первого типа чаще всего называют предметными, или тематическими каталогами. Компания, владеющая таким каталогом, непрерывно ведет огромную работу, исследуя, описывая, каталогизируя и раскладывая по полочкам содержимое WWW-серверов и других сетевых ресурсов, разбросанных по всему миру. Результатом ее титанических усилий является постоянно обновляющийся иерархический каталог, на верхнем уровне собраны самые общие категории, такие как “бизнес ”, ”наука”, ”искусство” и т.п., а элементы самого нижнего уровня представляют собой ссылки на отдельные WWW-страницы и сервера вместе с кратким описанием их содержимого.
Гарантий того, что такой
каталог действительно
Предметные каталоги предоставляют и возможность поиска по ключевым словам. Однако поиск этот происходит не в содержимом самих WWW-серверов, а в их кратких описаниях, хранящихся в каталоге.
Предметные каталоги Internet можно пересчитать буквально на пальцах, так как их создание и поддержка требуют огромных затрат. К наиболее известным относятся Yahoo, WWW Virtual Library, Galaxy и некоторые другие.
Yahoo.
Наиболее популярен у населения Internet каталог Yahoo. На первой же странице Yahoo, расположенной по адресу http://www.yahoo.com, вы получаете доступ к двум основным методом работы с каталогом — поиску по ключевым словам и иерархическому древу разделов.
Начав спуск по разделам каталога, вы увидите, что каждый раздел содержит точно такое же поле для ввода ключевых слов и кнопку Search, запускающую поиск.
Каждый раздел может включать в себя как перечисление входящих в него подразделов, так и собственно ссылки на страницы, относящиеся сразу ко всему разделу, с их краткими описаниями.
Вместо путешествия по дереву подраздела вы можете сразу попасть в нужное место каталога Yahoo с помощью поиска. Введя одно или несколько ключевых слов, разделенных пробелами, в строку поиска и нажав кнопку Search, вы получите список всего в Yahoo, что содержит в себе указанные ключевые слова. Этот список будет разделен на две части — “categories” и “sites”.
Если общее количество ссылок, возвращенных в результате поиска, превышает 25, список ссылок будет разбит на несколько частей.
Автоматическим поиском можно воспользоваться не только с главной страницы Yahoo, но и из любого подраздела; при этом специальный переключатель, расположенный под полем ввода ключевых слов, позволяет либо ограничить поиск текущим разделом и его подразделами, либо искать во всем каталоге (Черил, 1998).
Magellan.
Но не редко случается так, что выдаваемый машиной список очень велик и просмотреть его просто не реально. Выходом из этой ситуации может стать более строгий отбор информации, заносимой в каталог. Одна из самых известных систем такого рода — каталог Magellan по адресу: http://www.mckinley.com
Эта база данных содержит сведения
о 80 тысячах WWW-страниц — что очень
не много в сравнении с теми
миллионами, которые существуют в
сети. Однако если Yahoo в качестве описания
ресурса использует одну-две строчки
текста, то сотрудники системы Magellan на
некоторые из страниц, заносимые
в их базу данных, сами пишут небольшие
рецензии, а также оценивают качество
этих информационных ресурсов по пятибалльной
шкале. По мимо базы рецензий, Magellan владеет
так же собственным автоматическим
индексом, для поиска в котором
нужно перебросить
Как правило запрос представляет собой одно или несколько ключевых слов, разделенных пробелами (Кирсанов, 1996).
Point.
Схожая по своим принципам служба фирмы Point (http://www.pointcom.com) вообще основной упор делает не на поиск, а на работу с тематическим каталогом.
Служба Point известна в сети тем, что ее сотрудники постоянно заняты оцениванием сетевых ресурсов и ведут списки тех узлов, которые они считают принадлежат к “лучшим пяти процентам WWW”.
Сама фирма Point Ведет общедоступную базу данных всех “пятипроцентных WWW-страниц, где о каждой можно прочитать подробную лицензию (Хоникарт, 1996).
Virtual Library.
Самым старым предметным каталогом WWW является каталог Virtual Library:
http://www.w3.org/hypertext/
Эта система достаточно полно охватывает научную прослойку WWW - серверы университетов, лабораторий и учебных заведений.
Russia-On-Line Subject Guide.
Для пользователей в нашей стране определенный интерес может представлять тематический каталог Russia-On-Line Subject Guide, расположенный по адресу http://www.online.ru/rmain. Этот каталог содержит довольно пестрое собрание ссылок на зарубежные источники плюс тематический обзор российских и русскоязычных ресурсов WWW.
2.2.Автоматические индексы.
К проблеме поиска информации в Internet можно подойти и с другой стороны. Существуют программы в которые загрузили несколько тысяч общеизвестных URL-адресов. Будучи запущена на компьютере с доступом к WWW, эта программа начинает автоматически скачивать из сети документы по этим URL, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов. Поскольку в конечном счете все WWW документы связаны между собой, рано или поздно такая программа обойдет весь Internet.
Разумеется, программа не может ни понять ни как либо классифицировать то, что она видит в сети. Программы такого типа называются роботами. Они ограничиваются сбором статистической информации и построением словоуказателей (индексов) по текстам документов. Собираемая роботом база данных — индекс — хранит в себе, попросту говоря, сведения о том в каких WWW-документах содержаться те или иные слова.
Именно такой автоматически собираемый индекс и лежит в основе поисковых систем второго рода, которые часто так и называют — автоматические индексы.
Автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе, с которым работает пользователь. Все эти компоненты вполне могут функционировать без вмешательства человека.
Поскольку какая-либо классификация или оценивание материалов в системах такого рода отсутствуют, к ним следует прибегать только тогда, когда вы точно знаете ключевые слова, относящиеся к тому, что вам нужно, — скажем, фамилию человека или несколько достаточно редких терминов из соответствующей области. если же задать поиск по сколько-нибудь распространенным словам, то вам не хватит жизни, чтобы обойти все полученные в результате поиска URL-адреса, — к примеру, индекс системы Alta Vista содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц.
Автоматических индексов WWW-страниц существует немало: WebCrawler, Lycos, Excite, Inktomi, Open Text и другие. Некоторые из них (например, Lycos) представляют собой более или менее удачный синтез предметного каталога и автоматического индекса.
Alta Vista.
Ее адрес http://altavista.digital.com
. Эта система появилась в
Кроме WWW-страниц, Alta Vista ведет отдельный индекс для статей из более чем 14000 конференций Usenet (включая иерархию групп relcom.*).
Поиск Alta Vista: чтобы Alta Vista срабатывала на группе слов, только когда они стоят рядом, нужно заключить эту группу в кавычки. Если необходимо исключить из результата все документы, содержащие определенное слово, необходимо приписать это слово со знаком “минус”.
Слово без всякого знака действует в запросе точно так же, как и оно же со знаком “плюс”.
В отличие от Yahoo, по умолчанию Alta Vista ищет вхождения целых слов, т. е. заказанные термины должны стоять в документе обособленно, а не быть частью других цепочек символов. Если же вам нужно найти все вхождения слова, даже когда оно входит в состав других слов, пользуйтесь символом *. звездочка может стоять только в конце слова, а чтобы предотвратить обвальный поиск, дающий слишком много результатов, Alta Vista требует, чтобы слово, заканчивающееся на *, состояло не менее чем из 3 букв. Более того, символ * позволяет найти не любое окончание слова, а только не превышающее длину пяти символов и не содержащее заглавных букв или цифр.
Результаты поиска Alta Vista,
как и Yahoo, выдает в виде списка ссылок
на документы, но вместо описания каждого
документа рядом с его
* входят ли ключевые слова в заголовок документов;
* содержатся ли эти слова в первых нескольких строках документов;
* насколько близки друг к другу в тексте обнаружены ключевые слова (Кирсанов, 1996).
Infoseek
Infoseek, вступивший
в эксплуатацию в конце 19996
года, несколько напоминает Alta Vista, однако
объем обследуемых им полных
текстов документов еще не
превышает 30 млн. Web-страниц. Адрес:
http://www.infoseek.com. Это довольно мощная
система, обладающая высокой