Поисковые возможности и характеристики WWW-систем

Автор: Пользователь скрыл имя, 23 Февраля 2013 в 18:24, реферат

Краткое описание

Internet - это крупнейшая мировая компьютерная сеть. Сейчас Internet имеет примерно 20 миллионов пользователей более чем в 50 странах. WWW доступен в основном через Internet; но, говоря WWW и Internet мы имеем ввиду не одно и то же. WWW можно отнести к внутреннему содержанию, т.е. это какой-то абстрактный мир знаний, в то время как Internet является внешней стороной глобальной сети в виде огромного количества кабелей и компьютеров. World Wide Web представляет собой графический интерфейс к Интернету, позволяющий доставлять и обрабатывать информацию, содержащуюся в специально отформатированных документах, и включает в себя три основных компонента: Hypertext Markup Lahguage (HTML), HyperText Transfer Protocol (HTTP), Universal Resource Locator (URL).

Оглавление

ВВЕДЕНИЕ 3
1.1 История возникновения WWW 4
1.2 Понятие гипертекста 5
1.3 Архитектура построения WWW 6
2.1 Краткая история развития поисковых систем 8
2.2 Основные характеристики поисковой системы 9
2.3 Состав и принципы работы поисковой системы 10
2.4 Обзор основных Российских поисковых систем 12
3.1.Метапоисковая система 16
3.2.Принцип работы метапоисковой системы 16
ЗАКЛЮЧЕНИЕ 18

Файлы: 1 файл

Реферат.docx

— 89.01 Кб (Скачать)

 

 

 

 

 

 

Поисковые возможности и характеристики WWW-систем (на примере Yandex, Rambler и пр.)

Реферат по  информатике в экономике  студента

1-го  курса, 511 группы, очной формы обучения 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                                  


 

 

 

 

 

 

 

Москва  2010


 

Оглавление

ВВЕДЕНИЕ 3

1.1 История возникновения WWW 4

1.2 Понятие гипертекста 5

1.3 Архитектура построения WWW 6

2.1 Краткая история развития поисковых систем 8

2.2 Основные характеристики поисковой системы 9

2.3 Состав и принципы работы поисковой системы 10

2.4 Обзор основных Российских поисковых систем 12

3.1.Метапоисковая система 16

3.2.Принцип работы метапоисковой системы 16

ЗАКЛЮЧЕНИЕ 18

Приложение 1 19

Приложение 2 20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ВВЕДЕНИЕ

Internet - это крупнейшая мировая компьютерная сеть. Сейчас Internet имеет примерно 20 миллионов пользователей более чем в 50 странах. WWW доступен в основном через Internet; но, говоря WWW и Internet мы имеем ввиду не одно и то же. WWW можно отнести к внутреннему содержанию, т.е. это какой-то абстрактный мир знаний, в то время как Internet является внешней стороной глобальной сети в виде огромного количества кабелей и компьютеров. World Wide Web представляет собой графический интерфейс к Интернету, позволяющий доставлять и обрабатывать информацию, содержащуюся в специально отформатированных документах, и включает в себя три основных компонента: Hypertext Markup Lahguage (HTML), HyperText Transfer Protocol (HTTP), Universal Resource Locator (URL).

Применяемый в сети протокол TCP/IP (Transmission Control Protocol/Internetwork Protocol - протокол управления передачей/межсетевой протокол) разработан с учетом того, чтобы компьютеры всех видов могли совместно использовать сетевые средства и непосредственно взаимодействовать друг с другом как одна эффективно интегрированная компьютерная сеть.

 

Internet – это "сеть сетей", которая охватывает тысячи университетских, правительственных и корпоративных сетевых систем, связанных высокоскоростными частными и общедоступными сетями.

Идея  создания универсальной базы данных прорабатывалась в течение длительного  периода, и не так давно были получены средства для создания подобных баз  данных. Многие рассматривают Internet и Всемирную паутину (WorldWideWeb, WWW) как экспериментальный образец такой базы данных. Технология, разработанная для WWW, воплощает идею глобальной информационной базы данных, реализованную в пределах современных возможностей.

 

 

 

 

 

 

 

 

1.1 История возникновения WWW

В последнее  время часто приходится слышать, что WWW (World Wide Web) - это очень просто. Однако за этой кажущейся простотой скрывается хорошо продуманная сложная система. При этом следует заметить, что система бурно развивается.

В 1989 году Т. Бернерс-Ли предложил проект "World Wide Web: Proposal for HyperText Project" , он считал, что информационная система, построенная на принципах гипертекста, должна объединить все множество информационных ресурсов CERN, которое состояло из базы данных отчетов, компьютерной документации, списков почтовых адресов, информационной реферативной системы, наборов данных результатов экспериментов и т.п. Гипертекстовая технология должна была позволить легко "перепрыгивать" из одного документа в другой.

В октябре 1990 года проект стартовал. К рождеству "задышал" line mode browser, разработке которого придавалось особое значение, т.к. он открывал доступ к системе через telnet, а в марте его можно было уже демонстрировать. Через год в Internet был установлен анонимный telnet для доступа в систему. Первое сообщение об WWW было послано в телеконференции: alt.hypertext, com.sys.next, comp.text.sgml и comp.mail. multimedia, в августе 1991 года.

Прошло  еще целых полтора года до того момента, когда программа Mosaic, разработанная Марком Андресеном (Mark Andressen) из Национального Центра Суперкомпьютерных Приложений (NCSA), и построенная на принципах WWW, обеспечила бурный рост популярности "паутины" в Internet.

Мультипротокольный переносимый интерфейс в WWW, создание которого начала Группа Разработки Программного Обеспечения NCSA, был назван Mosaic. Пробная версия программы была закончена в первой половине 1993 года, а в августе 1993 была анонсирована альфа-версия для Internet.

Следует отметить, что сам проект Mosaic внес огромный вклад в развитие спецификаций World Wide Web, существенно обогатив различные компоненты системы. Разработчики Mosaic ввели в стандарты WWW большое количество новшеств. С самого начала Mosaic разрабатывалась как программа с возможностями доступа к ресурсам Internet посредством различных протоколов, в число которых входили FTP, telnet, NNTP, SMTP. Mosaic на некоторое время затмила разработки CERN. Однако эта группа имела хорошо продуманную стратегию развития системы, которая включала в себя следующие основные моменты: разработка и поддержка стандартов спецификаций системы, разработка библиотеки свободно распространяемых мобильных кодов системы, полного комплекта средств, обеспечивающих разработку и реализацию компонентов системы на любом типе компьютера в сети, подготовка набора справочных и демонстрационных документов о состоянии сети и направлениях ее развития. Данная стратегия позволила распространять программное обеспечение, разработанное в рамках проекта в Internet, а наличие line mode browser'а позволила открыть возможности WWW для огромной аудитории пользователей алфавитно-цифровых устройств, подключенных в сеть. К 1995 году были разработаны программы - браузеры Netscape , Arena , Chimera .

Следующим важным этапом развития технологии World Wide Web стало появление весной 1995 года языка программирования Java, анонсированного компанией Sun Microsystems. Если быть более точным, то прямое отношение к World Wide Web имеет не сам язык, а мобильные коды и возможность их интерпретации программами просмотра Web. Создав свой браузер (программу просмотра) HotJava, Sun смогла продемонстрировать, что идеология интерпретации языка разметки документов может быть расширена. В страницы теперь можно стало встраивать фрагменты программ, которые после передачи по сети активировались на компьютере пользователя, расширяя тем самым концепцию распределенных вычислений.

К этому  времени кроме Java появились еще и языки управления сценариями просмотра документов, самым известным из которых стал JavaScript. Тем самым, к середине 1996 года технология World Wide Web превратилась в полноценную гипертекстовую технологию, которая стала позволять решать большинство из тех задач, до которых доросли локальные гипертекстовые системы.

 

 1.2 Понятие гипертекста

В это время в мире информационных технологий наблюдался повышенный интерес к новому и модному в то время направлению - гипертекстовым системам. Сама идея, но не термин, была введена В.Бушем в 1945 году в предложениях по созданию электромеханической информационной системы Memex. Несмотря на то, что Буш был советником по науке президента Рузвельта, она не была реализована. Идея гипертекстовой информационной системы состоит в том, что пользователь имеет возможность просматривать документы (страницы текста) в том порядке, в котором ему это больше нравится, а не последовательно, как это принято при чтении книг. Т.Нельсон  определил гипертекст как нелинейный текст. Достигается это путем создания специального механизма связи различных страниц текста при помощи гипертекстовых ссылок, т.е. у обычного текста есть ссылки типа "следующий-предыдущий", а у гипертекста можно построить еще сколь угодно много других ссылок.

1.3 Архитектура построения  WWW

 

От  описания основных компонентов перейдем к архитектуре взаимодействия программного обеспечения в системе World Wide Web. WWW построена по хорошо известной схеме "клиент-сервер". На рисунке (см. приложение 1) показано, как разделены функции в этой схеме.

Программа-клиент выполняет функции интерфейса пользователя и обеспечивает доступ практически  ко всем информационным ресурсам Internet. В этом смысле она выходит за обычные рамки работы клиента только с сервером определенного протокола, как это происходит в telnet, например. Отчасти, довольно широко распространенное мнение, что Mosaic или Netscape, которые, безусловно, являются WWW-клиентами, это просто графический интерфейс в Internet, является верным. Однако, как уже было отмечено, базовые компоненты WWW-технологии (HTML и URL) играют при доступе к другим ресурсам Mosaic не последнюю роль, и поэтому мультипротокольные клиенты должны быть отнесены именно к World Wide Web, а не к другим информационным технологиям Internet. Фактически, клиент - это интерпретатор HTML. И как типичный интерпретатор, клиент в зависимости от команд (разметки) выполняет различные функции. В круг этих функций входит не только размещение текста на экране, но и обмен информацией с сервером по мере анализа полученного HTML-текста, что наиболее наглядно происходит при отображении встроенных в тексте графических образов. При анализе URL-спецификации или по командам сервера клиент запускает дополнительные внешние программы для работы с документами в форматах, отличных от HTML, например GIF, JPEG, MPEG, Postscript и т.п. Вообще говоря, для запуска клиентом программ независимо от типа документа была разработана программа Luncher, но в последнее время гораздо большее распространение получил механизм согласования запускаемых программ через MIME-типы.

Другую  часть программного комплекса WWW составляет сервер протокола HTTP, базы данных документов в формате HTML, управляемые сервером, и программное обеспечение, разработанное  в стандарте спецификации CGI.

До образования Netscape использовалось два HTTP-сервера: сервер CERN и сервер NCSA. Но в настоящее время число базовых серверов расширилось.

База  данных HTML-документов - это часть  файловой системы, которая содержит текстовые файлы в формате HTML и связанные с ними графику  и другие ресурсы. Особое внимание хотелось бы обратить на документы, содержащие элементы экранных форм. Эти документы  реально обеспечивают доступ к внешнему программному обеспечению.

Прикладное  программное обеспечение, работающее с сервером, можно разделить на программы-шлюзы и прочие. Шлюзы - это программы, обеспечивающие взаимодействие сервера с серверами других протоколов, например FTP, или с распределенными  на сети серверами Oracle. Прочие программы - это программы, принимающие данные от сервера и выполняющие какие-либо действия: получение текущей даты, реализацию графических ссылок, доступ к локальным базам данных или просто расчеты.

Все, что было сказано до этого момента, можно отнести к классической схеме World Wide Web. В настоящее время следует говорить об изменении общей архитектуры.

Как видно из рисунка 2 (см. приложение2), к середине 1996 года произошли некоторые изменения в архитектуре сервиса World Wide Web.

Произошел возврат к модульной структуре  сервера World Wide Web. Этот возврат был реализован в виде спецификации API. API - это спецификация разработки прикладных модулей, которые встраиваются в сервер, точнее редактируются совместно с модулями сервера. Применение во всех серверах многопотоковой технологии выполнения подзадач делает такой способ расширения возможностей сервера более экономичным с точки зрения ресурсов вычислительной установки, чем разработка CGI-скриптов.

В дополнение к HTML активно стал применяться еще  один язык разметки - VRML (Virtual Reality Modeling Language). В данном случае речь идет об описании трехмерных сцен и возможности "бродить" по этим мирам. При этом в VRML также, как и в HTML предусмотрены гипертекстовые ссылки, что позволяет создавать смешанные базы данных, где информационный архив, например, можно представить в виде книг в библиотеке, среди которых может путешествовать автор, выбирая нужную ему тематику и источник, которые затем представляются в формате документа HTML.

Java-апплеты - это мобильные коды Java, ссылки на которые вмонтированы в тело документа. При доступе к такому документу программа просмотра пользователя предварительно анализирует документ на предмет наличия в нем такого типа ссылок, и, если они существуют, то подкачивает мобильные коды в свою память. Коды могут сразу выполняться по мере размещения их на компьютере пользователя, но могут активироваться и при помощи специальных команд.

Завершая  обсуждение архитектуры World Wide Web хотелось бы еще раз подчеркнуть, что ее компоненты существуют практически для всех типов компьютерных платформ и свободно доступны в сети. Любой, кто имеет доступ в Internet, может создать свой WWW-сервер, или, по крайней мере, посмотреть информацию с других серверов.

2.1 Краткая история  развития поисковых систем

Вообще поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу).Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет.  
Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста – даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой  системой стал проект WebCrawler появившийся в 1994 году.

В 1995 году появились поисковые системы  Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.

В 1997 году Сергей Брин и Лари Пейдж создали Google самую популярную на сегодняшний момент поисковую систему в мире.

23 сентября 1997 года была официально  анонсирована поисковая система  Yandex, самая популярная в русскоязычной части Интернет.

В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и КМ.ru

Информация о работе Поисковые возможности и характеристики WWW-систем