Поисковая система Апорт

Автор: Пользователь скрыл имя, 09 Января 2012 в 19:05, контрольная работа

Краткое описание

Основные протоколы, используемые в Интернет (в дальнейшем также Сеть), не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска.

Оглавление

Введение 3
Структура справочно-поисковых систем сети интернет 4
История создания поисковой системы Апорт 8
Особенности поисковой системы 9
Управление индексированием в поисковой системе Апорт 10
Добавление страниц в поисковой системе Апорт 10
Индексация ресурсов поисковой системой Апорт 10
Преимущества поисковой системы 12
Виды поиска 12
Простой поиск 12
Специальный поиск 13
Популярные сервисы «Апорт» 13
Апорт-лайт 13
Апорт – справка 14
Заключение 15

Файлы: 1 файл

поисковая система Апорт.doc

— 104.50 Кб (Скачать)

Государственное Образовательное Учреждение Высшего  Профессионального Образования

«Российский Государственный  Торгово-Экономический Университет»

ВОЛГОГРАДСКИЙ ФИЛИАЛ 

Кафедра ВЫСШЕЙ МАТЕМАТИКИ И ИНФОРМАТИКИ 
 

     Шифр  специальности

       ВЭУзе - 2010д –  006 

Контрольная работа

  по дисциплине «ИНФОРМАТИКА»

на  тему:     Поисковая система Апорт   
 
 
 
 
 

  Выполнил(а):

Студент(ка) 1 курса

Факультета  Экономика и управление на предприятии (торговли)

Меркулова Лариса Владимировна

                                       Ф.И.О

  Проверил:

Старший преподаватель ВМИ

Журавлев  Дмитрий Владимирович

 

Волгоград 2011 
Содержание

 

Введение

     Word-Wide Web - это самый популярный сервис Сети и удобный способ работы с информацией.

     Основные  протоколы, используемые в Интернет (в дальнейшем также Сеть), не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска. То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра быстро достигают предела их функциональных возможностей, не говоря уже о пределе их эффективности. Не указывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.

 

      Структура справочно-поисковых  систем сети интернет

 

     Поисковые cистемы обычно состоят  из трех компонент:

  • агент (паук или кроулер), который перемещается по Сети и собирает информацию;
  • база данных, которая содержит всю информацию, собираемую пауками;
  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

     Средства  поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как находить и обрабатывать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

  • Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
  • Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
  • Кроулеры просматривают заголовки и возращают только первую ссылку.
  • Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

     Агенты  извлекают и индексируют различные  виды информации. Некоторые, например, индексируют каждое отдельное слово  во встречающемся документе, в то время как другие индексируют  только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

     Агенты  могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

     Люди  могут помещать информацию прямо  в индекс, заполняя особую форму  для того раздела, в который они  хотели бы поместить свою информацию. Эти данные передаются базе данных.

     Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

     База  данных отыскивает предмет запроса, основанный на информации, указанной  в заполненной форме, и выводит  соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

  1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
  2. Тэги, в которых эти слова располагаются.
  3. Местоположение искомых слов в документе.
  4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

     Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

  1. Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
  2. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

     База  данных выводит ранжированный подобным образом список документов с HTML и  возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

     Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

 

История создания поисковой системы Апорт

 

     Создателем  поисковой системы Апорт является компания "Агама" - разработчик  программного обеспечения для платформ Windows. Надо отметить, что Апорт создавался и продолжает работать под управлением ОС Windows (в отличие от большинства поисковых систем). Лингвистические разработки "Агамы" использовались при создании поисковой машины Апорт, в которой на момент ее создания, учитывалась морфология слов и по желанию клиента выполнялась проверка орфографии запроса.

     Впервые поисковая система "Апорт" была продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Первоначально поисковая система Апорт выполняла поиск только по сайту russia.agama.com.

     К моменту официальной презентации, 11 ноября 1997 года, в поисковой системе  Апорт был проиндексирован первый миллион документов, расположенных  на 10 тысячах серверов. К важным свойствам первой версии поисковой системы Апорт можно отнести перевод запроса и ответа на английский язык и обратно и реконструкция проиндексированных страниц из собственной базы, которое дает возможность просмотра уже несуществующих страниц.

       В ноябре 1998 года Aport был продан гражданину Израиля Джозефу Авчуку (сумма сделки составила 55 тысяч долларов). В 1999 году Авчук окончательно покупает каталог и переименовывает его в AtRus.

     В октябре 1999 года на компьютерных выставках  по обе стороны океана была представлена принципиально новая поисковая система "Апорт 2000", полностью интегрированная с AtRus (ныне "Каталог-Апорт").

     31 июля 2000 года Golden Telecom купил несколько  интернет-проектов “Агама”, включающее  Апорт и AtRus, для включения в  “Россию-он-лайн”. В мае 2001 года окончательно завершилась сделка по смене хозяина "Апорт" самого "Golden Telecom", новым владельцем стал "Альфа-Банк". NASDAQ к тому времени переживал бурный спад и шансов перепродать Интернет проекты за приемлемую сумму не было. Это обусловило решение новых хозяев "Golden Telecom" минимизировать расходы на поддержку дорогостоящих Интернет проектов.

     Однако  со сменой владельцев (в настоящее  время поисковик принадлежит  РОЛу) закончились активные разработки и поисковая система начала сдавать позиции. В настоящее время «Апорт» не входит даже в 10-ку лидеров (по данным SpyLogTrends процентная доля «Апорт» составляет 1.5788%).

Особенности поисковой системы

 

     Интеграция @Rus с Апортом привело к тому, что пользователям стали доступны новые, более широкие возможности для поиска. Если раньше запросы строились через единую поисковую систему, то теперь результаты поиска можно систематизировать по рубрикам, представленным в каталоге. А значит, ускоряется сам процесс поиска, что немаловажно для пользователей, которые выходят в сеть не по выделенной линии, а по телефонной посредством модема. Это экономит не только время, но и деньги. Поисковая система Aport 2000 была построена на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты Апорт использует информацию, которую предоставляет каталог AtRus, или владельцы ресурсов. Эта поисковая система первой в Рунете реализовала базовые технологии Google. «Page rank» - характеристика популярности ресурса по формуле «обратных ссылок»: ссылки с других сайтов на данный ресурс с учетом не только количества, но и важности ссылок.

     Еще одна особенность - приоритет сайтам, вошедшим в высшую и элитную лиги Апорт – Каталог. В поисковой системе Aport впервые была реализована возможность поиска по новостным лентам, также он первым стал использовать платную нулевую строку в выдаче. Масштабируемость в Aport 2000 построена так, что его поисковую базу можно дробить на несколько отдельных фрагментов, каждый из которых будет работать на своем компьютере. После поиска по фрагментам для пользователя рассчитывается общий ответ.

Информация о работе Поисковая система Апорт