Обзор и анализ современных поисковых систем

Автор: Пользователь скрыл имя, 04 Июля 2013 в 10:19, реферат

Краткое описание

В данной работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. При появлении сети Интернет проблема поиска становилась более актуальной. Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться огромное количество информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин.

Оглавление

Введение 3
1. История зарождения поисковых систем 4
2. Информационно-поисковая система. Основные компоненты 5
3. Рейтинг основных мировых и российских 7
поисковых систем 7
4. Обзор основных мировых поисковых систем 8
4.1 Google 8
4.2 Yahoo 9
4.3 Baidu 10
5. Обзор основных Российских поисковых систем 11
5.1 Yandex 11
5.2 Rambler 12
5.3 Апорт 12
6. Преимущества и недостатки поисковых систем 14
7. Модель "идеальной" поисковой системы 18
Заключение 20
Список литературы 21

Файлы: 1 файл

1.docx

— 65.76 Кб (Скачать)

Федеральное Агентство  по Образованию РФ

Сочинский Государственный  Университет Туризма и Курортного Дела

Институт Информационных Технологий и Математики

Кафедра Информационных Технологий

 

 

 

 

 

 

 

 

Реферат

По дисциплине: «Мировые информационные ресурсы»

 

На тему:

«Обзор и анализ современных  поисковых систем»

 

 

 

 

Выполнил студент 3 курса

группа 08 – ПИ ОФО

 “Прикладная информатика (в экономике)”

 Васильев В. А.                                                  

 

 проверил  преподаватель

 Салова  Т.Л.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сочи, 2010 г.

Содержание

Содержание 2

Введение 3

1. История зарождения поисковых систем 4

2. Информационно-поисковая система. Основные компоненты 5

3. Рейтинг основных мировых и российских 7

поисковых систем 7

4. Обзор основных мировых поисковых систем 8

4.1 Google 8

4.2 Yahoo 9

4.3 Baidu 10

5. Обзор основных Российских поисковых систем 11

5.1  Yandex 11

5.2  Rambler 12

5.3 Апорт 12

6. Преимущества и недостатки поисковых систем 14

7. Модель "идеальной" поисковой системы 18

Заключение 20

Список литературы 21

 

 

Введение

Современный этап развития цивилизации  характеризуется переходом наиболее развитой части человечества от индустриального  общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети. В данной работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. При появлении сети Интернет проблема поиска становилась более актуальной. Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться огромное количество информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  1. История зарождения поисковых систем

Первая интернет-страница, при создании которой была применена технология HTTP, появилась сравнительно недавно - в 1990 году. Ее создателем является британский ученный Тим Бернерс-Ли, который также является изобретателем URI, URL, HTTP, World Wide Web. Созданный им сайт info.cern.ch (в данный момент доступный в сети в качестве авторской страницы создателя) является прародителем не только современных информационных ресурсов, но и первым в мире доступным каталогом интернет-сайтов. С этого момента Интернет начал набирать популярность не только среди научных кругов, но и среди простых обладателей персональных компьютеров.

В 1993 году была создана первая в  мире поисковая система для Всемирной  сети «Wandex». В ее основу был заложен World Wide Web Wanderer бот1, разработанный Метью Греем из Массачусетского технологического института. Через несколько месяцев после рождения поисковой системы «Wandex» была создана конкурирующая система «Aliweb», которая в отличие от индекса «Wandex» работает до сих пор. В 1994 году была запущена первая полнотекстовая2 («crawler-based», то есть индексирующая ресурсы при помощи робота) поисковая система «WebCrawler». Основным отличием поисковой системы от своих предшественников является предоставление возможности пользователям осуществлять поиск по любым ключевым словам на любой веб-странице. Сегодня эта технология является стандартом поиска любой поисковой системы. Поисковая система «WebCrawler» стала первой системой, о которой было известно широкому кругу пользователей.

Первой поисковой системой, которая  была доступна русскоязычным пользователям  Интернета, стала поисковая машина «AltaVista», которая в 1996 году запустила морфологическое расширение для русского языка. В этом же году были запущены первые отечественные поисковые системы – «Rambler.ru» и «Aport.ru». Появление первых отечественных поисковых систем ознаменовало новый этап развития Рунета, позволяя русскоязычным пользователям осуществлять запрос на родном языке, а также оперативно реагировать на изменения, происходящие внутри Сети. С запуском в 1997 году поисковой системы «Яндекс» отечественные поисковые машины начали конкурировать между собой, улучшая систему поиска и индексации сайтов, выдачи результатов, а также предлагая новые сервисы и услуги. В западных странах переломный момент в развитии поисковых систем наступил с появлением в 1997 году поисковой системы Google. Компания Google разработала собственную поисковую машину, которая дала пользователям возможность осуществлять качественный поиск с учетом морфологии, ошибок при написании слов, а также повысить релевантность3 в результатах выдачи запросов. Сегодня компания Google обрабатывает более 40 миллиардов запросов в месяц, что соответствует 62,4 % всех поисковых запросов в мире.

  1. Информационно-поисковая система. Основные компоненты

Информационно-поисковая система - это аппаратно-программный комплекс, осуществляющий быстрый поиск необходимой  информации внутри сервера или интернет-ресурса. Основа поисковой машины у всех поисковых систем примерна одинаковая. Как правило, это поисковый бот, необходимый для индексации и поиска сайта, программное обеспечение, отвечающее за составление каталога запроса и ранжирование результатов по релевантности поискового запроса. Но многие крупные поисковые системы держат в секрете содержание своей поисковой машины. Ключевым отличием является база проиндексированных сайтов, релевантность и учет морфологии языка запроса. Все это в совокупности и определяет критерий качества работы поисковых машин.

Классифицируется поисковая машина по области поиска информации:

1. Локальный поиск. Предназначен для осуществления поиска информации по какой-либо части всемирной сети, например, по одному или нескольким сайтам, либо по локальной сети. Примером служит поисковый скрипт на сайте или внутренние серверы крупных компаний.

2. Глобальный поиск. Предназначен  для поиска информации по сети  Интернет, либо по региональной  части, группе сайтов и т.д.  Глобальный поиск используют  крупные поисковые системы Яндекс, Google, Yahoo и т.д.

Поисковые машины осуществляют различный  поиск информации по сети Интернет. Например, картинки, музыка, географическое положение, личная информация и т.д. Файлы, с которыми работает поисковая  машина, могут быть разных форматов (например .html,.htm,.txt,.doc,.rtf, …), графического (.gif, .png, .svg, …) или мультимедийного (видео, звука и другой информации). Наиболее распространенным является поиск по текстовым документам (web-страницы, документы в формате doc, rtf, txt и др.). Поиск по изображениям, видео, звукам более сложен с технологической точки зрения, поэтому массово не реализован. Такие системы, как, например, Яндекс.Картинки искали не по самим изображениям, а по альтернативным текстам, соответствующим этим изображениям. А каталог поиска картинок в компании Google составляется вручную, что увеличивает релевантность запроса, но тормозит обновление баз изображений.

Поисковая система - это сумма следующих  компонентов:

Web server (веб-сервер) – сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы.

Spider (паук) - программа написанная по принципу браузера, предназначена для скачивания веб-страниц. Браузер предназначен для визуального использования страниц, а паук работает с HTML кодом напрямую. Чтобы посмотреть "сырой" исходник нажмите в меню браузера: Вид- Просмотр HTML кода.

Crawler («путешествующий» паук) – программа, которая автоматически уходит по всем внешним ссылкам страницы. Ее задача - поиск не известных (или измененных) документов и в расстановке приоритетов, куда дальше должен идти Spider.

Indexer (индексатор) - программа-анализатор скаченных пауками веб-страниц. Она "разбирает" на части скачанную страницу и анализирует ее элементы, такие как текст, служебные html-теги, заголовки, особенности стилистики и структурные формы.

Database (база данных) – хранилище для скачанных и обработанных страниц - общая база данных поисковой машины.

 Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных поисковой системы. Именно она решает, какие страницы более соответствуют запросу пользователя и отсортировывает их в нужном порядке. Модуль работает согласно заданным поисковой системой алгоритмам ранжирования.

 

3. Рейтинг основных мировых и российских

 поисковых систем

Google первая по популярности поисковая машина в мире обрабатывающая более 40 миллиардов запросов в месяц (доля рынка 83,4 %),  и индексирует более 8 миллиардов веб-страниц. Google может находить информацию на 191 языке (на 15 октября 2009).  Второе место (с большим отрывом) у Yahoo! – 6,32% рынка. Треть место занимает крупнейший китайский поисковик Baidu.com – 4,96% рынка. К слову, уверенные позиции последнего связаны с тем, что на территории Китая заблокированы и Google, и Yahoo!

 

Рисунок 1

Большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами. На сегодняшний день самой популярной русскоязычной поисковой системой является Яндекс – 54% всех поисковых запросов.

Рисунок 2

 

4. Обзор основных мировых поисковых систем

4.1 Google

Лидер поисковых машин Интернета, Google занимает более 70 % мирового рынка, а значит, семь из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернете. Сейчас регистрирует ежедневно около 50 миллионов поисковых запросов и индексирует более 8 миллиардов веб-страниц.

Была разработана в 1998 выпускниками Стэндфордского университета Сергеем  Брином  и Лари Пейджем, которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (то есть независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска. Google осуществляет поиск по документам на более чем 35 языках, в том числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого усовершенствования, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значений PageRank документов.

Также существует определенное количество документов с достаточно большим  значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Не смотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

 

4.2 Yahoo

Одна из самых первых Поисковых  систем (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов.

  Нынешнее развитие Yahoo можно определить как движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "онлайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

Одно  из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.

1 сентября 2005 года поисковик Yahoo, которому принадлежит более 200 миллионов адресов электронной почты по всему миру, анонсировал запуск новой системы поиска текстов, фотографий и других документов, содержащихся в письмах.

Необходимость такого нововведения возникла вслед  за увеличением объёма хранимых данных, ведь некоторые пользователи создают  целые почтовые архивы. Подгоняемый  конкурентом Google и его почтовым сервисом Gmail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. "Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности", - объясняет Эрик Петерсон, аналитик компании Jupiter Research.

Пользователи  поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Информация о работе Обзор и анализ современных поисковых систем