Обзор и анализ современных поисковых систем

Автор: Пользователь скрыл имя, 04 Июля 2013 в 10:19, реферат

Краткое описание

В данной работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. При появлении сети Интернет проблема поиска становилась более актуальной. Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться огромное количество информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин.

Оглавление

Введение 3
1. История зарождения поисковых систем 4
2. Информационно-поисковая система. Основные компоненты 5
3. Рейтинг основных мировых и российских 7
поисковых систем 7
4. Обзор основных мировых поисковых систем 8
4.1 Google 8
4.2 Yahoo 9
4.3 Baidu 10
5. Обзор основных Российских поисковых систем 11
5.1 Yandex 11
5.2 Rambler 12
5.3 Апорт 12
6. Преимущества и недостатки поисковых систем 14
7. Модель "идеальной" поисковой системы 18
Заключение 20
Список литературы 21

Файлы: 1 файл

1.docx

— 65.76 Кб (Скачать)

Для начала Yahoo планирует предложить новую систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. "Когда услуга станет, доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер", - обещает компания Yahoo.

По данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов адресов электронной почты, что составляет 31,5% мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка).

 

 

 

 

 

4.3 Baidu

Baidu – лидер среди китайских поисковых систем. По количеству обрабатываемых запросов поисковый сайт Байду стоит на 3 месте в мире (3 миллиарда 428 миллионов; с долей в глобальном поиске 5,2 %). Хотя компания работает только в единственной стране: Китае! Но точно, что этот рынок растет неистово быстро: Уже в конце года в Китае свыше 170 млн. пользователей займутся поиском информации в Интернете. Аналитик J.P. Морган Дик Вей исходит в своем актуальном анализе из того, что это число вырастет в течение следующих трех, четырех лет до 100 млн. пользователей. Гигантский рынок с экстремально высокими доходами для Baidu. Сравнивают только прибыль, которую Google достигает в США с очень похожей бизнес-моделью.

 

5. Обзор основных Российских поисковых систем

Основное отличие русскоязычных  поисковых систем от иностранных  одно - это то, что глобальные поисковые  системы, поддерживающие поиск на русском  языке, не поддерживают русскую морфологию. В русскоязычной части сети Интернет работают около двух десятков поисковых систем, но подавляющие большинство пользователей работает лишь с несколькими, подробно остановимся на самых крупных:

5.1  Yandex

Яндекс - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия". За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

Слово Яндекс придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове "Index" перевести с английского первую букву ("I" - "Я"), получится "Яndex".

В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический  разбор перестал быть привязан к словарю - если какого-либо слова в словаре  нет, то находятся наиболее похожие  на него словарные слова и по ним  строится модель словоизменения. В  это время Интернет в России только начинался. Еще через полгода  стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.

Помимо поисковой системы, сегодня  Яндекс - огромный портал с целым набором широко используемых сервисов, такими как каталог, Яндекс. деньги, и другие. Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яндекс, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе. Сегодня Яндекс имеет внутри мощный поисковый робот, позволяющий производить поиск по самым различным критериям.

 

5.2 Rambler

Rambler - Старейшая поисковая система российского Интернет, запущена в 1996 году, на сегодня - вторая по популярности с обращением более 25 миллионов посетителей в месяц. Помимо поисковой системы, сегодня Рамблер - один из крупнейших порталов Русскоязычной части Интернета с большим набором широко известных сервисов, таких как каталог Рамблер, Рамблер-почта, Рамблер-ICQ или Рамблер-ТВ. По сути сегодня Рамблер - больше, чем просто поисковая система и набор сервисов, это крупная медиагруппа. Поисковая машина "Рамблер" начала работу в октябре 1996 года, на стартовом этапе содержала всего 100 тысяч документов. "Рамблер" не был первой отечественной поисковой системой, однако в первый год своего существования (когда весь русский веб с приемлемой степенью правдоподобия индексировался "Рамблером", "Апортом", "Русской поисковой машиной", а также шведской и калифорнийской AltaVista) вынес основной груз поисковых запросов.

 Вторая версия "Рамблера" начала разрабатываться летом 2000 года, в марте нынешнего года приняла достаточно законченные очертания. В нее были введены функции, давно уже имевшиеся в конкурирующих системах. Она учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется Top100 (http://top100.rambler.ru/), группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет "Рамблер" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта".

 

5.3 Апорт

Апорт – Третья популярности на сегодня поисковая система с обращением более 16 миллионов посетителей в месяц. Апорт позволяет пользователям осуществлять полнотекстовый поиск документов c учетом морфологии русского языка в запросах. Поисковая система построена на основании новейших достижений в области информационного поиска и использует уникальные алгоритмы сортировки найденных результатов. Разнообразные специализированные поиски (Знакомства, Товары, Новости, Рефераты, MP3 и др.) дают пользователям дополнительные возможности находить различную информацию в Сети. В поисковую машину интегрирован один из крупнейших в Русскоязычной части Интернет каталогов Интернет-ресурсов "Апорт-каталог".

Поисковая машина "Апорт" была впервые  продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда  она искала только по сайту russia.agama.com. Потом она начала искать по четырем, потом по шести серверам... Короче, день рождения и фактический старт  системы сильно "размазались" по времени, а официальная презентация "Апорта" состоялась только 11 ноября 1997 года. К тому времени в его  базе был проиндексирован первый миллион документов, расположенных  на 10 тысячах серверов. Создателем системы  выступила компания "Агама" - разработчик  программного обеспечения для платформы  Windows, главным из которых являлся корректор орфографии "Пропись". Лингвистические разработки "Агамы" использовались при создании поисковой машины, в которой, скажем, в отличие от "Рамблер", изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.

Важнейшими свойствами первой версии "Апорта" являлся перевод запроса  и результатов поиска на английский язык и обратно, а также реконструкция  всех проиндексированных страниц из собственной базы (что означает возможность  просмотра страниц, уже несуществующих в оригинале).

Апорт 2000" стал первой российской поисковой  машиной, практически реализовавший  две базовых технологии американской поисковой машины Google. Первая - учет "ранга страницы" (Page Rank), который характеризует ее популярность (вычисляется по количеству ссылок на ресурс из внешнего Интернета: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово "здесь"). Вторая - обработка запроса, ориентируясь на HTML-код страницы. В "Апорт 2000" учитывается также вхождение слов запроса в URL. Среди недокументированных особенностей - больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus.

Можно отметить и то, что "Апорт" первым устроил поиск по новостным  лентам (какие бы ложные сведения о  приоритете "Яндекса" в этом сервисе не распускал в свое время Internet.ru). И, наконец, еще одно первенство "Апорта" - использование платной нулевой строки в выдаче (кстати, "Апорт" первым среди наших поисковиков начал покупать такой сервис у AltaVista, которая за небольшую плату выдавала его ссылку первой при запросе "Russian Search"). Однако в "Апорте" нельзя купить не нулевое, а просто более высокое место для своего сайта в результатах поиска. Пользователи "Апорта" (в отличие завсегдатаев "Яндекса") мало пользуются расширенным поиском (на 8000 загрузок простой страницы приходится 300 вызовов страницы "Расширенный поиск").

Организация масштабируемости в архитектуре "Апорт 2000" такова, что можно дробить поисковую базу "Апорта" на несколько отдельных баз, каждый маленький "Апорт" работает на своем компьютере. "Апорт 2000" считает, что весь Интернет поделен на фрагменты. После проведения поиска по этим фрагментам, пользователю интегрируется и выдается общий ответ. Добавлять новые маленькие "апортики" можно путем не очень сложной процедуры. В случаях аварий отдельных машин выдаются несколько отличные от штатных интегральные результаты, что мы можем время от времени наблюдать.

 

 

 

6. Преимущества и недостатки поисковых систем

                                                                                                                                                                                          

Поисковая система

Преимущества

Недостатки

 

Яндекс

1)Постоянное развитие  системы.

2)Качество выдачи растет, все больше удобных сервисов  предлагает компания: каталог, карты,  новости, прогноз погоды, почта.

3) глубокий морфологический  анализ обрабатываемых терминов.

4) обладает хорошим механизмом  распознавания одного документа  в нескольких кодировках или  на зеркальных серверах.

5) оригинально сконструированный  механизм выдачи результатов.

6) огромная индексная  база.

1) Разница в выдаче  при наборе слова с большой  (маленькой) буквы (иногда выдача  меняется, иногда нет).

2) Частое выпадение секторов  поисковой базы - когда исчезают  части сайтов из выдачи и  восстанавливаются через 2-5 дней.

3) Обновление индексов  поисковой базы происходит недостаточно  часто и регулярно.

Rambler

1) Система работает с  большой скоростью поиска.

2) Обновление поискового  индекса происходит несколько  раз в день.

3) Поисковик всегда находит  самые свежие документы и последние  новости.

4) Обладает близким к  оптимальному выводом результатов поиска.

5) производит ранжирование  результатов в зависимости от  частоты употребления и местоположения  искомых терминов.

6) Один и тот же  документ в различных кодировках  показывается только один раз,  а его конкретные адреса суммируются  в списке, идущим за резюме.

1) На величину индекса  релевантности влияет время существования  сайта в сети.  Эта особенность  позволяет пользователям находить  ресурсы, которые давно существуют, успешно развиваются, а не сайты-однодневки. Но такой подход значительно  затрудняет попадание в выдачу  новых сайтов, информация на которых  подчас оказывается актуальной  и, возможно, более важной для  пользователя.

2) невозможность осуществления  поиска по целой фразе указывая в запросах предельное расстояние искомых терминов друг от друга.

 

 

Aport

1)содержит довольно удобный  в пользовании каталог.

2)широкие возможности  составления запроса.

3) автоматический  перевод  запроса с русского на английский  язык и наоборот.

4) Реконструкция проиндексированных  страниц происходит из собственной  базы. Это дает возможность просмотра  уже несуществующих страниц.

1)не всегда быстро  находит то, что от него просишь.

2) каталог  не обновлялся  уже очень давно.

3) способен выделять  один и тот же документ в  различных кодировках и выдавать  ссылку на него лишь один  раз, перечисляя конкретные адреса  в списке URL.

4) не всегда корректная  обработка названий страниц, из-за  чего в результатах поиска  часто указывается “документ  без названия”, в то время  как метки title на большинстве таких страниц содержат важные данные.

Google

1) Очень мощная поисковая  система, которая находится в  постоянном развитии.

2) База индексов этой  системы обновляется раз в  два дня, качество выдачи очень  высокое, найти необходимый документ  или информацию довольно легко. 

3) Система ориентирована  в основном на ссылки, причем  учитываются как входящие, так  и исходящие ссылки с ресурса.

4) Способна выдавать результаты на запросы  по семантике языка программирования (исходный код поиска).

1) Нередко  встречаются  ссылки на сайты с уже устаревшей  информацией.

2) Случается, что ссылки, которые находятся в результатах  поиска, ведут на сайт, находящийся  в стадии разработки.

3) На запрос «фильм»  и «фильмы» результаты поиска  будут отличаться.

4) отсутствие возможности  указать конкретную грамматическую  форму слова, либо ударение  также значительно усложняет  процесс поиска информации.

 

Yahoo!

1) Содержит ссылки, которые  наиболее полно отвечают указанной  в запросе тематике.

2) Имеются интеллектуальные  средства «отсечения» пустых, находящихся  в разработке или чисто рекламных  сайтов, далеких от искомой тематики.

3) всегда легко определить, в каком разделе находится  нужная информация.

4) В случае если на  Yahoo нет результатов, сразу выводятся результаты с AltaVista.

1) Возможна проблема  с отсутствующими страницами, поскольку  веб-мастера обычно забывают удалить свои сайты с поисковых систем, а на Yahoo нет механизма автоматического обновления.

2) Чисто русские ресурсы  не добавляются, потому что  их просто некому смотреть  и оценивать  содержимое.

2)Нет собственной поисковой  машины.

3) Ищет слова, заданные  в критерии поиска только в  названии и описании страницы

Baidu

К концу 2002 года количество китайских сайтов, индексируемых  Baidu, было на 50% больше, чем у любого конкурента.

Число заблокированных  результатов поиска у Baidu на 30%  больше, чем у Google

Google оставила Baidu далеко позади, поскольку предлагает рекламодателям выход на международные рынки.

 

MSN

1)Предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности.

2) При осуществлении  поиск по ключевому слову, команда  специалистов компании отслеживает  наиболее релевантные на их  взгляд сайты, вручную отбирают  и классифицируют их, и вносят в определенные рубрики директории.

3) ранжирования узлов  по популярности и сезонным  изменениям.

4) Помощь со стороны  человека-редактора.

1) Поисковая система  полна спамом.

2) Использует внешние  данные для обработки поисковых  запросов, поэтому на релевантность  влияют: расположение ключевых слов, популярность ресурса и текст  ведущих на сайт, и ведущих  с сайта ссылок.


 

Ближе всего к идеалу находятся  поисковые системы Google, Яndex, Rambler, Апорт. Отмечу также, что поисковая система MSN лидирует в системе ранжирования.

 

7. Модель "идеальной" поисковой системы

Главный недостаток современных поисковых  систем – это их централизация. А  централизация означает, что вся  информация хранится в одном месте, все работы и расчёты производятся в одном месте, все решения (результаты выдачи) принимаются в одном месте.

Итак, почему это недостаток, здесь  несколько причин:

1) Полная централизация требует  колоссальных ресурсов – это  огромные базы данных, множество  компьютеров и т.д. Учитывая темпы роста Интернета в ближайшем будущем придется применять просто невероятные мощности.

2) Только при управлении в  одном центре можно достичь  полной конфидициальности. А так как по нашей концепции поисковая система должна быть открытой, то и необходимость в централизации отпадает полностью.

3) Поисковая система не всегда  может правильно оценить конкретный  ресурс. Правильнее самому обладателю  сайта поручить выполнение ранжирования  документов внутри сайта. И  теперь, самое главное как уйти  от централизации и устранить  все эти минусы - это внедрение  в каждый сайт своей минипоисковой системы. Эта минипоисковая система будет индексировать содержимое сайта по правилам самого обладателя сайта. Только вэбмастер будет решать, какие страницы его сайта по каким запросам более релевантны. А потом свои индексы уже будет отправлять на сервер поисковой системы.

Ещё одной из основных проблем при  создании новой поисковой системы  является учет мнения пользователей.

Попытка непосредственного выявления  представлений пользователей об идеальной поисковой системе  обычно не приводит к нужному результату: пользователи перечисляют все, что  когда-либо видели или использовали в существующих системах. Не стоит  ждать от пользователей навыков  проектирования – они вряд ли смогут быстро описать, как должна выглядеть  идеальная поисковая система.

Более продуктивным подходом к решению  этой проблемы является анализ идеальной  модели поисковой системы, которой  оперируют пользователи. Идеальная  модель – это совокупность представлений  пользователя о целях, функциях, структуре, способах контроля и управления, возможных  действиях с системой, которые  определяют его деятельность. Такой  подход – от анализа представлений  пользователей и построения идеальной  модели к проектированию интерфейсов  продукта - снижает риск того, что  продукт не понравится пользователям, не будет принят и востребован  ими.

В идеальной модели должны присутствовать следующие компоненты:

Информация о работе Обзор и анализ современных поисковых систем