Информационный поиск как процесс

Автор: Пользователь скрыл имя, 12 Сентября 2011 в 19:43, курсовая работа

Краткое описание

Существует мнение, что в сети Интернет есть всё или почти всё. Однако этим богатством надо ещё уметь воспользоваться, что представляет собой задачу нетривиальную. Во-первых, объём данных, размещённых в сети, очень велик, а сама эта информация практически никак не структурирована. Во-вторых, Интернет очень изменчив: ежедневно в нём появляются новые данные – страницы или целые сайты, что-то исчезает, а часть ресурсов меняет адрес.

Оглавление

Введение…………………………………………………………………..3
История……………………………………………………………………5
Информационный поиск как процесс…………………………………...6
Средства поиска информации…………………...…...…………...6
Основные методы поиска информации в Интернете…….…..….7
Виды поиска ………..……………...……………………….…….10
Проблемы, возникающие в процессе поиска информации…....10
Структура ИПС для Интернет………..………………...……….12
4. Примеры поисковых систем и их описание……………………………13

4.1. Yandex..…………………...…………………………………………13

4.2. Google..………………………………………………………………14

4.3. Yahoo!.................................................................................................15

4.4. Рейтинг поисковых систем - март 2011 г (в России)…….….…..19

4.5. Рейтинг английских поисковых систем…………..………………20

Заключение……….…………………………………………….………..21
Литература………………………………………………………………22

Файлы: 1 файл

реферат - копия.doc

— 154.50 Кб (Скачать)

    Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).

    Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.

3.4. Проблемы, возникающие в процессе поиска информации

    Одна  из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном  решении двух противоположных задач:

  • увеличение охвата с целью извлечения максимального количества значимой информации;
  • уменьшение охвата с целью минимизации шумовой информации.

    Нетрудно  видеть, что одновременно осуществить  это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности,- в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.

    Другая, связанная с этой, проблема - неоднозначность  человеческого языка. Если сфера  ваших интересов - нефть (оil) то около  половины вываленных на вас ссылок будет касаться... живописи. Картина маслом, так сказать... К проблеме синонимов в русскоязычном Интернете добавляется еще проблема морфологических вариаций слов. Изготовим платы, изготовление плат... Добавьте сюда наличие в языке омонимов (абонентная плата, а в некоторых системах также зарплата и платан), и работа с тезаурусом покажется уже не блажью, а суровой необходимостью.

    Много головной боли в нашем отечественном  Интернете происходит от обилия кодировок. Я все понимаю: "загадочная русская душа", "сам хорош", "другим путем" (каждый своим) - но не до такой же степени! Изобрести три (!) основных кодировки, каждая из которых еще может существовать в вариациях (например, расположение буквы Ё в КОИ-8), плюс неосновные разной степени экзотичности!.. С этим общим врагом каждый борется, как умеет. Российские поисковые машины распознают вашу кодировку и кодировку сайта и пытаются по мере возможности привести их в соответствие. Это удается, но не всегда. Иначе: если вы ищете слово "Финансы", а на сайте ему соответствует загадочное "тХМЮМЯШ", поиск вряд ли будет удачным.

    Поиск может быть неудачным и в силу формы представления информации. Данные, лежащие в базе, "не цепляются" ни поисковой машиной, ни спайдером. Например, информация по предприятиям удаленных регионов нашей страны, для которых Интернет часто является единственным средством общения с миром, обычно расположена на региональных серверах и как раз почему-то в базах данных.

    И последнее неудобство, докучающее в  первую очередь пользователям русскоязычной части Сети, - это ее нестабильность. Меняются адреса, структура сайтов, сами они появляются и исчезают. Конечно, это издержки быстрого роста, но в худшем случае вы не сможете добраться до половины источников, выданных поисковой машиной. А иногда так хочется!

    3.5. Структура ИПС для Интернет

 

      
 

4. Примеры поисковых систем и их описание

    4.1. Яndex

    Яндекс - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия". За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

    Слово Яндекс придумал за несколько лет  до этого один из основных и старейших  разработчиков поискового механизма. "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове "Index" перевести с английского первую букву ("I" - "Я"), получится "Яndex".

    В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. В это время Интернет в России только начинался. Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.

    4.2. Google

    Лидер поисковых машин Интернета, Google занимает более 60 % мирового рынка, а значит, шесть из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернете. Сейчас регистрирует ежедневно около 50 миллионов поисковых запросов и индексирует более 8 миллиардов веб - страниц.

    Была  разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином и Лари Пейджем, которые применили для  ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (то есть независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска.

    Google осуществляет поиск по документам  на более чем 35 языках, в том  числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого усовершенствования, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Не смотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

    4.3. Yahoo

    Одна  из самых первых Поисковых систем (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов.

    Нынешнее  развитие Yahoo можно определить как  движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "онлайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

    Одно  из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный  сайт, а лишь используя функциональные кнопки панели.

    1 сентября 2005 года поисковик Yahoo, которому  принадлежит более 200 миллионов  адресов электронной почты по  всему миру, анонсировал запуск  новой системы поиска текстов,  фотографий и других документов, содержащихся в письмах.

    Необходимость такого нововведения возникла вслед  за увеличением объёма хранимых данных, ведь некоторые пользователи создают  целые почтовые архивы. Подгоняемый  конкурентом Google и его почтовым сервисом Gmail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. "Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности", - объясняет Эрик Петерсон, аналитик компании Jupiter Research.

    Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

    Для начала Yahoo планирует предложить новую  систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. "Когда услуга станет, доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер", - обещает компания Yahoo.

    По  данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов  адресов электронной почты, что  составляет 31,5% мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка). 

  Rambler Yandex Апорт
Адрес www.rambler.ru www.yandex.ru www.aport.ru
Кол-во уникальных пользователей поисковой системы в день (среднее за неделю с 25 по 31 января) 19 344 13 323 6 714
Кол-во уникальных пользователей поисковой  системы в месяц (январь) 137 300 94 775 55 200
Кол-во запросов к поисковой системе  в день (среднее за неделю с 25 по 31 января) 138 983 50 235 24 057
Размер  поисковой системы 3 815 679 (DOC)  
5 143 907 (URLs)  
24 897 (SERV)
4 512 231 (DOC)  
24 772 (SERV)
1 757 208 (DOC) 
2 999 585 (URL) 
13 264 (SERV)
Кол-во индексируемых в день страниц (среднее за неделю с 25 по 31 января) 130 000 URLs  
40 000 NEW
     
900 000 URLs ???
Период обновления страницы в индексах от недели до месяца 7 дней от недели до месяца
Появление в индексах после регистрации ближайший выходной 10 мин для  доменов 'ru', 'su', 7 дней для остальных 7 дней
Появление в индексах незарегистрированных страниц от недели до месяца около 7 дней от недели до месяца
Глубина индексирования не ограничена не ограничена не ограничена
Поддержка фреймов + + +
Поддержка ImageMaps + + +
Индексация закрытых разделов + + +
Популярность веб-сайта - планируется -
Определение частоты обновления - + +
Robots.txt + + +
Meta Robots + + +
Возможность проверки страницы на наличие в индексах + + + 
Возможность проверки на наличие ссылок с других страниц - планируется +

Информация о работе Информационный поиск как процесс