Информационный поиск как процесс

Автор: Пользователь скрыл имя, 12 Сентября 2011 в 19:43, курсовая работа

Краткое описание

Существует мнение, что в сети Интернет есть всё или почти всё. Однако этим богатством надо ещё уметь воспользоваться, что представляет собой задачу нетривиальную. Во-первых, объём данных, размещённых в сети, очень велик, а сама эта информация практически никак не структурирована. Во-вторых, Интернет очень изменчив: ежедневно в нём появляются новые данные – страницы или целые сайты, что-то исчезает, а часть ресурсов меняет адрес.

Оглавление

Введение…………………………………………………………………..3
История……………………………………………………………………5
Информационный поиск как процесс…………………………………...6
Средства поиска информации…………………...…...…………...6
Основные методы поиска информации в Интернете…….…..….7
Виды поиска ………..……………...……………………….…….10
Проблемы, возникающие в процессе поиска информации…....10
Структура ИПС для Интернет………..………………...……….12
4. Примеры поисковых систем и их описание……………………………13

4.1. Yandex..…………………...…………………………………………13

4.2. Google..………………………………………………………………14

4.3. Yahoo!.................................................................................................15

4.4. Рейтинг поисковых систем - март 2011 г (в России)…….….…..19

4.5. Рейтинг английских поисковых систем…………..………………20

Заключение……….…………………………………………….………..21
Литература………………………………………………………………22

Файлы: 1 файл

реферат - копия.doc

— 154.50 Кб (Скачать)

    Содержание 

  1. Введение…………………………………………………………………..3
  2. История……………………………………………………………………5
  3. Информационный поиск как процесс…………………………………...6
    1. Средства поиска информации…………………...…...…………...6
    2. Основные методы поиска информации в Интернете…….…..….7
    3. Виды поиска ………..……………...……………………….…….10
    4. Проблемы, возникающие в процессе поиска информации…....10
    5. Структура ИПС для Интернет………..………………...……….12

    4. Примеры поисковых систем и их описание……………………………13

    4.1. Yandex..…………………...…………………………………………13

    4.2. Google..………………………………………………………………14

    4.3. Yahoo!.................................................................................................15

    4.4. Рейтинг поисковых систем -  март 2011 г (в России)…….….…..19

    4.5. Рейтинг английских поисковых систем…………..………………20

  1. Заключение……….…………………………………………….………..21
  2. Литература………………………………………………………………22
 
 
 
 
 
 
 
 
 
 
 
 

    1. Введение 

    Существует  мнение, что в сети Интернет есть всё или почти всё. Однако этим богатством надо ещё уметь воспользоваться, что представляет собой задачу нетривиальную. Во-первых, объём данных, размещённых в сети, очень велик, а сама эта информация практически никак не структурирована. Во-вторых, Интернет очень изменчив: ежедневно в нём появляются новые данные – страницы или целые сайты, что-то исчезает, а часть ресурсов меняет адрес. Наконец сетевые публикации в целом отличаются меньшей достоверностью, чем публикации бумажные, так что информацию, размещённую в сети, нужно ещё каким-то образом оценить или проверить. Всё это затрудняет задачу поиска и превращает выбор поисковой стратегии в сложную проблему, не имеющую общего решения. Тем не менее, оказывается вполне возможным выработать некоторые принципы поиска.

    Бурный рост объема информации в Интернет делает поиск незаменимым методом доступа к этой информации. Можно выделить две основные формы поиска в Интернет:

  • Использование поисковых систем, которые собирают сведения о (части) доступных в Интернет ресурсах и организуют поиск по этой информации, как по полнотекстовой базе данных. Примерами таких систем являются - Altavista,Google, Yandex, и т. д.
  • Использование Интернет - каталогов, в которых информация об избранных ресурсах Интернет классифицирована по тематическим признакам. Такие каталоги существуют не только в электронном виде (List или Yahoo!), но также издаются и в виде печатных изданий - таких как, например, “Желтые страницы Интернет'”.

    Первое, что нужно сделать, приступая  к поиску данных в Интернет, особенно в сложном случае, - это определить цель поиска. Очень полезно ответить для себя на следующие вопросы:

      Хотите ли Вы составить общее представление о вопросе или найти какую-то специальную информацию по данной теме

  • известны ли Вам адреса ресурсов сети, с которых можно начать поиск
  • что вы уже знаете о проблеме, информацию о которой ищете
  • можете ли Вы предположить, с каких ключевых слов имеет смысл начать поиск
  • сколько времени Вы готовы потратить на поиск нужных данных

       От того, как именно поставлена  задача, во многом зависит и  стратегия поисковой деятельности, и выбор соответствующих поисковых  средств.

    Побудительной причиной осуществления информационного поиска является информационная потребностьвыраженная в форме информационного запроса 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

    2. История 

    Термин  «информационный поиск» был впервые  введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.

    Информационный поиск (англ. Information retrieval) — процесс нахождения, отбора и выдачи определенной заранее заданными признаками информации (в т.ч. - документов, их частей и/или данных) из массивов и записей любого вида и на любых носителях.

    Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет. У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Google, Яндекс и Рамблер.

    В зависимости от степени привлечения к информационному поиску технических средств и участия в нем человека различают: "ручной", "машинный" и "автоматизированный" информационный поиск. Последний может производиться в режиме диалога или пакетной обработки запросов. 
 
 
 
 
 
 
 
 

    3. Информационный поиск как процесс 

    Поиск информации представляет собой процесс  выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

    Процесс поиска включает последовательность операций, направленных на сбор, обработку и  предоставление необходимой информации заинтересованным лицам.

    В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;
  • определение совокупности возможных держателей информационных массивов (источников);
  • извлечение информации из выявленных информационных массивов;
  • ознакомление с полученной информацией и оценка результатов поиска.
 

3.1. Средства поиска информации 

    По  принципу организации и использования  средства поиска можно разделить  на каталоги (справочники, директории) и поисковые машины.

    Каталог

    Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.

    Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.

    Поисковые машины

    Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

    При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

    Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

    3.2. Основные методы поиска информации в Интернете

    Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

    1. Непосредственный  поиск с использованием  гипертекстовых ссылок:

    Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

    Хотя  этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу.

    Использование каталогов, классифицированных и тематических списков и всевозможных небольших  справочников также относится к этому виду поиска.

    2. Использование поисковых  машин

    Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом  последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

    Как правило, применение поисковых машин  основано на использовании ключевых слов, которые передаются поисковым  серверам в качестве аргументов поиска: что искать.

    Если  делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

    3. Поиск с применением  специальных средств

    Этот  полностью автоматизированный метод  может оказаться весьма эффективным  для проведения первичного поиска.

    Одна  из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.

    Фактически  это автоматизированный вариант  просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые  машины для построения своих индексных таблиц используют похожие методы).

    Нет нужды говорить, что результаты автоматического  поиска обязательно требуют последующей  обработки.

    Применение  данного метода целесообразно, если использование поисковых машин  не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин).

    В ряде случаев этот метод может  быть очень эффективен.

    Выбор между использованием спайдера или  поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

    4. Анализ новых ресурсов

    Поиск по новообразованным ресурсам может  оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

    Другой  возможной причиной может явиться  то, что большинство поисковых  машин обновляет свои индексы  со значительной задержкой, вызванной  гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема.

    Это соображение может оказаться  весьма существенным при проведении поиска в узкоспециальной предметной области. 

    3.3. Виды поиска 

    Полнотекстовый  поиск - поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

Информация о работе Информационный поиск как процесс