Методы извлечения знаний

Автор: Пользователь скрыл имя, 17 Сентября 2013 в 12:10, курсовая работа

Краткое описание

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Специфика современных требований к такой переработке следующие:
данные имеют неограниченный объем;
данные являются разнородными (количественными, качественными, текстовыми);
результаты должны быть конкретны и понятны;

Оглавление

Введение 3
1 Методы извлечения знаний 5
2 Работа с экспертами и проблема извлечения знаний 18
3 Автоматизация извлечения знаний и формирования модели 23
4 Теоретические аспекты получения знаний 29
4.1 Психологический аспект 32
4.2 Лингвистический аспект 37
4.3 Гносеологический аспект 41
Заключение 47
Список литературы

Файлы: 1 файл

kurs_intell_tekhn.docx

— 894.47 Кб (Скачать)

СОДЕРЖАНИЕ

 

Введение                                                                                                              3

1 Методы извлечения знаний                                                                      5

2 Работа с экспертами и проблема извлечения знаний                             18

3 Автоматизация извлечения знаний и формирования модели                   23

4 Теоретические аспекты получения знаний                                                 29

4.1 Психологический аспект                                                                     32

4.2 Лингвистический аспект                                                                     37

4.3 Гносеологический аспект                                                                     41

Заключение                                                                                                   47

Список литературы                                                                                         48

 

 

 

 

 

 

 

ВВЕДЕНИЕ

 

Наступивший XXI век станет этапным для проникновения новых  информационных технологий и создаваемых на их основе высокопроизводительных компьютерных систем во все сферы человеческой деятельности - управление, производство, науку, образование и т.д. Конструируемые посредством этих технологий интеллектуальные компьютерные системы призваны усилить мыслительные способности человека, помочь ему находить эффективные решения так называемых плохо формализованных и слабоструктурированных задач, характеризующихся наличием различного типа неопределенностей и огромными поисковыми пространствами. Сложность таких задач усиливается зачастую необходимостью их решения в очень ограниченных временных рамках, например, при управлении сложными техническими объектами в аномальных режимах или при оперативном разрешении конфликтных (кризисных) ситуаций. Наибольшей эффективности современные интеллектуальные системы достигают при реализации их как интегрируемых систем, объединяющих различные модели и методы представления и оперирования знаниями, а также механизмы приобретения (извлечения) знаний из различных источников.

Понятие «управление знаниями»  родилось в середине 1990-х годов  в крупных корпорациях, где проблемы обработки информации приобрели  критический характер. Постепенно пришло понимание того, что знания — это фундаментальный ресурс, базирующийся на практическом опыте специалистов и на данных, существующих на конкретном предприятии.

Тема извлечения знаний привлекает внимание учёных как в Европе, так  и во всём мире. Изучением данной темы занимаются У. Файяд, Г. Пятетский-Шапиро, Т. Гаврилова, Л. Григорьев, П. Смит, Дж. Сейферт, В. Фроли, Ц. Матеус, Е. Монк, Б. Вагнер, С.Хааг и др.

Data Mining переводится как  «добыча» или «раскопка данных».  Нередко рядом с Data Mining встречаются  слова «обнаружение знаний в  базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

До начала 90-х годов  не было особой нужды переосмысливать  ситуацию в этой области. Все шло  своим чередом в рамках направления, называемого прикладной статистикой. Теоретики проводили конференции  и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками. Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания - они решали главным образом свои частные проблемы обработки небольших локальных баз данных.

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующие:

      • данные имеют неограниченный объем;
      • данные являются разнородными (количественными, качественными, текстовыми);
      • результаты должны быть конкретны и понятны;
      • инструменты для обработки сырых данных должны быть просты в использовании.

Целью работы является изучение различных методов извлечения знаний, теоретические аспекты и проблемы извлечений знаний.

1 Методы извлечения знаний

 

Многообразие задач, ситуаций и источников знаний обусловило появление  большого количества методов извлечения, приобретения и формирования знаний. Одна из возможных классификаций методов извлечения знаний приведена на рисунке 1, на первом уровне выделены два больших класса. Первый класс образуют коммуникативные методы, которые ориентированы на непосредственный контакт инженера по знаниям с экспертом (источником знаний), второй класс — текстологические методы, основанные на приобретении знаний из документов и специальной литературы.

 

Рисунок 1 - Классификация методов извлечения знаний

 

Коммуникативные методы. Они  разделяются на пассивные и активные. В пассивных методах ведущую  роль играет эксперт, в активных —  инженер по знаниям. При решении  конкретных задач, как правило, используются как пассивные, так и активные методы. Активные методы делятся на индивидуальные и групповые. В групповых методах знания получают от множества экспертов, в индивидуальных — от единственного эксперта. Индивидуальные методы получили более широкое применение на практике по сравнению с групповыми.

Пассивные коммуникативные  методы включают наблюдение, анализ протоколов «мыслей вслух», процедуры извлечения знаний из лекций.

Метод наблюдения является одним из наиболее применяемых на начальных этапах разработки экспертных систем. Его суть заключается в фиксировании всех действий эксперта, его реплик и объяснений. При этом аналитик не вмешивается в работу эксперта, а только наблюдает за процессом решения реальных задач либо за решением проблем, имитирующих реальные задачи. Наблюдения за процессом решения реальных задач позволяют инженеру по знаниям глубже понять предметную область. Однако эксперт в этом случае испытывает большое психологическое напряжение, понимая, что осуществляет не только свою профессиональную деятельность, но и демонстрирует ее инженеру по знаниям. Наблюдение за имитацией процесса снимает это напряжение, но приводит к снижению полноты и качества извлекаемых данных. Наблюдения за имитацией незаменимы в тех случаях, когда наблюдения за реальным процессом невозможны из-за специфики изучаемой предметной области,

Метод анализа протоколов «мыслей вслух» отличается от метода наблюдения тем, что эксперт не только комментирует свои действия, но и объясняет цепочку своих рассуждений, приводящих к решению. Основной проблемой, возникающей при использовании этого метода, является принципиальная сложность для любого человека словесного описания собственных мыслей и действий. Повысить полноту и качество извлекаемых знаний можно за счет многократного уточняющего протоколирования рассуждений эксперта.

Метод извлечения знаний из лекций предполагает, что эксперт  передает свой опыт инженеру по знаниям  в форме лекций. При этом инженер  по знаниям может заранее сформулировать темы лекций. Если этого не удается  сделать, то когнитолог конспектирует  лекции и задает вопросы. Качество информации, предоставленной экспертом в  ходе лекции, определяется четкостью  сформулированной темы, а также способностями лектора в структурировании и изложении своих знаний и рассуждений.

Сравнительные характеристики пассивных методов извлечения знаний приведены в таблице 1.

Одна из возможных классификаций  людей по психологическим характеристикам делит всех на три типа:

    • мыслитель (познавательный тип);
    • собеседник (эмоционально-коммуникативный тип);
    • практик (практический тип).

Мыслители ориентированы  на интеллектуальную работу, учебу, теоретические обобщения и обладают свойствами поленезависимости и рефлексивности. Собеседники — общительные, открытые люди, готовые к сотрудничеству. Практики предпочитают действия разговорам, хорошо реализуют замыслы других.

Таблица 1 - Сравнительные характеристики пассивных методов

извлечения знаний

Показатели 

Наблюдения 

«Мысли вслух» 

Лекции

Достоинства 

Отсутствие влияния аналитика  и его субъективной позиции. Максимальное приближение аналитика к предметной области. 

Свобода самовыражения для эксперта. Вербализация рассуждений. Отсутствие влияния аналитика и его субъективной позиции. 

Свобода самовыражения для  эксперта. Структурированное изложение. Высокая концентрация. Отсутствие влияния аналитика и его субъективной позиции.

Недостатки 

Отсутствие обратной связи. Фрагментарность полученных комментариев. 

Отсутствие обратной связи. Возможность ухода «в сторону» в рассуждениях эксперта. 

«Зашумленность» деталями. Слабая обратная связь.  Недостаток хороших лекторов среди экспертов-практиков.

Требования к эксперту (типы и основные качества) 

Собеседник или мыслитель (способность к вербализации мыслей, аналитический склад ума, открытость, рефлексивность).

Мыслитель (лекторские способности)

Требования к аналитику {типы и основные качества) 

Мыслитель (наблюдательность, поленезависимость) 

Мыслитель или собеседник (поленезависимост, способность к общению) 

Мыслитель (поленезависимость, способность к общению)

Характеристика предметной области 

Слабо- и среднеструктурированные, слабо- и среднедокументированные 

Слабоструктурированны, слабодокументированные


 

Предметные области отличаются уровнем документированности и  структурированности. Для характеристики предметной области по уровню документированности выделяют три класса: хорошо документированные, среднедокументированные и слабодокументированные области. По степени структурированности знаний предметные области могут быть:

  • хорошо структурированными (с четкой аксиоматизацией, широким применением математического аппарата, устоявшейся терминологией);
  • среднеструктурированными (с определившейся терминологией, развивающейся теорией, явными взаимосвязями между явлениями);
  • слабоструктурированными (с размытыми определениями, богатым эмпирическим материалом, скрытыми взаимосвязями).

Активные индивидуальные методы включают методы анкетирования, интервьюирования, свободного диалога и игры с экспертом. Сравнительный анализ методов данной группы приведен в таблице 2.

Преимуществом методов анкетирования  является то, что анкета или вопросник составляются инженером по знаниям заранее и используются для опроса экспертов. Составление анкеты следует проводить с учетом рекомендаций, выработанных в социологии и психологии. Основными требованиями к анкетам являются следующие:

  1. Анкета не должна быть монотонной и однообразной, чтобы не вызывать скуку или усталость. Для этого необходимо разнообразить тематику и форму задания вопросов, включить вопросы-шутки и применить стиль игры.
  2. Анкета должна быть приспособлена к языку эксперта.
  3. Следует учитывать, что вопросы влияют друг на друга, поэтому важно расположить их в правильной последовательности.
  4. В анкете должно содержаться оптимальное число избыточных вопросов, часть которых предназначена для контроля правильности ответов, а другая часть — для снятия напряжения.

Метод интервьюирования отличается от метода анкетирования тем, что  позволяет аналитику опускать ряд  вопросов в зависимости от ситуации, вставлять новые вопросы в анкету, изменять темы и разнообразить ситуацию общения. Важную роль в методе интервьюирования играют вопросы, классификация которых показана на рисунке 2.

Открытый вопрос называет тему или предмет, оставляя эксперту полную свободу в отношении формы  и содержания ответа. Закрытый вопрос предлагает эксперту выбрать ответ  из предложенного набора.

Информация о работе Методы извлечения знаний