Методы извлечения знаний

Автор: Пользователь скрыл имя, 17 Сентября 2013 в 12:10, курсовая работа

Краткое описание

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Специфика современных требований к такой переработке следующие:
данные имеют неограниченный объем;
данные являются разнородными (количественными, качественными, текстовыми);
результаты должны быть конкретны и понятны;

Оглавление

Введение 3
1 Методы извлечения знаний 5
2 Работа с экспертами и проблема извлечения знаний 18
3 Автоматизация извлечения знаний и формирования модели 23
4 Теоретические аспекты получения знаний 29
4.1 Психологический аспект 32
4.2 Лингвистический аспект 37
4.3 Гносеологический аспект 41
Заключение 47
Список литературы

Файлы: 1 файл

kurs_intell_tekhn.docx

— 894.47 Кб (Скачать)

К сожалению, прогнозировать совместимость в общении со 100%-ной  гарантией невозможно. Однако можно выделить ряд черт личности, характера и других особенностей участников общения, несомненно, оказывающих влияние на эффективность процедуры. Знание этих психологических закономерностей составляет часть багажа психологической культуры, которым должен обладать инженер по знаниям для успешного проведения стадии извлечения знаний:

    • доброжелательность и дружелюбие;
    • чувство юмора;
    • хорошая память и внимание;
    • наблюдательность;
    • воображение и впечатлительность;
    • большая собранность и настойчивость;
    • общительность и находчивость;
    • аналитичность;
    • располагающая внешность и манера одеваться;
    • уверенность в себе.

Процедурный слой

Инженер по знаниям, успешно  овладевший наукой доверия и взаимопонимания с экспертом (контактный слой), должен еще уметь воспользоваться благоприятным воздействием этой атмосферы. Проблемы процедурного слоя касаются проведения самой процедуры извлечения знаний. Здесь мало проницательности и обаяния, полезного для решения проблемы контакта, тут необходимы профессиональные знания.

Остановимся на общих закономерностях  проведения процедуры.

Беседу с экспертом  лучше всего проводить в небольшом  помещении tete-a-tete. Освещение, тепло, уют  влияют непосредственно на настроение. Чай или кофе создадут дружескую  атмосферу. Американский психолог И.Атватер  считает, что для делового общения наиболее благоприятная дистанция от 1,2 до 3 м. Минимальным "комфортным" расстоянием можно считать 0,7 - 0,8 м.

Реконструкция собственных  рассуждений - нелегкий труд, и поэтому  длительность одного сеанса обычно не превышает 1,5 - 2ч. Эти два часа лучше  выбрать в первой половине дня (например, с 10 до 12 ч). Известно, что взаимная утомляемость партнеров при беседе наступает обычно через 20 - 25 мин, поэтому в сеансе нужны паузы.

Любой инженер по знаниям  имеет свою уникальную манеру разговора. Одни говорят быстро, другие медленно; одни громко, другие тихо и т.д. Стиль  разговора изменить практически  невозможно - он закладывается в  человеке в раннем детстве. Однако извлечение знаний - это профессиональный разговор, и на его успешность влияет также  длина фраз, которые произносит инженер  по знаниям.

Этот факт был установлен американскими учеными - лингвистом Ингве и психологом Миллером. Оказалось, что человек лучше всего воспринимает предложения глубиной (или длиной) 7 плюс-минус 2 слова. Это число (7╠2) получило название число Ингве-Миллера. Можно  считать его мерой "разговорности" речи.

Необходимость фиксации процедуры  извлечения знаний ни у кого не вызывает сомнений. Встает вопрос: в какой форме это делать? Можно предложить три способа протоколирования результатов:

∙ запись, на бумагу непосредственно  по ходу беседы (недостатки - это часто  мешает беседе, кроме того, трудно успеть записать все, даже при наличии навыков  стенографии);

∙ магнитофонная запись, помогающая аналитику проанализировать весь ход сеанса и свои ошибки (недостаток - может сковывать эксперта);

∙ запоминание с последующей  записью после беседы (недостаток - годится только для аналитиков с блестящей памятью).

Когнитивный слой

Когнитивная психология (англ. cognition - познание) изучает механизмы, при помощи которых человек познает  окружающий мир.

Предложим несколько советов  инженеру по знаниям с позиций  когнитивной психологии:

∙ не навязывать эксперту ту модель представления, которая ему (аналитику) более понятна и естественна;

∙ использовать различные  методы работы с экспертом исходя из условия, что метод должен подходить  к эксперту, как "ключ к замку";

∙ четко осознавать цель процедуры извлечения или ее главную  стратегию, которая может быть определена как выявление основных понятий  предметной области и связывающих  их отношений;

∙ чаще рисовать схемы, отображающие рассуждения эксперта. Это связано с образной репрезентацией информации в памяти человека.

Материал, изложенный выше, тесно связан с азами психологической  культуры, которая включает понимание  и знание себя и других людей; адекватную самооценку и оценку других людей; саморегулирование психического состояния. Овладеть этой культурой легче с помощью специалистов - психологов, психотерапевтов, но можно самостоятельно с помощью книг, хотя бы популярных. Кроме этого успешному преодолению психологических неудач способствует овладение основами актерского мастерства и участие в специальных занятиях по социально-психологическому видеотренингу.

В заключение приведем ряд  традиционных психологических неудач начинающего аналитика:

    • отсутствие контакта между экспертом и инженером по знаниям (из-за психологических особенностей того или другого; ошибок в процедуре; возникновения эффекта "фасада", т.е. желания эксперта "показать себя");
    • отсутствие понимания (из-за эффекта "проекции", т.е. переноса взгляда аналитика на взгляды эксперта; или эффекта "порядка", т.е. концентрации внимания в первую очередь на том, что высказывается вначале, и др.);
    • низкая эффективность бесед (слабая мотивация эксперта, т.е. отсутствие у него интереса; или неудачный темп беседы; или неподходящая форма вопросов; или неудовлетворительные ответы эксперта).

 

 

    1. ЛИНГВИСТИЧЕСКИЙ АСПЕКТ

 

Поскольку процесс общения  инженера по знаниям и эксперта - это языковое общение, рассмотрим лингвистический аспект инженерии знаний. Выделим три слоя важных для инженерии, знаний лингвистических проблем (рисунок 8).

 

 

Рисунок 8 - Структура лингвистического аспекта извлечения знаний

Проблема общего кода

Большинство психологов и  лингвистов считают, что язык - это  основное средство мышления наряду с  другими знаковыми системами "внутреннего  пользования". Языки, на которых говорят и размышляют аналитик и эксперт, могут существенно отличаться.

Итак, нас интересуют два  языка - язык аналитика, состоящий из трех компонентов:

∙ терминов предметной области, которые он почерпнул из специальной  литературы в период подготовки;

∙ общенаучной терминологии из его "теоретического багажа";

∙ бытового разговорного языка, которым пользуется аналитик; и язык эксперта, состоящий:

∙ из специальной терминологии, принятой в предметной области;

∙ общенаучной терминологии; бытового языка;

∙ неологизмов, созданных  экспертом за время работы (его профессиональный жаргон).

Если считать, что бытовой  и общенаучный языки у двух участников общения примерно совпадают, то некоторый общий язык, или код, который необходимо выработать партнерам для успешного взаимодействия, будет складываться из потоков (рисунок 9). В дальнейшем этот общий код преобразуется в некоторую понятийную (семантическую) сеть, которая является прообразом поля знаний предметной области.

Рисунок 9 - Схема получения общего кода

Выработка общего кода начинается с выписывания аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла. Фактически это составление словаря предметной области. Затем следуют группировка терминов и выбор синонимов (слов, означающих одно и то же). Разработка общего кода заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, т.е. по понятийной близости (это уже первый шаг структурирования знаний).

Рисунок 10 дает представление о неоднозначности интерпретации терминов двумя специалистами. В семиотике, науке о знаковых системах, проблема интерпретации является одной из центральных. Интерпретация связывает "знак" и "означаемый предмет". Только в интерпретации знак получает смысл. Так, слова "прибор X" для эксперта означают некоторую конкретную схему, которая соответствует схеме оригинала прибора, а в голове начинающего аналитика слова "прибор X" вызывают пустой образ или некоторый "черный ящик" с ручками.

 

Рисунок 10 - Неоднозначность проблемы интерпретации

Понятийная структура

Большинство специалистов по искусственному интеллекту и когнитивной  психологии считают, что основная особенность  естественного интеллекта и памяти в частности - это связанность всех понятий в некоторую сеть. Поэтому для разработки базы знаний нужен не словарь, а энциклопедия, в которой все термины объяснены в словарных статьях со ссылками на другие термины.

Таким образом, лингвистическая  работа инженера по знаниям на данном слое проблем заключается в построении таких связанных фрагментов с  помощью "сшивания" терминов. При тщательной работе аналитика и эксперта в понятийных структурах начинает проглядывать иерархия понятий, что в общем согласуется с результатами когнитивной психологии.

Иерархия понятий - это  глобальная схема, которая может  быть в основе концептуального анализа  структуры знаний любой предметной области.

Следует подчеркнуть, что  работа по составлению словаря и  понятийной структуры требует лингвистического "чутья", легкости манипулирования  терминами и богатого словарного запаса инженера по знаниям, так как зачастую аналитик вынужден самостоятельно разрабатывать словарь признаков. Чем богаче и выразительнее общий код, тем полнее база знаний.

Аналитик вынужден все  время помнить о трудности  передачи образов и представлений  в вербальной форме. Часто инженеру по знаниям приходится подсказывать слова и выражения эксперту.

Словарь пользователя

Лингвистические результаты, соотнесенные со слоями общего кода и  понятийной структуры, направлены на создание адекватной базы знаний. Однако не следует забывать, что профессиональный уровень конечного пользователя может не позволить ему применить специальный язык предметной области в полном объеме. Для разработки пользовательского интерфейса необходима дополнительная доработка словаря общего кода с поправкой на доступность и "прозрачность" системы.

В заключение перечислим характерные  лингвистические неудачи, подстерегающие начинающего инженера по знаниям:

∙ разговор на разных языках (из-за слабой подготовки инженера по знаниям);

∙ несоотнесение с контекстом и неадекватная интерпретация терминов (из-за отсутствия обратной связи, т.е. слишком независимой работы инженера по знаниям);

∙ отсутствие отличий между  общим кодом и языком пользователя (не учтены различия в уровне знаний эксперта и пользователя).

 

 

    1. ГНОСЕОЛОГИЧЕСКИЙ АСПЕКТ

 

Гносеология - это раздел философии, связанный с теорией  познания, или теорией отражения  действительности в сознании человека.

Инженерия знаний как наука, если можно так выразиться, дважды гносеологична - действительность (О) сначала отражается в сознании эксперта (М1), а затем деятельность и опыт эксперта интерпретируются сознанием инженера по знаниям (M2), что служит уже основой для построения третьей интерпретации (Pz) - поля знаний экспертной системы (рисунок 11). Процесс познания в сущности направлен на создание внутреннего представления окружающего мира в сознании человека.

Рисунок 11 - Гносеологический аспект извлечения знаний

В процессе извлечения знаний аналитика в основном интересует компонент знания, связанный с неканоническими индивидуальными знаниями экспертов, поскольку предметные области именно с таким типом знаний считаются наиболее восприимчивыми к внедрению экспертных систем. Эти области обычно называют эмпирическими, так как в них накоплен большой объем отдельных эмпирических фактов и наблюдений, в то время как их теоретическое обобщение - вопрос будущего.

Познание всегда связано  с созданием новых понятий  и теории. Интересно, что часто эксперт как бы "на ходу" порождает новые знания, прямо в контексте беседы с аналитиком. Такая генерация знаний может быть полезна и самому эксперту, который до того момента мог не осознавать ряд соотношений и закономерностей предметной области. Аналитику, который является "повитухой" при рождении нового знания, может помочь тут и инструментарий системной методологии, позволяющий использовать известные принципы логики научных исследований, понятийной иерархии науки. Эта методология заставляет его за частным увидеть общее, т.е. строить цепочки:

ФАКТ═ - >═ ОБОБЩЕННЫЙ ФАКТ═ - > ЭМПИРИЧЕСКИЙ ЗАКОН═ - > ТЕОРЕТИЧЕСКИЙ  ЗАКОН.

Не всегда инженер по знаниям  дойдет до последнего звена этой цепочки, но уже само стремление к движению бывает чрезвычайно плодотворным. Такой  подход полностью согласуется со структурой самого знания, которое  имеет два уровня:

    1. эмпирический (наблюдения, явления);
    2. теоретический (законы, абстракции, обобщения).

Критерии научного знания

Теория - это не только стройная система обобщения научного знания, это также некоторый способ производства новых знаний. Основными методологическими критериями научности, позволяющими считать научным и само новое знание, и способ его получения являются:

Информация о работе Методы извлечения знаний