Методы извлечения знаний

Автор: Пользователь скрыл имя, 17 Сентября 2013 в 12:10, курсовая работа

Краткое описание

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Специфика современных требований к такой переработке следующие:
данные имеют неограниченный объем;
данные являются разнородными (количественными, качественными, текстовыми);
результаты должны быть конкретны и понятны;

Оглавление

Введение 3
1 Методы извлечения знаний 5
2 Работа с экспертами и проблема извлечения знаний 18
3 Автоматизация извлечения знаний и формирования модели 23
4 Теоретические аспекты получения знаний 29
4.1 Психологический аспект 32
4.2 Лингвистический аспект 37
4.3 Гносеологический аспект 41
Заключение 47
Список литературы

Файлы: 1 файл

kurs_intell_tekhn.docx

— 894.47 Кб (Скачать)

Концептуальная модель (КМ) производства.

Модель  является базисом для построения прогнозирующей модели. В состав ее входит: совокупность эвристических правил на множестве факторов, оказывающих непосредственное или опосредованное влияние как на условия протекания процесса, так и на сам процесс. Факторы условно делятся на описатели и действия. Описателями названа группа факторов, характеризующих различные аспекты процесса. Действиями названы факторы, способные изменить состояние процесса. Однако следует отметить, что существует целый ряд факторов, однозначно не классифицируемых.

Каждое  правило в общем случае представляет совой эвристическую зависимость следующего вида:

Если <фактор-1> = <значение-1> И <фактор-2> = <значение-2> И..

Тогда <фактор - следствие) = (увеличивается/уменьшается)

ДОСТОВЕРНОСТЬ (число из диапазона 0...100>

Каждому такому правилу приписывается некоторый  вес (число в диапазоне 0... 100), означающий степень уверенности экспертов в реальном существовании и действенности данного правила. Конкретные веса всех правил в модели определяются методом опроса экспертов и уточняются в процессе отладки модели и эксплуатации системы.

Последними  из рассматриваемых компонентов  КМ производства являются показатели стабильности факторов-описателей, измеряемые числом из диапазона 0 ... 100 и показывающие, какой процент от начального уровня будет составлять уровень данного фактора в конце периода прогнозирования при отсутствии всех влияющих воздействий. Так, значение стабильности 80% означает, что уровень данного фактора к концу прогнозируемого периода будет составлять 80% уровня в начале периода при отсутствии всех влияющих воздействий.

Для формализации знаний о процессе за основу взята  модель, описанная выше. Все правила  делятся на два типа: повышающие и понижающие уровень фактора-следствия. Если правила сгруппировать по факторам-следствиям, то получим пакеты правил, являющиеся подмоделями исходной модели и описывающие динамику одного конкретного фактора в зависимости от других факторов. Примером пакета правил может служить совокупность правил, влияющих на ритмичность работы подсистемы сборки агрегатов.

Для выполнения операций увеличения и уменьшения необходимо каждому фактору поставить в соответствие непрерывное или дискретное множество значений. В системе в качестве метрики для всех факторов выбран непрерывный интервал 0 ... 100. Такое шкалирование легко воспринимается экспертами как естественная (процентная) шкала. Однако экспертам-авторам знаний и экспертам-пользователям (поставщикам исходной информации) зачастую бывает удобно пользоваться лингвистическими значениями типа «мало», «много», «около...» и т. д. Для манипулирования подобными значениями предложено строить функции принадлежности на том же универсальном множестве [0, 100].

При прогнозировании  развития ситуации по одному из факторов (т. е. при учете одного пакета правил), как уже было сказано выше, существуют причины, повышающие уровень данного фактора, и причины, понижающие его уровень. В связи с этим в системе использован механизм порождения гипотез двух типов: гипотезы о повышении уровня данного фактора и гипотезы о понижении его уровня. Каждая гипотеза во время своего возникновения (при условии наличия причин, порождающих эту гипотезу) имеет степень своей истинности, зависящую от степени выполнения порождающих причин, т. е. степени «срабатывания» данных правил. Значения истинности вырабатываются на непрерывной шкале [0, 1]; 0 - абсолютно ложно, 1 - абсолютно истинно.

Например, существует правило, что выход из строя линии механической обработки (без наличия резервных мощностей) уменьшает выход собранных агрегатов  в подсистеме сборки агрегатов, причем достоверность этого правила  равна 60%. Пусть далее в качестве исходной информации задано, что уровень  выхода из строя одной из линий  механической обработки равен 70. Тогда  будет порождена гипотеза об увеличении уровня ситуации, связанной с уменьшением  выхода собранных агрегатов со степенью истинности 60*70/100 (%)=42%=0,42.

Для вычисления итогового прогнозируемого уровня в системе используются две формулы учета гипотез. Первая формула эквивалентна формуле условной вероятности Шортлиффа, с ее помощью осуществляется пересчет итогового прогнозируемого уровня для гипотез, повышающих уровень данного фактора:

                                  С=С0+е*(100-С0)                                                        (1)

Здесь Со — текущий уровень (из интервала [0, 100]); е — степень истинности очередной гипотезы (из интервала [0, 1]); С — результирующий уровень (из интервала [0, 100]).

Аналогично  для гипотез, понижающих уровень  данного фактора, используется формула

                                С=С0*(1-е)                                                              (2)

Как видно  из приведенных выше формул, они  не взаимно симметричны в том  смысле, что в зависимости от порядка, в котором эти две формулы  применяются, результат будет различным. Для учета этой асимметрии все связи из пакета правил, повышающие уровень данного фактора, «активизируются» раньше связей, понижающих его уровень. Таким образом, в начале порождаются все гипотезы о повышении (и действует формула (1)), затем — все гипотезы о понижении (и действует формула (2)).

Итак, каждый пакет правил имеет четыре компонента: 1) правило, отражающее самодинамику фактора-следствия (стабильность); 2) группу правил, порождающих гипотезы об увеличении уровня фактора-следствия; 3) группу правил, порождающих гипотезы об уменьшении уровня фактора-следствия; 4) два правила, содержащих формулы учета гипотез (1) и (2).

Как известно, в экспертных системах знания, описывающие  предметную область, как правило, вынесены за пределы основного программного текста и составляют качественно  самостоятельный элемент - базу знаний. Если содержимое БЗ поддается единообразной структуризации и может быть унифицировано, то появляется возможность автоматизировать процесс извлечения знаний и формирования модели, что очень важно при БЗ с большим числом правил.

Так как  все правила описанной модели имеют неизменную и переменную части, задача автоматизации заключается  в том, чтобы избавить пользователя от избыточного ввода повторяющихся  частей, исключить ошибки и упростить  процесс ввода переменных частей правил.

Специальная программа с  помощью запросов позволяет вводить  переменные части правил. Чтобы процесс ответа на запросы не был трудоемким и во избежание ошибок при вводе компонентов, имеющих фиксированный список значений, на экране высвечивается набор возможных ответов («меню»). При этом пользователь имеет возможность посредством клавиш управления курсором выбрать из них нужный и нажатием клавиши «ВВОД» подтвердить его. При запросах, на которые требуется ответ в цифрах, программа проверяет значение по граничным условиям и предупреждает ошибки звуковым сигналом. На верхней строке экрана всегда высвечивается полное название рассматриваемого фактора, для которого генерируется пакет правил. Следует отметить, что для удобства все факторы пронумерованы числами натурального ряда.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4 ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ПОЛУЧЕНИЯ ЗНАНИЙ

 

Существует несколько  стратегий получения знаний. Наиболее распространенные:

∙ приобретение;

∙ извлечение;

∙ формирование.

Под приобретением знаний понимается способ автоматизированного  построения базы знаний посредством диалога эксперта и специальной программы (при этом структура знаний заранее закладывается в программу). Эта стратегия требует существенной предварительной проработки предметной области. Системы приобретения знаний действительно приобретают готовые фрагменты знаний в соответствии со структурами, заложенными разработчиками систем. Большинство этих инструментальных средств специально ориентировано на конкретные экспертные системы с жестко обозначенной предметной областью и моделью представления знаний, т.е. не являются универсальными. Например, система TEIRESIAS, ставшая прародительницей всех инструментариев для приобретения знаний, предназначена для пополнения базы знаний системы MYCIN или ее дочерних ветвей, построенных на "оболочке" EMYCIN в области медицинской диагностики с использованием продукционной модели представления знаний.

Термин извлечение знаний касается непосредственного живого контакта инженера по знаниям и источника  знаний. Авторы склонны использовать этот термин как более емкий и  более точно выражающий смысл  процедуры переноса компетентности эксперта через инженера по знаниям в базу знаний экспертной системы.

Термин формирование знаний традиционно закрепился за чрезвычайно  перспективной и активно развивающейся  областью инженерии знаний, которая  занимается разработкой моделей, методов  и алгоритмов анализа данных для  получения знаний и обучения. Эта область включает индуктивные модели формирования гипотез на основе обучающих выборок, обучение по аналогии и другие методы.

Таким образом, можно выделить три стратегии проведения стадии получения знаний при разработке экспертных систем (рисунок 4).

На современном этапе  разработки экспертных систем в нашей  стране стратегия извлечения знаний, по-видимому, является наиболее актуальной, поскольку промышленных систем приобретения и формирования знаний на отечественном рынке программных средств практически нет.

Извлечение знаний - то процедура  взаимодействия эксперта с источником знаний, в результате которой становятся явными процесс рассуждений специалистов при принятии решения и структура их представлений о предметной области.

 

Рисунок 4 - Три стратегии получения знаний

В настоящее время большинство  разработчиков экспертных систем отмечают, что процесс извлечения знаний остается самым "узким" местом при построении промышленных систем.

Процесс извлечения знаний - это длительная и трудоемкая процедура, в которой инженеру по знаниям, вооруженному специальными знаниями по когнитивной психологии, системному анализу, математической логике и пр., необходимо воссоздать модель предметной области, которой пользуются эксперты для принятия решения. Часто начинающие разработчики экспертных систем, желая избежать этой мучительной процедуры, задают вопрос: может ли эксперт сам извлечь из себя знания? По многим причинам это нежелательно.

Во-первых, большая часть  знаний эксперта - это результат  многочисленных наслоений, ступеней опыта. И часто зная, что из А следует В, эксперт не дает себе отчета, что цепочка его рассуждении была гораздо длиннее, например С ≈>D, D ≈> А, А ≈> В, или А ≈> Q,,═ Q->R,═R->B.

Во-вторых, как было известно еще древним (вспомним "Диалоги" Платона), мышление диалогично. И поэтому диалог инженера по знаниям и эксперта - наиболее естественная форма "раскручивания" лабиринтов памяти эксперта, в которых хранятся знания, частью носящие невербальный характер, т.е. выраженные не в форме слов, в форме наглядных образов, например. Именно в процессе объяснения инженеру по знаниям эксперт на эти размытые ассоциативные образы надевает четкие словесные ярлыки, т.е. вербализует знания.

В-третьих, эксперту гораздо  труднее создать модель предметной области вследствие той глубины  и необозримости информации, которой  он обладает. Многочисленные причинно-следственные связи реальной предметной области  образуют сложную систему, из которой  выделить "скелет", или главную  структуру, иногда доступнее аналитику, владеющему к тому же системной методологией. Любая модель - это упрощение, а упрощать легче с меньшим знанием деталей.

Чтобы разобраться в природе  извлечения знаний, выделим три основных аспекта этой процедуры (рисунок 5): психологический, лингвистический, гносеологический.

 

Рисунок 5 - Основные аспекты извлечения знаний

 

 

    1. ПСИХОЛОГИЧЕСКИЙ АСПЕКТ

 

Из трех выделенных аспектов извлечения знаний психологический  является, по-видимому, главным, поскольку он определяет успешность и эффективность взаимодействия инженера по знаниям (аналитика) с основным источником знаний - экспертом - профессионалом. Мы выделяем психологический аспект еще и потому, что извлечение знаний происходит чаше всего в процессе непосредственного общения разработчиков системы.

Стремление и умение общаться могут характеризовать степень  профессионализма инженера по знаниям.

Известно, что потери информации при разговорном общении велики (рисунок 6). В связи с этим рассмотрим проблему увеличения информативности общения аналитика и эксперта за счет использования психологических знаний.

 

           Инженер по знаниям                             Эксперт

Рисунок 6 - Потери информации при общении

 

 

Рисунок 7 - Структура психологического аспекта извлечения знаний

 

Мы можем предложить такую  структурную модель общения при  извлечении знаний:

∙ участники общения (партнеры);

∙ средства общения (процедура);

∙ предмет общения (знания).

В соответствии с этой структурой выделим три "слоя" психологических  проблем, возникающих при извлечении знаний (рисунок 7), и последовательно рассмотрим их.

Контактный слой

Практически все психологи  отмечают, что на любой коллективный процесс влияет атмосфера, возникающая в группе участников. Существуют эксперименты, результаты которых неоспоримо говорят, что дружеская атмосфера в коллективе больше влияет на результат, чем индивидуальные способности отдельных членов группы. Особенно важно, чтобы в коллективе разработчиков складывались кооперативные, а не конкурентные отношения. Для кооперации характерна атмосфера сотрудничества, взаимопомощи, заинтересованности в успехах друг друга, т.е. уровень нравственного общения, а для отношений конкурентного типа - атмосфера индивидуализма и межличностного соперничества (более низкий уровень общения).

Информация о работе Методы извлечения знаний