Автор: Пользователь скрыл имя, 22 Марта 2015 в 18:17, курсовая работа
В данной работе рассматривается вопрос формирования оперативного многомерного анализа данных (OLAP) в системах поддержки принятия решений. Рассматривается класс систем, учитывающих для формирования оптимальных решений изменяемые с течением времени факторы (оценки, риски, вероятности и др.).
В работе исследуются классические подходы построения подсистем многомерного анализа и выявляются их недостатки при применении к СППР рассматриваемого класса.
Список используемых сокращений
3
Введение
4
Глава 1. Аналитический обзор
5
1.1
Системы поддержки принятия решений (СППР)
5
1.1.1
Общая характеристика СППР
5
1.1.2
Классификация СППР
7
1.1.3
Архитектура СППР
8
1.2
Оперативный анализ данных (OLAP)
12
1.2.1
Общая характеристика OLAP-систем
12
1.2.2
Подходы к построению OLAP-систем
14
1.2.3
Многомерная модель OLAP-систем
17
1.2.4
Применение многомерного анализа данных в СППР
20
1.3
Особенности СППР в динамических системах
21
1.4
Выводы
22
Глава 2. Описание предложенного подхода
23
2.1
Характеристика подхода
23
2.2
Архитектура подхода
24
2.3
Выводы
26
Заключение
27
Список литературы
Подсистема метаинформации представляет собой описание структуры информационного хранилища: состав показателей, иерархий агрегации измерений, форматов данных, используемых функций, физического размещения на сервере, прав доступа пользователей, частоты обновления.
Подсистема представления данных (организация витрин данных) представляет собой предметно-ориентированное хранилище, как правило, агрегированной информации, предназначенное для использования группой пользователей в рамках конкретного вида деятельности (маркетинга, финансового менеджмента и др.).
Подсистема оперативного анализа данных (OLAP) используется лицами, подготавливающими информацию для принятия решений путем выполнения различных статистических группировок исходных данных (рис. 1.3) .
Рис. 1.3. Структура OLAP-системы
Подсистема интеллектуального анализа данных (Data Mining) используется специальной категорией пользователей-аналитиков, которые на основе информационных хранилищ обнаруживают закономерности в деятельности предприятия и на рынке, используемые в дальнейшем для обоснования стратегических или тактических решений.
Необходимость появления DM-технологии продиктована следующими обстоятельствами:
Ответом на поставленные вопросы стала технология, получившая название интеллектуальный анализ данных — процесс извлечения зависимостей из разнородных баз данных. В этом процессе центральное место занимает автоматическое порождение моделей, правил или функциональных зависимостей.
Подсистема «Информационная система руководителя» (EIS — Execution Information System) предназначена для лиц, непосредственно принимающих решения. В качестве интерфейса руководителям предлагается набор стандартных отчетов и графиков, настраиваемых на потребности руководителя через систему меню.
Таким образом, обоснование принятия решений в сфере экономики и бизнеса по выпуску новой и модернизации существующей продукции, расширению или сокращению финансово-хозяйственной деятельности предполагает широкое использование систем поддержки принятия управленческих решений на основе применения экономико-математических методов моделирования, экспертных систем, статистических методов прогнозирования и методов интеллектуального анализа данных.
1.2 Оперативный анализ данных (OLAP)
1.2.1 Общая характеристика OLAP-систем
OLAP – это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, обеспечивающих сбор, хранение, манипулирование и анализ многомерных данных.
Основная цель оперативного анализа данных – проверка аналитиками возникающих гипотез. Задача работы аналитика – нахождение закономерностей в больших массивах данных и формулировка выводов о текущем состоянии бизнеса.
В 1993 году Кодд сформулировал «12 принципов аналитической обработки в реальном времени» (см. табл.1):
Таблица 1. Принципы аналитической обработки в реальном времени
№ |
Принцип |
Описание |
1 |
Многомерное представление данных |
Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные. |
2 |
Прозрачность |
Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда они берутся. |
3 |
Доступность |
Средства должны сами выбирать и связываться с наилучшим для формирования ответа на данный запрос источником данных. Средства должны обеспечивать автоматическое отображение их собственной логической схемы в различные гетерогенные источники данных. |
4 |
Согласованная производительность |
Производительность практически не должна зависеть от количества Измерений в запросе. |
5 |
Поддержка архитектуры клиент-сервер |
Средства должны работать в архитектуре клиент-сервер. |
6 |
Равноправность всех измерений |
Ни одно из измерений не должно быть базовым, все они должны быть равноправными (симметричными). |
7 |
Динамическая обработка разреженных матриц |
Неопределенные значения должны храниться и обрабатываться наиболее эффективным способом. |
8 |
Поддержка многопользовательского режима работы с данными |
Средства должны обеспечивать возможность работать более чем одному пользователю. |
9 |
Поддержка операций на основе различных измерений |
Все многомерные операции должны единообразно и согласованно применяться к любому числу любых измерений. |
10 |
Простота манипулирования данными |
Средства должны иметь максимально удобный, естественный и комфортный пользовательский интерфейс. |
11 |
Развитые средства представления данных |
Средства должны поддерживать различные способы визуализации (представления) данных. |
12 |
Неограниченное число измерений и уровней агрегации данных |
Не должно быть ограничений на число поддерживаемых измерений. |
Требования к приложениям оперативного анализа данных:
Большинство из существующих OLAP-средств удовлетворяют всем этим требованиям. Однако в реализации подобных приложений возникает ряд проблем, прежде всего связанных с увеличением объёма данных, которые необходимо хранить.
1.2.2 Подходы к построению OLAP-подсистем
По аналогии с подходами построения клиент-серверных систем выделяют два подхода к построению OLAP-подсистем:
Подход, основанный на двухзвенной архитектуре (рис. 1.4) и подход, основанный на трёхзвенной архитектуре (рис. 1.5).
Рис. 1.4 Двухзвенная архитектура построения OLAP-подсистем
Рис. 1.5 Трёхзвенная архитектура построения OLAP-подсистем
OLAP-система, построенная на двухзвенной архитектуре, состоит из хранилища данных, настольной OLAP-системы и сети передачи данных между ними. Хранилище данных является источником входных данных для анализа. Структуры данных хранилища специальным образом оптимизированы для уменьшения времени обработки запросов, посылаемых настольной OLAP-системой. Настольная OLAP-система вычисляет и отображает анализируемые данные.
OLAP-система, построенная на трёхзвенной архитектуре, состоит из хранилищ данных, OLAP-клиента, OLAP-сервера и сети передачи данных между ними. Хранилище данных играет туже роль, что и в двухзвенной архитектуре. В отличие от предыдущего подхода, выделяются OLAP-сервер, отвечающий за вычисления анализируемых данных, и OLAP-клиент, отображающий анализируемые данные.
Сравним данные подходы:
Объем обрабатываемых данных. Объем данных определяется предметной областью анализируемых данных, а также количеством записей в хранилище данных. Как и настольная OLAP-система, так и OLAP-сервер, вынуждены кешировать данные в оперативной памяти для уменьшения количества запросов к хранилищу данных. Таким образом, объем данных, обрабатываемых настольной OLAP-системой и OLAP-сервером, находится в прямой зависимости от объема оперативной памяти. У серверов объём оперативной памяти больше, чем у пользовательских ПК, поэтому OLAP-сервер может обрабатывать большие объемы данных, чем настольная OLAP-система.
Производительность системы. Эта характеристика определяется следующими факторами: объемом обрабатываемых данных и мощностью компьютеров. При возрастании количества входных анализируемых данных производительность всех OLAP-систем снижается за счет значительного увеличения количества высчитываемых суммарных значений, но при этом темпы снижения разные. Продемонстрируем эту зависимость на графике (рис. 1.6):
Рис. 1.6 Зависимость времени отклика OLAP-системы от объема обрабатываемых данных
Скоростные характеристики OLAP-сервера менее чувствительны к росту объема данных. Это объясняется различными технологиями обработки запросов пользователей OLAP-сервером и настольной OLAP-системой. Например, при операции детализации OLAP-сервер обращается к хранимым данным и "вытягивает" данные этой "ветки", в то время как настольная OLAP-система вычисляет весь набор суммарных значений в момент загрузки.
Сетевой трафик. При использовании OLAP-сервера по сети на ПК OLAP-клиента передаются только данные для отображения, в то время как настольная OLAP-система получает весь объем данных первичной выборки. Поэтому там, где применяется настольные OLAP-системы, сетевой трафик будет выше. Но, при применении OLAP-сервера операции пользователя, например, детализация, порождают новые запросы к многомерной базе, а, значит, новую передачу данных. Выполнение же OLAP-операций настольной OLAP-системой производится в оперативной памяти и, соответственно, не вызывает новых потоков данных в сети. Также необходимо отметить, что современное сетевое оборудование обеспечивает высокий уровень пропускной способности.
1.2.3 Многомерная модель данных в OLAP-анализе
Многомерная модель данных – это расширение реляционной модели. В отличие от реляционной модели, где основным понятием является «отношение», в многомерной модели основным понятием является многомерный «куб» (нередко называемый также OLAP-кубом), который является обобщением реляционных таблиц на любое число измерений. Набор соответствующих кубов составляет многомерную базу данных.
Многомерная модель данных не рассчитана на частое выполнение транзакций, но очень удобна именно для анализа больших массивов данных. Она наиболее адекватна представлениям о предметной области, которыми оперирует аналитик.
Некоторые преимущества многомерной модели по сравнению с реляционной:
Многомерный куб представлен набором мер и измерений, а именно, куб — это декартовое произведение измерений, где для каждого элемента произведения проставлен набор мер.
Измерения куба – набор доменов, по которым создаётся многомерное пространство. Другими словами, измерение – это упорядоченный набор значений, соответствующий грани куба. Многомерное моделирование предусматривает использование измерений для предоставления максимальной информативности. В отличие от реляционных баз данных, контролируемая избыточность в многомерных базах данных считается оправданной, если она увеличивает информационную ценность.
Измерения используются для выбора и агрегирования данных на требуемом уровне детализации. Измерения организуются в иерархию, состоящую из нескольких уровней, каждый из которых представляет уровень детализации, требуемый для соответствующего анализа.
Многомерная модель данных предназначена для анализа информации. Единицей анализируемой информации считается когда-либо произошедший факт, т.е. факты представляют субъект — некий шаблон или событие, которые необходимо проанализировать. В большинстве многомерных моделей данных факты однозначно определяются комбинацией значений измерений. Факт существует только тогда, когда ячейка для конкретной комбинации значений не пуста. Каждый факт обладает некоторой гранулярностью, определенной уровнями, из которых создается их комбинация значений измерений.
Мера (или показатель) – это значение, которое однозначно определяется фиксированным набором измерений и количественно характеризует анализируемые факты.
Меры бывают трёх типов:
Многомерная база данных естественным образом предназначена для определенных типов запросов:
Запросы вида slice и dice (срезы куба) — формирование подмножества многомерного массива данных, соответствующего единственному значению одного или нескольких элементов измерений, не входящих в это подмножество. Если рассматривать термин slice с позиции конечного пользователя, то наиболее часто его роль играет двумерная проекция куба (рис. 1.7). Срез dice отличается от sliceтем, что это трёх- и более-мерная проекция куба.
Информация о работе Поддержка принятия решений в динамически изменяемых системах