Виды информационных хранилищ

Автор: Пользователь скрыл имя, 09 Марта 2011 в 22:56, реферат

Краткое описание

Предметом концепции хранилища данных служат сами данные, т.е. целью здесь являются не способы описания и отображения объектов предметной области, а собственно данные как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационных систем. Цель реферата состоит в изучении видов информационных хранилищ.

Файлы: 1 файл

Виды информационных хранилищ.doc

— 59.50 Кб (Скачать)

Министерство  образования Российской Федерации

Федеральное агентство по образованию

Государственное образовательное учреждение высшего  профессионального образования

«Новгородский государственный университет имени  Ярослава Мудрого» 
 
 
 

Политехнический колледж 
 

Технические средства информатизации

Реферат на тему:

«Виды информационных хранилищ»

                                                                                                          
 

                  Выполнил

студент группы 92361:

Герасимов Максим 
 
 

Проверил  преподаватель

Савинова  М.А.

                     «1» марта 2011 года 

ВВЕДЕНИЕ

     На  сегодняшний день существует масса  источников информации об хранилище  данных - это и книги и видео  лекции и электронные учебники, и  множество статей помогающих в освоении этого нелегкого дела сопровождения и администрирования хранилище данных.   Хранилище данных (Data Warehouse) по сути представляет собой центр, в который собирается вся необходимая информация из различных подразделений предприятия. Прежде чем попасть в хранилище, данные должны быть соответствующим образом обработаны. БД, в которых происходит накопление, обработка первичных данных, на основании которых строится хранилище, будем далее называть транзакционными. Разные отделы могут использовать неодинаковые системы обработки со своими транзакционными БД. Соответственно, прежде чем использовать эти разрозненные данные, их нужно проанализировать. Этот процесс занимает весьма длительный период в процессе подготовки к созданию хранилища.  В хранилище данных включены, средства повышения быстродействия и доступности, позволяющие распределить нагрузку и обеспечить бесперебойную работу, функции для улучшения управления и настройки, снижающие совокупную стоимость владения. Кроме того, хранилище данных полностью использует все возможности операционной системы Windows, а также другие ОС.         При построении хранилища данных важную роль играют программные средства извлечения, преобразования и очистки данных. Предметом концепции хранилища данных служат сами данные, т.е. целью здесь являются не способы описания и отображения объектов предметной области, а собственно данные как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационных систем.         Цель реферата состоит в изучении видов информационных хранилищ.

     Достижение  цели вызвало решение следующих  задач: 1) рассмотреть понятие «информационное  хранилище»; 2) проанализировать виды информационных хранилищ;          Методы написания реферата: реферирование, анализ списка литературы, составление библиографии. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

          1 ПОНЯТИЕ «ИНФОРМАЦИОННОЕ ХРАНИЛИЩЕ»

     Информационные  системы масштаба предприятия, как  правило, содержат приложения, предназначенные  для комплексного многомерного анализа данных, их динамики, тенденций и т.п. Такой анализ в конечном итоге призван содействовать принятию решений. Нередко эти системы так и называются - системы поддержки принятия решений.    Принять любое управленческое решение невозможно не обладая необходимой для этого информацией, обычно количественной. Для этого необходимо создание хранилищ данных (Data warehouses), то есть процесс сбора, отсеивания и предварительной обработки данных с целью предоставления результирующей информации пользователям для статистического анализа (а нередко и создания аналитических отчетов).  Концепция DW была предложена в 1990 г. Б. Инмоном и стала одной из доминирующих в разработке информационных технологий обработки данных 90-х годов. Появление этой концепции было следствием неявного осознания того факта, что существует два основных функционально различных класса систем обработки информации.     Первый базируется на обработке текущего потока транзакций и предоставляет текущий или охватывающий небольшой временной период снимок информации. Второй основан на сборе и подготовке большого по объему и временному периоду (от 5 лет) массива значимой информации, предназначенного для проведения анализа данных. Развитие концепции DW позволило провести границы между этими двумя типами систем. В русском языке термин «Data Warehouse» переводится двояко: как хранилище данных и как информационное хранилище. Однако термин «Information warehouse» был введен корпорацией IBM в начале 80-х годов и, по утверждению ее специалистов, означает нечто большее, чем DW по Инмону. Поэтому целесообразно пользоваться общепринятым термином «хранилище данных», хотя он несколько хуже передает суть концепции.

     Согласно  классическому определению Б. Инмона, DW есть предметно ориентированный, интегрированный, неизменный, поддерживающий хронологию набор данных, предназначенный для поддержки принятия решений. Следует отметить, что в этом определении соединены две различные функции: а) сбор, организация и подготовка данных для анализа в виде постоянно наращиваемой базы данных; б) собственно анализ как элемент принятия решений. Принятие решений в качестве сферы применения DW существенно сужает определение. Если в определении оставить лишь анализ (как элемент научных, технологических и экологических систем), круг использования данной концепции может быть значительно расширен. Очень важен основной принцип действия DW: единожды занесенные в DW данные затем многократно извлекаются из него и используются для анализа. Отсюда вытекает одно из основных преимуществ использования DW в работе предприятия - контроль за критически важной информацией, полученной из различных источников, как за производственным ресурсом.  Отметим, что наиболее уязвимым местом использования DW на предприятии, с точки зрения бизнеса, является корректность его данных, полученных из разных источников. Данные перед загрузкой в DW должны быть либо «очищены от шума», либо обработаны методами нечеткой логики, допускающей наличие противоречивых фактов. Например, данные о предприятии-партнере могут быть получены от разных экспертов, чьи оценки порой бывают диаметрально противоположными.     Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал хранилище данных как «место, где люди могут получить доступ к своим данным».           Он же сформулировал и основные требования к хранилищам данных:

  • поддержка высокой скорости получения данных из хранилища;
  • поддержка внутренней непротиворечивости данных;
  • возможность получения и сравнения так называемых срезов данных (slice and dice);
  • наличие удобных утилит просмотра данных в хранилище;
  • полнота и достоверность хранимых данных;
  • поддержка качественного процесса пополнения данных.

     Удовлетворять всем перечисленным требованиям  в рамках одного и того же продукта зачастую не удается. Поэтому для  реализации хранилищ данных обычно используется несколько продуктов, одни их которых представляют собой собственно средства хранения данных, другие - средства их извлечения и просмотра, третьи - средства их пополнения и т.д.  Хранилище данных представляет собой банк данных определенной структуры, содержащий информацию о производственном процессе компании в историческом контексте. Главное назначение хранилища - обеспечивать быстрое выполнение произвольных аналитических запросов. Типичное хранилище данных, как правило, отличается от обычной реляционной базы данных. Во-первых, обычные базы данных предназначены для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений. Например, продажа товара и выписка счета производятся с использованием базы данных, предназначенной для обработки транзакций, а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, - с помощью хранилища данных.     Во-вторых, обычные базы данных подвержены постоянным изменениям в процессе работы пользователей, а хранилище данных относительно стабильно: данные в нем обычно обновляются согласно расписанию (например, еженедельно, ежедневно или ежечасно - в зависимости от потребностей). В идеале процесс пополнения представляет собой просто добавление новых данных за определенный период времени без изменения прежней информации, уже находящейся в хранилище.

     И в-третьих, обычные базы данных чаще всего являются источником данных, попадающих в хранилище. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов. Специфика работы аналитических систем делает практически невозможным их прямое использование на оперативных данных. Это объясняется различными причинами, в том числе разрозненностью данных, хранением их в форматах различных СУБД и в разных «уголках» корпоративной сети, но, что наиболее важно, неприменимостью структур данных оперативных систем для выполнения задач анализа. Для этих целей и создается хранилище данных.  
 
 
 
 
 
 
 
 
 
 
 
 
 

     2 ВИДЫ ИНФОРМАЦИОННЫХ  ХРАНИЛИЩ

     Хранилище данных – это система, содержащая непротиворечивую интегрированную предметно-ориентированную совокупность исторических данных крупной или иной организации с целью поддержки принятия стратегических решений. 

     Рост числа разнородных хранилищ информации как внутри предприятия, так и за его пределами повышает сложность поиска и доступа к ней. Информация может храниться в бесконечном количестве мест, включая хранилища данных, базы данных, приложения коллективной работы, Web-сайты, электронная почта, корпоративные приложения и многое другое. 

     Корпоративные хранилища неструктурированной  информации появились вместе с первыми  носителями данных. Однако на протяжении многих лет единственной основой  корпоративных хранилищ, доступ к которым имели конечные пользователи, оставалась файловая система. С появлением корпоративных систем управления содержанием (их создатели предложили такие функции работы с информацией, как управление версиями и правами доступа, бизнес-правила, рассылка и т.д.) понадобилось соответствующим образом адаптировать модель хранилищ, устанавливая типы содержания, атрибуты, жизненные циклы и т.д. Чтобы обеспечить возможность подобной адаптации, корпоративные системы стали предлагать свои собственные модели, которые в отличие от файловых систем обладали куда большим спектром параметров для настройки. Наиболее популярной моделью хранилища содержания стала объектно-ориентированная модель, в которой любая информационная единица представляется самостоятельным объектом определенного типа и имеет уникальный набор атрибутов (классификаторов). Объектно-ориентированная модель имеет определенные преимущества перед традиционной реляционной моделью, поддерживая наследование признаков типов объектов, таких как состав атрибутов и операций. Благодаря этому при развитии структуры хранилища, а также при появлении новых функциональных задач не требуется вносить исправления в текущие настройки; достаточно создать потомков уже готовых типов объектов, добавив к ним новые функции. 

     С увеличением числа внешних пользователей корпоративных хранилищ информации появилась необходимость в обеспечении удаленного доступа к хранилищам и возможности построения распределенных федеративных хранилищ. Ответом на эти требования стало создание технологий, которые позволили строить распределенные корпоративные информационные среды.

     Виртуальные хранилища

     В компании Documentum видят направление  дальнейшей эволюции корпоративных  хранилищ содержания в формировании виртуальных хранилищ. Концепция  таких хранилищ состоит в том, что конечный пользователь, работая в привычных для себя приложениях, получает одновременный доступ к неструктурированной информации из разных источников. Виртуальное хранилище содержания составляют несколько механизмов.

     Интеграция  корпоративного содержания. Обеспечивает универсальный доступ ко всем источникам информации — как внутри предприятия, так и за его пределами. Необходимость в таком механизме обусловлена тем, что с ростом числа возможных источников информации пользователю приходится работать с множеством документов и Web-страниц. Механизм интеграции корпоративного содержания призван сформировать универсальную программную и пользовательскую среду для доступа ко всем возможным источникам информации. Такая программная среда должна быть максимально открытой, поддерживать все актуальные стандарты, интерфейсы и протоколы обмена данными.

     Управление  бизнес-процессами. Предоставляет единый доступ пользователей к задачам  бизнес-процессов из разных информационных систем и обеспечивает их интеграцию. В управлении бизнес-процессами предприятия, как правило, задействовано несколько информационных систем (скажем, ERP и ECM); кроме того, в них могут принимать участие внешние пользователи и системы. Это требует обеспечить прозрачность взаимодействия между системами и универсальность доступа конечных пользователей к функциям бизнес-процессов. Обеспечение единого пользовательского интерфейса к потоку работ для всех информационных систем, возможность обмена данными через разнообразные интерфейсы и протоколы, интеграция со средствами анализа и моделирования бизнес-процессов, формирование отчетов — вот лишь основные требования концепции управления бизнес-процессами.

     Обмен содержанием. Позволяет передавать информацию из одной информационной системы в другую, а также за пределы корпоративной информационной среды. Информационные потоки любого предприятия не ограничиваются внутренним информационным пространством. Существует масса разнородных путей поступления информации, которую требуется поместить в корпоративное хранилище (факс, сканер, электронная почта, Web и др.). С другой стороны, существует и множество разнородных получателей информации, каждый из которых имеет свои каналы передачи данных и требует уникального формата представления (например, вывод на печать, отправка по электронной почте, запись на диск). Виртуальное хранилище должно обеспечивать поддержку всех современных каналов коммуникаций и позволять преобразовывать информацию в те формат и представление, которые требуются получателю.

Информация о работе Виды информационных хранилищ