Бази даних та сховища даних

Автор: Пользователь скрыл имя, 06 Февраля 2013 в 13:48, творческая работа

Краткое описание

Сховище даних — предметно орієнтований, інтегрований, незмінний набір даних, що підтримує хронологію і здатний бути комплексним джерелом достовірної інформації для оперативного аналізу та прийняття рішень. В основі концепції сховища даних (СД) лежить розподіл інформації, що використовують в системах оперативної обробки даних (OLTP) і в системах підтримки прийняття рішень (СППР). Такий розподіл дозволяє оптимізувати як структури даних оперативного зберігання для виконання операцій введення, модифікації, знищення та пошуку, так і структури даних, що використовуються для аналізу. В СППР ці два типи даних називаються відповідно оперативними джерелами даних (ОДД) та сховищем даних.

Файлы: 1 файл

индивид. по исвэд.doc

— 350.00 Кб (Скачать)

      Також,  оскільки логіка процедури вибірки  даних залежить від фізичної організації цих даних, то ця модель не є повністю незалежною від програми. Іншими словами, якщо необхідно змінити структуру даних, то потрібно змінити і додаток.

      Реляційна  модель орієнтована на організацію  даних у вигляді двовимірних  таблиць. Кожна реляційна таблиця являє собою двовимірний масив і має наступні властивості:

    • кожен елемент таблиці - один елемент даних;
    • всі осередки в стовпчику таблиці однорідні, тобто всі елементи в стовпчику мають однаковий тип (числовий, символьний тощо);
    • кожен стовпчик має унікальне ім'я;
    • однакові рядки в таблиці відсутні;
    • порядок проходження рядків і стовпчиків може бути довільним.

      Об'єктна  СУБД ідеально підходить для  інтерпретації складних даних,  на відміну від реляційних  СУБД, де додавання нового типу даних досягається ціною втрати продуктивності або за рахунок різкого збільшення термінів і вартості розробки додатків. Об'єктна база, на відміну від реляційної, не вимагає модифікації ядра при додаванні нового типу даних. Новий клас і його екземпляри просто надходять у зовнішні структури бази даних. Система управління ними залишається без змін.

      Об'єктно-орієнтована  база даних (ООБД) - база даних,  в якій дані оформлені у  вигляді моделей об'єктів, що  включають прикладні програми, які  управляються зовнішніми подіями. Результатом поєднання можливостей (особливостей) баз даних і можливостей об'єктно-орієнтованих мов програмування є об'єктно-орієнтовані системи управління базами даних (ООСУБД). ООСУБД дозволяють працювати з об'єктами баз даних також, як з об'єктами у програмуванні в об'єктно-орієнтованих мовах програмування. ООСУБД розширює мови програмування, прозоро вводячи довготривалі дані, управління паралелізмом, відновлення даних, асоційовані запити й інші можливості.

      Об'єктно-орієнтовані  бази даних звичайно рекомендовані для тих випадків, коли потрібна високопродуктивна обробка даних, які мають складну структуру.

      Система,  яка забезпечує об'єктну інфраструктуру  і набір реляційних розширювачів, називається "об'єктно-реляційною".

      Об'єктно-реляційні системи поєднують переваги сучасних об'єктно-орієнтованих мов програмування з такими властивостями реляційних систем як множинні представлення даних і високорівневі непроцедурні мови запитів.

      За технологією  обробки даних бази даних поділяються на централізовані й розподілені.

      Централізована  база даних зберігається у  пам'яті однієї обчислювальної  системи. Якщо ця обчислювальна  система є компонентом мережі  ЕОМ, можливий розподілений доступ  до такої бази. Такий спосіб  використання баз даних часто застосовують у локальних мережах ПК.

      Розподілена  база даних складається з декількох,  можливо пересічних або навіть  дублюючих одна одну частин, які  зберігаються в різних ЕОМ  обчислювальної мережі. Робота з  такою базою здійснюється за допомогою системи управління розподіленою базою даних (СУРБД).

      За способом  доступу до даних бази даних  поділяються на бази даних  з локальним доступом і бази  даних з віддаленим (мережевим)  доступом.

      Системи  централізованих баз даних з  мережевим доступом припускають різні архітектури подібних систем:

файл-сервер;

клієнт-сервер.

      Файл-сервер. Архітектура систем БД з мережевим  доступом передбачає виділення  однієї з машин мережі в  якості центральної (сервер). На  такій машині зберігається спільно використовувана централізована БД. Усі інші машини мережі виконують функції робочих станцій, за допомогою яких підтримується доступ користувальницької системи до централізованої бази даних. Файли бази даних відповідно до призначених для користувача запитів передаються на робочі станції, де в основному і проводиться обробка. При великій інтенсивності доступу до одних і тих же даних продуктивність інформаційної системи падає. Користувачі можуть створювати також на робочих станціях локальні БД, які використовуються ними монопольно.

      Клієнт-сервер. У цій концепції мається на  увазі, що крім зберігання централізованої  бази даних центральна машина (сервер бази даних) повинна  забезпечувати виконання основного  обсягу обробки даних. Запит  на дані, який видається клієнтом (робочою станцією), породжує пошук і вилучення даних на сервері. Витягнуті дані (але не файли) транспортуються по мережі від сервера до клієнта. Специфікою архітектури клієнт-сервер є використання мови запитів SOL.

 

 

 

 

 

 

 

3. Поняття та характеристика сховищ даних

 

Використання бази даних припускає  роботу з нею декількох прикладних програм (застосувань), що вирішують  завдання різних користувачів.

Сховище даних – це аґреґований інформаційний ресурс, що містить консолідовану інформацію з усієї проблемної області та використовується для підтримки прийняття рішень.

Консолідована інформація – це одержані з декількох джерел та системно інтеґровані  різнотипні інформаційні ресурси, які  в сукупності наділені ознаками повноти, цілісності, несуперечності та складають адекватну інформаційну модель проблемної області з метою її аналізу опрацювання та ефективного використання в процесах підтримки прийняття рішень.

Під сховищем даних розуміють  особливу базу даних, котра призначеня для зберігання в погодженому вигляді історичної інформації, що надходить з різних оперативних систем та зовнішніх джерел. В основі концепції сховища даних лежить розподіл інформації, що використовують в системах оперативної обробки даних (ОLTP) і в системах підтримки прийняття рішень.

Основними характеристиками сховищ даних є наступні:

Предметна орієнтація. Дані в сховищі зорієнтовані на бізнес-поняття, а не на бізнес-події.

Інтегрованість. Перш ніж  потрапити до сховища даних оперативні дані перевіряють, очищують та певним чином агрегують.

Підтримка хронології. Дані в сховищі даних накопичуються  у вигляді історичних пластів.

Незмінність. Дані у сховищі  даних, на відміну від даних в  базі даних, не підлягають ніяким змінам.

Мінімальна надлишковість. Не дивлячись на те, що інформація до сховища даних потрапляє від багатьох OLTP-систем, надлишковість інформації в сховищі даних зведена до мінімуму.

Ключовим компонентом  побудови та використання сховищ даних  є OLAP-технологія (On-Line Analytical Processing), що заснована на багатовимірному аналізі даних.

Основні вимоги до сховища даних.

1) Адекватність відображення  логіки предметного середовища  у відповідні моделі даних. 

2) Оптимальна надмірність  даних. БД повинна являти собою  єдину сукупність інтегрованих даних.

В системах, що не використовують бази даних, кожне застосування має  свої файли. Наприклад, застосування, пов’язане  з обліком персоналу, і застосування, пов’язане з обліком навчання персоналу можуть мати свої власні файли з інформацією о персоналі. Це призводить до надмірності даних, що зберігаються. Наслідком надмірності даних може бути суперечність даних, наприклад, коли два записи про одного і того ж співробітника не погоджуються одна з одною.

3) Наявність ефективних засобів ведення баз даних (засоби створення, накопичення, модифікації, видалення та пошуку даних).

Засоби створення даних - це засоби завантаження даних з  зовнішнього, орієнтованого на користувача, уявлення у системне.

4) Цілісність даних  ( наприклад, забезпечення вимоги  унікальності усіх записів БД ) та їх узгодженість при виконанні користувачами операцій над ними. Керування одночасними модифікаціями.

Задача цілісності полягає  в забезпеченні правильності і точності даних в базі даних. Протиріччя між  двома записами, що зображують один і той самий факт - є прикладом недостачі цілісності. У більшості продуктів баз даних підтримка контролю цілісності розвинена слабо.

5) Безпека даних - захист  від несанкціонованого доступу  до даних та від руйнування  БД з наміром або без наміру.

Централізована природа  системи баз даних вимагає  наявності хорошої системи безпеки. Доступ до даних дозволяється лиш  тим користувачам, що мають на те право.

 

6) Можливість реструктуризації  БД - наявність засобів змінювання  структури даних при змінюванні запитів до БД.

7) Наявність повних, зручних  та простих у вивченні мовних  засобів визначення та маніпулювання  даними.

Такими засобами є  мова визначення даних та мова маніпулювання  даними. Автономну мову даних, тобто  мову, що не включена в універсальну мову, називають також мовою запитів.

8) Наявність документації.

9) Простота вивчення.

10) Взаємна незалежність  програм та даних. 

Типове сховище даних  зазвичай відрізняється від традиційної  реляційної бази даних. По-перше, традиційні бази даних призначені для того, щоб допомогти користувачам виконувати повсякденну роботу, тоді як сховища даних призначені для прийняття рішень. Наприклад, продаж товару і виписування рахунку здійснюється з використанням бази даних, призначеної для опрацювання транзакцій, а аналіз динаміки продажів за декілька років, що дозволяє спланувати роботу з постачальниками, — за допомогою сховища даних.

По-друге, традиційні бази даних характеризуються постійними змінами у процесі роботи користувачів, а сховище даних відносно стабільне: дані у ньому зазвичай оновлюються за розкладом (наприклад, щотижня, щодня або щогодини — залежно від потреб). В ідеалі процесс поповнення (або як далі ми будемо називати завантаження) є просто додаванням нових даних за певний період часу без зміни попередньої інформації, що вже міститься в сховищі.

І, по-третє, традиційні бази даних найчастіше є джерелом даних, що потрапляють у сховище. Крім того, сховище може поповнюватися за рахунок  зовнішніх джерел, наприклад статистичних звітів. Дані, що надходять до бази даних з іншої бази, є невеликого обсягу (тисячі записів), мають ту ж схему даних, що і база даних-приймач. На відміну від них сховища даних у визначені терміни отримують значно більші обсяги даних, які можуть відріхнятися від приймача форматом, а інколи і типом, що вимагає застосування додаткових процедур трансформування та завантаження даних (так звані процедури Extract, Transform, Load).

Як бази даних, так  і сховища даних, можуть будуватись на основі певної системи керування  базами даних (СКБД) (реляційна, постреляційна тощо). СКБД забезпечує загальний репозиторій для зберігання і опрацювання структурованих даних. СКБД підтримує набір взаємозв'язаних послуг і дозволяє розробникам зосередитись на специфічних проблемах їх застосувань, а не на завданнях, які виникають при потребі в узгодженому й ефективному керуванні великими обсягами даних. Проте СКБД вимагають, щоб всі дані знаходилися під єдиним адміністративним керуванням і відповідали єдиній схемі. У відповідь на задоволення цих обмежень СКБД можуть забезпечити розвинені засоби маніпулювання даними та опрацювання запитів зі зрозумілою і строгою семантикою, а також строгі транзакційні ґарантії оновлень, паралельного доступу і довготривалого зберігання (так звані властивості ACID).

Враховуючи специфіку, cховище даних має такі особливості проектування та побудови: отримання інформації з різних джерел даних (у тому числі і з реляційних баз даних) у деталізованому та аґреґованому вигляді (зберігаються результати застосування функцій агрегації – суми, середнього значння, максимуму, мінімуму тощо); багатовимірне подання інформації – ігноруються деякі вимоги нормалізації (дотримують максимум 3-ої нормальної форми), що значно підвищує швидкість опрацювання інформації, оскільки змен шує кількість операцій з’єднання; наявність метаданих для опису джерел метаданих та структури самого сховища даних – у базах даних також використовують словники для опису структур даних, а у сховищах даних мета дані (словники, дані про дані) повинні будуватися за класифікаційною схемою Захмана. За цією схемою описую об'єкти ( що?), суб'єкти (хто?), місцезнаходження (де?), час (коли?), фактори впливу, чинники (чому?), способи (як?); наявність пакетного завантаження даних в сховище даних та вивантаження даних; наявність процедур аналізу даних та отримання нових даних; орієнтованість даних на аналітичне, а не на статичне опрацювання.

Сховища даних краще  пристосовані до зберігання та аналітичного опрацювання великих обсягів  даних і, в основному, є інтеґрацією  реляційної та багатовимірної моделей. На сьогодні є такі архітектури побудови сховищ даних: корпоративна інформаційна фабрика Білла Інмона, шина Ральфа Кімбола, зведення даних корпорації TDAN. Вони мають розвинені засоби інтеґрації даних з різних джерел та дозволяють працювати як з деталізованою, так і аґреґованою інформацією.

Парадигма для реляційних даних в сховищі даних (парадигма  корпоративної інформаційної фабрики  КІФ – Corporate Information Factory, CIF) розроблена Інмоном і передбачає, що дані повинні перебувати на низькому рівні ступені деталізації і в третій нормальній формі (3НФ, 3NF). Білл Інмон підтримує повторний або спіральний підхід до розвитку великого сховища даних. За цим підходом розвиток сховища відбувається ітераційно, тобто у разі виникнення потреби додається одна таблиця за один раз, що забезпечує лише незначну зміну схеми даних. Тому такий підхід до проектування сховища ще називають спіральним підходом.

Информация о работе Бази даних та сховища даних