3.7 Поняття сховища даних та основи його створення

 

Різновидом баз даних є сховище даних (Data Waren House), яке було визначено в 1992 році Біллом Інмоном. Сховище даних- це особлива форма організації бази даних, що призначена для зберігання в погодженому вигляді агрегованої інформації, що отримується на основі баз даних різних систем та зовнішніх джерел. Необхідність розроблення нової концепції сховищ  даних обумовлена такими факторами:

розвиток інформаційних технологій привів до систем нового типу, які дістали назву систем підтримки прийняття рішень. Ці системи базуються на новій технології, яка одержала назву ОLАР-технології. Основою ОLАР-технології є реалізація аналітичних запитів;

системи підтримки прийняття рішень, що ґрунтуються на формуванні аналітичних запитів, почали конфліктувати з транзакційними системами оперативної обробки даних. Одночасне вирішення оперативних і аналітичних запитів на одній базі даних часто призводить до нестачі ресурсів;

формування аналітичних звітів на основі традиційних баз даних, які вміщують оперативну інформацію, займає дуже багато часу. Причому витрати часу, необхідні для формування аналітичних звітів, невпинно зростають зі збільшенням обсягів оперативної інформації в базі даних. Це призводить до того, що менеджери не встигають готувати відповідні рішення на основі отриманих аналітичних звітів;

дуже часто на підприємстві чи в організації функціонує декілька OLAP- систем, кожна з яких має свою окрему базу даних, в яких використовуються різні структури даних, способи кодування, одиниці вимірювання. Побудова зведеного аналітичного запиту на основі декількох баз даних є дуже складною проблемою, яка спочатку потребує вирішення проблеми узгодженності даних, що зберігаються в різних базах даних.

Вирішення перелічених вище проблем було знайдено в розробленні концепції сховища даних. У сховищі даних зберігаються не первинні дані, а певним чином інтегровані дані, які створюють основу для вирішення аналітичних задач і функціонування систем підтримки прийняття рішень.

Сховище даних характеризуються предметною орієнтацією, інтегрованістю, підримкою хронології, незмінністю і мінімальною надлишковістю.

Предметна орієнтація. Дані в сховищі даних організовані відповідно до основних напрямів діяльності підприємства чи фірми (замовники, продажі, склад і т.п.). У цьому полягає відмінність сховищ даних від організації оперативної БД, в якій дані подаються відповідно до процесів (відвантаження товару, виписування рахунків і т.п.) Предметна організація даних не лише спрощує аналіз, а й значно прискорює проведення аналітичних розрахунків. Тобто сховища орієнтовані на бізнес-поняття, а не на бізнес - процеси.

Інтегрованість. Первинні дані оперативних баз даних перевіряються, певним чином добираються, зводяться до одного вигляду, необхідною мірою агрегуються (тобто обраховуються сумарні показники) і завантажуються у сховище даних. Такі інтегровані дані набагато простіше аналізувати.

Підтримка хронології. Дані, які вибираються з оперативних баз даних, нагромаджуються в сховищі даних у вигляді «історичних пластів», кожен із яких характеризує певний період часу. Це дозволяє проводити аналіз зміни показників у часі.

                               Незмінність. Дані сховища даних, що характеризують кожен «історичний пласт», ні в якому разі не підлягають змінам. Це теж є суттєвою відмінністю даних, що зберігаються у сховища даних, від оперативних даних. Оперативні дані можуть дуже часто змінюватися, з даними сховища можливі лише операції їх первинного завантаження, пошуку та їх читання.

                               Мінімальна надлишковість. Незважаючи на те, що інформація до сховищ даних завантажується з БД, це не призводить до надлишковості даних. Зведення до мінімуму надлишковості даних забезпечується тим, що перш ніж завантажувати дані до сховищ, їх фільтрують і певним чином очищають від таких даних, які не потрібні і не можуть бути використані в системах.

                Сховища даних можуть включати такі компоненти: віртуальне сховище даних, корпоративне сховище даних, кіоски чи вітрини даних.

Віртуальне сховище даних -  це метадані, які описують джерела надходження інформації, структуру даних сховища, методи агрегації та завантаження даних, відомості про структуру бізнес-понять та інші дані про дані, що зберігаються у сховищі.

Корпоративні сховища даних- вміщують інформацію, зібрану із певної множини оперативних БД, яка характеризує всю корпорацію і необхідна для виконання консолідованого аналізу діяльності в цілому. Такі сховища охоплюють всі численні напрями діяльності корпорації і використовуються для прийняття як тактичних, так і стратегічних рішень. Розроблення корпоративного сховища даних дуже трудомісткий процес, який може становити від одного до кількох років, а обсяги сховища можуть досягати від 50 Гбайтів до кількох терабайтів.

Кіоски чи вітрини даних-  це певна підмножина корпоративних даних, які характеризують конкретний аспект діяльності корпорації, наприклад роботу якогось її підрозділу. Кіоск може отримувати дані з корпоративного сховища даних (залежний кіоск) чи бути незалежним, і тоді джерелом поповнення його даними будуть оперативні БД. Розроблення кіоска даних потребує значно меншого часу і в середньому триває близько трьох-чотирьох місяців.

Корпоративні сховища даних та кіоски будуються за подібними принципами і використовують практично одинакові технології.

Останнім часом з'явилося поняття глобального сховища даних, в якому сховище даних розглядається як єдине джерело інтегрованих даних для всіх вітрин даних.

Сховища повинні надавати можливість параметризації даних за різними ознаками, наприклад банківські операції під час їх аналізу необхідно групувати за часом їх виконання, за клієнтами, за їх обсягами у вартісному виразі, за контрагентами, видами валют та іншими ознаками. Дані мають бути подані у сховищі таким чином, щоб надавати можливість їх багатовимірного аналізу. Основи багатовимірного аналізу були започатковані Е.Ф. Коддом у 1993р.

Найбільш вдалою формою подання даних, що надасть можливість багатовимірної їх параметризації і подання даних у вигляді багатовимірної моделі. В основу ОLАР-систем покладено поняття гіперкуба, тобто багатовимірного куба, у комірках якого зберігаються необхідні для аналізу дані.

Нині існує три варіанти побудови систем на основі сховищ даних: МОLАР, RОLАР і НОLАР.

У МОLАР - системі гіперкуб реалізується як спеціальна модель нереляційної структури, яка швидше забезпечує доступ до даних, ніж реляційні моделі, але вимагає додаткових витрат пам'яті.

У КОLАР - системах гіперкуб це лише користувацький інтерфейс, який моделюється на традиційній реляційній базі даних. Дані в сховищі подаються у вигляді моделі, що дістала назву «зірка». У цих системах зберігаються агреговані дані. Такий підхід дозволяє зберігати великі обсяги даних, але вони не досить ефективні при виконанні аналітичних операцій.

НОLАР - системи - це комбінований варіант зберігання даних, який використовує обидва типи СУБД. У багатовимірній СУБД зберігаються агрегати даних, а дані, які мають невеликий обсяг, зберігаються в реляційній СУБД.