Natalya's blog

Алгоритм ETL - технології інтеґрації даних

Для попередньо отриманих і збережених у оперативному сховищі даних нобхідно розробити систему норм і критеріїв перетворення їх до форми, придатної для збереження у сховищі даних. Приклади критеріїв та вимог:

  • обмеження часового періоду фактів "від ... – до ...", наприклад, вибір даних за останній місяць;
  • SELECT * FROM documents WHERE evdate>=DateDiff("d",Now(),30);

  • обов'язкове значення виміру, чи показника факту;

    SELECT * FROM documents WHERE document_type IS NOT Null;

  • входження значень виміру у попередньо визначену множину чи область визначення;
  • SELECT * documents WHERE delp_id In (select id from department where prior_id is Not Null);

  • унікальність значень;
  • дотримання правил синтаксису;
  • семантичні обмеження.
  • З метою аналізу, фільтрації та перетворення вхідних даних необхідно сформувати та виконати стосовно таблиці фактів оперативного сховища даних запити на вилучення або зміну даних, які не відповідають критеріям, розглянутим вище:

  • вилучення даних, які не містять обов'язкових значень і, внаслідок цього не можуть бути застосовані у сховищі даних:
  • DELETE * FROM documents WHERE id not in (SELECT id from documents_type);

  • виправлення некоректних чи помилкових значень (наприклад, коли у джерелах даних внесено не коди підрозділів, а назви).
  • З метою завантаження таблиці фактів необхідно створити та виконати запит (процедуру) переміщення значень з підготованої таблиці вхідних даних сховища оперативних даних у таблицю фактів та провести аналіз виконаних дій:

    Технології інтеґрації даних

    EAI – це технологія, за допомогою якої організація добивається централізації і оптимізації інтеґрації корпоративних застосувань, зазвичай використовуючи ті або інші форми технології оперативної доставки інформації, яка керується зовнішніми подіями.

    ETL – це технологія, яка перетворить дані (зазвичай за допомогою їх пакетного опрацювання) з операційного середовища, що включає гетерогенні технології, в інтеґровані дані, що узгоджуються між собою, придатні для використання в процесі підтримки прийняття рішень; ETL-технологія орієнтована на бази даних, наприклад, сховище, вітрину або операційне сховище даних.

    Інтеґрація даних у сховищах даних

    Необхідність інтеграції даних виникає через неоднорідність програмного середовища, розподілений характер організації, підвищені вимоги до безпеки даних, необхідність наявності багаторівневих довідників метаданих, потребу в ефективному зберіганні й опрацюванні дуже великих обсягів інформації.

    Інтеґрація даних – це об'єднання даних, які спочатку вводяться в різні системи. Самі ці системи можуть розташовуватися в одній локальній мережі, але мати різні платформи і внутрішню архітектуру. Метою інтеґрації даних є отримання єдиної і цілісної картини корпоративних даних предметної області. Інтеґрація даних може бути описана за допомогою моделі, яка включає застосування, продукти, технології та методи.

    Існує три основні методи інтеґрації даних: консолідація, федералізація і розповсюдження.

    Консолідація даних – це збирання даних з територіально віддалених або різноплатформенних джерел даних в єдине сховище даних з метою їх подальшого опрацювання та аналізу.

    У середовищі сховищ даних однією з найпоширеніших технологій підтримки консолідації є технологія ETL (витягання, перетворення і завантаження – extract, transform, and load). Ще одна поширена технологія консолідації даних ECM - керування змістом корпорації (enterprise content management). Більшість рішень ECM напрямлені на консолідацію і керування неструктурованими даними, такими як документи, звіти і web-сторінки.

    Федералізація даних забезпечує єдину віртуальну картину одного або декількох первинних файлів даних. Процес федералізації даних завжди полягає у витяганні даних з первинних систем на підставі зовнішніх вимог. Всі необхідні перетворення даних здійснюються при їх витяганні з первинних файлів. Прикладом федералізації є інтеґрація корпоративної інформації (EII).

    Багатовимірна модель даних

    Багатовимірна база даних – база даних, що підтримує багатовимірну модель даних на концептуальному рівні та призначена для інтерактивного аналітичного опрацювання аґреґованих історичних і проґнозованих даних.

    Основними поняттями багатовимірної моделі даних є:

  • гіперкуб даних rel,
  • вимір V,
  • атрибут A,
  • комірка X,
  • значення rel(V,A).
  • Гіперкуб даних містить один або більше вимірів і є впорядкованим набором комірок. Кожна комірка визначається одним і лише одним набором значень вимірів – атрибутів. Комірка може містити дані – значення або бути порожньою.

    Під виміром розумітимемо множину атрибутів, що створюють одну з граней гіперкуба. Прикладом часового виміру є список днів, місяців, кварталів. Прикладом географічного виміру може бути перелік територіальних об'єктів: населених пунктів, районів, реґіонів, країн та ін.

    Для отримання доступу до даних користувачу необхідно вказати одну або декілька комірок шляхом вибору значень вимірів, яким відповідають необхідні комірки. Процес вибору значень вимірів називатимемо фіксацією атрибутів, а множину вибраних значень вимірів – множиною фіксованих атрибутів.

    Гіперкуб даних можна розглядати як множину відношень реляційної бази даних за значеннями кожного з вимірів. Отже, носієм багатовимірної моделі даних є відношення реляційної бази даних, зображені як зафіксовані виміри. Гіперкуб утворює багатовимірний простір даних, що складається з фіксованої кількості вимірів.

    Операція зрізу здійснюється з метою отримання необхідної підмножини комірок і відсікання «непотрібних» значень шляхом послідовної фіксації атрибутів. Зріз, як правило, є двовимірним масивом (таблицею).

    Зміна порядку подання (візуалізація) вимірів називається обертанням. Обертання забезпечує можливість візуалізації даних у формі, найбільш комфортній для їх сприйняття.

    Простори даних - нова абстракція керування даними

    І бази даних, і сховища даних дозволяють опрацьовувати деталізовані та інтегровані дані, що побудовані на основі наперед допустимих моделей даних. У випадку роботи у всесвітній мережі з величезною кількістю ресурсів (прикладами таких задач є туристичний бізнес – збирання інформацію про місця відпочинку, її інтеграція та зберігання у внутрішніх базах даних, геоінформаційні системи – на сьогодні ще не розроблено єдних стандартів подання такої інформації, а її збір також проходить із джерел з наперед невідомими моделями даних) неможливо визначити, які саме моделі даних використовуватимуться. Тому виключно за допомогою баз даних та сховищ даних не можна організувати ефективної взаємодії між усіма об'єктами у цих предметних областях. Розробники часто зустрічаються з набором слабо зв'язаних джерел даних і тому повинні кожного разу вирішувати низькорівневі завдання управління даними. У число цих завдань входять забезпечення можливостей пошуку і запиту даних; дотримання правил, обмежень цілісності, угод про іменування і т.д.; відстежування походження даних; забезпечення доступності, відновлення і контролю доступу; керований розвиток даних і метаданих.

    Традиційні СКБД представляють тільки одну точку (хоч і дуже важливу) в просторі рішень управління даними. Важливою точкою є "системи інтеграції даних. Насправді, системи інтеграції даних і обміну даними традиційно призначаються для підтримки багатьох інших служб в системах просторів даних. Особливість полягає у тому, що в системах інтеграції даних потрібна семантична інтеграція до того, як можуть бути забезпечені які-небудь інші послуги. Тому, хоч і відсутня єдина схема, якій відповідають всі дані, система повинна знати точні взаємозв'язки між елементами, що використовуються в кожній схемі. В результаті для створення системи інтеграції даних потрібна значна попередня робота.

    Бази даних та сховища даних: спільні та відмінні риси

    Як відомо, для зберігання та опрацювання даних використовують різні засоби: бази даних, сховища даних, оперативні сховища даних. Дамо визначення цих понять та здійснимо їх характеристику.

    Наведемо декілька найбільш поширених визначень бази даних (БД).

    База даних – сукупність екземплярів різних типів записів і відношень між записами та елементами.

    Базу даних можна визначити як сукупність взаємозв'язаних даних (прості чи складені типи), що зберігаються разом на одному носії та описують якусь предметну область за наявності такої мінімальної надмірності, яка допускає їх використання оптимальним чином для одного або декількох застосувань. Розрізняють ієрархічні, мережеві, реляційні, часові (темпоральні), постреляційні (об’єктно-орієнтовані, з гніздуванням), розподілені та багатовимірні бази даних.

    Використання бази даних припускає роботу з нею декількох прикладних програм (застосувань), що вирішують завдання різних користувачів.

    Сховище даних – це аґреґований інформаційний ресурс, що містить консолідовану інформацію з усієї проблемної області та використовується для підтримки прийняття рішень.

    Готується до друку збірник науково-дослідних робіт

    Готується до друку вісник Національного університету "Львівська політехніка" "Інформаційні системи та мережі". Цей збірник праць є затвердженим ВАК та містить науково-дослідні роботи з теоретичних основ інформатики,систем баз даних та знань, інформаційного моделювання, дистанційного навчання, Web-систем

    Опрацювання невизначеної інформації у геоінформаційних системах

    Проаналізовано проблеми, що виникають під час опрацювання даних у геоінформаційних системах. Наведено структури даних геоінформаційної системи. Проаналізовано методи збільшення інформативності геоінформаційних систем.

    Syndicate content

    © Інформаційні технології. Аналітика , Рідна Мережа