Алгоритм ETL - технології інтеґрації даних

Для попередньо отриманих і збережених у оперативному сховищі даних нобхідно розробити систему норм і критеріїв перетворення їх до форми, придатної для збереження у сховищі даних. Приклади критеріїв та вимог:

  • обмеження часового періоду фактів "від ... – до ...", наприклад, вибір даних за останній місяць;
  • SELECT * FROM documents WHERE evdate>=DateDiff("d",Now(),30);

  • обов'язкове значення виміру, чи показника факту;

    SELECT * FROM documents WHERE document_type IS NOT Null;

  • входження значень виміру у попередньо визначену множину чи область визначення;
  • SELECT * documents WHERE delp_id In (select id from department where prior_id is Not Null);

  • унікальність значень;
  • дотримання правил синтаксису;
  • семантичні обмеження.
  • З метою аналізу, фільтрації та перетворення вхідних даних необхідно сформувати та виконати стосовно таблиці фактів оперативного сховища даних запити на вилучення або зміну даних, які не відповідають критеріям, розглянутим вище:

  • вилучення даних, які не містять обов'язкових значень і, внаслідок цього не можуть бути застосовані у сховищі даних:
  • DELETE * FROM documents WHERE id not in (SELECT id from documents_type);

  • виправлення некоректних чи помилкових значень (наприклад, коли у джерелах даних внесено не коди підрозділів, а назви).
  • З метою завантаження таблиці фактів необхідно створити та виконати запит (процедуру) переміщення значень з підготованої таблиці вхідних даних сховища оперативних даних у таблицю фактів та провести аналіз виконаних дій:

  • підготовка вхідних даних: внести зміни в склад, структуру і зміст джерел даних (по мірі потреби доповнити новими стовпчиками, вилучити зайві чи змінити параметри стовпчика, внести відсутні значення), узгодивши їх відповідності з таблицею метаданих та структурою оперативного сховища даних;
  • створити таблицю ОСД;
  • приєднати визначені джерела даних в якості зовнішніх таблиць;
  • сформувати та реалізувати запити (процедури) для перенесення даних зовнішніх джерел в оперативне сховище даних
  • З метою аналізу та верифікації сховища даних необхідно перевірити та обґрунтувати працездатність сховища даних. Для цього:

  • перевірити наявність всіх необхідних значень у стовпчиках таблиці фактів за таким алгоритмом:
  • 1) визначити кількість даних в джерелах,

    2) додати отримані кількості записів,

    3) визначити кількість вставлених у таблицю сховища записів (дата внесення цих записів рівна сьогоднішній),

    4) якщо суми рівні, то ETL пройшов без перешкод;

  • перевірити таблицю фактів на наявність "підвішених" рядків, що виникають при наявності в ній значень кодів, відсутніх у таблицях вимірів;
  • перевірити таблицю фактів на наявність повторюваних рядків:
  • визначаємо записи, що повторюються,
    визначені записи знищуємо, залишивши один з них;
  • виконати тестові запити на отримання контрольних підсумкових значень, таких як підрахунок кількості фактів по певному виміру, сумарного значення по певному виміру, тощо і звірити отримані результати з фактичними
  • на підставі отриманих результатів зробити висновки про придатність чи непридатність побудованого сховища даних до застосування.
  • © Інформаційні технології. Аналітика , Рідна Мережа