Metadane w opisie hurtowni danych oraz procesie ETL
Plan Metadane Rodzaje metadanych Metadane w procesie ETL Podsumowanie
Definicja Metadane dane opisujące system i przechowywane w nim dane. „wszystkie informacje w środowisku hurtowni danych, które nie są samymi danymi” Metadane powinny zawierać: opis danych zawartych w hurtowni danych opis dostępności danych nazwę systemu, z którego pochodzą dane opis operacji poczynionych na danych, podczas zasilania hurtowni historia ładowań i awarii
Definicja - cd wersję metadanych metryki dotyczące danych (np. liczby wierszy w tablicach) prawach autorskich, własności
Metadane Odpowiednio opracowane, przechowywane (ułatwia zrozumienie informacyjnych zbiorów danych, ich ocenę) Centralne repozytorium metadanych - zawiera merytoryczny opis kolekcjonowanych danych oraz zbiór dodatkowych informacji o danych
Typy metadanych Metadane biznesowe Metadane techniczne Metadane operacyjne
Metadane biznesowe Szeroko opisujące wielowymiarowe dane systemu hurtowni. Przechowywane informacje Nazwa tabeli hurtowni danych Nazwa kolumny hurtowni danych Nazwa biznesowa Szczegółowa definicja biznesowa pola Typ, długość pola Metadane biznesowe – przechowują definicje biznesowe na temat danych, zawierają ogólne opisy wszystkich wartości występujących w hurtowni danych, z których korzystają użytkownicy. Opisywane powinny być wszystkie informacje z hurtowni danych, tj. tabele wymiarów, faktów, agregaty. Zakres i sposób przechowywania metadanych biznesowych może się znacznie różnić w zależności od organizacji, jednak najczęściej w repozytorium przechowywane są następujące informacje: · Nazwa Tabeli Hurtowni Danych · Nazwa Kolumny HD · Nazwa biznesowa – krótka i opisowa informacja biznesowa · Szczegółowa definicja biznesowa pola (kolumny), często zawiera zwięzły opis reguł biznesowych · Typ, długość pola i/lub flaga oznaczająca jakieś specjalne właściwości danego wpisu
Metadane biznesowe - cd Użytkownicy – hurtowni danych, autorzy raportów, osoby tworzące kostki OLAP, testerzy, itd..
Metadane operacyjne Metadane operacyjne - procesach zachodzących w hurtowni Przechowywane informacje: Nazwa procesu Czas wykonania procesu Liczba wierszy Wynik wykonania - status czas startu i zakończenia
Metadane techniczne Metadane procesu ETL, Metadane transformacyjne – ukazują mapowania i transformacje danych Opis struktury i zawartość źródeł danych, Opis metody dostępu, Dane dla optymalizacji zapytań opis schematu hurtowni danych opis struktur fizycznych hurtowni danych Metadane techniczne ukazują mapowania i transformacje danych od systemu źródłowego do systemu docelowego procesu ładowania. Użytkownicy : głównie używane przez developerów hurtowni danych, specjalistów procesu ETL, analityków technicznych Metadane techniczne opisują m.in.: struktury i zawartość źródeł danych, metody dostępu do źródeł danych, własności danych wykorzystywane przez optymalizatory zapytań, opis schematu hurtowni danych (tabele, wymiary, ograniczenia integralnościowe), opis struktur fizycznych hurtowni danych (indeksy, partycje).
Metadane techniczne Użytkownicy – developerzy, specjaliści procesu ETL, analitycy techniczni
Extract Transform Load Proces ETL Extract Transform Load
Metadane – procesu ETL Metadane Imię Nazwisko Wiek Jan Kowalski 40
Metadane – procesu ETL Biznesowe: słowniki pojęć biznesowych odwzorowania pojęć biznesowych w obiekty HD reguły biznesowe jakość danych
Metadane – procesu ETL Sterujące wykonaniem ETL harmonogramy skrypty logi z wykonania monitorowanie
Metadane – procesu ETL Metadane techniczne - opis źródeł (lokalizacja, struktura, zawartość) rodzaj źródła (relacyjna bd, obiektowa bd, xml, html, arkusz kalkulacyjny, ...) struktura/schemat metody dostępu użytkownicy i prawa dostępu wyniki analizy (profilowania) źródeł dzienny przyrost danych rozmiary danych przyrost danych w czasie (np. dzienny) średnia długość wiersza
Metadane – procesu ETL Metadane techniczne - opis HD Schemat struktury fizyczne statystyki dot. danych organizacja przestrzeni dyskowej ODS i HD charakterystyki danych zasilających (gotowy zbiór zasilający) statystyki dla optymalizacji implementacje algorytmów (transformacje, czyszczenie, eliminowanie duplikatów) słowniki transformacji (np. nazwy miast) techniki odświeżania (pełne/przyrostowe, okresy) statystyki dot. odświeżania (liczba rekordów przesłanych, rekordy błędne) nazwy zadań ETL korzystające z danej struktury
Metadane – procesu ETL Opisujące proces ETL struktura przepływu pracy odwzorowania źródło <->HD odwzorowania rekordów źródłowych w docelowe (lineage) definicje transformacji (nazwa, realizowany cel, wejście, wyjście, algorytm) skrypty i zadania (nazwa, realizowany cel, źródło, struktury docelowe, pliki logów, pliki sterujące, statystyki efektywnościowe z wykonania, obsługa wyjątków/awarii) harmonogram uruchamiania ETL (częstotliwość, obsługa wyjątków/awarii, pliki logów, statystyki efektywnościowe z wykonania) logi z pracy ETL charakterystyka danych fizyczna organizacja przestrzeni dyskowej
Metadane – procesu ETL Teradata Metadata Services IBM (Ascential) MetaStage Erwin Data modeller Pentaho Metadata AbInitio EME (Enterpise Metadata Environment) Microsoft Repository
Standardy metadanych Open Information Model (OIM) Common Warenhouse Metadata (CWM)
Korzyści stosowania metadanych Ułatwienie zarządzania zasobami danych w ramach organizacji odpowiedzialnej za dane Możliwość uniknięcia budowy zbiorów danych które zawierają informacje zgromadzone już przez inne organizacje Łatwe uzyskanie informacji o wszystkich zbiorach danych dostępnych interesującego obszaru Lepsze planowanie działań dotyczących pozyskiwania i aktualizacji danych
Bibliografia http://etl-tools.info/pl/metadane.html http://www.swo.ae.katowice.pl/_pdf/152.pdf http://www.bgwm.pl/artykuly/artykul_metad ane.pdf http://www.cs.put.poznan.pl/rwrembel/dyda ktykaPDF/DWS_wykl07_metadane.pdf http://www.cs.put.poznan.pl/rwrembel/dyda ktykaPDF/DWS_wykl04_etl.pdf