Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałŁucjan Sucharski Został zmieniony 10 lat temu
1
Metadane w opisie hurtowni danych oraz procesie ETL
2
Plan Metadane Rodzaje metadanych Metadane w procesie ETL Podsumowanie
3
Definicja Metadane dane opisujące system i przechowywane w nim dane.
„wszystkie informacje w środowisku hurtowni danych, które nie są samymi danymi” Metadane powinny zawierać: opis danych zawartych w hurtowni danych opis dostępności danych nazwę systemu, z którego pochodzą dane opis operacji poczynionych na danych, podczas zasilania hurtowni historia ładowań i awarii
4
Definicja - cd wersję metadanych
metryki dotyczące danych (np. liczby wierszy w tablicach) prawach autorskich, własności
5
Metadane Odpowiednio opracowane, przechowywane (ułatwia zrozumienie informacyjnych zbiorów danych, ich ocenę) Centralne repozytorium metadanych - zawiera merytoryczny opis kolekcjonowanych danych oraz zbiór dodatkowych informacji o danych
6
Typy metadanych Metadane biznesowe Metadane techniczne
Metadane operacyjne
7
Metadane biznesowe Szeroko opisujące wielowymiarowe dane systemu hurtowni. Przechowywane informacje Nazwa tabeli hurtowni danych Nazwa kolumny hurtowni danych Nazwa biznesowa Szczegółowa definicja biznesowa pola Typ, długość pola Metadane biznesowe – przechowują definicje biznesowe na temat danych, zawierają ogólne opisy wszystkich wartości występujących w hurtowni danych, z których korzystają użytkownicy. Opisywane powinny być wszystkie informacje z hurtowni danych, tj. tabele wymiarów, faktów, agregaty. Zakres i sposób przechowywania metadanych biznesowych może się znacznie różnić w zależności od organizacji, jednak najczęściej w repozytorium przechowywane są następujące informacje: · Nazwa Tabeli Hurtowni Danych · Nazwa Kolumny HD · Nazwa biznesowa – krótka i opisowa informacja biznesowa · Szczegółowa definicja biznesowa pola (kolumny), często zawiera zwięzły opis reguł biznesowych · Typ, długość pola i/lub flaga oznaczająca jakieś specjalne właściwości danego wpisu
8
Metadane biznesowe - cd
Użytkownicy – hurtowni danych, autorzy raportów, osoby tworzące kostki OLAP, testerzy, itd..
9
Metadane operacyjne Metadane operacyjne - procesach zachodzących w hurtowni Przechowywane informacje: Nazwa procesu Czas wykonania procesu Liczba wierszy Wynik wykonania - status czas startu i zakończenia
10
Metadane techniczne Metadane procesu ETL, Metadane transformacyjne – ukazują mapowania i transformacje danych Opis struktury i zawartość źródeł danych, Opis metody dostępu, Dane dla optymalizacji zapytań opis schematu hurtowni danych opis struktur fizycznych hurtowni danych Metadane techniczne ukazują mapowania i transformacje danych od systemu źródłowego do systemu docelowego procesu ładowania. Użytkownicy : głównie używane przez developerów hurtowni danych, specjalistów procesu ETL, analityków technicznych Metadane techniczne opisują m.in.: struktury i zawartość źródeł danych, metody dostępu do źródeł danych, własności danych wykorzystywane przez optymalizatory zapytań, opis schematu hurtowni danych (tabele, wymiary, ograniczenia integralnościowe), opis struktur fizycznych hurtowni danych (indeksy, partycje).
11
Metadane techniczne Użytkownicy – developerzy, specjaliści procesu ETL, analitycy techniczni
12
Extract Transform Load
Proces ETL Extract Transform Load
13
Metadane – procesu ETL Metadane Imię Nazwisko Wiek Jan Kowalski 40
14
Metadane – procesu ETL Biznesowe: słowniki pojęć biznesowych
odwzorowania pojęć biznesowych w obiekty HD reguły biznesowe jakość danych
15
Metadane – procesu ETL Sterujące wykonaniem ETL harmonogramy skrypty
logi z wykonania monitorowanie
16
Metadane – procesu ETL Metadane techniczne - opis źródeł (lokalizacja, struktura, zawartość) rodzaj źródła (relacyjna bd, obiektowa bd, xml, html, arkusz kalkulacyjny, ...) struktura/schemat metody dostępu użytkownicy i prawa dostępu wyniki analizy (profilowania) źródeł dzienny przyrost danych rozmiary danych przyrost danych w czasie (np. dzienny) średnia długość wiersza
17
Metadane – procesu ETL Metadane techniczne - opis HD Schemat
struktury fizyczne statystyki dot. danych organizacja przestrzeni dyskowej ODS i HD charakterystyki danych zasilających (gotowy zbiór zasilający) statystyki dla optymalizacji implementacje algorytmów (transformacje, czyszczenie, eliminowanie duplikatów) słowniki transformacji (np. nazwy miast) techniki odświeżania (pełne/przyrostowe, okresy) statystyki dot. odświeżania (liczba rekordów przesłanych, rekordy błędne) nazwy zadań ETL korzystające z danej struktury
18
Metadane – procesu ETL Opisujące proces ETL struktura przepływu pracy
odwzorowania źródło <->HD odwzorowania rekordów źródłowych w docelowe (lineage) definicje transformacji (nazwa, realizowany cel, wejście, wyjście, algorytm) skrypty i zadania (nazwa, realizowany cel, źródło, struktury docelowe, pliki logów, pliki sterujące, statystyki efektywnościowe z wykonania, obsługa wyjątków/awarii) harmonogram uruchamiania ETL (częstotliwość, obsługa wyjątków/awarii, pliki logów, statystyki efektywnościowe z wykonania) logi z pracy ETL charakterystyka danych fizyczna organizacja przestrzeni dyskowej
19
Metadane – procesu ETL Teradata Metadata Services
IBM (Ascential) MetaStage Erwin Data modeller Pentaho Metadata AbInitio EME (Enterpise Metadata Environment) Microsoft Repository
20
Standardy metadanych Open Information Model (OIM)
Common Warenhouse Metadata (CWM)
21
Korzyści stosowania metadanych
Ułatwienie zarządzania zasobami danych w ramach organizacji odpowiedzialnej za dane Możliwość uniknięcia budowy zbiorów danych które zawierają informacje zgromadzone już przez inne organizacje Łatwe uzyskanie informacji o wszystkich zbiorach danych dostępnych interesującego obszaru Lepsze planowanie działań dotyczących pozyskiwania i aktualizacji danych
22
Bibliografia http://etl-tools.info/pl/metadane.html
ane.pdf ktykaPDF/DWS_wykl07_metadane.pdf ktykaPDF/DWS_wykl04_etl.pdf
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.