Metadane w opisie hurtowni danych oraz procesie ETL

Slides:



Advertisements
Podobne prezentacje
HURTOWNIE DANYCH DSDSDSDFGFDG.
Advertisements

Rola komputera w przetwarzaniu informacji.
Microsoft Professional Developer Days 2004
OLAP budowa aplikacji analitycznych w MS SQL 2000 i Yukon
Optymalizacja infrastruktury biznesowej
Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,
SYSTEM ZARZĄDZANIA DANYMI PCSS 2003/2004 START.
WPROWADZENIE DO BAZ DANYCH
Hurtownie Danych Mariusz Dołęga.
Propozycja metodyki nauczania inżynierii oprogramowania
Wycofywanie potwierdzonych transakcji
DOKUMENTOWANIE PROCESU ZINTEGROWANEGO
Dokumentowanie wymagań w języku XML
zespół JPEG w składzie:
Definicje operacji.
Opracowanie studium przypadku w SAS ETL Studio
Kierunki rozwoju technologii informatycznych: Hurtownie Danych
Konsultacje wojewódzkie Programu Bezpieczeństwa Powodziowego w Regionie Wodnym Środkowej Wisły r.
ETL – wymiana danych Michał Jabłonka
Wykład 7 Wojciech Pieprzyca
Wykład 6 Wojciech Pieprzyca
System eksploracji danych z wykorzystaniem dokumentów XML
Modele baz danych - spojrzenie na poziom fizyczny
Rozproszone biblioteki cyfrowe
dLibra – Środowisko dla Biblioteki Cyfrowej
Multimedialne bazy danych
Evident – Środki Trwałe
Zastosowanie technologii CUDA w sztucznej inteligencji
Teoria relacyjnych baz danych
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Nowoczesny system zarządzania firmą
Formy pracy na odległość w dobie Nowej Gospodarki dr Zbigniew E. Zieliński Wyższa Szkoła Handlowa im. B. Markowskiego ul. Peryferyjna.
Instytut Tele- i Radiotechniczny WARSZAWA
Arkusze kalkulacyjne, część 3
Tryb tabelaryczny w Analysis Services 2012
Digitalizacja obiektów muzealnych
Zarządzanie danymi biznesowymi za pomocą usług EIM serwera SQL 2012, czyli jak SSIS, MDM i DQS rozwiązują problem błędnych danych Marcin Szeliga
Produkujesz, sprzedajesz, zarządzasz? Zyskaj przewagę! Uniwersytet Ekonomiczny Wrocław, 10 czerwca 2008 Kontrola i analiza procesów biznesowych Mateusz.
Przeznaczenie produktu Opis funkcjonalności
Moduł: Informatyka w Zarządzaniu
POŚREDNIK Jak reprezentowana jest informacja w komputerze? liczby – komputer został wymyślony jako zaawansowane urządzenie służące do wykonywania.
Zarządzanie informacją
Wybrane zagadnienia relacyjnych baz danych
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
Bazy danych Microsoft access 2007.
Podstawowe informacje
Toruń 28/ Metadane SAML opisują, w jaki sposób ma być realizowana komunikacja pomiędzy IdP i SP Metadane są typowo prezentowane w postaci XML.
Model obiektowy bazy danych
Komputerowe wspomaganie projektowania
Podsystem Business Intelligence
Systemy informatyczne
PROINFO System zarządzania informacją o przedsięwzięciu informatycznym Seminarium dyplomowe 2004 WIiZ Politechnika Poznańska.
Hurtownie i eksploracja danych
Dokumentacja obsługi programów Kamil Smużyński Piotr Kościński.
ZINTEGROWANE SYSTEMY ZARZĄDZANIA
Bazy danych.
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
Hurtownia danych dla PSZ – realizacja CeSAR
1 Hurtownie Danych – SAP BW Ćwiczenia prowadzone w ramach przedmiotu Hurtownie Danych Semestr letni 2005/2006 Marcin Gajewski Michał Wilbrandt.
1 Hurtownie Danych – SAP BW Ćwiczenia prowadzone w ramach przedmiotu Hurtownie Danych Semestr letni 2005/2006 Marcin Gajewski Michał Wilbrandt.
Zintegrowane systemy informatyczne
Opracowanie studium przypadku w SAS ETL Studio Systemy baz danych i hurtowni danych Ludmiła Binek Katarzyna Rafalska
Innowacyjne metody zarządzania jakością oprogramowania, Zarządzanie ryzykiem w metodyce PRINCE2 Jerzy Nawrocki
Strateg jako innowacyjne narzędzie monitorowania rozwoju Renata Bielak Dyrektor Departamentu Analiz i Opracowań Zbiorczych GUS Zielona Góra, 10 maja 2016.
SQL Server Analysis Services Action!
Katalog Centralny Bibliotek Specjalistycznych Politechniki Śląskiej
Czym są i jak służą społeczeństwu?
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

Metadane w opisie hurtowni danych oraz procesie ETL

Plan Metadane Rodzaje metadanych Metadane w procesie ETL Podsumowanie

Definicja Metadane dane opisujące system i przechowywane w nim dane. „wszystkie informacje w środowisku hurtowni danych, które nie są samymi danymi” Metadane powinny zawierać: opis danych zawartych w hurtowni danych opis dostępności danych nazwę systemu, z którego pochodzą dane opis operacji poczynionych na danych, podczas zasilania hurtowni historia ładowań i awarii

Definicja - cd wersję metadanych metryki dotyczące danych (np. liczby wierszy w tablicach) prawach autorskich, własności

Metadane Odpowiednio opracowane, przechowywane (ułatwia zrozumienie informacyjnych zbiorów danych, ich ocenę) Centralne repozytorium metadanych - zawiera merytoryczny opis kolekcjonowanych danych oraz zbiór dodatkowych informacji o danych

Typy metadanych Metadane biznesowe Metadane techniczne Metadane operacyjne

Metadane biznesowe Szeroko opisujące wielowymiarowe dane systemu hurtowni. Przechowywane informacje Nazwa tabeli hurtowni danych Nazwa kolumny hurtowni danych Nazwa biznesowa Szczegółowa definicja biznesowa pola Typ, długość pola Metadane biznesowe – przechowują definicje biznesowe na temat danych, zawierają ogólne opisy wszystkich wartości występujących w hurtowni danych, z których korzystają użytkownicy. Opisywane powinny być wszystkie informacje z hurtowni danych, tj. tabele wymiarów, faktów, agregaty.  Zakres i sposób przechowywania metadanych biznesowych może się znacznie różnić w zależności od organizacji, jednak najczęściej w repozytorium przechowywane są następujące informacje: · Nazwa Tabeli Hurtowni Danych · Nazwa Kolumny HD · Nazwa biznesowa – krótka i opisowa informacja biznesowa · Szczegółowa definicja biznesowa pola (kolumny), często zawiera zwięzły opis reguł biznesowych · Typ, długość pola i/lub flaga oznaczająca jakieś specjalne właściwości danego wpisu

Metadane biznesowe - cd Użytkownicy – hurtowni danych, autorzy raportów, osoby tworzące kostki OLAP, testerzy, itd..

Metadane operacyjne Metadane operacyjne - procesach zachodzących w hurtowni Przechowywane informacje: Nazwa procesu Czas wykonania procesu Liczba wierszy Wynik wykonania - status czas startu i zakończenia

Metadane techniczne Metadane procesu ETL, Metadane transformacyjne – ukazują mapowania i transformacje danych Opis struktury i zawartość źródeł danych, Opis metody dostępu, Dane dla optymalizacji zapytań opis schematu hurtowni danych opis struktur fizycznych hurtowni danych Metadane techniczne ukazują mapowania i transformacje danych od systemu źródłowego do systemu docelowego procesu ładowania. Użytkownicy : głównie używane przez developerów hurtowni danych, specjalistów procesu ETL, analityków technicznych Metadane techniczne opisują m.in.: struktury i zawartość źródeł danych, metody dostępu do źródeł danych, własności danych wykorzystywane przez optymalizatory zapytań, opis schematu hurtowni danych (tabele, wymiary, ograniczenia integralnościowe), opis struktur fizycznych hurtowni danych (indeksy, partycje).

Metadane techniczne Użytkownicy – developerzy, specjaliści procesu ETL, analitycy techniczni

Extract Transform Load Proces ETL Extract Transform Load

Metadane – procesu ETL Metadane Imię Nazwisko Wiek Jan Kowalski 40

Metadane – procesu ETL Biznesowe: słowniki pojęć biznesowych odwzorowania pojęć biznesowych w obiekty HD reguły biznesowe jakość danych

Metadane – procesu ETL Sterujące wykonaniem ETL harmonogramy skrypty logi z wykonania monitorowanie

Metadane – procesu ETL Metadane techniczne - opis źródeł (lokalizacja, struktura, zawartość) rodzaj źródła (relacyjna bd, obiektowa bd, xml, html, arkusz kalkulacyjny, ...) struktura/schemat metody dostępu użytkownicy i prawa dostępu wyniki analizy (profilowania) źródeł dzienny przyrost danych rozmiary danych przyrost danych w czasie (np. dzienny) średnia długość wiersza

Metadane – procesu ETL Metadane techniczne - opis HD Schemat struktury fizyczne statystyki dot. danych organizacja przestrzeni dyskowej ODS i HD charakterystyki danych zasilających (gotowy zbiór zasilający) statystyki dla optymalizacji implementacje algorytmów (transformacje, czyszczenie, eliminowanie duplikatów) słowniki transformacji (np. nazwy miast) techniki odświeżania (pełne/przyrostowe, okresy) statystyki dot. odświeżania (liczba rekordów przesłanych, rekordy błędne) nazwy zadań ETL korzystające z danej struktury

Metadane – procesu ETL Opisujące proces ETL struktura przepływu pracy odwzorowania źródło <->HD odwzorowania rekordów źródłowych w docelowe (lineage) definicje transformacji (nazwa, realizowany cel, wejście, wyjście, algorytm) skrypty i zadania (nazwa, realizowany cel, źródło, struktury docelowe, pliki logów, pliki sterujące, statystyki efektywnościowe z wykonania, obsługa wyjątków/awarii) harmonogram uruchamiania ETL (częstotliwość, obsługa wyjątków/awarii, pliki logów, statystyki efektywnościowe z wykonania) logi z pracy ETL charakterystyka danych fizyczna organizacja przestrzeni dyskowej

Metadane – procesu ETL Teradata Metadata Services IBM (Ascential) MetaStage Erwin Data modeller Pentaho Metadata AbInitio EME (Enterpise Metadata Environment) Microsoft Repository

Standardy metadanych Open Information Model (OIM) Common Warenhouse Metadata (CWM)

Korzyści stosowania metadanych Ułatwienie zarządzania zasobami danych w ramach organizacji odpowiedzialnej za dane Możliwość uniknięcia budowy zbiorów danych które zawierają informacje zgromadzone już przez inne organizacje Łatwe uzyskanie informacji o wszystkich zbiorach danych dostępnych interesującego obszaru Lepsze planowanie działań dotyczących pozyskiwania i aktualizacji danych

Bibliografia http://etl-tools.info/pl/metadane.html http://www.swo.ae.katowice.pl/_pdf/152.pdf http://www.bgwm.pl/artykuly/artykul_metad ane.pdf http://www.cs.put.poznan.pl/rwrembel/dyda ktykaPDF/DWS_wykl07_metadane.pdf http://www.cs.put.poznan.pl/rwrembel/dyda ktykaPDF/DWS_wykl04_etl.pdf