Opracowanie studium przypadku w SAS ETL Studio Systemy baz danych i hurtowni danych Ludmiła Binek Katarzyna Rafalska

Slides:



Advertisements
Podobne prezentacje
Teoretyczne podstawy tworzenia systemów relacyjnych baz danych
Advertisements

Indeksy w bazie danych Oracle
HURTOWNIE DANYCH DSDSDSDFGFDG.
Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,
WPROWADZENIE DO BAZ DANYCH
MS Access 2003 Kwerendy Paweł Górczyński.
MS Access 2000 Kwerendy Piotr Górczyński 25/08/2001.
MS Access 2000 Tworzenie tabel Piotr Górczyński 2005.
Kwerendy –wszystkie typy (usuwające, aktualizujące i inne)
Wycofywanie potwierdzonych transakcji
Microsoft Office Access
Opracowanie studium przypadku w SAS ETL Studio
Co to jest studium przypadku?
SQL-owskie szlaki górskie
ETL – wymiana danych Michał Jabłonka
Wykład 7 Wojciech Pieprzyca
Wykład 6 Wojciech Pieprzyca
Tworzenie stron w języku WML jest zbliżone do tworzenia stron w HTML. W obydwu przypadkach używa się do tego celu znaczników (tagów). Zadaniem znaczników.
Rozproszone bazy danych
Modele baz danych - spojrzenie na poziom fizyczny
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
PROJEKTOWANIE TABEL W PROGRAMIE: ACCESS
Slowly changing dimension w SSIS
DIAGRAMY ER 2 (ENTITY-RELATIONSHIP DIAGRAMS 2) Ćwiczenia 2.
OPIS DZIAŁANIA PROGRAMU K A L K U L A T O R O D S E T K O W Y.
Arkusze kalkulacyjne, część 3
Zarządzanie danymi biznesowymi za pomocą usług EIM serwera SQL 2012, czyli jak SSIS, MDM i DQS rozwiązują problem błędnych danych Marcin Szeliga
Janusz ROŻEJ GENERATORY APLIKACJI Generatory aplikacji Janusz ROŻEJ
Bazy danych podstawowe pojęcia
Systemy baz danych Wykład 1
Metadane w opisie hurtowni danych oraz procesie ETL
Budowanie tabel i relacji
Prezentacja i szkolenie
Zarządzanie informacją
Wybrane zagadnienia relacyjnych baz danych
WPROWADZENIE DO BAZ DANYCH
Komendy SQL do pracy z tabelami i bazami
Zawansowane techniki programistyczne
18/11/ Języki programowania 1 Piotr Górczyński Kontrolki.
Narzędzie do programowania sterowników EKC Programator EKA183A
Opracowanie ćwiczeń dotyczących zapewniania niezawodności baz danych na przykładzie Oracle Opiekun : dr inż. Agnieszka Landowska Dyplomant : Tomasz Krzyżanowski.
Michał Krawczykowski kl. IIIB
Podstawowe informacje
Definiowanie kluczy w tabelach RBD
Informatyka – szkoła gimnazjalna – Scholaris - © DC Edukacja Projektowanie baz danych w programie Access Informatyka.
Tabela przestawna Tabela przestawna - narzędzie analityczne arkusza kalkulacyjnego pozwalające wybierać i przestawiać kolumny i wiersze z danymi w arkuszu.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Autor: Damian Urbańczyk
Beata Sanakiewicz. Spis treści  Łączenie dokumentów Łączenie dokumentów  Mechanizm OLE Mechanizm OLE  Obiekt osadzony Obiekt osadzony  Obiekt połączony.
Typy danych, klucz podstawowy, klucz obcy
.NET i Bazy Danych Projekt: Wadim Grasza.
Relacja (ang.relation) Po podzieleniu danych na tabele i zdefiniowaniu pól kluczy podstawowych trzeba wprowadzić do systemu bazy danych informacje na temat.
Bazy danych Podstawy relacyjnych baz danych Autor: Damian Urbańczyk.
Projektowanie bazy danych biblioteki szkolnej
Projektowanie postaci formularza:
BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.
Rozpowszechnianie aplikacji KRYSTIAN KOWALCZUK TORUŃ,
Formatowanie tabel w Excelu w tym formatowanie warunkowe Prezentację przygotował: Cieplucha Maciej.
HTML.  Wprowadzenie  Protokół HTTP  Język HTML  Definicja typu dokumentu  Nagłówek strony  Formatowanie treści dokumentu  Definiowanie struktury.
Zintegrowane systemy informatyczne
Temat: Tworzenie bazy danych
MAPY A SILP TABELE G_LMN Szkolenie Instruktorów Regionalnych Margonin IV 2006.
Wyższa Szkoła Bankowa, Poznań, dr inż. mirosław Loręcki
SQL Server Analysis Services Action!
Projekt modułu BANK INTERNETOWY Moduł funkcji banku
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Aplikacje i usługi internetowe
Czym są i jak służą społeczeństwu?
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

Opracowanie studium przypadku w SAS ETL Studio Systemy baz danych i hurtowni danych Ludmiła Binek Katarzyna Rafalska

Plan prezentacji Cele i wymagania projektu Realizacja projektu Ekstrakcja danych Odświeżanie danych

Cele i wymagania projektu Celem projektu jest przygotowanie studium przypadku dla hurtowni danych z zastosowaniem ekstrakcji danych z kilku zewnętrznych źródeł i opracowanie metody odświeżania hurtowni. Projekt ma również umożliwiać wykonanie kilku prostych raportów-analiz. Wykorzystanie co najmniej dwóch heterogenicznych źródeł danych, Rozpoznanie i omówienie co najmniej dwóch techniki odświeżania hurtowni.

Schemat bazy danych Wykorzystano dane z serwisu Allegro udostępnione przez Macieja Wajchta

Źródła danych Auctions - Access Userg - xml Callendar - xls Comment_buyer - Access Comment_seller - PostgreSQL

Ekstrakcja danych z pliku.txt

Ekstrakcja danych z pliku.xls

Ekstrakcja danych z pliku.xml

Ekstrakcja danych z pliku.mdb

Ekstrakcja danych z bazy danych - PostgreSQL

Connection String Access: Driver={Microsoft Access Driver (*.mdb)};Dbq=C:\mydatabase.mdb;Uid=Admin;Pwd=; Excel: Driver={Microsoft Excel Driver (*.xls)};DriverId=790;Dbq=C:\MyExcel.xls;DefaultDir=c:\my path; PostgreSQL: Driver={PostgreSQL};Server=IP address;Port=5432;Database=myDataBase;Uid=myUsernam e;Pwd=myPassword;

Schemat bazy danych

Schemat gwiazdy Tabelą faktów jest „Popularity_Auction” Tabelami wymiarów są: „Callendar” i „Userg” POPULARITY_AUCTION USERG CALLENDAR

Odświeżanie hurtowni Rodzaje odświeżania: Pierwsze – zasilenie pustej hurtowni Okresowe – odświeżanie w trakcie eksploatacji Jak odświeżać: W pełni Przyrostowo Kiedy odświeżać: Automatycznie Na żądanie Rodzaje przesyłanych obiektów: Dane Polecenia modyfikujące

Odświeżanie hurtowni Przykład: W jednej tabeli wymiarów są informacje o sprzedawcach. Co zrobić jeśli pracownik zostanie przeniesiony do innego oddziału firmy, a badamy wydajność oddziałów? Odświeżanie jest podobne do procesu ETL. Często odbywa się równolegle z ładowaniem nowych danych.

Odświeżanie hurtowni Wolno zmieniające się wymiary Proces „SCD Type 2 Loader” - transormacja pozwalająca ładować dane i utrzymywać zmieniające się dane 3 typy SCD

Typ 1 SCD Przechowuje jeden wiersz dla każdego członka w wymiarze. Każdy członek ma unikalne ID. Nowa dana nadpisuje starą i historia nie jest pamiętana.

Typ 2 SCD Przechowuje wiele wierszy dla jednego obiektu Jeden wiersz przechowuje aktualne wartości Pozostałe są historią zmian

Typ 3 SCD Występuje specjalna kolumna, która zawiera różne wersje tej samej kolumny. Tak samo jak w typie 1 SCD występuje tylko jeden wiersz dla obiektu.

Odświeżanie hurtowni Tabele ładowane przy pomocy SCD Type 2 Loader zawierają oprócz klucza głównego klucz biznesowy Klucz biznesowy jest stały dla obiektu, klucz główny jest generowany dla każdego wiersza Używa się też daty początkowej i końcowej dla określenia okresu, w którym wiersz był aktualny.

Odświeżanie hurtowni Odświeżanie tabeli faktów Fact Table Lookup Tabela faktów musi być odświażana po wymiarach Looup table służy do znalezienia połączenia między kluczem w tabeli źródłowej a kluczem w tabeli wymiarów.

Podsumowanie Proces ETL umożliwia ekstrakcję heterogonicznych typów plików Nie tylko ekstrakcja, transformacja i ładowanie danych Obejmuje też odświeżanie danych SAS ETL Studio ma wiele funkcji Więcej informacji na stronie:

Pytania Dziękujemy za uwagę