ETL – wymiana danych Michał Jabłonka 2007-01-12.

Slides:



Advertisements
Podobne prezentacje
Indeksy w bazie danych Oracle
Advertisements

Przekształcanie dokumentów XML - XSL
Architektura SAP R/3 Wybrane zagadnienia.
Projektowanie systemowe
Copyright © 2006 Quest Software Wybrane Narzędzia z Oferty Quest Software Dedykowane dla Baz Danych MACIEJ POGORZELSKI.
e-commerce jako efektywny rozwój dystrybucji
EControl – prostsze zarządzanie tożsamością pracowników Twórz Zarządzaj Audytuj Wolfgang Berger Omni Technology Solutions
Microsoft Professional Developer Days 2004
Microsoft Windows 2000 dla Administratora. Podstawowe możliwości Wielojęzyczność Wielojęzyczność Usprawnienia interfejsu użytkownika Usprawnienia interfejsu.
ADAM Active Directory w trybie aplikacyjnym
Środowisko Windows 2000.
OLAP budowa aplikacji analitycznych w MS SQL 2000 i Yukon
SYSTEM ZARZĄDZANIA DANYMI PCSS 2003/2004 START.
Projektowanie Aplikacji Komputerowych
Wycofywanie potwierdzonych transakcji
Łukasz Czerwonka. Podstawy i założenia regularność wydajność szybkość ochrona kopii.
Tomasz Smieszkoł - 15 stycznia
Dokumentowanie wymagań w języku XML
Opracowanie studium przypadku w SAS ETL Studio
Kierunki rozwoju technologii informatycznych: Hurtownie Danych
Systemy operacyjne Wykład nr 5: Wątki Piotr Bilski.
Wykład 6 Wojciech Pieprzyca
Rational Unified Process
Rozproszone bazy danych
Projekt i implementacja aplikacji do zasilania bazy danych testowymi danymi Jacek Lis Promotor: prof. dr hab. inż. Włodzimierz KASPRZAK.
1/18 LOGO Profil zespołu. 2/18 O nas Produkcja autorskich rozwiązań informatycznych dla małych i średnich firm w zakresie systemów: Baz danych Aplikacji.
Bezpieczeństwo baz danych
Multimedialne bazy danych
Heterogeniczne procesory wielordzeniowe w urządzeniach audio
Heterogeniczne procesory wielordzeniowe w urządzeniach audio
Wykład 2 Cykl życia systemu informacyjnego
Platforma udostępniająca skalowalną komunikację w środowisku rozproszonym Tomasz Hankus Jarosław Janik Konrad Tendera Opiekun: dr inż. Tomasz Szydło Prowadzący:
TBD - P ERFORMANCE W BAZACH M ICROSOFT SQL S ERVER, CZYLI O CO W TYM W OGÓLE CHODZI Michał Grodzicki MCTS SQL SERVER lipca 2012.
Aktualne koncepcje zabezpieczania danych – backup
Wirtualna baza SQL zgodna z SQL Server SQL as a Service
Tryb tabelaryczny w Analysis Services 2012
Zarządzanie danymi biznesowymi za pomocą usług EIM serwera SQL 2012, czyli jak SSIS, MDM i DQS rozwiązują problem błędnych danych Marcin Szeliga
Największe problemy w projektach informatycznych IT Opracował: Karol Pietrzak na podstawie artykułu z SDJ/2007 IX.
SYSTEM DYNAMICZNEJ ANALIZY JAKOŚCI SCENARIUSZY BIZNESOWYCH Łukasz Budnik.
Metadane w opisie hurtowni danych oraz procesie ETL
IBM mainframe jest optymalnym serwerem, o ile … (czy musi być tak drogo?)
Plan prezentacji Zarys projektu Geneza tematu
Self Service Business Intelligence Witajcie po ciemnej stronie mocy!
Tabele historyczne w PostgreSQL
Enterprise Architecture Patterns
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
Akademia Górniczo-Hutnicza Skalowalny, komponentowy system zbierania i przechowywania danych pochodzących z monitorowania systemów rozproszonych Dominik.
Prezentują: Marek Wałach UX Designer Marcin Ceran PHP Developer.
dr Łukasz Murowaniecki T-109
Opracowanie ćwiczeń dotyczących zapewniania niezawodności baz danych na przykładzie Oracle Opiekun : dr inż. Agnieszka Landowska Dyplomant : Tomasz Krzyżanowski.
ŁUKASZ SKROBOT, Konsultant techniczny Sybase Professional services
Systemy informatyczne
Czy twoje dane są bezpieczne ? czyli jako konstruować system żeby zapewnić ciągłość przetwarzania i zabezpieczyć się przed utrata danych Grzegorz Pluciński.
Analiza narzędzi do współpracy systemu DNS z LDAP-em
Metody komunikacji i synchronizacji w obliczeniach równoległych Michał Radziszewski.
.NET i Bazy Danych Projekt: Wadim Grasza.
Temat 1 Pojęcie systemu operacyjnego Opracował: mgr Marek Kwiatkowski.
ASP.NET Kontrolki źródła danych i prezentacji danych w ASP.Net
Architektura Rafał Hryniów. Architektura Wizja projektu systemu, którą dzielą twórcy Struktura komponentów systemu, ich powiązań oraz zasad i reguł określających.
Komisja Torowa IGKM „Techniczne i środowiskowe aspekty rozwoju tramwaju i metra w Warszawie” System monitorowania zwrotnic tramwajowych sterowanych automatycznie.
Opracowanie studium przypadku w SAS ETL Studio Systemy baz danych i hurtowni danych Ludmiła Binek Katarzyna Rafalska
Analiza, projekt i częściowa implementacja systemu wspomagania pracy Referatu Reprografii Promotor: mgr inż. Dariusz OlczykWykonała: Katarzyna Ściwiarska.
Jak 5 narzędzi złożyło się na sukces projektu Hurtowni Danych
Ankieta jednostki za lata
RAID RAID (ang. Redundand Array of Independent Disks) to sposób połączenia dwóch lub większej ilości dysków twardych w jedną macierz, która zapewnia dodatkową.
Inżynieria Oprogramowania Laboratorium
Technologie Informacyjne Bazy danych
JavaBeans by Paweł Wąsala
Programowanie w Javie 1 Dr Robert Kowalczyk
Zapis prezentacji:

ETL – wymiana danych Michał Jabłonka 2007-01-12

Plan prezentacji Wstęp do zagadnienia wymiany danych między systemami informatycznymi ETL – wprowadzenie ETL – najczęstsze problemy Próby implementacji własnego narzędzia ETL Wyniki komercyjnych narzędzi ETL EAI – jako uzupełnienie rozwiązań ETL

Wymiana danych pomiędzy systemami informatycznymi Obszary biznesu zainteresowane wymianą danych Wszystko w jednym systemie , czy architektura rozproszona ? Koszty głównym argumentem Problem utrzymania i eksploatacji systemów

ETL - wprowadzenie ETL = Extract, transform, and load Extract – wyładowanie danych z systemów źródłowych Transform – przekształcenie danych do wymaganej postaci Load – załadowanie danych do systemu docelowego

ETL - wprowadzenie

ETL - wprowadzenie Extract Transform Load selekcja atrybutów dekodowanie wartości wyliczanie nowych atrybutów złączenia danych z różnych systemów agregacja danych transpozycja Load

Extract – problemy Podłączenie do źródła Szybkość wyładowania danych Zapewnienie kompletności wyładowanych danych Zapewnienie spójności czasowej wyładowanych danych Mechanizmy automatycznej obsługi błędów (nie chodzi o błędy w danych)

Transform – problemy Uniwersalny model danych Narzędzia do skomplikowanych transformacji Czasochłonność operacji Mechanizm wycofywania zmian Punkty kontrolne

Load - problemy Podłączenie do odbiorcy Czasochłonność ładowania – ograniczenia sprzętowe (n .. 1) Problem spójności danych Wycofywanie zmian Mechanizmy automatycznej obsługi błędów (nie chodzi o błędy w danych) -

Własny ETL Najprostszy ETL dla baz Oracle Wersja ulepszona E – spool lub przekierowanie stdout do pliku T – skrypty SED , AWK L – SQLLoader , insert into table (bardzo mało wydajne) Wersja ulepszona E – program w C++ lub Java komunikujący się z Oracle poprzez OCI, wyładowania przyrostowe T – wczytanie do bazy Oracle (bez audytu , noarchivelog) dedykowanej dla ETL-a – funkcje agregujące, analityczne L – SQLLoader w trybie direct load, aplikowanie przyrostów PL/SQL

Narzędzia komercyjne Bogata biblioteka connectorów Własny scheduler Designer Metadane – impact analysis Monitoring Raporty Olbrzymia wydajność Olbrzymi koszt

Rynek ETL

Wyniki narzędzi ETL Środowisko testowe Zadanie testowe SunSolaris 16CPU (8x2 core), 32 GB RAM, Macierz dyskowa Symetrix, OS - Solaris 9 Zadanie testowe Plik z danymi z transakcjami finansowymi (data, kontoA, kontoB, waluta, kwota, id_transakcji) 30 milionów rekordów dziennie (10GB). Należy zbudować agregaty dla każdego z kontynentów: trunc(data), kontoB, waluta, sum(kwota) i załadować je do bazy Oracle

Wyniki ETL – zadanie uproszczone Najprostszy własny ETL E – 4 h T – L – 1,5 h Wersja ulepszona E – 1,5 h L – 1h Możliwe ulepszenia: partycjonowanie, wątki.

EAI – transfery on-line EAI = Enterprise Application Integration Transfery on-line Transakcyjność Małe wolumeny danych – pojedyncze rekordy Zapewnienie spójności danych pomiędzy wszystkimi aplikacjami Tryb pracy synchroniczny i asynchroniczny

Dziękuje za uwagę