Pobierz prezentację
1
HURTOWNIE DANYCH DSDSDSDFGFDG
2
Co to jest hurtownia danych?
Hurtownia danych (data warehouse) jest wydzieloną centralną bazą danych zbierającą informacje służące do zarządzania organizacją. Jest ona odizolowana od baz operacyjnych a jej struktura i użyte do jej budowy narzędzia powinny być zoptymalizowane pod kątem przetwarzania analitycznego.
3
Po co hurtownia danych? Do sprawnego zarządzania firmą potrzeba, by:
Dane zgromadzone w organizacji mogły być wykorzystywane w procesie decyzyjnym, Istniała możliwość tworzenia analiz obejmujących całość organizacji,
4
Cechy hurtowni danych Jest scentralizowaną bazą,
Jest oddzielona od baz operacyjnych, Scala informacje z wielu źródeł, Jest zorientowana tematycznie, Przechowuje dane historyczne, Utrzymuje wielką ilość informacji, Agreguje informacje,
5
Rodzaje danych w hurtowniach
Elementarne, Zmaterializowane agregaty – wyliczone wartości obliczeń (sumy, średnie itp.), Historyczne, Metadane,
6
Cykl życia danych w HD Ładowanie i scalanie Agregacja
Tworzenie danych historycznych Usuwanie
7
Architektura Hurtowni Danych
Scentralizowana Warstwowa Federacyjna
8
Architektura scentralizowana
Scentralizowana hurtownia danych jest stosunkowo prostą architekturą. Znacznie upraszcza dostęp do danych, głównym zastosowaniem takiego rodzaju architektury są organizacje o scentralizowanej strukturze. Oczywiście architektura taka nie oznacza że w jednej organizacji musi znajdować się jedna, scentralizowana hurtownia danych – wręcz przeciwnie , zaleca się tworzenie kliku scentralizowanych hurtowni.
9
Hurtownie danych Architektura scentralizowana
10
Architektura warstwowa
Następnym rodzajem jest warstwowa architektura hurtowni danych. Główną hurtownię danych uzupełniają kolejne warstwy, podsumowania danych (hurtownie tematyczne). Architektura warstwowa może być również stosowana w przypadku źródeł danych gdzie dane napływają z różnych oddziałów firmy i są podsumowywane.
11
Hurtownie danych Architektura warstwowa
12
Architektura federacyjna
Federacyjna hurtownia danych to aktywny związek i współpraca kilku hurtowni danych które mogą znajdować się nie tylko w jednym ale w wielu systemach komputerowych. Globalna hurtownia danych jest w tym wypadku tworem wirtualnym, a hurtownie tematyczne odpowiadają zwykle odpowiednim działom w przedsiębiorstwie.
13
Hurtownie danych Architektura federacyjna
14
Hurtownie danych OLAP/OLTP
OLTP – On-Line Transaction Processing (przetwarzanie transakcyjne) OLAP – On-Line Analytical Processing (przetwarzanie analityczne) Systemy informatyczne możemy podzielić na transakcyjne(OLTP) i analityczne (OLAP). Generalnie można przyjąć, że systemy OLTP dostarczają danych źródłowych do hurtowni danych, natomiast systemy OLAP pomagają w ich analizie.
15
Hurtownie danych Wstęp – OLAP/OLTP
OLTP (On-line Transaction Processing) charakteryzuje się dużą ilością prostych transakcji zapisu i odczytu. Główny nacisk kładziony jest na zachowanie integralności danych w środowisku wielodostępowym oraz na efektywność mierzoną liczbą transakcji w danej jednostce czasu. OLAP (On-line Analytical Processing) charakteryzuje się natomiast stosunkowo nielicznymi, ale za to złożonymi transakcjami odczytu. Miarą efektywności jest czas odpowiedzi. Powszechnie wykorzystuje się go w technikach związanych z Data Mining'iem.
16
Hurtownie danych OLAP/OLTP - porównanie
Dane zorientowane tematycznie Dane zorientowane procesowo Duża wielkość (od kilkudziesięciu GB do kilku TB) Mała wielkość (kilkadziesiąt MB – kilka GB) Przechowywane są dane historyczne Przechowywane są dane teraźniejsze Zdenormalizowana struktura danych (kilka tabel – wiele kolumn w tabeli) Znormalizowana struktura danych (wiele tabel – kilka kolumn w tabeli) Złożone zapytania Proste zapytania Dane zagregowane Dane jednostkowe
17
Hurtownie danych OLAP/OLTP
Hurtownie danych (dane) możemy potraktować jako bufor pomiędzy systemami OLAP oraz OLTP
18
Wielowymiarowa kostka OLAP
Kostka składa się z Miar, Wymiarów i Poziomów oraz jest zoptymalizowany pod kątem szybkiego i bezpiecznego dostępu do danych wielowymiarowych. Miary to wskaźniki numeryczne (ile?), natomiast wymiary reprezentują dane opisowe (kto? co? kiedy? gdzie?). Wymiary są pogrupowane za pomocą poziomów, które odzwierciedlają hierarchię funkcjonującą w organizacji i pozwalają użytkownikom końcowym zwiększać lub zmniejszać poziom szczegółowości analizowanego wymiaru. Z reguły w hurtowni danych jest zdefiniowanych co najmniej kilkanaście wymiarów, a najczęściej spotykanym i wymiarami są: czas, klient, produkt, lokalizacja, biuro sprzedaży. Hierarchia każdego z wymiarów ustawiona jest za pomocą Poziomów. Przykładowo, hierarchia poziomów może być ułożona w następujący sposób: Czas: Rok -> Kwartał -> Miesiąc -> Tydzień -> Dzień Klient: Grupa klientów -> Nazwa klienta Produkt: Linia Produktu -> Grupa Produktu -> Produkt Lokalizacja: Obszar -> Region -> Kraj
19
Wielowymiarowa kostka OLAP
Kategorie to elementy danych które opisują poziomy w wymiarach. Przykładowo, dla wymiaru Lokalizacji, w hurtowni danych zostały ustawione poziomy obszaru, regionu i kraju. W tym przykładzie dla Polski kategoriami będą: Obszar - Europa Region - Europa Środkowa Kraj - Polska Typowe, najczęściej występujące Miary w hurtowniach danych to: Przychód netto Przychód brutto Waga Ilość Koszt Upust
20
Model wielowymiarowy produkt sklep 150 PLN czas Zawartość komórki: zagregowana miara ( np. suma sprzedaży danego produktu w danym sklepie, danego dnia).
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.