Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
dr Łukasz Murowaniecki lukaszm@uni.lodz.pl T-109
Banki danych WYKŁAD 6 dr Łukasz Murowaniecki T-109 Łódź 2008
2
Hurtownia Danych Data Warehouse według koncepcji Billa Inmona (1991) to Kolekcja danych niezmienna, zorientowana tematycznie, zintegrowana, w której wartości zmiennej przypisane są do określonego momentu w czasie. Łódź 2008
3
Hurtownia Danych Łódź 2008
4
Hurtownia Danych Hurtownia danych musi mieć swój: Model logiczny
Model fizyczny Sposób implementacji Łódź 2008
5
Hurtownia Danych – model logiczny
Należy zdefiniować: Jakie funkcje ma pełnić hurtownia Tematykę zagadnień Poziom szczegółowości danych czasu Dane przechowywane w hurtowni dzielą się na dwie kategorie: Fakty - zmienne analizowane Wymiary - zmienne klasyfikujące, które pozwalają na grupowanie danych Łódź 2008
6
Hurtownia Danych – model logiczny
Fakty Wymiary Dochód klient, produkt, rynek, czas Dostawy produkt, rynek, czas Łódź 2008
7
Hurtownia Danych – model fizyczny
Architektura przechowywania danych w hurtowni Łódź 2008
8
Hurtownia Danych – model fizyczny – schemat gwiazdy
Tabela faktów Tabele wymiarów Tabele wymiarów Łódź 2008
9
Hurtownia Danych – model fizyczny – schemat gwiazdy
Wykorzystuje centralną tabel faktów otoczoną tabelami wymiarów. Tabela faktów zawiera mierzalne fakty i jest powiązana z tabelami wymiarów za pomoc kluczy. Tabele wymiarów przechowują opisy wymiarów. Normalizacja w celu przyspieszenia wyszukiwania. Łódź 2008
10
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Łódź 2008
11
Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych Łódź 2008
12
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Łódź 2008
13
Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych Łódź 2008
14
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Łódź 2008
15
Hurtownia Danych – model fizyczny
Konsolidacja w bazie jednowymiarowej Łódź 2008
16
Hurtownia Danych – model fizyczny
Konsolidacja w bazie wielowymiarowej Dane wejściowe Dane wyjściowe Łódź 2008
17
Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych Łódź 2008
18
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Produkt Region Województwo Łódź 2008
19
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Suma: Region Północ Wschód Południe woj. lubelskie woj. podkarpackie woj. podlaskie Rzeszów Sanok Łódź 2008
20
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych – mieszanie różnych danych w wymiarach Północ Południe Wschód Rzeszów Sanok Produkty Łódź 2008
21
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Północ woj. pomorskie woj. warmińsko-mazurskie Południe woj. śląskie woj. opolskie Łódź 2008
22
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych – hierarchia wewnątrz poziomów woj. pomorskie woj. śląskie woj. opolskie woj. podkarpackie woj. małopolskie Produkty Łódź 2008
23
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Gdańsk Katowice Opole Rzeszów Kraków Produkty Łódź 2008
24
Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Przechowuje dane zagregowane na przecięciu wymiarów. Każdy wymiar może tworzyć hierarchię z określoną liczbą poziomów. Komórki w takiej tabeli są wyznaczone przez przecięcia wymiarów. Każda komórka zawiera wektor wyliczonych wartości dla danego przecięcia Łódź 2008
25
Hurtownia Danych – implementacja
Procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang. Extract, Transformation, Load – ETL) Łódź 2008
26
Hurtownia Danych – implementacja
27
Hurtownia Danych – narzędzia analityczne
proste narzędzia raportowe służące tworzeniu powielanych raportów wykorzystywanych przez szerokie rzesze użytkowników biznesowych narzędzia klasy OLAP (On-line Analytical Processing) służące tworzeniu dowolnych, różnych raportów (ad-hoc) zaawansowane narzędzia drążenia i eksploracji danych (ang. Data Mining) służące do automatycznego znajdowania związków między danymi Łódź 2008
28
Hurtownia Danych - zastosowanie
Business Intelligence szeroki wachlarz aplikacji i technologii służących do zbierania, analizowania i udostępniania danych po to, aby pomóc pracownikom organizacji w podejmowaniu lepszych decyzji gospodarczych. Do aplikacji BI możemy zaliczyć systemy wspomagania decyzji (DSS), systemy raportująco-pytające (Q&R), Online analytical processing (OLAP), analizy statystyczne, prognozowanie i eksplorację danych Łódź 2008
29
Hurtownia Danych - zastosowanie
Business Intelligence Łódź 2008
30
Data Mining Systemy informatyczne – źródło poprawy procesów gospodarczych Przechowywanie ogromnych ilości danych wg. Uniwersytetu w Berkeley w 2002 roku „wyprodukowano” około 5 exabajtów (5 milionów terabajtów) nowych danych 30% przyrost roczny niewielkie procent danych poddawanych jest analizie Łódź 2008
31
Data Mining ukryta wiedza w nagromadzonych danych
potrzeba „wydobycia” tej wiedzy w celu zwiększenia konkurencyjności Data Mining – jako narzędzie wydobywania wiedzy z nagromadzonych danych Data Mining – dziedzina, która zajmuje się odkrywaniem i analizą zależności, reguł, wzorców z bazach danych oraz hurtowniach danych Łódź 2008
32
Data Mining – eksploracja danych
Eksploracja danych - proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) Cel eksploracji danych - analiza danych i procesów w celu lepszego ich rozumienia Łódź 2008
33
Data Mining Typy zapytań eksploracja danych = zapytania złożone
zapytanie operacyjne do bazy danych: Ile butelek wina sprzedano w IV kwartale 2006 roku w sklepie Geant w Łodzi? zapytanie do hurtowni danych: Ile sprzedano butelek wina w sieci Geant na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 6 lat? zapytania eksploracyjne: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób można pogrupować klientów kupujących wino? Łódź 2008
34
Data Mining Odkrywanie wiedzy w bazach danych
KDD (Knowledge Discovery in Databases) SIGKDD (Special Interest Group On Knowledge Discovery and Data Mining) Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy Łódź 2008
35
Data Mining Etapy procesu odkrywania wiedzy (ang. KDD process):
Zapoznanie się z wiedzą dziedzinową aplikacji – aktualna wiedza i cele aplikacji Integracja danych Selekcja danych Czyszczenie danych: (około 60% czasu) Konsolidacja i transformacja danych Wybór metody (metod) eksploracji danych Wybór algorytmów eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wyników wizualizacja, Transformacja, usuwanie redundantnych wzorców, etc. Wykorzystanie pozyskanej wiedzy Łódź 2008
36
Data Mining Mieszanka wielu dyscyplin:
Systemy baz danych, hurtownie danych, OLAP Statystyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny (sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc.) Łódź 2008
37
Data Mining Co można eksplorować: Relacyjne bazy danych
Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych WWW Łódź 2008
38
Data Mining Metody eksploracji danych: klasyfikacja/regresja
grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych odkrywanie asocjacji wykrywanie zmian i odchyleń eksploracja WWW eksploracja tekstów Łódź 2008
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.