Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

dr Łukasz Murowaniecki T-109

Podobne prezentacje


Prezentacja na temat: "dr Łukasz Murowaniecki T-109"— Zapis prezentacji:

1 dr Łukasz Murowaniecki lukaszm@uni.lodz.pl T-109
Banki danych WYKŁAD 6 dr Łukasz Murowaniecki T-109 Łódź 2008

2 Hurtownia Danych Data Warehouse według koncepcji Billa Inmona (1991) to Kolekcja danych niezmienna, zorientowana tematycznie, zintegrowana, w której wartości zmiennej przypisane są do określonego momentu w czasie. Łódź 2008

3 Hurtownia Danych Łódź 2008

4 Hurtownia Danych Hurtownia danych musi mieć swój: Model logiczny
Model fizyczny Sposób implementacji Łódź 2008

5 Hurtownia Danych – model logiczny
Należy zdefiniować: Jakie funkcje ma pełnić hurtownia Tematykę zagadnień Poziom szczegółowości danych czasu Dane przechowywane w hurtowni dzielą się na dwie kategorie: Fakty - zmienne analizowane Wymiary - zmienne klasyfikujące, które pozwalają na grupowanie danych Łódź 2008

6 Hurtownia Danych – model logiczny
Fakty Wymiary Dochód klient, produkt, rynek, czas Dostawy produkt, rynek, czas Łódź 2008

7 Hurtownia Danych – model fizyczny
Architektura przechowywania danych w hurtowni Łódź 2008

8 Hurtownia Danych – model fizyczny – schemat gwiazdy
Tabela faktów Tabele wymiarów Tabele wymiarów Łódź 2008

9 Hurtownia Danych – model fizyczny – schemat gwiazdy
Wykorzystuje centralną tabel faktów otoczoną tabelami wymiarów. Tabela faktów zawiera mierzalne fakty i jest powiązana z tabelami wymiarów za pomoc kluczy. Tabele wymiarów przechowują opisy wymiarów. Normalizacja w celu przyspieszenia wyszukiwania. Łódź 2008

10 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Łódź 2008

11 Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych Łódź 2008

12 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Łódź 2008

13 Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych Łódź 2008

14 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Łódź 2008

15 Hurtownia Danych – model fizyczny
Konsolidacja w bazie jednowymiarowej Łódź 2008

16 Hurtownia Danych – model fizyczny
Konsolidacja w bazie wielowymiarowej Dane wejściowe Dane wyjściowe Łódź 2008

17 Hurtownia Danych – model fizyczny
Jednowymiarowa baza danych Łódź 2008

18 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Produkt Region Województwo Łódź 2008

19 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Suma: Region Północ Wschód Południe woj. lubelskie woj. podkarpackie woj. podlaskie Rzeszów Sanok Łódź 2008

20 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych – mieszanie różnych danych w wymiarach Północ Południe Wschód Rzeszów Sanok Produkty Łódź 2008

21 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Północ woj. pomorskie woj. warmińsko-mazurskie Południe woj. śląskie woj. opolskie Łódź 2008

22 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych – hierarchia wewnątrz poziomów woj. pomorskie woj. śląskie woj. opolskie woj. podkarpackie woj. małopolskie Produkty Łódź 2008

23 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Gdańsk Katowice Opole Rzeszów Kraków Produkty Łódź 2008

24 Hurtownia Danych – model fizyczny
Wielowymiarowa baza danych Przechowuje dane zagregowane na przecięciu wymiarów. Każdy wymiar może tworzyć hierarchię z określoną liczbą poziomów. Komórki w takiej tabeli są wyznaczone przez przecięcia wymiarów. Każda komórka zawiera wektor wyliczonych wartości dla danego przecięcia Łódź 2008

25 Hurtownia Danych – implementacja
Procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang. Extract, Transformation, Load – ETL) Łódź 2008

26 Hurtownia Danych – implementacja

27 Hurtownia Danych – narzędzia analityczne
proste narzędzia raportowe służące tworzeniu powielanych raportów wykorzystywanych przez szerokie rzesze użytkowników biznesowych narzędzia klasy OLAP (On-line Analytical Processing) służące tworzeniu dowolnych, różnych raportów (ad-hoc) zaawansowane narzędzia drążenia i eksploracji danych (ang. Data Mining) służące do automatycznego znajdowania związków między danymi Łódź 2008

28 Hurtownia Danych - zastosowanie
Business Intelligence szeroki wachlarz aplikacji i technologii służących do zbierania, analizowania i udostępniania danych po to, aby pomóc pracownikom organizacji w podejmowaniu lepszych decyzji gospodarczych. Do aplikacji BI możemy zaliczyć systemy wspomagania decyzji (DSS), systemy raportująco-pytające (Q&R), Online analytical processing (OLAP), analizy statystyczne, prognozowanie i eksplorację danych Łódź 2008

29 Hurtownia Danych - zastosowanie
Business Intelligence Łódź 2008

30 Data Mining Systemy informatyczne – źródło poprawy procesów gospodarczych Przechowywanie ogromnych ilości danych wg. Uniwersytetu w Berkeley w 2002 roku „wyprodukowano” około 5 exabajtów (5 milionów terabajtów) nowych danych 30% przyrost roczny niewielkie procent danych poddawanych jest analizie Łódź 2008

31 Data Mining ukryta wiedza w nagromadzonych danych
potrzeba „wydobycia” tej wiedzy w celu zwiększenia konkurencyjności Data Mining – jako narzędzie wydobywania wiedzy z nagromadzonych danych Data Mining – dziedzina, która zajmuje się odkrywaniem i analizą zależności, reguł, wzorców z bazach danych oraz hurtowniach danych Łódź 2008

32 Data Mining – eksploracja danych
Eksploracja danych - proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) Cel eksploracji danych - analiza danych i procesów w celu lepszego ich rozumienia Łódź 2008

33 Data Mining Typy zapytań eksploracja danych = zapytania złożone
zapytanie operacyjne do bazy danych: Ile butelek wina sprzedano w IV kwartale 2006 roku w sklepie Geant w Łodzi? zapytanie do hurtowni danych: Ile sprzedano butelek wina w sieci Geant na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 6 lat? zapytania eksploracyjne: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób można pogrupować klientów kupujących wino? Łódź 2008

34 Data Mining Odkrywanie wiedzy w bazach danych
KDD (Knowledge Discovery in Databases) SIGKDD (Special Interest Group On Knowledge Discovery and Data Mining) Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy Łódź 2008

35 Data Mining Etapy procesu odkrywania wiedzy (ang. KDD process):
Zapoznanie się z wiedzą dziedzinową aplikacji – aktualna wiedza i cele aplikacji Integracja danych Selekcja danych Czyszczenie danych: (około 60% czasu) Konsolidacja i transformacja danych Wybór metody (metod) eksploracji danych Wybór algorytmów eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wyników wizualizacja, Transformacja, usuwanie redundantnych wzorców, etc. Wykorzystanie pozyskanej wiedzy Łódź 2008

36 Data Mining Mieszanka wielu dyscyplin:
Systemy baz danych, hurtownie danych, OLAP Statystyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny (sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc.) Łódź 2008

37 Data Mining Co można eksplorować: Relacyjne bazy danych
Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych WWW Łódź 2008

38 Data Mining Metody eksploracji danych: klasyfikacja/regresja
grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych odkrywanie asocjacji wykrywanie zmian i odchyleń eksploracja WWW eksploracja tekstów Łódź 2008


Pobierz ppt "dr Łukasz Murowaniecki T-109"

Podobne prezentacje


Reklamy Google