Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Łódź 2008 Banki danych WYKŁAD 6 dr Łukasz Murowaniecki T-109.

Podobne prezentacje


Prezentacja na temat: "Łódź 2008 Banki danych WYKŁAD 6 dr Łukasz Murowaniecki T-109."— Zapis prezentacji:

1 Łódź 2008 Banki danych WYKŁAD 6 dr Łukasz Murowaniecki T-109

2 Łódź 2008 Hurtownia Danych Data Warehouse według koncepcji Billa Inmona (1991) to Kolekcja danych niezmienna, zorientowana tematycznie, zintegrowana, w której wartości zmiennej przypisane są do określonego momentu w czasie.

3 Łódź 2008 Hurtownia Danych

4 Łódź 2008 Hurtownia Danych Hurtownia danych musi mieć swój: Model logiczny Model fizyczny Sposób implementacji

5 Łódź 2008 Hurtownia Danych – model logiczny Należy zdefiniować: Jakie funkcje ma pełnić hurtownia Tematykę zagadnień Poziom szczegółowości danych czasu Dane przechowywane w hurtowni dzielą się na dwie kategorie: Fakty - zmienne analizowane Wymiary - zmienne klasyfikujące, które pozwalają na grupowanie danych

6 Łódź 2008 Hurtownia Danych – model logiczny Fakty Wymiary Dochód klient, produkt, rynek, czas Dostawy produkt, rynek, czas

7 Łódź 2008 Hurtownia Danych – model fizyczny Architektura przechowywania danych w hurtowni

8 Łódź 2008 Hurtownia Danych – model fizyczny – schemat gwiazdy Tabela faktów Tabele wymiarów

9 Łódź 2008 Hurtownia Danych – model fizyczny – schemat gwiazdy Wykorzystuje centralną tabel faktów otoczoną tabelami wymiarów. Tabela faktów zawiera mierzalne fakty i jest powiązana z tabelami wymiarów za pomoc kluczy. Tabele wymiarów przechowują opisy wymiarów. Normalizacja w celu przyspieszenia wyszukiwania.

10 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych

11 Łódź 2008 Hurtownia Danych – model fizyczny Jednowymiarowa baza danych

12 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych

13 Łódź 2008 Hurtownia Danych – model fizyczny Jednowymiarowa baza danych

14 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych

15 Łódź 2008 Hurtownia Danych – model fizyczny Konsolidacja w bazie jednowymiarowej

16 Łódź 2008 Hurtownia Danych – model fizyczny Konsolidacja w bazie wielowymiarowej Dane wejścioweDane wyjściowe

17 Łódź 2008 Hurtownia Danych – model fizyczny Jednowymiarowa baza danych

18 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Produkt Region Województwo

19 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Suma: Region PółnocWschódPołudnie woj. podkarpackiewoj. lubelskiewoj. podlaskie RzeszówSanok

20 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – mieszanie różnych danych w wymiarach Północ Południe Wschód Rzeszów Sanok Produkty

21 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Północ woj. pomorskie woj. warmińsko-mazurskie Południe woj. śląskie woj. opolskie

22 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów woj. pomorskie woj. śląskie woj. opolskie woj. podkarpackie woj. małopolskie Produkty

23 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Gdańsk Katowice Opole Rzeszów Kraków Produkty

24 Łódź 2008 Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Przechowuje dane zagregowane na przecięciu wymiarów. Każdy wymiar może tworzyć hierarchię z określoną liczbą poziomów. Komórki w takiej tabeli są wyznaczone przez przecięcia wymiarów. Każda komórka zawiera wektor wyliczonych wartości dla danego przecięcia

25 Łódź 2008 Hurtownia Danych – implementacja Procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang. Extract, Transformation, Load – ETL)

26 Łódź 2008 Hurtownia Danych – implementacja

27 Łódź 2008 Hurtownia Danych – narzędzia analityczne proste narzędzia raportowe służące tworzeniu powielanych raportów wykorzystywanych przez szerokie rzesze użytkowników biznesowych narzędzia klasy OLAP (On-line Analytical Processing) służące tworzeniu dowolnych, różnych raportów (ad-hoc) zaawansowane narzędzia drążenia i eksploracji danych (ang. Data Mining) służące do automatycznego znajdowania związków między danymi

28 Łódź 2008 Hurtownia Danych - zastosowanie Business Intelligence szeroki wachlarz aplikacji i technologii służących do zbierania, analizowania i udostępniania danych po to, aby pomóc pracownikom organizacji w podejmowaniu lepszych decyzji gospodarczych. Do aplikacji BI możemy zaliczyć systemy wspomagania decyzji (DSS), systemy raportująco- pytające (Q&R), Online analytical processing (OLAP), analizy statystyczne, prognozowanie i eksplorację danych

29 Łódź 2008 Hurtownia Danych - zastosowanie Business Intelligence

30 Łódź 2008 Data Mining Systemy informatyczne – źródło poprawy procesów gospodarczych Przechowywanie ogromnych ilości danych wg. Uniwersytetu w Berkeley w 2002 roku wyprodukowano około 5 exabajtów (5 milionów terabajtów) nowych danych 30% przyrost roczny niewielkie procent danych poddawanych jest analizie

31 Łódź 2008 Data Mining ukryta wiedza w nagromadzonych danych potrzeba wydobycia tej wiedzy w celu zwiększenia konkurencyjności Data Mining – jako narzędzie wydobywania wiedzy z nagromadzonych danych Data Mining – dziedzina, która zajmuje się odkrywaniem i analizą zależności, reguł, wzorców z bazach danych oraz hurtowniach danych

32 Łódź 2008 Data Mining – eksploracja danych Eksploracja danych - proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) Cel eksploracji danych - analiza danych i procesów w celu lepszego ich rozumienia

33 Łódź 2008 Data Mining Typy zapytań eksploracja danych = zapytania złożone zapytanie operacyjne do bazy danych: Ile butelek wina sprzedano w IV kwartale 2006 roku w sklepie Geant w Łodzi? zapytanie do hurtowni danych: Ile sprzedano butelek wina w sieci Geant na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 6 lat? zapytania eksploracyjne: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób można pogrupować klientów kupujących wino?

34 Łódź 2008 Data Mining Odkrywanie wiedzy w bazach danych KDD (Knowledge Discovery in Databases) SIGKDD (Special Interest Group On Knowledge Discovery and Data Mining) Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy

35 Łódź 2008 Data Mining Etapy procesu odkrywania wiedzy (ang. KDD process): Zapoznanie się z wiedzą dziedzinową aplikacji – aktualna wiedza i cele aplikacji Integracja danych Selekcja danych Czyszczenie danych: (około 60% czasu) Konsolidacja i transformacja danych Wybór metody (metod) eksploracji danych Wybór algorytmów eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wyników wizualizacja, Transformacja, usuwanie redundantnych wzorców, etc. Wykorzystanie pozyskanej wiedzy

36 Łódź 2008 Data Mining Mieszanka wielu dyscyplin: Systemy baz danych, hurtownie danych, OLAP Statystyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny (sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc.)

37 Łódź 2008 Data Mining Co można eksplorować: Relacyjne bazy danych Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych WWW

38 Łódź 2008 Data Mining Metody eksploracji danych: klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych odkrywanie asocjacji wykrywanie zmian i odchyleń eksploracja WWW eksploracja tekstów


Pobierz ppt "Łódź 2008 Banki danych WYKŁAD 6 dr Łukasz Murowaniecki T-109."

Podobne prezentacje


Reklamy Google