Hurtownie i eksploracja danych Jacek Rumiński Kontakt: Katedra Inżynierii Biomedycznej, pk. 106, tel.: 3472678, fax: 3461757, e-mail: jwr@eti.pg.gda.pl
Omówienie planu wykładów i ćwiczeń laboratoryjnych (harmonogram wykładów – Ruminski_J_Hurt.doc) Omówienie ogólnych zagadnień organizacyjnych
ZALICZENIE 100 punktów do zdobycia: 60 proj. + 2*20 kolokwia. Zalicza 51 punktów. 3+(61-70); 4 (71-80); 4+(81-90); 5 (91-95); 5+ (96-100).
Wprowadzenie do hurtowni danych Jacek Rumiński Kontakt: Katedra Inżynierii Biomedycznej, pk. 106, tel.: 3472678, fax: 3461757, e-mail: jwr@eti.pg.gda.pl
Książki: Podstawa: William Inmon, Building the Data Warehouse, 1993 – początek Hurtowni !!! Building the Data Warehouse, Third Edition by W.H. Inmon ISBN:0471081302 John Wiley & Sons © 2002
Jarke Matthias Hurtownie danych. Podstawy organizacji i funkcjonowania Książka ta jest tłumaczeniem publikacji „Fundamentals of Data Warehouses”, wydanej przez wydawnictwo Springer-Verlag. Porusza bardzo dynamicznie rozwijającą się tematykę, związaną z hurtowniami danych. Zagadnienia w niej zawarte dotyczą: • integracji danych; • wielowymiarowych agregacji; • aktualizacji hurtowni danych; • optymalizacji i przetwarzania zapytań; • zarządzania metadanymi; • jakości hurtowni danych; • projektowania hurtowni danych. Książka jest znakomitym wprowadzeniem do problematyki związanej z jakością i wykorzystaniem metadanych w kontekście hurtowni danych. Mogą z niej korzystać zarówno teoretycy, jak i praktycy zajmujący się tym tematem. O tym, jak cenna jest to publikacja może świadczyć fakt, że jej pierwsze oryginalne wydanie rozeszło się w ciągu niespełna roku. wydawnictwo: Wydawnictwa Szkolne i Pedagogiczne Spółka Akcyjna seria: Idee, metody i narzędzia informatyki wymiary: 23,3 x 16,3 x 1,2 cm ISBN: 83-02-08850-1
Wspomaganie podejmowania decyzji – DSS Hurtownie danych (ang. Data Warehouse) – organizacja danych dla potrzeb ich przetwarzania (pobieranie danych), a nie operacji transakcyjnych (dodawanie i aktualizacja danych). Eksploracja danych (ang. Data mining) – metody przetwarzania danych dla potrzeb uzyskiwania nowej wiedzy (ang. Knowledge Discovery), Eksploracja sieci (ang. Web mining) – eksploracja danych w otoczeniu sieci WWW – xml i inne.
Hurtownia to: - według twórcy pojęcia Williama Inmona w jego książce z 1993 roku Building the Data Warehouse: „A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.” Hurtownia danych jest tematyczną, zintegrowaną, niezmienną i określoną w czasie kolekcją danych wspomagającą podejmowanie decyzji w procesie zarządzania.
Hurtownia danych jest: tematyczną, zintegrowaną, niezmienną i określoną w czasie kolekcją danych wspomagającą podejmowanie decyzji w procesie zarządzania. Tematyczną W odróżnieniu od operacyjnych baz danych dane gromadzone są nie w kontekście aplikacji (np. ubezpieczenia na życie, ubezpieczenia samochodowe, ubezpieczenia mieszkaniowe, itp.) ale w kontekście tematycznym (np. klienci, dostawcy, sprzedawcy, itd.). Zintegrowaną Hurtownia danych zawiera bardzo dużo danych, często z wielu baz danych. Takie duże ilości danych wymagają odpowiednich narzędzi ich transformacji, czyszczenia, itp. Im większa ilość danych tym hipotetycznie większa pewność uzyskanych wniosków z analiz.
Niezmienną Dane operacyjne są najczęściej wielokrotnie wykorzystywane w postaci dostępu do kolejnych rekordów. Rekordy te podlegają zmianom. W hurtowni natomiast dla realizacji określonej operacji dane wczytywane są jako blok (np. wszystkie dane dla danej perspektywy czasowej) a następnie przetwarzane bez możliwości zmian danych. Zatem standardowo (istnieją bowiem odstępstwa) dane hurtowni nie podlegają zmianą, są więc danymi historycznymi. Określone w czasie Przetwarzane dane hurtowni są zawsze zdefiniowane z jakieś perspektywy czasowej (określone historycznie). Horyzont czasu określa własność danych zgromadzonych/przetwarzanych z hurtowni danych. Kolekcją danych Podstawą hurtowni jest oczywiście baza danych – budowanie schematu takiej bazy musi spełniać powyższe wymagania. Przykładowe schematy to schemat gwiazdy czy płatka śniegu.
Przeglądanie wielu tabel Nie Tak Duże zasoby danych OLTP vs. OLAP Typ przetwarzania OLTP OLAP Przeglądanie wielu tabel Nie Tak Duże zasoby danych Wysoki koszt przetwarzania Czas przetwarzania w funkcji rozmiaru bazy danych Denormalizacja? Modelowanie wielowymiarowe?
Demo – Hurtownie w zastosowaniach biomedycznych – dane DNA Demo.wmv