dr Łukasz Murowaniecki T-109

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do Data Miningu
Advertisements

Teoretyczne podstawy tworzenia systemów relacyjnych baz danych
Prezentacja firmy Remigiusz Siudziński Warszawa,
Data Mining w e-commerce
Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”
HURTOWNIE DANYCH DSDSDSDFGFDG.
Horyzontalne scenariusze pracy
OLAP budowa aplikacji analitycznych w MS SQL 2000 i Yukon
Hurtownie Danych Mariusz Dołęga.
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Kierunki rozwoju technologii informatycznych: Hurtownie Danych
Specjalność Analiza danych 2009 Katedra Statystyki Instytut Zastosowań Matematyki.
Specjalność Analiza danych 2010 na kierunku IiE Katedra Statystyki Instytut Zastosowań Matematyki.
ETL – wymiana danych Michał Jabłonka
Wykład 7 Wojciech Pieprzyca
Wykład 6 Wojciech Pieprzyca
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
System eksploracji danych z wykorzystaniem dokumentów XML
Wprowadzenie do systemów baz danych
Typy systemów informacyjnych
Dalsze elementy metodologii projektowania. Naszym celem jest...
Multimedialne bazy danych
Lider rynku Źródło: The OLAP Report Źródło: Gartner Group
Wykład 3 Analiza i projektowanie strukturalne
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
MATEMATYCZNE MODELOWANIE SYSTEMÓW
Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy Tomasz Matysik Kołobrzeg,
Arkusze kalkulacyjne, część 3
WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ i ZARZĄDZANIA
Plan prezentacji informatyka + 1. Wprowadzenie 2. Systemy OLTP i OLAP
.... kreujemy nowoczesne, efektywniejsze podejście do wiedzy w biznesie.
Metadane w opisie hurtowni danych oraz procesie ETL
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Self Service Business Intelligence Witajcie po ciemnej stronie mocy!
Aleksander Miler Sales Consultant Business Intelligence.
Moduł: Informatyka w Zarządzaniu
Wybrane zagadnienia relacyjnych baz danych
dr Łukasz Murowaniecki T-109
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
Bazy danych Microsoft access 2007.
Bazy danych, sieci i systemy komputerowe
w ekonomii, finansach i towaroznawstwie
Bazy danych i ich wykorzystanie w handlu elektronicznym
Łódź 2008 Banki danych WYKŁAD 2 dr Łukasz Murowaniecki T-109.
Podsystem Business Intelligence
Szkolenia E-Learning SIMP Consulting Stanisław Płaskowicki Dorota Płaskowicka.
Systemy Business Intelligence – warunki użytkowania Halina Tańska Wydział Matematyki i Informatyki Uniwersytet Warmińsko-Mazurski „e-commerce” Olsztyn.
Systemy informatyczne
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Eksploracja danych Data Mining
WOJEWÓDZTWO jednostka podziału administracyjnego w Polsce/
Hurtownie i eksploracja danych
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
Przetwarzanie informacji w procesie decyzyjnym
Systemy zarządzania przepływem pracy i systemy zarządzania procesami biznesowymi Karolina Muszyńska.
Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania
Bazy Danych Wprowadzenie
Hurtownia danych dla PSZ – realizacja CeSAR
Temporalne magazyny danych. Magazyny danych (1) Magazyn danych (hurtownia danych) – zintegrowana materializowana perspektywa (zbiór perspektyw) zdefiniowana.
Zintegrowane systemy informatyczne
1 Hurtownie Danych – SAP BW Ćwiczenia prowadzone w ramach przedmiotu Hurtownie Danych Semestr letni 2005/2006 Marcin Gajewski Michał Wilbrandt.
Zintegrowane systemy informatyczne
Opracowanie studium przypadku w SAS ETL Studio Systemy baz danych i hurtowni danych Ludmiła Binek Katarzyna Rafalska
Informatyka w biznesie Prezentacja promująca specjalność na kierunku ZARZĄDZANIE.
Możliwości wykorzystania LMN Szkolenie SIP dla Dyrekcji Generalnej Lasów Państwowych Margonin 2006.
SQL Server Analysis Services Action!
Zastosowanie metod statystycznych w obszarze CRM.
Hurtownie danych i systemy wspomagania decyzji
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Selekcja danych Korelacja.
Zapis prezentacji:

dr Łukasz Murowaniecki lukaszm@uni.lodz.pl T-109 Banki danych WYKŁAD 6 dr Łukasz Murowaniecki lukaszm@uni.lodz.pl T-109 Łódź 2008

Hurtownia Danych Data Warehouse według koncepcji Billa Inmona (1991) to Kolekcja danych niezmienna, zorientowana tematycznie, zintegrowana, w której wartości zmiennej przypisane są do określonego momentu w czasie. Łódź 2008

Hurtownia Danych Łódź 2008

Hurtownia Danych Hurtownia danych musi mieć swój: Model logiczny Model fizyczny Sposób implementacji Łódź 2008

Hurtownia Danych – model logiczny Należy zdefiniować: Jakie funkcje ma pełnić hurtownia Tematykę zagadnień Poziom szczegółowości danych czasu Dane przechowywane w hurtowni dzielą się na dwie kategorie: Fakty - zmienne analizowane Wymiary - zmienne klasyfikujące, które pozwalają na grupowanie danych Łódź 2008

Hurtownia Danych – model logiczny Fakty Wymiary Dochód klient, produkt, rynek, czas Dostawy produkt, rynek, czas Łódź 2008

Hurtownia Danych – model fizyczny Architektura przechowywania danych w hurtowni Łódź 2008

Hurtownia Danych – model fizyczny – schemat gwiazdy Tabela faktów Tabele wymiarów Tabele wymiarów Łódź 2008

Hurtownia Danych – model fizyczny – schemat gwiazdy Wykorzystuje centralną tabel faktów otoczoną tabelami wymiarów. Tabela faktów zawiera mierzalne fakty i jest powiązana z tabelami wymiarów za pomoc kluczy. Tabele wymiarów przechowują opisy wymiarów. Normalizacja w celu przyspieszenia wyszukiwania. Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Łódź 2008

Hurtownia Danych – model fizyczny Jednowymiarowa baza danych Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Łódź 2008

Hurtownia Danych – model fizyczny Jednowymiarowa baza danych Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Łódź 2008

Hurtownia Danych – model fizyczny Konsolidacja w bazie jednowymiarowej Łódź 2008

Hurtownia Danych – model fizyczny Konsolidacja w bazie wielowymiarowej Dane wejściowe Dane wyjściowe Łódź 2008

Hurtownia Danych – model fizyczny Jednowymiarowa baza danych Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Produkt Region Województwo Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Suma: Region Północ Wschód Południe woj. lubelskie woj. podkarpackie woj. podlaskie Rzeszów Sanok Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – mieszanie różnych danych w wymiarach Północ Południe Wschód Rzeszów Sanok Produkty Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Północ woj. pomorskie woj. warmińsko-mazurskie Południe woj. śląskie woj. opolskie Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów woj. pomorskie woj. śląskie woj. opolskie woj. podkarpackie woj. małopolskie Produkty Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych – hierarchia wewnątrz poziomów Gdańsk Katowice Opole Rzeszów Kraków Produkty Łódź 2008

Hurtownia Danych – model fizyczny Wielowymiarowa baza danych Przechowuje dane zagregowane na przecięciu wymiarów. Każdy wymiar może tworzyć hierarchię z określoną liczbą poziomów. Komórki w takiej tabeli są wyznaczone przez przecięcia wymiarów. Każda komórka zawiera wektor wyliczonych wartości dla danego przecięcia Łódź 2008

Hurtownia Danych – implementacja Procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang. Extract, Transformation, Load – ETL) Łódź 2008

Hurtownia Danych – implementacja

Hurtownia Danych – narzędzia analityczne proste narzędzia raportowe służące tworzeniu powielanych raportów wykorzystywanych przez szerokie rzesze użytkowników biznesowych narzędzia klasy OLAP (On-line Analytical Processing) służące tworzeniu dowolnych, różnych raportów (ad-hoc) zaawansowane narzędzia drążenia i eksploracji danych (ang. Data Mining) służące do automatycznego znajdowania związków między danymi Łódź 2008

Hurtownia Danych - zastosowanie Business Intelligence szeroki wachlarz aplikacji i technologii służących do zbierania, analizowania i udostępniania danych po to, aby pomóc pracownikom organizacji w podejmowaniu lepszych decyzji gospodarczych. Do aplikacji BI możemy zaliczyć systemy wspomagania decyzji (DSS), systemy raportująco-pytające (Q&R), Online analytical processing (OLAP), analizy statystyczne, prognozowanie i eksplorację danych Łódź 2008

Hurtownia Danych - zastosowanie Business Intelligence Łódź 2008

Data Mining Systemy informatyczne – źródło poprawy procesów gospodarczych Przechowywanie ogromnych ilości danych wg. Uniwersytetu w Berkeley w 2002 roku „wyprodukowano” około 5 exabajtów (5 milionów terabajtów) nowych danych 30% przyrost roczny niewielkie procent danych poddawanych jest analizie Łódź 2008

Data Mining ukryta wiedza w nagromadzonych danych potrzeba „wydobycia” tej wiedzy w celu zwiększenia konkurencyjności Data Mining – jako narzędzie wydobywania wiedzy z nagromadzonych danych Data Mining – dziedzina, która zajmuje się odkrywaniem i analizą zależności, reguł, wzorców z bazach danych oraz hurtowniach danych Łódź 2008

Data Mining – eksploracja danych Eksploracja danych - proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) Cel eksploracji danych - analiza danych i procesów w celu lepszego ich rozumienia Łódź 2008

Data Mining Typy zapytań eksploracja danych = zapytania złożone zapytanie operacyjne do bazy danych: Ile butelek wina sprzedano w IV kwartale 2006 roku w sklepie Geant w Łodzi? zapytanie do hurtowni danych: Ile sprzedano butelek wina w sieci Geant na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 6 lat? zapytania eksploracyjne: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób można pogrupować klientów kupujących wino? Łódź 2008

Data Mining Odkrywanie wiedzy w bazach danych KDD (Knowledge Discovery in Databases) SIGKDD (Special Interest Group On Knowledge Discovery and Data Mining) Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy Łódź 2008

Data Mining Etapy procesu odkrywania wiedzy (ang. KDD process): Zapoznanie się z wiedzą dziedzinową aplikacji – aktualna wiedza i cele aplikacji Integracja danych Selekcja danych Czyszczenie danych: (około 60% czasu) Konsolidacja i transformacja danych Wybór metody (metod) eksploracji danych Wybór algorytmów eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wyników wizualizacja, Transformacja, usuwanie redundantnych wzorców, etc. Wykorzystanie pozyskanej wiedzy Łódź 2008

Data Mining Mieszanka wielu dyscyplin: Systemy baz danych, hurtownie danych, OLAP Statystyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny (sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc.) Łódź 2008

Data Mining Co można eksplorować: Relacyjne bazy danych Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych WWW Łódź 2008

Data Mining Metody eksploracji danych: klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych odkrywanie asocjacji wykrywanie zmian i odchyleń eksploracja WWW eksploracja tekstów Łódź 2008