Kierunki rozwoju technologii informatycznych: Hurtownie Danych

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do informatyki Wykład 6
Advertisements

Projektowanie w cyklu życia oprogramowania
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
HURTOWNIE DANYCH DSDSDSDFGFDG.
Domy Na Wodzie - metoda na wlasne M
OLAP budowa aplikacji analitycznych w MS SQL 2000 i Yukon
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
Hurtownie Danych Mariusz Dołęga.
Ksantypa2: Architektura
Typy zachowań firmy w procesie internacjonalizacji (projekt badawczy)
Wykład 7 Wojciech Pieprzyca
Wykład 6 Wojciech Pieprzyca
Pomiary w inżynierii oprogramowania
Jakość systemów informacyjnych (aspekt eksploatacyjny)
Praca Inżynierska „Analiza i projekt aplikacji informatycznej do wspomagania wybranych zadań ośrodków sportowych” Dyplomant: Marcin Iwanicki Promotor:
Modele baz danych - spojrzenie na poziom fizyczny
E-learning czy kontakt bezpośredni w szkoleniu nowych użytkowników bibliotek uczelni niepaństwowych? EFEKTYWNOŚĆ OBU FORM SZKOLENIA BIBLIOTECZNEGO W ŚWIETLE.
Typy systemów informacyjnych
Wykład 2 Cykl życia systemu informacyjnego
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- V Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Zarządzanie projektami
Teoria relacyjnych baz danych
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Koncepcja controllingu w firmie produkcyjnej
Kompleksowe zarządzanie jakością informacji (TIQM)
WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ i ZARZĄDZANIA
COBIT 5 Streszczenie dla Kierownictwa
Rozwiązania informatyczne dla przedsiębiorstw
Metadane w opisie hurtowni danych oraz procesie ETL
EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.
Plan rozwoju Biblioteki Wyższej Szkoły Humanistyczno-Ekonomicznej w Łodzi Centrum Badań i Rozwoju Kształcenia WSHE.
Moduł: Informatyka w Zarządzaniu
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Planowanie przepływów materiałów
Tworzenie infrastruktury informacyjnej dla polskiego
dr Łukasz Murowaniecki T-109
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Testogranie TESTOGRANIE Bogdana Berezy.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VI Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
PROCESY W SYSTEMACH SYSTEMY I PROCESY.
Podsystem Business Intelligence
Dr hab. Renata Babińska- Górecka
Szkolenia E-Learning SIMP Consulting Stanisław Płaskowicki Dorota Płaskowicka.
Systemy Business Intelligence – warunki użytkowania Halina Tańska Wydział Matematyki i Informatyki Uniwersytet Warmińsko-Mazurski „e-commerce” Olsztyn.
Systemy informatyczne
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Współrzędnościowe maszyny pomiarowe
Elementy geometryczne i relacje
Strategia pomiaru.
System Informowania Kierownictwa – nowoczesne narzędzie wspomagające uzyskanie przewagi konkurencyjnej Piotr Bączek – Project.
Hurtownie i eksploracja danych
ZINTEGROWANE SYSTEMY ZARZĄDZANIA
Ergonomia procesów informacyjnych
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
Budowa systemu informacyjnego
Logical Framework Approach Metoda Macierzy Logicznej
Moduł e-Kontroli Grzegorz Dziurla.
Zintegrowane systemy informatyczne
Faza 1: Faza zaprojektowania systemu monitoringu projektu: 1. Inwentaryzacja obietnic złożonych sponsorowi we wniosku - przegląd założeń projektu, opracowanie.
COBIT 5 Streszczenie dla Kierownictwa
{ Wsparcie informacyjne dla zarządzania strategicznego Tereshkun Volodymyr.
Zapis prezentacji:

Kierunki rozwoju technologii informatycznych: Hurtownie Danych dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji

Plan wykładu Problemy eksploatacji SIP Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura Punkty krytyczne HD Projektowanie Hurtowni Danych

Systemy Informacyjne Przedsiębiorstw (SIP)

Rodzaje SIP Systemy transakcyjne (ST) Systemy informowania kierownictwa (MIS) Systemy wspomagania podejmowania decyzji (DSS) Systemy eksperckie (EIS)

Eksploracja danych w ST Olbrzymia ilość rekordów Ukryte zależności między danymi Oczekiwanie na odpowiedź Ciągły wzrost objętości zbiorów danych Wiele tabel i relacji między nimi Opis rzeczywistości w wybranym obszarze funkcjonowania przedsiębiorstwa

Systemy Informowania Kierownictwa (MIS) Zasilane zagregowanymi danymi z transakcyjnych systemów dedykowanych Źródło danych dla MIS znajduje się wewnątrz organizacji Postać danych i stopień agregacji adekwatne do potrzeb informacyjnych i decyzji podejmowanych przez kierownictwo średniego szczebla

Systemy Wspomagania Decyzji (DSS) Budowane w oparciu o wybrane modele biznesowe sytuacji decyzyjnych Źródło danych to systemy transakcyjne Uwzględniają szerszy aspekt prowadzenia biznesu Stopień agregacji danych uwzględnia różne wymiary analiz Stosowane na szczeblu taktycznym (kierownictwo wyższego szczebla np. dyrektorzy departamentów)

Systemy eksperckie (EIS) Umożliwiają całościowe spojrzenie na organizację i jej miejsce w otoczeniu Odnoszą się do wszystkich, typowych dla organizacji aspektów biznesu Wykorzystują wewnętrzne i zewnętrzne źródła danych Wykorzystywane na szczeblu strategicznym organizacji (zarządy, rady nadzorcze)

Systemy DSS i EIS w procesach decyzyjnych Wymagania: Całościowe spojrzenie na organizację Prawidłowa ocena aktualnej sytuacji organizacji, oparta na wiarygodnej informacji aktualnej i archiwalnej Możliwość przeprowadzania analiz w dowolnym przekroju informacyjnym niezbędnym dla podjęcia decyzji

Pojęcie Hurtowni Danych (HD) Analityczna baza danych przeznaczona jedynie do odczytu, używana jako podstawa systemu wspomagania decyzji Zintegrowany bank danych wspomagający procesy decyzyjne Zorientowana tematycznie kolekcja danych, służąca wsparciu procesu podejmowania decyzji kierownictwa Funkcjonalność

Pojęcie Hurtowni Danych (HD) Repozytorium danych z procedurami ich ładowania do HD Repozytorium uzupełnione minihurtowniami danych Repozytorium, minihurtownie danych oraz aplikacje analityczne Infrastruktura

Hurtownia Danych - gdzie leży prawda? Hurtownie danych służą do podejmowania decyzji zarządczych Bill Inmon

do wspomagania podejmowania decyzji strategicznych. Definicja HD System baz danych zawierający dane: zorientowane tematycznie zintegrowane zorganizowane w czasie trwałe do wspomagania podejmowania decyzji strategicznych.

Zorientowanie tematyczne HD Zgromadzone dane opisują problemy Lokalizacja danych uzależniona od ich treści ekonomicznych Dane zorientowane na podejmowanie decyzji w różnych obszarach działania

Integralność danych w HD Czystość - ta sama informacja zapisana jeden raz i tylko na jeden sposób (format, jednostka miary) Poprawność - kontrola danych pobieranych z systemów szczebla operacyjnego Właściwa agregacja - wybór zmiennych agregujących

Element czasu w HD Dane utrzymywane są w długim horyzoncie czasu (ponad 5 lat) Czas jako wymiar innych danych Dane tworzą szeregi czasowe Dane załadowane do HD nie są w czasie aktualizowane

Trwałość danych w HD W HD dopuszcza się operacje: ładowania danych dostępu do danych W HD nie przeprowadza się operacji aktualizacji załadowanych danych Dane analityczne przechowywane są w postaci gotowych agregatów

Cele budowy HD Realizacja misji przedsiębiorstwa Zwiększenie konkurencyjności firmy Osiąganie celów biznesowych Optymalne wykorzystanie zasobów informacyjnych przedsiębiorstwa

Zadania realizowane przy wykorzystaniu HD Budowa modelu ekonomicznego Weryfikacja hipotez biznesowych Identyfikacja trendów i zależności Określanie ryzyka Alokacja zasobów

Przykłady celów biznesowych Badanie rentowności produktów, oddziałów, współpracy z klientami, spółek zależnych Analiza ryzyka działalności Prognozowanie sprzedaży Wyznaczenie kosztu operacji handlowych Badanie struktury sprzedaży Budowa systemów sprawozdawczości zarządczej Hurtownia Danych - źródło nowych zysków

Hurtownie danych a CRM Lojalność klientów wobec organizacji Rezygnacje klientów ze współpracy i powody takiej decyzji Rodzaj produktu czy usługi (mix-produkt) oferowane klientom określonej grupy wiekowej, zawodowej, terytorialnej Efektywność realizacji programów pozyskiwania nowych klientów czy też utrzymania klientów dotychczasowych

Hurtownie danych w e-biznesie Średnia wartość transakcji w internetowym biurze maklerskim Wartość kredytów zaciągniętych przez Internet Rodzaje lokat zakładanych przez Internet, ich średnia wysokość i czas lokaty Wartość przelewu bankowego dokonanego drogą elektroniczną Średnia wartość transakcji przy użyciu kart płatniczych

Dlaczego nie wykorzystać ST? Brak właściwych danych Zapytania przekrojowe znacznie obciążają bieżącą pracę ST Bazy danych w ST nie są zoptymalizowane do analitycznego przetwarzania danych Uzyskanie informacji globalnych wymaga złączenia wielu tabel baz danych Duża zmienność stanu baz danych

Różnice między HD i ST (1) HD oparte są na bazach analitycznych, ST na bazach operacyjnych tzn.: Dane w HD mają charakter zagregowany, w ST - szczegółowy HD zawiera wybrane dane, ST - wszystkie dane ST zawierają zawsze dane aktualne, HD - archiwalne (obraz tych danych) Fizyczna separacja HD i ST

Różnice między HD i ST (2) Struktura i przetwarzanie danych: ST przechowują dane w postaci znormalizowanej, HD - nadmiarowość danych ST oparte są na przetwarzaniu transakcyjnym, w HD - brak transakcji ST pozwalają na zapis, odczyt, usuwanie i modyfikację danych, w HD - tylko odczyt ST zasilane są stałym i równomiernym strumieniem danych, HD - duża ilość danych w krótkich odcinkach czasu

4 powody separacji HD i ST Wydajność Dostęp do danych Format danych Jakość danych

Podobieństwa HD i ST Oparte na bazach danych Posiadają wbudowane języki przetwarzania danych Przechowywane dane można graficznie prezentować Możliwość wprowadzania danych

Hurtownie Danych a DSS/EIS DSS/EIS posiadają rozbudowane narzędzia analizy danych DSS/EIS nie są odpowiednio wyposażone w narzędzia organizacji danych HD dostarczają dla DSS/EIS wsparcia w postaci baz danych HD dostarczają danych niezbędnych dla DSS/EIS

Użytkownicy HD Osoby odpowiedzialne za realizację misji i strategii przedsiębiorstwa (zarządy, rady nadzorcze) Analitycy biznesowi Pracownicy merytoryczni Informatycy

Wymagania użytkowników wobec HD Możliwość definiowania zapytań ad-hoc (dowolne zapytania na dowolnych przekrojach danych, zapytania w języku naturalnym) Udzielanie szybkich odpowiedzi Kompleksowa analiza danych Właściwy sposób prezentowania informacji Wiarygodność informacji zarządczej

Klasyczny model HD

Architektura HD

Elementy architektury HD Dedykowane źródłowe systemy transakcyjne organizacji Oprogramowanie zasilania danymi bazy danych hurtowni Wielowymiarowa baza danych oraz system zarządzania bazą danych Oprogramowanie klienta realizujące funkcję analityczną oraz prezentacyjną danych

Struktura funkcjonalna HD Użytkownik końcowy

Zarządzanie HD Sposoby dostępu do danych w ST: interfejsy dostępu do BD Oracle, Informix, DB/2, Sybase ... język SQL, 4GL Walidacja, czyszczenie, formatowanie i agregacja danych Zasilanie HD: procedury analizy statystycznej odświeżanie danych metadane opisujące proces zasilania HD

Organizacja HD - metadane Modele danych: relacyjny model danych, inne modele (np. hierarchiczny, gwiazdy, płatek śniegu) Sposób zasilania danymi Architektura HD: scentralizowana rozproszona (data marts) Dostęp użytkowników

Metadane - co jeszcze składa się na HD? Struktura danych hurtowni uwzględniająca wymagania SWD Sposób transformacji danych operacyjnych (algorytmy) Relacje między modelem danych w systemach operacyjnych a HD Historia zasilania HD danymi operacyjnymi Kontekst

Organizacja metadanych Lista metadanych Ważność Odpowiedzialność Zawartość Dostępność Jakość metadanych Kompletność Nadrzędna kontrola Dokumentowanie działań, odpowiedzialności

Eksploatacja HD Zapytania i raporty: Techniki analizy danych: filtrowanie danych, język 4GL i SQL Techniki analizy danych: MOLAP, ROLAP, HOLAP Wizualizacja danych: wykresy, drzewa decyzyjne, statystyka Wspomaganie procesów decyzyjnych: ekonometria, badania operacyjne, prognozowanie Publikacja wyników w formacie HTML

Struktura danych w HD Szczegółowe dane bieżące Archiwalne dane szczegółowe Dane częściowo zagregowane Silnie zagregowane dane Metadane

Wprowadzanie danych do HD, opartych na danych operacyjnych. Zasilanie HD Wprowadzanie danych do HD, opartych na danych operacyjnych. Wybór danych Lokalizacja danych Transformacja danych do zunifikowanej postaci Integracja danych Częstotliwość zasilania

Organizacja zasilania HD Ludzie biznesu i informatycy Zespoły zadaniowe: projekt struktury hurtowni analiza danych źródłowych logika konwersji danych budowa i generowanie procedur konwersji zapewnienie jakości danych Zrozumienie wymagań związanych z konwersją i przepływów danych

Projekt zasilania HD Plan konwersji danych operacyjnych Definicja specyfikacji konwersji Ekstrakcja danych operacyjnych do postaci schematów pośrednich Konwersja schematów pośrednich do postaci danych ładowanych Agregacja danych Ładowanie i indeksowanie danych Zapewnienie jakości danych

Plan konwersji danych Określa najlepszy sposób migracji danych do hurtowni Uwzględnia: dostępne zasoby danych, liczność danych, liczbę różnych schematów danych, metody i platformy dostępu, języki ekstrakcji danych, strukturę hurtowni, liczbę wymaganych agregacji

Specyfikacja konwersji danych Sposób przypisania danych źródłowych do danych w hurtowni (dane, logika) Inne zewnętrzne źródła informacji Opis procesów: ekstrakcji danych do postaci schematu pośredniego, konwersji schematu pośredniego, agregacji danych, migracji danych do baz danych hurtowni, walidacji danych Dokumentacja !!!

Ekstrakcja danych w schematy pośrednie Zwiększenie użyteczności programów do czyszczenia danych, transformacji i integracji Zachodzi w środowisku systemów transakcyjnych Procedury identyfikacji starych i nowych danych operacyjnych Izolowanie niezbędnych danych

Konwersja schematów pośrednich Identyfikacja wzorców danych i liczby pól Określenie kontekstu i przeznaczenia danych Korekcja danych w oparciu o listy Eliminacja nadmiarowych rekordów Rezultat: dane o wymaganym poziomie granulacji dane dla tabel wymiarów i tabel faktów klucze wybierania danych

Agregacja danych Miejsce wykonania - poza serwerem hurtowni Powody: narzędzia agregacji są szybsze niż RDBMS pewność wykonania szybkość i skuteczność wbudowanych procedur ładowania danych zagregowanych

Ładowanie i indeksowanie danych Umieszczenie danych na serwerze hurtowni Tworzenie tabel faktów i wymiarów Indeksowanie: natychmiastowe z opóźnieniem Koordynacja procesów

Zapewnienie jakości danych Nadrzędny charakter kontroli etapów zasilania Dokumentowanie działań Aktywny udział użytkowników Dobra znajomość struktury i znaczenia danych źródłowych Zrozumienie procesów zasilania Zatwierdzanie etapów zasilania

Modelowanie danych w HD Model korporacyjny danych jako punkt wyjścia Oczyszczanie modelu danych Element czasu Denormalizacja Wybór modelu danych: star join (model gwiazdy) snowflake (płatek śniegu)

Modele danych - gwiazda Centrum gwiazdy - tablica faktów Otoczenie gwiazdy - tablice wymiarów (wskaźników do tabeli faktów)

Modele danych - płatek śniegu

OLAP - On-Line Analytical Processing Aplikacje wspomagania interaktywnych analiz wykonywanych na bieżąco Udostępnianie danych analitycznych w różnych przekrojach i w sposób przystępny dla użytkowników Możliwość dynamicznego prowadzania analiz danych skonsolidowanych przedsiębiorstwa

Zadania realizowane w OLAP Porównywanie dowolnych danych Analiza danych historycznych (trendy) Dostęp do danych na dowolnym poziomie Perspektywy dostosowane do indywidualnych potrzeb użytkownika Analizy typu „what-if” Tworzenie graficznej prezentacji danych

Przesłanki użycia OLAP Dane niezbędne są do prowadzenia analiz (nie rejestracji zdarzeń) Konieczność prowadzenia złożonych obliczeń i agregacji danych operacyjnych Potrzeba przekrojowego spojrzenia na dane Względna niezmienność danych w czasie

Wielowymiarowe BD w HD Charakter danych Tylko odczyt danych Agregaty danych: agregat podstawowy agregat częściowy Krótki czas oczekiwania na odpowiedź Duża efektywność formułowania zapytań ad-hoc Wydajność Rozmiar pliku

Budowa HD Przedsięwzięcie informatyczne i organizacyjne Proces iteracyjny Projekt, który nie kończy się Możliwe zastosowanie metod inżynierii systemów

Etapy budowy HD Zakres projektu Wymagania biznesowe Korporacyjny model danych Koncepcyjny model HD Identyfikacja źródeł danych operacyjnych Architektura HD Technologia implementacji Implementacja HD

Inżynieria systemów w procesie budowy HD Planowanie systemu Określenie wymagań i analiza Projekt systemu Integracja Weryfikacja i konserwacja

Spiralny model cyklu życia HD

Faza planowania systemu Wybór strategii budowy HD: strategia Top Down strategia Bottom Up Wybór metodologii budowy: model kaskadowy model spirali Cele biznesowe Wstępna kolekcja metadanych

Wymagania i analiza - właściciel HD Jakie problemy biznesowe będą rozwiązywane? Ile to kosztuje? Kiedy będą pierwsze efekty? Jaki będzie wpływ HD na pracowników, ich umiejętności, organizację? Czy potrafimy podołać takiemu zadaniu? Jakie jest ryzyko zastosowania tej technologii?

Wymagania i analiza - analityk biznesowy Jakie analizy można przeprowadzać? Jakie funkcje oferuje HD? Jaka jest ziarnistość danych? Jakie raporty można generować? Jakie są możliwości modyfikacji raportów? Jakie są możliwości budowy raportów od podstaw? Jakie dodatkowe analizy można samodzielnie definiować?

Wymagania i analiza - informatyk Jaka jest platforma implementacji HD? Jakie są standardy i interfejsy? Czy architektura HD jest otwarta? Jakie są metody i narzędzia dostępu oraz zasilania HD? Jaka jest struktura sieci, w której zostanie osadzona HD? Jakie są możliwości optymalizacji działania HD?

Projekt systemu Określa sposób spełnienia wymagań odbiorców HD Definicja specyfikacji kolejnych poziomów HD: modele logiczne i fizyczne Identyfikacja procesów zasilania HD i procesów w HD Identyfikacja procesów integracji danych źródłowych, HD i narzędzi dostępu do HD

Integracja Osadzenie HD w platformach systemowej i sprzętowej (instalacja serwera bazy danych) Implementacja modelu metadanych HD Instalacja oprogramowania klienta Realizacja procedur zasilania HD Realizacja procedur dostępu do HD z poziomu aplikacji klienta

Weryfikacja i konserwacja Zgodność z wymaganiami odbiorców Ocena zestawień analitycznych generowanych z HD przez specjalistę Zarządzanie metadanymi (np. modyfikacja istniejących źródeł, nowe źródła danych i kanały dystrybucji danych, zmiana reguł konwersji danych, nowe aplikacje analityczne lub prezentacji danych)

Warunki sukcesu HD Koncentracja uwagi na wybranym obszarze funkcjonowania przedsiębiorstwa (najważniejszy jest biznes, nie technologia) Zrozumienie danych analitycznych i operacyjnych Małe, ale widoczne kroki w budowie i wdrażaniu HD Korzystanie z pomocy konsultantów w fazie projektu Współpraca z przyszłym użytkownikiem HD (definicja potrzeb, szkolenia)