Wykład 6 Wojciech Pieprzyca Systemy Baz Danych Wykład 6 Wojciech Pieprzyca
Bazy operacyjne i analityczne Rozpatrując bazy danych możemy podzielić je na dwie kategorie: 1) bazy operacyjne, 2) bazy analityczne. 1) bazy operacyjne (ang. On-Line Transaction Processing - OLTP) służą do bieżącego przechowywania i przetwarzania danych. Ich celem jest uporządkowanie danych (zapewnienie spójności danych), a także umożliwienie szybkiego dostępu do informacji. Podstawowe problemy związane z takimi bazami danych to utrzymanie odpowiednich mechanizmów transakcji i zapewnienie wysokiej szybkości i niezawodności ich działania.
Bazy operacyjne i analityczne 2) bazy analityczne (ang. On-Line Analytical Processing – OLAP). Bazy analityczne określane są często jako hurtownie danych (ang. data warhouse). Mają one na celu wydobywanie z baz danych informacji biznesowych wspomagających podejmowanie decyzji w danej firmie. Mogą to być np. informacje o bieżącej sprzedaży, kosztach, dostawach,itp. Hurtownie danych operują na danych historycznych tzn. ważne jest zawarcie w bazie analitycznej jak największej liczby danych z przeszłości ponieważ na ich podstawie określa się trendy i statystyki dotyczące działalności firmy.
Cechy hurtowni danych Podstawowe cechy hurtowni danych: a) mogą przechowywać dane z różnych baz danych, często pochodzących także spoza systemu bazodanowego danej firmy, b) dane dotyczą długiego okresu historii działania firmy, c) bazy na których opierają się hurtownie danych mają zwykle rozmiary liczone w gigabajtach, a czasami nawet terabajtach, w związku z powyższym ważna jest możliwość w miarę szybkiego przetwarzania dużej ilości danych.
Cechy hurtowni danych Podstawowe cechy hurtowni danych: d) w odróżnieniu od baz operacyjnych, dane w hurtowniach danych nie podlegają modyfikacjom, jedynie okresowo spływają do bazy nowe dane historyczne. e) dane w rekordach mogą być zagregowane lub zawierać informacje szczątkowe. Przykładowo, gdy mamy do czynienia z hurtownią danych sprzedaży, wtedy nie będą występowały w niej poszczególne pozycje na fakturach a jedynie kwoty faktur, gdy jest to podstawą analizy.
Cechy hurtowni danych Do analizy danych z hurtowni danych wykorzystywany jest mechanizm eksploracji danych (ang. data mining), który poszukuje ogólnych form wiedzy z olbrzymiej ilości danych. Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.
Architektura hurtowni danych Dane z różnych źródeł danych transformowane są do postaci znajdującej się w hurtowni danych za pomocą warstwy pośredniej oprogramowania ETL. Aplikacje analityczne na podstawie hurtowni danych tworzą raporty wspomagające podejmowanie decyzji, przeprowadzanie analiz, odkrywanie wiedzy, itp.
Oprogramowanie ETL 1) odczyt danych ze źródeł (Extraction), Oprogramowanie ETL (Extraction Translation Loading): 1) odczyt danych ze źródeł (Extraction), 2) transformacja do wspólnego modelu hurtowni danych, usunięcie niespójności (Translation), 3) wczytanie danych do hurtowni danych (Loading).
Oprogramowanie ETL Z każdym źródłem danych związane jest oprogramowanie w postaci modułów konwertera i monitora. 1) konwerter – przekształca dane z formatu źródłowego na format wykorzystywany w hurtowni danych. Dla różnych źródeł danych potrzebne są odmienne moduły konwertera, tak aby przekształcić np. dane źródłowe (plik tekstowy, XML, Excel) do postaci relacyjnego modelu danych (jeżeli taki wykorzystywany jest w hurtowni danych). 2) monitor – wykrywa zmiany w danych źródłowych i przekazuje je do hurtowni danych.
Źródła danych Ze względu na sposób działania monitora możemy wyróżnić następujące rodzaje źródeł danych: 1) źródła aktywne – związane z nimi są wyzwalacze, które informują monitor o zmianach zachodzących w danych, 2) źródła utrzymujące dzienniki operacji wykonywanych na danych źródłowych – zmiany wykrywane są na podstawie wpisów w dzienniku monitora, 3) źródła przepytywalne – umożliwiają zadawanie zapytań, monitor wydaje takie zapytania w celu stwierdzenia zmian lub ich braku, 4) źródła wspierające tworzenie migawek – umożliwiają tworzenie migawek, za pomocą porównania migawek z różnych okresów monitor może stwierdzić czy zaszły jakieś zmiany,
Zastosowanie Menadżerowie Do zarządzania taktycznego Analitycy Bieżąca analiza sytuacji podmiotu Prognozy Stratedzy firmy Tworzenie planów strategicznych krotko i długookresowych. zestawienia (zbiorcze, porównawcze, okresowe), analizy statystyczne, analizy trendów, zależności między danymi, planowanie i kontrola celów.
Zastosowanie Co najmniej 50% danych w bazach operacyjnych służy potrzebom analitycznym i podejmowaniu decyzji 40% raportów produkcyjnych jest niewykorzystywana (raport IBM, 1995) 30% raportów jest używana niezgodnie z ich przeznaczeniem (raport IBM, 1995) Kierownictwo Strategiczne ocenia dokładność i użyteczność danych na 2 w skali (od 1 do 10) (raport IBM, 1995)