Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
dr Robert Kowalczyk, PWSZ Płock
Drążenie danych dr Robert Kowalczyk, PWSZ Płock
2
dr Robert Kowalczyk, PWSZ Płock
Eksploracja danych Eksploracja danych (ang. data mining) jest to proces odkrywania uogólnionych reguł i wiedzy zawartej w bazach danych oparty o metody statystyczne i techniki sztucznej inteligencji. Wiedza ta nie wynika bezpośrednio z samych danych, ale z faktu, iż to właśnie takie, a nie inne dane znalazły się razem w jednej bazie danych. dr Robert Kowalczyk, PWSZ Płock
3
Dodatkowo eksploracja danych:
Jest klasycznym narzędziem, które generuje sprawozdania i analizy. Jest procesem, który jest automatyczny i nie wymaga nadzorowania ze strony człowieka. Odszukuje przyczyny problemów przedsiębiorstw lub biznesowych. Pomimo swojej złożoności jest procesem szybkim. dr Robert Kowalczyk, PWSZ Płock
4
Tradycyjny model przetwarzania danych
Analiza danych sterowana zapytaniami (OLAP - on line transaction processing ) zakłada, że użytkownik, po pierwsze, posiada pełną wiedzę o przedmiocie analizy, i, po drugie, potrafi sterować tym procesem. Eksploracja danych umożliwia analizę danych dla problemów, które, ze względu na swój rozmiar, są trudne do przeprowadzenia przez użytkownika, oraz tych problemów, dla których nie dysponujemy pełną wiedzą o przedmiocie analizy, co uniemożliwia sterowanie procesem analizy danych. dr Robert Kowalczyk, PWSZ Płock
5
dr Robert Kowalczyk, PWSZ Płock
Techniki OLAP i ED dr Robert Kowalczyk, PWSZ Płock
6
Model eksploracja danych - CRISP-DM
(Cross Industry Process for Data Mining CRISP-DM, 1996) 1. Zrozumienie problemu (Problem Understanding lub Business Understanding) 2. Zrozumienie danych (Data Understanding) 3. Przygotowanie danych (Data Preparation) 4. Modelowanie (Modeling) 5. Ocena (Evaluation) 6. Wdrożenie (Deployment) dr Robert Kowalczyk, PWSZ Płock
7
dr Robert Kowalczyk, PWSZ Płock
1. Zrozumienie problemu Zrozumienie celu projektu i wymagań z punktu widzenia danej dziedziny, a następnie przekształcenie tej wiedzy w problem drążenia danych z wstępnym planem mającym na celu osiągnięcie pewnych zamierzeń. Projekty eksploracji danych często skupiają się wokół konkretnych potrzeb pewnego sektora przemysłu, a nawet są tworzone dla jednej organizacji. Udany projekt eksploracji danych rozpoczyna się od dobrze zdefiniowanego pytania lub potrzeby. dr Robert Kowalczyk, PWSZ Płock
8
dr Robert Kowalczyk, PWSZ Płock
2. Zrozumienie danych Zrozumienie danych wymaga kilku czynności, przede wszystkim musimy zebrać dane (najczęściej z wielu źródeł), trzeba wykonać wstępną analizę danych, której celem jest zaznajomienie się z danymi i odkrycie pierwszych zależności. Trzeba też umieć ocenić jakość danych i ewentualnie wybrać pewne interesujące podzbiory, które mogą zawierać wzorce. Po tym etapie powinniśmy umieć odpowiedzieć na pytania: 1. Skąd pochodzą dane? Czego dotyczą? 2. Jakich metod użyto do zebrania danych? 3. Co oznaczają rekordy, a co pola (kolumny) z danymi? 4. Czy w danych są jakieś niejasne oznaczenia, skróty, puste wartości, itp.? dr Robert Kowalczyk, PWSZ Płock
9
dr Robert Kowalczyk, PWSZ Płock
3. Przygotowanie danych Przygotowanie danych polega na budowie zestawu danych z jednego lub więcej źródeł danych, które mają być wykorzystywane do badań i modelowania. Przygotowanie danych jest często procesem czasochłonnym i podatnym na błędy. Stare powiedzenie garbage-in-garbage-out (śmieci na wejściu – śmieci na wyjściu) – przypomina, że wyniki przetwarzania błędnych danych będą błędne. Przygotowanie danych najczęściej wymaga: połączenia kilku zbiorów danych, zredukowania ilości danych tylko do tych zmiennych (redukcja wymiarów), które będą istotne dla dalszej eksploracji, czyszczenia danych (usunięcie anomalii, zmiana formatu, normalizacja, brakujące dane). dr Robert Kowalczyk, PWSZ Płock
10
dr Robert Kowalczyk, PWSZ Płock
4. Modelowanie Modelowanie polega na wyborze i zastosowaniu odpowiednich technik modelujących. Często używamy kilku technik na tym etapie, a jeśli trzeba wracamy do poprzedniego kroku, aby dane przybrały postać odpowiadającą danej technice drążnia danych. dr Robert Kowalczyk, PWSZ Płock
11
dr Robert Kowalczyk, PWSZ Płock
5. Ocena Ocena procesu eksploracji danych polega na ustaleniu, czy model lub modele spełniają założenia ustalone w pierwszym etapie (jakość i efektywność). Ponadto musi nastąpić weryfikacja, czy są jakieś ważne cele biznesowe lub badawcze, które nie zostały uwzględnione. Podjęcie decyzji co do dalszego wykorzystania wyników eksploracji danych. dr Robert Kowalczyk, PWSZ Płock
12
dr Robert Kowalczyk, PWSZ Płock
6. Wdrożenia Wykorzystanie stworzonych modeli, na ogół nie jest końcem projektu. Wykorzystaniem może być stworzenie raportu, implementacja procesu w innym dziale, zintegrowanie z systemami operacyjnymi firmy. Wdrożenie może wymagać stworzenia pewnego automatu, który będzie stosował nasz model do nowych danych. dr Robert Kowalczyk, PWSZ Płock
13
dr Robert Kowalczyk, PWSZ Płock
Co eksplorować? Relacyjne i nierelacyjne bazy danych baz danych. Hurtownie danych. Repozytoria danych. Zaawansowane systemy informatyczne. Strony WWW. Streamingi danych. itp. dr Robert Kowalczyk, PWSZ Płock
14
Techniki eksploracji danych
Techniki predykcyjne Techniki deskrypcyjne Techniki uczenia nadzorowanego Techniki uczenia bez nadzoru dr Robert Kowalczyk, PWSZ Płock
15
dr Robert Kowalczyk, PWSZ Płock
Techniki predykcyjne Techniki predykcyjne, inaczej nazywane technikami lub modelami przewidywania (ang. predictive techniques), starają się na podstawie odkrytych wzorców dokonać uogólnienia i przewidywania wartości danej zmiennej. Pozwalają na przewidywanie wartości zmiennej wynikowej na podstawie wartości pozostałych zmiennych (badawczych lub przewidujących). Techniki te w SWD wykorzystywane są do przewidywania i szacowania np. zasobów (sprzętu/ludzi) do rozwiązywania postawionego problemu. dr Robert Kowalczyk, PWSZ Płock
16
Techniki deskrypcyjne
Techniki deskrypcyjne, nazywane także technikami bądź modelami opisowymi (ang. description techniques), służą do formułowania uogólnień na temat badanych danych w celu uchwycenia ogólnych cech opisywanych obiektów oraz ich najważniejszych aspektów. Techniki te w SWD stosuje się do odkrywania grup i podgrup podobnych zdarzeń lub identyfikacji zdarzeń. dr Robert Kowalczyk, PWSZ Płock
17
Techniki uczenia nadzorowanego
Techniki uczenia nadzorowanego (ang. supervised learning) wykorzystują zbiory danych w których każdy obiekt posiada etykietę przypisującą go do jednej z predefiniowanych klas. Na podstawie zbioru uczącego budowany jest model, za pomocą którego można odróżnić obiekty należące do różnych klas. Technikami z zakresu uczenia nadzorowanego są techniki klasyfikacji stosowane od 1984 roku, do których należą drzewa decyzyjne (1984 rok), algorytmy najbliższych sąsiadów (1992 rok), sieci neuronowe (1991 rok), statystyka bayseyowska (klasyfikacja bayseyowska 1992 rok i sieć bayseyowska 1995 rok), algorytmy maszyny wektorów wspierających SVM (ang. support vector machine, 1995 rok) oraz techniki regresji. dr Robert Kowalczyk, PWSZ Płock
18
Techniki uczenia bez nadzoru
W przypadku technik uczenia bez nadzoru (ang. unsupervised learning) brak jest etykiet obiektów, nie ma także zbioru uczącego. Techniki te starają się sformułować model (modele) wiedzy najlepiej pasujące do obserwowanych danych. Technikami z zakresu uczenia bez nadzoru są: techniki analizy skupień, klastrowania (ang. clustering) , samoorganizujące się mapy (ang. self-organization map), algorytmy aproksymacji wartości oczekiwanej (ang. expectation-maximization) czy też zbiory przybliżone. dr Robert Kowalczyk, PWSZ Płock
19
Metody eksploracji danych
Asocjacja Klasyfikacja Grupowanie (klasteryzacja) Przetwarzanie tekstu Przetwarzanie stron WWW dr Robert Kowalczyk, PWSZ Płock
20
Dziękuję za Uwagę!!!
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.