Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

ZPT Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: medycynie farmakologii bankowości.

Podobne prezentacje


Prezentacja na temat: "ZPT Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: medycynie farmakologii bankowości."— Zapis prezentacji:

1 ZPT Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: medycynie farmakologii bankowości lingwistyce rozpoznawaniu mowy ochrona środowiska 1 Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie.

2 ZPT 2 Potrafi zdiagnozować pacjenta Potrafi zdiagnozować pacjenta Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Potrafi klasyfikować dane? Potrafi klasyfikować dane? Potrafi przeprowadzić sondaż? Potrafi przeprowadzić sondaż? Eksploracja danych…. Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases).

3 ZPT Pozyskiwanie wiedzy z baz danych Redukcji atrybutów Generacji reguł decyzyjnych Hierarchicznym podejmowanie decyzji na abstrakcyjnym poziomie algorytmów polega na 3 Są to algorytmy analogiczne do algorytmów stosowanych w syntezie logicznej!

4 ZPT 4 Synteza logiczna Eksploracja danych Minimalizacja funkcji boolowskich Eksploracja danych a synteza logiczna Generacja reguł decyzyjnych Redukcja atrybutów Hierarchiczne podejmowanie decyzji Redukcja argumentów Dekompozycja funkcjonalna

5 ZPT 5 Tablice i reguły decyzyjne abde Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, d. Jednocześnie obiekty są klasyfikowane, kolumna e. ObiektyObiekty Wiele rzeczywistych zjawisk opisuje się tablicami danych

6 ZPT 6 Tablice i reguły decyzyjne U1: (a,1) (b,0) (d,1) (e,1) U5: (a,1) (b,1) (d,2) (e,2) abde redukcja atrybutów redukcja (generacja) reguł decyzyjnych Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi:

7 ZPT 7 Generacja reguł Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M. Wyrażenia takie można upraszczać za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne.

8 ZPT 8 Przykład generacji reguł Uabcde Tablica decyzyjna abcde 10––1 0–––0 –1–10 –––22 Tablica reguł minimalnych

9 ZPT 9 Przykład: uogólniamy U 1 Uabcde Macierz M powstaje przez porównanie obiektów: (u 1, u 3 ), (u 1, u 4 ),..., (u 1, u 7 ). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=0, dla różnych m= dcba M

10 ZPT 10 Przykład: uogólniamy U 1 Minimalne pokrycia są: {a,b} oraz {b,d}, dcba M a, b, c, d a, b, d b, d b a, d Wyznaczone na ich podstawie minimalne reguły: (a,1) & (b,0) (e,1) (b,0) & (d,1) (e,1) Uabcde Uabcde

11 ZPT 11 Przykład generacji reguł cd. Uabcde Po uogólnieniu obiektu u 1 u 2. u 2 można usunąć Uabcde

12 ZPT 12 Przykład generacji reguł c.d. Uabcde (a,0) (e,0) (b,1) & (d,1) (e,0) Dla obiektu u3Dla obiektu u4 Niestety po uogólnieniu ani u 3 nie pokrywa u 4, ani u 4 nie pokrywa u 3

13 ZPT 13 Przykład generacji reguł c.d. Uabcde (d,2) (e,2) Dla obiektu u5 u 6, u 7

14 ZPT 14 Reguły minimalne abcde 10––1 0–––0 –1–10 –––22 (a,1) & (b,0) (e,1) (a,0) (e,0) (b,1) & (d,1) (e,0) (d,2) (e,2) (a,1) & (b,0) (e,1) (a,0) (b,1) & (d,1) (e,0) (d,2) (e,2) w innym zapisie: Uogólnione reguły decyzyjne:

15 ZPT 15 Interpretacja reguł uogólnionych Uabcde Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane abcde 10––1 0–––0 –1–10 –––22 Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. a=1,b=1, c=1, d= 1 Na uogólnionych regułach jest to oczywiste! Ale pojawia się nowy zestaw danych Jaka decyzja? e = 0

16 ZPT 16 Sytuacja ta występuje np. przy wnioskach kredytowych składanych w bankach. Ponieważ część z nich jest akceptowana, a część odrzucana, można dane zebrane w dłuższym okresie czasu zapisać w tablicy decyzyjnej, uogólnić i dalej stosować w uproszczonej formie do podejmowania decyzji. Klientów charakteryzuje się za pomocą następujących cech jakościowych i ilościowych: - Sytuacja zawodowa: B (bezrobotny), P (pracujący) - przeznaczenie kredytu: komputer (K), sprzęt audio (A), biżuteria (B)… - wiek w latach - stan konta Zastosowania Przykładowo:

17 ZPT Przykładowa tablica danych... C1C2C3C4C5C6C7C8C9C10Klasa PKKSnie tak PKKSnie tak BKKR nie PSMRnie tak PSMSnie tak PSMRnie tak 17 Przeznaczenie: Komp., sam. wiekStan konta Staż pracy w danym zakładzie pracy Sytuacja zawodowa

18 ZPT 18 Zastosowania [wiek > 25] & [stan konta > 70] & [staż pracy > 2] tak [płeć = kobieta] & [wiek < 25] nie ……. Po uogólnieniu reguł decyzyjnych… LERS Proces uogólniania takich reguł to jedno głównych zagadnień Eksploracji Danych … Do wykonywania takich obliczeń opracowano wiele narzędzi komputerowych. Do najbardziej znanych należy…

19 ZPT Breast Cancer Database: Instancje (obiekty): 699 (dane poszczególnych pacjentów) Liczba atrybutów: 10 Klasyfikacja (2 klasy) Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA 1.Ocena spoistości masy nowotworowej 2.Ocena jednolitości rozmiaru komórek 3.Ocena jednolitości kształtu komórek …. 9. Występowanie podziałów komórkowych (mitoza) 19 Diagnostyka raka piersi

20 ZPT Breast Cancer Database (fragment) IDa1a2a3a4a5a6a7a8a9a

21 ZPT Pozyskiwanie wiedzy z baz danych LERS był wykorzystany do obliczenia reguł decyzyjnych wspomagających diagnostykę raka piersi. 21 R. K. Nowicki Rozmyte systemy decyzyjne w zadaniach z ograniczoną wiedzą, Akademicka Oficyna Wydawnicza EXIT, Warszawa (Reguły decyzyjne dla Breast Cancer Database…)

22 ZPT Komputerowe systemy klasyfikacji danych 22 Rough Set Toolkit for Analysis of Data: Biomedical Centre (BMC), Uppsala, Sweden. ROSETTA ale skoro wiemy, że można do tych obliczeń stosować metody syntezy logicznej …

23 ZPT 23 Porównanie RSES.i 7.o 1.type fr.p e ESPRESSO TABLE extlbis ATTRIBUTES 8 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 x8 numeric 0 OBJECTS (x1=1)&(x5=1)&(x6=1)&(x2=1)=>(x8=0) (x1=1)&(x2=0)&(x5=1)&(x3=0)&(x4=0)&(x6=0)=>(x8=0) (x4=0)&(x1=1)&(x2=0)&(x7=0)=>(x8=1) (x2=1)&(x4=0)&(x5=1)&(x6=0)=>(x8=1)

24 ZPT Porównanie Przykład sugeruje, że algorytmy stosowane w komputerowych systemach eksploracji danych nie są najskuteczniejsze. I być może warto je opracować na nowo korzystając z metod syntezy logicznej. Przykładem potwierdzającym tę tezę jest redukcja atrybutów, którą najpierw omówimy w ujęciu redukcji argumentów.

25 ZPT 25 Redukcja atrybutów a1a1 a2a2 a3a3 a4a4 a5a5 a6a6 d a1a1 a3a3 a5a5 a6a6 d Redukty: {a 1, a 3, a 5, a 6 } {a 2, a 3, a 5, a 6 }

26 ZPT 26 Przykład redukcji atrybutów a4a a5a da6a6 a3a3 a2a2 a1a1 ponieważ wiersze 6 i 10 różnią się na pozycji a 1 a1a1 a6a6 a wiersze 2 i 8 różnią się na pozycji a 6

27 ZPT 27 Przykład redukcji atrybutów a4a a5a da6a6 a3a3 a2a2 a1a1

28 ZPT 28 Przykład redukcji atrybutów a4a a5a da6a6 a3a3 a2a2 a1a1 a 2, a 4, a 5 1,9 2,9 4,5 4,8 3,7 (a 4 + a 2 ) (a 4 + a 3 ) (a 4 + a 5 ) = a 4 + a 2 a 3 a 5 a 2, a 3, a 4, a 5 a 3, a 4 a 2, a 4 a 4, a 5 {a 1, a 4, a 6 } {a 1, a 2, a 3, a 5, a 6 }

29 ZPT Plik danych RSES TABLE EXPLOR ATTRIBUTES 7 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 OBJECTS REDUCTS (2) { x1, x4, x6 } { x1, x2, x3, x5, x6 }

30 ZPT Twierdzenie: Każdy wiersz i macierzy, stanowiącej uzupełnienie macierzy porównań M reprezentuje pokrycie kolumnowe M, gdzie j M wtedy i tylko wtedy, gdy Powyższe twierdzenie sprowadza proces obliczania reduktów do obliczania uzupełnienia jednorodnej funkcji boolowskiej. Procedura ta (nazwana UNATE_COMPLEMENT) została opracowana jako fragment procedury COMPLEMENT programu Espresso. Inna metoda obliczania reduktów… Omówioną metodę można znacznie usprawnić wykorzystując stosowaną w syntezie logicznej procedurę uzupełniania funkcji boolowskiej.

31 ZPT 31 Przykład – metoda klasyczna (x 3 + x 4 ) x 1 x 2 x 4 x 3 x 4 x 1 x 2 x 1 x 4 (x 1 + x 2 + x 4 )(x 1 + x 2 ) (x 1 + x 4 ) = = x 1 x 3 + x 2 x 4 +x 1 x 4 To są wszystkie minimalne pokrycia kolumnowe macierzy M M:

32 ZPT x3x4x1x2x3x4x1x M: 32 Przykład – metoda uzupełniania x 1 x 3 + x 2 x 4 +x 1 x 4 To samo co poprzednio!

33 ZPT.i 7.o 1.type fr.p e Przykład TL27 33 Tablica porównań nie jest funkcją boolowską Obliczanie reduktów metodą uzupełniania… …jest bardzo skuteczne

34 ZPT.i 7.o 1.type fr.p e i 7.o 1.p end Redukcja (usuwanie) wierszy tabl. porównań 34 Zredukowana tablica porównań reprezentuje funkcję boolowską

35 ZPT 35 Do obliczenia uzupełnienia zastosujmy… ESPRESSO.i 7.o 1.p end.i 7.o 1.p end Espresso {x 1,x 3,x 4,x 6,x 7 } {x 2,x 3,x 4,x 6 } {x 2,x 4,x 5,x 6 } {x 2,x 4,x 6,x 7 }

36 ZPT Audiology Database Number of instances: 200 training cases Number of attributes: 71 Classification (24 classes) Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter Dermatology Database Number of Instances: 366 Number of attributes: 34 Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine Ankara, Turkey Phone: +90 (312) Skuteczność metody uzupełniania… 36 …w zastosowaniu do rzeczywistych baz danych

37 ZPT. type fdr.i 32.o 1.p end Trains RSES nie może policzyć, znajduje tylko rozwiązanie heurystyczne 333 redukty

38 ZPT 38 Funkcja KAZ.type fr.i 21.o 1.p end 5574 redukty

39 ZPT Eksperymenty attributesobjectsRSES/ROSETTAprop. methodreducts trains3310>5 h out of memory<1 sec.689 KAZ min.<1 sec.5574 house sec.2 sec.1 audiology71200>5 h out of memory2 min dermatology35366>5 h out of memory90 min Bezwzględna przewaga metody uzupełniania!

40 ZPT Wnioski Metody syntezy logicznej są skuteczne Dają rewelacyjne wyniki Proste do implementacji 40 Mogą być źródłem ciekawych prac dyplomowych

41 ZPT 41 Dekompozycja tablic decyzyjnych B A G H Decyzja końcowa Atrybuty Tablica decyzyjna Decyzja pośrednia Atrybuty

42 ZPT 42 Dekompozycja tablic decyzyjnych F = H(A,G(B)) G P(B): P(A) G P D B A G H Decyzja końcowa Decyzja pośrednia

43 ZPT 43 Przykład dekompozycji TD a4a a5a da6a6 a3a3 a2a2 a1a1 A = {a 4, a 5, a 6 } B = {a 1, a 2, a 3 }

44 ZPT 44 Przykład c.d. F a1a1 a2a2 a3a3 g a4a4 a5a5 a6a6 gd G: H:

45 ZPT 45 Kompresja danych S F = 130 jednostek S G = 42 jednostki S H = 72 jednostki S = p q i Dekompozycja S G + S H = 87% S F

46 ZPT 46 Przykład 68% kompresji danych


Pobierz ppt "ZPT Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: medycynie farmakologii bankowości."

Podobne prezentacje


Reklamy Google