Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

ZPT Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: medycynie farmakologii bankowości.

Podobne prezentacje


Prezentacja na temat: "ZPT Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: medycynie farmakologii bankowości."— Zapis prezentacji:

1 ZPT Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: medycynie farmakologii bankowości lingwistyce rozpoznawaniu mowy ochrona środowiska 1 Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie.

2 ZPT 2 Potrafi zdiagnozować pacjenta Potrafi zdiagnozować pacjenta Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Potrafi klasyfikować dane? Potrafi klasyfikować dane? Potrafi przeprowadzić sondaż? Potrafi przeprowadzić sondaż? Eksploracja danych…. Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases).

3 ZPT Pozyskiwanie wiedzy z baz danych Redukcji atrybutów Generacji reguł decyzyjnych Hierarchicznym podejmowanie decyzji na abstrakcyjnym poziomie algorytmów polega na 3 Są to algorytmy analogiczne do algorytmów stosowanych w syntezie logicznej!

4 ZPT 4 Synteza logiczna Eksploracja danych Minimalizacja funkcji boolowskich Eksploracja danych a synteza logiczna Generacja reguł decyzyjnych Redukcja atrybutów Hierarchiczne podejmowanie decyzji Redukcja argumentów Dekompozycja funkcjonalna

5 ZPT 5 Tablice i reguły decyzyjne abde 11011 21001 30000 41110 51122 62222 Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, d. Jednocześnie obiekty są klasyfikowane, kolumna e. ObiektyObiekty Wiele rzeczywistych zjawisk opisuje się tablicami danych

6 ZPT 6 Tablice i reguły decyzyjne U1: (a,1) (b,0) (d,1) (e,1) U5: (a,1) (b,1) (d,2) (e,2) abde 11011 21001 30000 41110 51122 62222 redukcja atrybutów redukcja (generacja) reguł decyzyjnych Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi:

7 ZPT 7 Generacja reguł Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M. Wyrażenia takie można upraszczać za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne.

8 ZPT 8 Przykład generacji reguł Uabcde 110011 210001 300000 411010 511022 622022 722222 Tablica decyzyjna abcde 10––1 0–––0 –1–10 –––22 Tablica reguł minimalnych

9 ZPT 9 Przykład: uogólniamy U 1 Uabcde 110011 210001 300000 411010 511022 622022 722222 Macierz M powstaje przez porównanie obiektów: (u 1, u 3 ), (u 1, u 4 ),..., (u 1, u 7 ). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=0, dla różnych m=1. 1111 1011 1010 0010 1001 dcba M

10 ZPT 10 Przykład: uogólniamy U 1 Minimalne pokrycia są: {a,b} oraz {b,d}, 1111 1011 1010 0010 1001 dcba M a, b, c, d a, b, d b, d b a, d Wyznaczone na ich podstawie minimalne reguły: (a,1) & (b,0) (e,1) (b,0) & (d,1) (e,1) Uabcde 110011 210001 Uabcde 110--1 210001

11 ZPT 11 Przykład generacji reguł cd. Uabcde 110--1 210001 Po uogólnieniu obiektu u 1 u 2. u 2 można usunąć Uabcde 110--1 210001 300000 411010 511022 622022 722222

12 ZPT 12 Przykład generacji reguł c.d. Uabcde 110011 210001 300000 411010 511022 622022 722222 (a,0) (e,0) (b,1) & (d,1) (e,0) Dla obiektu u3Dla obiektu u4 Niestety po uogólnieniu ani u 3 nie pokrywa u 4, ani u 4 nie pokrywa u 3

13 ZPT 13 Przykład generacji reguł c.d. Uabcde 110011 210001 300000 411010 511022 622022 722222 (d,2) (e,2) Dla obiektu u5 u 6, u 7

14 ZPT 14 Reguły minimalne abcde 10––1 0–––0 –1–10 –––22 (a,1) & (b,0) (e,1) (a,0) (e,0) (b,1) & (d,1) (e,0) (d,2) (e,2) (a,1) & (b,0) (e,1) (a,0) (b,1) & (d,1) (e,0) (d,2) (e,2) w innym zapisie: Uogólnione reguły decyzyjne:

15 ZPT 15 Interpretacja reguł uogólnionych Uabcde 110011 210001 300000 411010 511022 622022 722222 Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane abcde 10––1 0–––0 –1–10 –––22 Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. a=1,b=1, c=1, d= 1 Na uogólnionych regułach jest to oczywiste! Ale pojawia się nowy zestaw danych Jaka decyzja? e = 0

16 ZPT 16 Sytuacja ta występuje np. przy wnioskach kredytowych składanych w bankach. Ponieważ część z nich jest akceptowana, a część odrzucana, można dane zebrane w dłuższym okresie czasu zapisać w tablicy decyzyjnej, uogólnić i dalej stosować w uproszczonej formie do podejmowania decyzji. Klientów charakteryzuje się za pomocą następujących cech jakościowych i ilościowych: - Sytuacja zawodowa: B (bezrobotny), P (pracujący) - przeznaczenie kredytu: komputer (K), sprzęt audio (A), biżuteria (B)… - wiek w latach - stan konta Zastosowania Przykładowo:

17 ZPT Przykładowa tablica danych... C1C2C3C4C5C6C7C8C9C10Klasa PKKSnie1820020151tak PKKSnie2010020 2tak BKKR 255040120nie PSMRnie21150030203tak PSMSnie251500100202tak PSMRnie3810001002015tak 17 Przeznaczenie: Komp., sam. wiekStan konta Staż pracy w danym zakładzie pracy Sytuacja zawodowa

18 ZPT 18 Zastosowania [wiek > 25] & [stan konta > 70] & [staż pracy > 2] tak [płeć = kobieta] & [wiek < 25] nie ……. Po uogólnieniu reguł decyzyjnych… LERS Proces uogólniania takich reguł to jedno głównych zagadnień Eksploracji Danych … Do wykonywania takich obliczeń opracowano wiele narzędzi komputerowych. Do najbardziej znanych należy…

19 ZPT Breast Cancer Database: Instancje (obiekty): 699 (dane poszczególnych pacjentów) Liczba atrybutów: 10 Klasyfikacja (2 klasy) Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA 1.Ocena spoistości masy nowotworowej 2.Ocena jednolitości rozmiaru komórek 3.Ocena jednolitości kształtu komórek …. 9. Występowanie podziałów komórkowych (mitoza) 19 Diagnostyka raka piersi

20 ZPT Breast Cancer Database (fragment) IDa1a2a3a4a5a6a7a8a9a10 10000255111213112 100294554457103212 10154253111223112 10162776881343712 10170234113213112 1017122810 87 9714 101809911112103112 10185612121213112 10330782111211152 4211212112 10352831111113112 10361722111212112 10418015333234414 10439991111233112 104457287510795544 10476307464614314 10486724111212112 10498154111213112 1050670107764 4124 10507186111213112 1054590732105 5444 20

21 ZPT Pozyskiwanie wiedzy z baz danych LERS był wykorzystany do obliczenia reguł decyzyjnych wspomagających diagnostykę raka piersi. 21 R. K. Nowicki Rozmyte systemy decyzyjne w zadaniach z ograniczoną wiedzą, Akademicka Oficyna Wydawnicza EXIT, Warszawa 2009. (Reguły decyzyjne dla Breast Cancer Database…)

22 ZPT Komputerowe systemy klasyfikacji danych 22 http://logic.mimuw.edu.pl/~rses/ Rough Set Toolkit for Analysis of Data: Biomedical Centre (BMC), Uppsala, Sweden. http://www.lcb.uu.se/tools/rosetta/ ROSETTA ale skoro wiemy, że można do tych obliczeń stosować metody syntezy logicznej …

23 ZPT 23 Porównanie RSES.i 7.o 1.type fr.p 9 1000101 0 1011110 0 1101110 0 1110111 0 0100101 1 1000110 1 1010000 1 1010110 1 1110101 1.e ESPRESSO TABLE extlbis ATTRIBUTES 8 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 x8 numeric 0 OBJECTS 9 1 0 0 0 1 0 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 0 0 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 1 0 1 1 0 1 0 0 0 0 1 1 0 1 0 1 1 0 1 1 1 1 0 1 0 1 1 (x1=1)&(x5=1)&(x6=1)&(x2=1)=>(x8=0) (x1=1)&(x2=0)&(x5=1)&(x3=0)&(x4=0)&(x6=0)=>(x8=0) (x4=0)&(x1=1)&(x2=0)&(x7=0)=>(x8=1) (x2=1)&(x4=0)&(x5=1)&(x6=0)=>(x8=1)

24 ZPT Porównanie Przykład sugeruje, że algorytmy stosowane w komputerowych systemach eksploracji danych nie są najskuteczniejsze. I być może warto je opracować na nowo korzystając z metod syntezy logicznej. Przykładem potwierdzającym tę tezę jest redukcja atrybutów, którą najpierw omówimy w ujęciu redukcji argumentów.

25 ZPT 25 Redukcja atrybutów a1a1 a2a2 a3a3 a4a4 a5a5 a6a6 d 10101001 21000132 31102233 41102332 51110234 60020231 71120225 81120236 91022136 101122317 a1a1 a3a3 a5a5 a6a6 d 100001 210132 310233 410332 511234 602231 712225 812236 912136 12317 Redukty: {a 1, a 3, a 5, a 6 } {a 2, a 3, a 5, a 6 }

26 ZPT 26 Przykład redukcji atrybutów 3 3 1 2 3 2 0 0 1 0 a4a4 2 2 0 0 2 0 0 1 0 0 a5a5 11221 7 40010 9 31100 8 40222 10 20221 6 31010 5 21110 4 21221 3 10100 2 10000 1 da6a6 a3a3 a2a2 a1a1 ponieważ wiersze 6 i 10 różnią się na pozycji a 1 a1a1 a6a6 a wiersze 2 i 8 różnią się na pozycji a 6

27 ZPT 27 Przykład redukcji atrybutów 3 3 1 2 3 2 0 0 1 0 a4a4 2 2 0 0 2 0 0 1 0 0 a5a5 11221 7 40010 9 31100 8 40222 10 20221 6 31010 5 21110 4 21221 3 10100 2 10000 1 da6a6 a3a3 a2a2 a1a1

28 ZPT 28 Przykład redukcji atrybutów 3 3 1 2 3 2 0 0 1 0 a4a4 2 2 0 0 2 0 0 1 0 0 a5a5 11221 7 40010 9 31100 8 40222 10 20221 6 31010 5 21110 4 21221 3 10100 2 10000 1 da6a6 a3a3 a2a2 a1a1 a 2, a 4, a 5 1,9 2,9 4,5 4,8 3,7 (a 4 + a 2 ) (a 4 + a 3 ) (a 4 + a 5 ) = a 4 + a 2 a 3 a 5 a 2, a 3, a 4, a 5 a 3, a 4 a 2, a 4 a 4, a 5 {a 1, a 4, a 6 } {a 1, a 2, a 3, a 5, a 6 }

29 ZPT Plik danych RSES TABLE EXPLOR ATTRIBUTES 7 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 OBJECTS 10 0 0 0 0 0 0 1 0 0 1 1 0 0 1 1 2 2 0 1 1 2 0 1 1 0 0 1 2 0 1 0 2 0 1 3 1 2 2 3 2 0 2 1 2 2 2 0 1 1 0 0 1 1 0 1 3 0 1 0 3 2 0 4 2 2 2 3 2 0 4 REDUCTS (2) { x1, x4, x6 } { x1, x2, x3, x5, x6 }

30 ZPT Twierdzenie: Każdy wiersz i macierzy, stanowiącej uzupełnienie macierzy porównań M reprezentuje pokrycie kolumnowe M, gdzie j M wtedy i tylko wtedy, gdy Powyższe twierdzenie sprowadza proces obliczania reduktów do obliczania uzupełnienia jednorodnej funkcji boolowskiej. Procedura ta (nazwana UNATE_COMPLEMENT) została opracowana jako fragment procedury COMPLEMENT programu Espresso. Inna metoda obliczania reduktów… Omówioną metodę można znacznie usprawnić wykorzystując stosowaną w syntezie logicznej procedurę uzupełniania funkcji boolowskiej.

31 ZPT 31 Przykład – metoda klasyczna (x 3 + x 4 ) x 1 x 2 x 4 x 3 x 4 x 1 x 2 x 1 x 4 (x 1 + x 2 + x 4 )(x 1 + x 2 ) (x 1 + x 4 ) = = x 1 x 3 + x 2 x 4 +x 1 x 4 To są wszystkie minimalne pokrycia kolumnowe macierzy M M:

32 ZPT x3x4x1x2x3x4x1x2 00011110 00 1 01 1 111111 10 11 M: 32 Przykład – metoda uzupełniania x 1 x 3 + x 2 x 4 +x 1 x 4 To samo co poprzednio!

33 ZPT.i 7.o 1.type fr.p 9 1000101 0 1011110 0 1101110 0 1110111 0 0100101 1 1000110 1 1010000 1 1010110 1 1110101 1.e 1100000 0000011 0010101 0010011 0110000 1111011 0011000 0001110 0001000 0101011 1001011 0101000 0111110 0111000 0011011 1010010 0110001 0100111 0100001 0000010 Przykład TL27 33 Tablica porównań 1111111111111111111111111111111111111111 nie jest funkcją boolowską Obliczanie reduktów metodą uzupełniania… …jest bardzo skuteczne

34 ZPT.i 7.o 1.type fr.p 9 1000101 0 1011110 0 1101110 0 1110111 0 0100101 1 1000110 1 1010000 1 1010110 1 1110101 1.e 1100000 1 0000011 1 0010101 1 0010011 1 0110000 1 1111011 1 0011000 1 0001110 1 0001000 1 0101011 1 1001011 1 0101000 1 0111110 1 0111000 1 0011011 1 1010010 1 0110001 1 0100111 1 0100001 1 0000010 1 1100000 1 0010101 1 0110000 1 0110001 1 0100001 1.i 7.o 1.p 6 11----- 1 --1-1-1 1 -11---- 1 -1----1 1 ---1--- 1 -----1- 1.end Redukcja (usuwanie) wierszy tabl. porównań 34 Zredukowana tablica porównań reprezentuje funkcję boolowską

35 ZPT 35 Do obliczenia uzupełnienia zastosujmy… ESPRESSO.i 7.o 1.p 6 11----- 1 --1-1-1 1 -11---- 1 -1----1 1 ---1--- 1 -----1- 1.end.i 7.o 1.p 4 0-00-00 0 -000-0- 0 -0-000- 0 -0-0-00 0.end Espresso {x 1,x 3,x 4,x 6,x 7 } {x 2,x 3,x 4,x 6 } {x 2,x 4,x 5,x 6 } {x 2,x 4,x 6,x 7 }

36 ZPT Audiology Database Number of instances: 200 training cases Number of attributes: 71 Classification (24 classes) Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter (porter@fall.cs.utexas.EDU) Dermatology Database Number of Instances: 366 Number of attributes: 34 Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine 06510 Ankara, Turkey Phone: +90 (312) 214 1080 Skuteczność metody uzupełniania… 36 …w zastosowaniu do rzeczywistych baz danych

37 ZPT. type fdr.i 32.o 1.p 10 23016320081311611006100100010010 0 12009130071200020-----0101000000 0 11006100041311013-----0000101000 0 21007130011300212006121100100000 0 12001131101200010-----0101000000 0 010103000613----------0000001000 1 1100110009130150------0000001000 1 011101200910----------0001000000 1 21007100151200612007101001000000 1 000091201622----------1000000000 1.end Trains RSES nie może policzyć, znajduje tylko rozwiązanie heurystyczne 333 redukty

38 ZPT 38 Funkcja KAZ.type fr.i 21.o 1.p 31 100110010110011111101 1 111011111011110111100 1 001010101000111100000 1 001001101100110110001 1 100110010011011001101 1 100101100100110110011 1 001100100111010011011 1 001101100011011011001 1 110110010011001001101 1 100110110011010010011 1 110011011011010001100 1 010001010000001100111 0 100110101011111110100 0 111001111011110011000 0 101101011100010111100 0 110110000001010100000 0 110110110111100010111 0 110000100011110010001 0 001001000101111101101 0 100100011111100110110 0 100011000110011011110 0 110101000110101100001 0 110110001101101100111 0 010000111001000000001 0 001001100101111110000 0 100100111111001110010 0 000010001110001101101 0 101000010100001110000 0 101000110101010011111 0 101010000001100011001 0 011100111110111101111 0.end 5574 redukty

39 ZPT Eksperymenty attributesobjectsRSES/ROSETTAprop. methodreducts trains3310>5 h out of memory<1 sec.689 KAZ223170 min.<1 sec.5574 house174354 sec.2 sec.1 audiology71200>5 h out of memory2 min.37367 dermatology35366>5 h out of memory90 min.115556 39 Bezwzględna przewaga metody uzupełniania!

40 ZPT Wnioski Metody syntezy logicznej są skuteczne Dają rewelacyjne wyniki Proste do implementacji 40 Mogą być źródłem ciekawych prac dyplomowych

41 ZPT 41 Dekompozycja tablic decyzyjnych B A G H Decyzja końcowa Atrybuty Tablica decyzyjna Decyzja pośrednia Atrybuty

42 ZPT 42 Dekompozycja tablic decyzyjnych F = H(A,G(B)) G P(B): P(A) G P D B A G H Decyzja końcowa Decyzja pośrednia

43 ZPT 43 Przykład dekompozycji TD 3 3 1 2 3 2 0 0 1 0 a4a4 2 2 0 0 2 0 0 1 0 0 a5a5 11221 7 40010 9 31100 8 40222 10 20221 6 31010 5 21110 4 21221 3 10100 2 10000 1 da6a6 a3a3 a2a2 a1a1 A = {a 4, a 5, a 6 } B = {a 1, a 2, a 3 }

44 ZPT 44 Przykład c.d. F a1a1 a2a2 a3a3 g 10001 20011 31221 40111 50102 62222 a4a4 a5a5 a6a6 gd 100011 210011 301112 400112 520123 632012 720111 810113 932024 G: H:

45 ZPT 45 Kompresja danych S F = 130 jednostek S G = 42 jednostki S H = 72 jednostki S = p q i Dekompozycja S G + S H = 87% S F

46 ZPT 46 Przykład 68% kompresji danych


Pobierz ppt "ZPT Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: medycynie farmakologii bankowości."

Podobne prezentacje


Reklamy Google