Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Synteza logiczna w eksploracji danych

Podobne prezentacje


Prezentacja na temat: "Synteza logiczna w eksploracji danych"— Zapis prezentacji:

1 Synteza logiczna w eksploracji danych
Metody syntezy logicznej są wykorzystywane głównie do optymalizacji systemów cyfrowych przetwarzających sygnały binarne. Ich podstawowym zadaniem jest poprawa implementacji oraz możliwości odwzorowania systemów w różnych technologiach. Można jednak wykazać, że wiele metod syntezy logicznej, a w szczególności te wykorzystywane do optymalizacji kombinacyjnych układów logicznych, może być z powodzeniem zastosowanych w typowych zadaniach przetwarzania i wyszukiwania informacji, a nawet w… Eksploracji danych 1 Tadeusz Łuba ZCB

2 Eksploracja danych (Data Mining)
jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach w nauce i technice niemal w każdej dziedzinie życia 2

3 Eksploracja danych…. Eksploracja danych
Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie. Potrafi zdiagnozować pacjenta Potrafi przeprowadzić sondaż Eksploracja danych Potrafi wykryć anomalie w sieci Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases). Tadeusz Łuba ZCB

4 Pozyskiwanie wiedzy z baz danych
na abstrakcyjnym poziomie algorytmów polega na Redukcji atrybutów Uogólnianiu reguł decyzyjnych i wielu innych procedurach… Jaki jest związek tych algorytmów z algorytmami syntezy logicznej? 4 Tadeusz Łuba ZCB

5 Są to algorytmy przetwarzające ogromne bazy danych…
Eksploracja danych a synteza logiczna  Eksploracja danych Synteza logiczna Redukcja atrybutów Indukcja reguł decyzyjnych Hierarchiczne podejmowanie decyzji Redukcja argumentów Minimalizacja funkcji boolowskich Dekompozycja funkcjonalna Są to algorytmy przetwarzające ogromne bazy danych… Tadeusz Łuba ZCB

6 Komputerowe systemy eksploracji danych
ROSETTA Biomedical Centre (BMC), Uppsala, Sweden. Politechnika Poznańska 6 Tadeusz Łuba ZCB

7 Znaczenie eksploracji danych
Wiele rzeczywistych zjawisk opisuje się tablicami danych Atrybuty a b c d 1 2 3 4 5 6 Ob i e k t y Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, c. Jednocześnie obiekty są klasyfikowane, kolumna d. Tadeusz Łuba ZCB

8 Tablice i reguły decyzyjne
1 2 3 4 5 6 Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi: U1: (a,1)  (b,0)  (c,1) (d,1) U5: (a,1)  (b,1)  (c,2) (d,2) redukcja atrybutów Indukcja (generacja) reguł decyzyjnych Tadeusz Łuba ZCB

9 Uogólnianie reguł Metoda uogólniania reguł decyzyjnych:
Wyrażenia takie można „upraszczać” za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne. Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M. Tadeusz Łuba ZCB

10 Przykład indukcji reguł
Tablica decyzyjna Tablica reguł minimalnych U a b c d e 1 2 3 4 5 6 7 a b c d e 1 2 Tadeusz Łuba ZCB

11 Przykład: uogólniamy U1
b c d e 1 2 3 4 5 6 7 1 d c b a M = Macierz M powstaje przez porównanie obiektów: (u1, u3), (u1, u4), ..., (u1, u7). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=0, dla różnych m=1. Tadeusz Łuba ZCB

12 Przykład: uogólniamy U1
b c d e 1 2 1 d c b a M = a, b, c, d a, b, d b, d b a, d Minimalne pokrycia są: {a,b} oraz {b,d}, Wyznaczone na ich podstawie minimalne reguły: U a b c d e 1 - 2 (a,1) & (b,0)  (e,1) (b,0) & (d,1)  (e,1) Tadeusz Łuba ZCB

13 Przykład uogólniania reguł cd.
Po uogólnieniu obiektu u1  u2. U a b c d e 1 - 2 3 4 5 6 7 U a b c d e 1 - 2 u2 można usunąć Tadeusz Łuba ZCB

14 Przykład uogólniania reguł c.d.
b c d e 1 2 3 4 5 6 7 Dla obiektu u3 Dla obiektu u4 (a,0)  (e,0) (b,1) & (d,1)  (e,0) Niestety po uogólnieniu ani u3 nie pokrywa u4, ani u4 nie pokrywa u3 Tadeusz Łuba ZCB

15 Przykład uogólniania reguł c.d.
b c d e 1 2 3 4 5 6 7 Dla obiektu u5 u6, u7 (d,2)  (e,2) Tadeusz Łuba ZCB

16 Reguły minimalne Uogólnione reguły decyzyjne: (a,1) & (b,0)  (e,1)
(a,0)  (e,0) (b,1) & (d,1)  (e,0) (d,2)  (e,2) a b c d e 1 2 w innym zapisie: (a,1) & (b,0)  (e,1) (a,0)  (b,1) & (d,1)  (e,0) (d,2)  (e,2) Tadeusz Łuba ZCB

17 Interpretacja reguł uogólnionych
Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane Ale pojawia się nowy zestaw danych a=1,b=1, c=1, d= 1 Jaka decyzja? U a b c d e 1 2 3 4 5 6 7 a b c d e 1 2 Na uogólnionych regułach jest to oczywiste! e = 0 Tadeusz Łuba ZCB

18 Zastosowania Przykładowo:
Sytuacja ta występuje np. przy wnioskach kredytowych składanych w bankach. Ponieważ część z nich jest akceptowana, a część odrzucana, można dane zebrane w dłuższym okresie czasu zapisać w tablicy decyzyjnej, uogólnić i dalej stosować w uproszczonej formie do podejmowania decyzji. Klientów charakteryzuje się za pomocą następujących cech jakościowych i ilościowych: Przykładowo: Sytuacja zawodowa: B (bezrobotny), P (pracujący) przeznaczenie kredytu: komputer (K), sprzęt audio (A), biżuteria (B)… wiek w latach stan konta Tadeusz Łuba ZCB

19 Przykładowa tablica danych...
Sytuacja zawodowa Przeznaczenie: Komp., sam. wiek Stan konta Staż pracy w danym zakładzie pracy C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 Klasa P K S nie 18 200 20 15 1 tak 100 2 B R 25 50 40 12 M 21 1500 30 3 38 1000 Tadeusz Łuba ZCB

20 ……. Zastosowania LERS Po uogólnieniu reguł decyzyjnych…
[wiek > 25] & [stan konta > 70] & [staż pracy > 2]  tak ……. [płeć = kobieta] & [wiek < 25]  nie Proces uogólniania takich reguł to jedno głównych zagadnień Eksploracji Danych … Do wykonywania takich obliczeń opracowano wiele narzędzi komputerowych. Do najbardziej znanych należą: RSES, JMAF, WEKA, ROSETTA, LERS Tadeusz Łuba ZCB LERS

21 Redukcja atrybutów Poszukuje się takich podzbiorów atrybutów, które zachowują podział obiektów na klasy decyzyjne taki sam, jak wszystkie atrybuty a1 a2 a3 a4 a5 a6 d 1 2 3 4 5 6 7 8 9 10 a1 a4 a6 d 1 2 3 4 5 6 7 8 9 10 {a1 , a4 , a6 } , {a1 , a2 , a3 , a5 , a6 } Tadeusz Łuba ZCB

22 DNF reprezentuje wszystkie redukty!
Redukcja atrybutów Jak obliczać minimalne zbiory atrybutów? Tak samo jak minimalne zbiory argumentów Metoda obliczania reduktów: Obliczyć: atrybuty niezbędne, iloczyn podziałów indukowanych atrybutami niezbędnymi (PN) , podział ilorazowy PN|PD (podział ilorazowy wskazuje na wszystkie pary obiektów, których porównanie utworzy tablicę porównań) z tablicy porównań utworzyć funkcje wyróżniającą (typu CNF) przekształcić CNF na DNF DNF reprezentuje wszystkie redukty! Tadeusz Łuba ZCB

23 Przykład redukcji atrybutów
atrybuty niezbędne: ponieważ wiersze 6 i 10 różnią się na pozycji a1 3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 skoro wiersze 2 i 8 różnią się na pozycji a6 Tadeusz Łuba ZCB

24 Przykład redukcji atrybutów
3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 Tadeusz Łuba ZCB

25 Przykład redukcji atrybutów
3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 1,9 2,9 4,5 4,8 3,7 a2 , a4 , a5 a2 , a3 , a4 , a5 a3 , a4 a2 , a4 a4 , a5 Wyrażenie CNF DNF (a4 + a2) (a4 + a3) (a4 + a5) = a4 + a2a3a5 Redukty: {a1 , a4 , a6 } {a1 , a2 , a3 , a5 , a6 } Tadeusz Łuba ZCB

26 Plik danych RSES Jaki jest cel stosowania większych zbiorów atrybutów?
TABLE EXPLOR ATTRIBUTES 7 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 OBJECTS 10 REDUCTS (2) { x1, x4, x6 } { x1, x2, x3, x5, x6 } Jaki jest cel stosowania większych zbiorów atrybutów? Tadeusz Łuba ZCB

27 Przykładowa baza (tablica) danych
Wyniki badań i diagnozy 7 pacjentów Pacjenci Badanie1 Badanie2 Badanie3 Badanie4 Badanie5 Badanie6 Badanie7 Badanie8 Diagnoza P1 1 D3 P2 P3 2 P4 D1 P5 D2 P6 P7 Wyniki badań i symptomy choroby zapisane są symbolicznymi wartościami atrybutów Reguły decyzyjne (Bad_1=1)&(Bad_2=1)…&(Bad_5=1)…&(Bad_8=0)=>(Diagnoza=D3) Tadeusz Łuba ZCB

28 Uogólnione reguły decyzyjne
Pacjenci Badanie1 Badanie2 Badanie3 Badanie4 Badanie5 Badanie6 Badanie7 Badanie8 Diagnoza P1 1 D3 P2 P3 2 P4 D1 P5 D2 P6 P7 (Bad_2=1)&(Bad_4=1)=>(Diagnoza=D3) (Bad_4=1)&(Bad_7=0)=>(Diagnoza=D3) (Bad_1=0)&(Bad_3=1)&(Bad_6=0)=>(Diagnoza=D1) ( (Bad_3=1)&(Bad_5=0)&(Bad_6=0)=>(Diagnoza=D1) (Bad_2=0)=>(Diagnoza=D2) (Bad_1=0)&(Bad_4=1)&(Bad_6=0)&(Bad_8=0)=>(Diagnoza=D2) Reguły decyzyjne: Reguły decyzyjne wygenerowane z pierwotnej bazy danych używane są do klasyfikowania nowych obiektów. Tadeusz Łuba ZCB

29 Uogólnione reguły decyzyjne…
…mogą być zastosowane do zdiagnozowania nowego pacjenta. Bad1 Bad2 Bad3 Bad4 Bad5 Bad6 Bad7 Bad8 Diagnoza P1 1 D3 P2 P3 2 P4 D1 P5 D2 P6 P7 Nowy pacjent 1 ??? (Bad_2=1)&(Bad_4=1)=>(Diagnoza=D3) (Bad_4=1)&(Bad_7=0)=>(Diagnoza=D3) (Bad_1=0)&(Bad_3=1)&(Bad_6=0)=>(Diagnoza=D1) (Bad_3=1)&(Bad_5=0)&(Bad_6=0)=>(Diagnoza=D1) (Bad_2=0)=>(Diagnoza=D2) (Bad_1=0)&(Bad_4=1)&(Bad_6=0)&(Bad_8=0)=>(Diagnoza=D2) Dla nowego pacjenta Diagnoza = D3 Tadeusz Łuba ZCB

30 Redukcja atrybutów Poszukiwanie takich podzbiorów atrybutów, które zachowują podział obiektów na klasy decyzyjne taki sam, jak wszystkie atrybuty Bad1 Bad2 Bad3 Bad4 Bad5 Bad6 Bad7 Bad8 Diagnoza P1 1 D3 P2 P3 2 P4 D1 P5 D2 P6 P7 (Tomograf) Bad1 Bad6 Bad7 Bad8 Diagnoza P1 1 D3 P2 P3 P4 D1 P5 D2 P6 P7 { Bad_1 Bad_4 Bad_6 Bad_8 } { Bad_1 Bad_6 Bad_7 Bad_8 } { Bad_1 Bad_3 Bad_6 } { Bad_1 Bad_2 Bad_6 Bad_8 } Tadeusz Łuba ZCB

31 UC Irvine Machine Learning Repository
Rosnące wymagania   Wymagania na przetwarzanie coraz większych baz danych rosną, natomiast metody i narzędzia eksploracji danych stają się coraz mniej skuteczne UC Irvine Machine Learning Repository Say clearly that the appropriate equivalent for generalization of decision rules from data mining it is the typical procedure of Boolean function minimization; the reduction of attributes corresponds to the reduction of arguments; while the hierarchical decision-making is nothing but a functional decomposition. Breast Cancer Database Audiology Database Dermatology Database Tadeusz Łuba ZCB

32 Breast Cancer Database:
Diagnostyka raka piersi Breast Cancer Database: Ocena spoistości masy nowotworowej Ocena jednolitości rozmiaru komórek Ocena jednolitości kształtu komórek …. 9. Występowanie podziałów komórkowych (mitoza) Instancje (obiekty): 699 (dane poszczególnych pacjentów) Liczba atrybutów: 10 Klasyfikacja (2 klasy) Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA Tadeusz Łuba ZCB

33 ………………….. RULE_SET breast_cancer RULES 35
(x9=1)&(x8=1)&(x2=1)&(x6=1)=>(x10=2) (x9=1)&(x2=1)&(x3=1)&(x6=1)=>(x10=2) (x9=1)&(x8=1)&(x4=1)&(x3=1)=>(x10=2) (x9=1)&(x4=1)&(x6=1)&(x5=2)=>(x10=2) ………………….. (x9=1)&(x6=10)&(x1=10)=>(x10=4) (x9=1)&(x6=10)&(x5=4)=>(x10=4) (x9=1)&(x6=10)&(x1=8)=>(x10=4) REDUCTS (27) { x1, x2, x3, x4, x6 } { x1, x2, x3, x5, x6 } { x2, x3, x4, x6, x7 } { x1, x3, x4, x6, x7 } { x1, x2, x4, x6, x7 } ……………. { x3, x4, x5, x6, x7, x8 } { x3, x4, x6, x7, x8, x9 } { x4, x5, x6, x7, x8, x9 } Tadeusz Łuba ZCB

34 Inne bazy danych z zakresu medycyny
Audiology Database Dermatology Database Number of instances: 200 training cases Number of attributes: 71 Classification (24 classes) Number of Instances: 366 Number of attributes: 34 Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine 06510 Ankara, Turkey Phone: +90 (312) Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter Tadeusz Łuba ZCB 34

35 UC Irvine Machine Learning Repository
Breast Cancer Database Audiology Database Say clearly that the appropriate equivalent for generalization of decision rules from data mining it is the typical procedure of Boolean function minimization; the reduction of attributes corresponds to the reduction of arguments; while the hierarchical decision-making is nothing but a functional decomposition. Dermatology Database Co jest przyczyną takiej sytuacji? Tadeusz Łuba ZCB

36 Klasyczna metoda redukcji atrybutów…
polega na transformacji wyrażenia boolowskiego CNF na DNF (Dysjunkcyjna Postać Normalna). Transformacja taka tradycyjnie jest obliczana metodami przekształceń boolowskich. Jak zwiększyć skuteczność obliczania reduktów? Można zastosować ten sam pomysł, jaki jest stosowany w redukcji argumentów, gdyż cały proces polega na: Transformacja CNF DNF ..jaka została opublikowana w artykule…, ale nie została zaimplementowana… Procedurę transformacji można zastąpić dużo szybszą procedurą uzupełniania funkcji boolowskiej. 36

37 Przykład redukcji atrybutów z pl. 27
3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 Tablica rozróżnialności 1,9 2,9 4,5 4,8 3,7 a2 , a4 , a5 a2 , a3 , a4 , a5 a3 , a4 a2 , a4 a4 , a5 Wyrażenie CNF DNF (a4 + a2) (a4 + a3) (a4 + a5) = a4 + a2a3a5 Redukty: {a1 , a4 , a6 } {a1 , a2 , a3 , a5 , a6 } Tadeusz Łuba ZCB

38 Przykład z pl. 28 Transformacja CNF (a4 + a2) (a4 + a3) (a4 + a5)
DNF (a4 + a2) (a4 + a3) (a4 + a5) = a4 + a2a3a5 Zapisujemy tablicę rozróżnialności w postaci funkcji boolowskiej: …nanosimy na tablicę K. a4a5 a2a3 00 01 11 10 1 a2a3 a4a5 F 1-1- 1 -11- 1 --11 1

39 Algorytm obliczania reduktów…
Oczywiście w praktyce nikt nie liczy uzupełnienia posługując się tablica Karnaugha Uzupełnienie oblicza się dla zero-jedynkowej macierzy M. Sprytna procedura uzupełniania polega na iteracyjnym rozkładzie zbioru kostek macierzy M na kofaktory. Kofaktory te są obliczane tak długo, aż odpowiadające im zbiory kostek staną się „łatwe” do obliczenia ich uzupełnienia. Proces kończy „scalanie” wyników cząstkowych. 39 Tadeusz Łuba ZCB

40 Metoda Complement… Pierwotnie była stosowana w systemie Espresso, ale wyłącznie do obliczania zbioru D (lub R) Espresso (Rozdział 5.5 ) 40 Tadeusz Łuba ZCB

41 Błyskawica vs RSES Audiology Database Dermatology Database
Nie potrafi policzyć reduktów dla Błyskawica liczy wszystkie Implementacja przerosła nasze najśmielsze oczekiwania, w szczególności w porównaniu do RSES. Audiology Database 37367 reduktów: 19,157 s. Dermatology Database reduktów: 686,089 s. 41

42 breast-cancer -wisconsin
Eksperymenty  database attr. inst. RSES/ ROSETTA compl. method Number of reducts compl. method (least) Minimal reducts breast-cancer -wisconsin 10 699 2s 823ms 27 826ms 24 (5 attr) urology 36 500 out of memory (12h) 42s 741ms 23437 2s 499ms 1 (2 attr) audiology 71 200 out of memory (1h 17min) 14s 508ms 37367 920ms 1 (1attr) dermatology 35 366 out of memory (3h 27min) 3m 32s 143093 1s 474ms 27 (6 attr) trains 33 out of memory (5h 38min) 6ms 689 1ms 1 (1 attr) kaz 22 31 60min 234ms 5574 15ms 35(5attr) That is why the method was additionally proved on the typical databases of medicine, i.e. audiology database, dermatology database, urology database, breast cancer database and lung cancer database. Table 3 shows the computation time for all the minimum sets of attributes. The experiments performed confirm that logic synthesis algorithms developed for the design of digital systems are much more effective than currently used algorithms in data mining systems. I would like to emphasize the next important feature of our algorithms: They calculate all solutions! 15000 times faster!

43 Complementation method
Matrix M cofactor …. cofactor 1 cofactor 0 complement Kilka tysięcy razy! Borowik G., Łuba T., Fast Algorithm of Attribute Reduction Based on the Complementation of Boolean Function, Ch. 2, pp , Springer International Publishing, 2014, Cytowania … Guilong Liu et al.: Attribute reduction approaches for general relation decision systems, pp , Pattern Recognition Letters, Vol. 65, Nov „Note that we use fast algorithm based on the complementation of Boolean function, proposed by Borowik and Luba (Borowik and Luba, 2014), in calculation process of transforming CNF into DNF and finding a minimum set implicants”. 43

44 Podsumowanie Metody syntezy logicznej wypracowane dla potrzeb projektowania układów cyfrowych są skuteczne również w eksploracji danych Dają rewelacyjne wyniki Są proste w implementacji Są źródłem ciekawych prac dyplomowych 44 Tadeusz Łuba ZCB

45 Są źródłem ciekawych prac dyplomowych
Konrad Królikowski Implementacja algorytmu obliczania reduktów metodą uzupełniania funkcji boolowskich, 2012 Cezary Jankowski Dyskretyzacja danych numerycznych metodami przekształceń boolowskich, WEiTI 2014 Michał Andrzej Mańkowski Uogólnianie reguł decyzyjnych metodą uzupełniania funkcji boolowskich, WEiTI 2014 45 Tadeusz Łuba ZCB

46 Predykcja decyzji Reguły Potrafimy sklasyfikować nowe dane
1 2 Tak 3 4 5 6 7 Nie 8 9 10 (a1=2)&(a3=1)&(a5=1)&(a2=2)&(a6=1)=>(d=Tak) (a6=2)&(a1=2)&(a2=1)=>(d=Tak) (a1=3)&(a2=3)&(a3=2)&(a4=2)=>(d=Tak) (a1=2)&(a3=1)&(a2=2)&(a4=1)&(a5=1)&(a6=2)=>(d=Nie) (a2=3)&(a3=2)&(a1=3)&(a4=3)=>(d=Nie) (a4=4)&(a5=3)&(a6=1)&(a1=2)=>(d=Nie) Reguły 2 1 3 ? Nieznana wartość decyzji (a1=2)&(a2=1)&(a3=2)&(a4=3)&(a5=1)&(a6=2) Potrafimy sklasyfikować nowe dane Tadeusz Łuba ZCB

47 System z dwustopniowym procesem selekcji reguł
Tadeusz Łuba ZCB

48 Bazy danych do eksperymentów
UC Irvine Machine Learning Repository Pełna nazwa bazy Nazwa skrócona Liczba instancji Liczba atrybutów warunkowych Liczba klas decyzyjnych Dermatology Data Set Dermatology 366 33 6 Breast Cancer Wisconsin (Original) Data Set Breast Cancer 699 9 2 Indian Liver Patient Dataset ILPD 583 10 House Data Set House1) 232 16 1) Głosy kongresmenów w sprawie 16 kluczowych problemów zebrane w roku 1984 (tak lub nie) . Tadeusz Łuba ZCB

49 Indian Liver Patient Dataset
Eksperymenty Program Baza Dokładność Pokrycie Algorytm RSES2 House 84,90% 89,60% LEM2 Reguły 90,10% 100% Complement+MinRow Breast cancer 87,10% 87,90% 93,20% Indian Liver Patient Dataset 28,84% 48,30% 66% 97% Dermatology Data Set 87,77% 92,20% 78,00% 99,80% Tadeusz Łuba ZCB

50 Indukcja reguł dla Bazy House
Fragment bazy Zapis w standardzie RSES !, Decision table for house of reps. !, < D A A A A A A A A A A A A A A A A > [ CLASS-NAME HANDICAPPED-INFANTS WATER-PROJECT-COST-SHARING ADOPTION-OF-THE-BUDGET-RESOLUTION PHYSICIAN-FEE-FREEZE EL-SALVADOR-AID RELIGIOUS-GROUPS-IN-SCHOOLS ANTI-SATELLITE-TEST-BAN AID-TO-NICARAGUAN-CONTRAS MX-MISSILE IMMIGRATION SYNFUELS-CORPORATION-CUTBACK EDUCATION-SPENDING SUPERFUND-RIGHT-TO-SUE CRIME DUTY-FREE-EXPORTS EXPORT-ADMINISTRATION-ACT-SOUTH-AFRICA ] !, Now the data democrat n y y n y y n n n n n n y y y y republican n y n y y y n n n n n y y y n y democrat y y y n n n y y y n y n n n y y democrat y y y n n n y y y n n n n n y y democrat y n y n n n y y y y n n n n y y democrat y n y n n n y y y n y n n n y y republican y n n y y n y y y n n y y y n y republican n y n y y y n n n n n y y y n n democrat y y y n n n y y y y n n y n y y TABLE House ATTRIBUTES 17 x1 numeric 0 x2 numeric 0 x3 numeric 0 x17 numeric 0 OBJECTS 232 Tadeusz Łuba ZCB

51 Wynik RSES Tadeusz Łuba ZCB
RULES 22 (x13=0)&(x1=1)&(x5=0)&(x14=1)=>(x17=1[98]) 98 (x13=1)&(x3=1)&(x12=1)&(x1=1)&(x6=0)=>(x17=0[56]) 56 (x13=1)&(x3=1)&(x12=1)&(x11=1)&(x8=0)&(x9=0)&(x14=0)&(x2=0)&(x5=1)&(x4=1)&(x10=0)&(x16=0)&(x6=0)=>(x17=0[45]) 45 (x13=1)&(x3=1)&(x12=1)&(x11=1)&(x8=0)&(x9=0)&(x14=0)&(x2=0)&(x5=1)&(x4=1)&(x15=1)=>(x17=0[37]) 37 (x1=1)&(x13=0)&(x10=1)&(x11=1)=>(x17=1[31]) 31 (x13=1)&(x3=1)&(x15=0)&(x5=1)&(x8=0)&(x12=1)&(x9=0)&(x10=0)&(x14=0)&(x1=0)&(x4=1)&(x6=0)=>(x17=0[17]) 17 (x13=1)&(x3=1)&(x1=1)&(x5=0)&(x7=1)=>(x17=0[11]) 11 (x14=0)&(x2=0)&(x8=0)&(x9=0)&(x10=0)&(x12=1)&(x13=1)&(x4=1)&(x6=1)&(x11=1)&(x15=1)=>(x17=0[9]) 9 (x14=0)&(x1=1)&(x13=0)&(x2=1)=>(x17=1[7]) 7 (x13=1)&(x3=1)&(x1=1)&(x6=1)&(x8=0)&(x11=1)&(x12=1)&(x5=1)&(x15=0)=>(x17=0[4]) 4 (x3=1)&(x4=1)&(x5=1)&(x6=1)&(x7=0)&(x8=0)&(x11=1)&(x12=1)&(x13=1)&(x14=0)&(x1=1)=>(x17=0[4]) 4 (x11=1)&(x3=1)&(x6=1)&(x12=1)&(x2=0)&(x8=0)&(x9=0)&(x10=0)&(x4=1)&(x16=0)&(x7=1)&(x13=0)=>(x17=1[3]) 3 (x1=0)&(x6=1)&(x7=0)&(x10=0)&(x14=0)&(x2=1)=>(x17=1[3]) 3 (x3=1)&(x4=1)&(x5=1)&(x10=0)&(x11=1)&(x6=1)&(x7=0)&(x1=0)&(x14=0)&(x2=1)=>(x17=1[2]) 2 (x1=1)&(x3=1)&(x5=1)&(x4=1)&(x10=0)&(x11=1)&(x12=1)&(x15=1)&(x2=0)&(x6=1)&(x13=1)&(x14=1)=>(x17=1[2]) 2 (x6=1)&(x2=0)&(x3=1)&(x7=0)&(x14=0)&(x1=1)&(x4=0)=>(x17=1[2]) 2 (x11=1)&(x3=1)&(x6=1)&(x12=1)&(x2=0)&(x8=0)&(x9=0)&(x5=1)&(x7=0)&(x10=0)&(x13=1)&(x1=0)&(x14=0)&(x16=0)&(x4=0)=>(x17=1[1]) 1 (x1=0)&(x6=1)&(x10=0)&(x2=0)&(x3=1)&(x4=1)&(x8=0)&(x9=0)&(x11=1)&(x12=1)&(x13=1)&(x16=0)&(x5=0)=>(x17=1[1]) 1 (x1=0)&(x2=0)&(x3=1)&(x4=1)&(x5=1)&(x6=1)&(x7=0)&(x8=0)&(x9=0)&(x10=0)&(x11=1)&(x12=1)&(x13=1)&(x14=0)&(x15=0)&(x16=0)=>(x17=1[1]) 1 (x3=1)&(x14=0)&(x2=0)&(x15=0)&(x1=0)&(x5=1)&(x7=0)&(x8=0)&(x9=0)&(x10=0)&(x12=1)&(x13=1)&(x4=0)=>(x17=0[1]) 1 (x3=1)&(x14=0)&(x1=1)&(x9=1)&(x10=1)&(x2=0)&(x4=0)&(x5=0)&(x6=0)=>(x17=0[1]) 1 (x1=0)&(x2=0)&(x3=1)&(x4=1)&(x5=1)&(x6=1)&(x7=0)&(x8=0)&(x9=0)&(x10=0)&(x11=1)&(x12=1)&(x13=1)&(x14=0)&(x15=0)&(x16=1)=> (x17=0[1]) 1 Tadeusz Łuba ZCB

52 Reguły systemu Reguły są ogólniejsze
Porównanie Wynik RSES Wynik systemu Reguły Reguły systemu Reguły są ogólniejsze Tadeusz Łuba ZCB

53 Dyskretyzacja danych na przykładzie…
bazy danych do klasyfikacji poczty elektronicznej. On the testing of network cyber threat detection methods on spam example, R. Filasiak · M. Grzenda ·M. Luckner ·, P. Zawistowski. Annals of Telecommunications. (2014) 69:363–377. Baza zawiera rekordy, Rekordy są reprezentowane 64 atrybutami, Klasyfikacja: y_spam, n_spam, rejected, outgoing, other Tadeusz Łuba ZCB

54 Fragment SpamBase z danymi numerycznymi
0, 0, 64, 0, 64, 64, 3029, 1460, 5840, 0, 1, e-05, , , , , , , 15, 4849, , , 52, 1500, 1, 60, 5, 3156, 1, 89, 0, 0, 9, 1633, 0, 0, 930, 57660, 62, 62, 6492, 46, 5792, 0, relay1, , , , , , , , 8, 53, 722, , 40, 117, 1, 44, 4, 40, 0, 0, 1, 40, 2, 92, 0, 0, 120, 0, 120, 120, 24000, 24000, 24000, 0, 1, , , , , , , , 6, 700, , , 40, 278, 1, 44, 2, 80, 0, 0, 0, 0, 3, 576, 0, 0, 384, 24576, 64, 64, 35040, 5840, 5840, 0, dnsbl1, e-05, , , , , , , 23, 416, , , 52, 1500, 1, 60, 12, 655, 1, 52, 0, 0, 9, 179, 0, 0, 53, 0, 53, 53, 57523, 53679, 57920, 0, 1, e-05, , , , , , , 26, 13191, , , 52, 1500, 1, 60, 14, 10864, 1, 89, 0, 0, 11, 2267, 0, 0, 1664, , 64, 64, 75160, 1448, 5792, 0, y_spam1, , , , , , , , 9, 47, 221, , 40, 82, 1, 48, 3, 40, 1, 40, 2, 80, 2, 69, 0, 0, 107, 0, 107, 107, 50887, 0, 65535, 2, 1, , , , , , , , 7, 552, 57018, , 40, 148, 1, 48, 2, 80, 1, 40, 0, 0, 3, 384, 0, 0, 448, 28672, 64, 64, 40880, 5840, 5840, 0, dnsbl1, , , , , , , , 8, 52, 713, , 40, 118, 1, 44, 4, 40, 0, 0, 1, 40, 2, 88, 0, 0, 112, 0, 112, 112, 24000, 24000, 24000, 0, 1, , Tadeusz Łuba ZCB

55 Fragment SpamBase z danymi dyskretnymi
1, 41, 52, 24, 40, 4, 40, 39, 2, 4, 13, 10, 0, 10, 0, 0, 1, 0, 0, 0, 1, 1, 2, 10, 0, 0, 3, 0, 5, 1, 10, 6, 0, 0, 0, 1, 50, 17, 13, 5, 115, 12, 5, 22, 32, 37, 3, 37, 1, 2, 0, 0, 1, 6, 0, 0, 4, 29, 0, 0, 0, 0, 0, 0, 6, 0, 1, 0, relay 1, 43, 40, 14, 30, 4, 40, 5, 0, 1, 8, 5, 0, 6, 0, 0, 2, 0, 0, 0, 1, 0, 0, 6, 0, 0, 16, 0, 15, 9, 15, 11, 2, 0, 0, 26, 37, 2, 10, 5, 115, 12, 1, 9, 12, 21, 0, 20, 1, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 0, 0, 0, 36, 5, 2, 0, dnsbl 1, 1, 2, 0, 2, 0, 40, 0, 5, 15, 18, 16, 0, 11, 0, 0, 7, 9, 1, 0, 0, 0, 2, 16, 0, 0, 0, 0, 2, 0, 24, 17, 8, 0, 0, 1, 3, 0, 0, 0, 115, 12, 6, 22, 32, 38, 3, 37, 1, 2, 0, 0, 1, 6, 0, 0, 4, 29, 0, 0, 0, 0, 0, 0, 72, 0, 1, 0, y_spam 1, 125, 33, 14, 17, 3, 40, 7, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 5, 0, 6, 1, 23, 0, 23, 0, 0, 24, 24, 4, 8, 3, 115, 12, 2, 9, 5, 5, 0, 10, 1, 1, 0, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 45, 5, 2, 0, dnsbl 1, 51, 39, 15, 29, 4, 40, 7, 0, 1, 8, 3, 0, 7, 0, 0, 2, 0, 0, 0, 1, 0, 0, 5, 0, 0, 10, 0, 11, 6, 15, 11, 2, 0, 0, 27, 25, 4, 8, 4, 116, 12, 1, 9, 7, 12, 0, 16, 1, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 36, 5, 2, 0, dnsbl 1, 21, 31, 14, 17, 3, 40, 13, 1, 0, 0, 0, 0, 0, 0, 0, 2, 0, 1, 0, 1, 2, 0, 0, 0, 0, 5, 0, 6, 1, 23, 0, 23, 0, 0, 1, 19, 5, 7, 2, 115, 12, 4, 14, 5, 9, 0, 10, 1, 1, 0, 0, 1, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 65, 5, 2, 0, dnsbl 1, 125, 18, 14, 15, 1, 40, 2, 2, 5, 14, 11, 0, 10, 0, 0, 0, 0, 1, 0, 0, 0, 2, 21, 0, 0, 7, 0, 8, 3, 10, 7, 0, 0, 0, 7, 8, 1, 1, 1, 116, 12, 6, 22, 22, 11, 0, 17, 1, 1, 0, 0, 1, 0, 0, 0, 4, 28, 0, 0, 0, 0, 0, 0, 72, 5, 19, 0, y_spam 1, 71, 38, 14, 29, 4, 40, 5, 0, 2, 8, 6, 0, 2, 0, 0, 2, 0, 0, 0, 1, 0, 0, 7, 0, 0, 10, 1, 11, 7, 15, 11, 2, 0, 0, 26, 26, 2, 8, 4, 114, 12, 1, 12, 26, 30, 0, 37, 1, 0, 0, 0, 0, 0, 0, 0, 0, 12, 0, 0, 0, 0, 0, 0, 36, 5, 2, 0, dnsbl 1, 164, 51, 20, 38, 4, 40, 34, 0, 1, 2, 2, 0, 4, 0, 0, 2, 0, 1, 0, 0, 0, 0, 5, 0, 0, 4, 0, 5, 1, 26, 22, 23, 0, 0, 32, 50, 16, 12, 5, 115, 12, 2, 12, 10, 14, 0, 17, 1, 0, 0, 0, 1, 0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 45, 5, 2, 0, dnsbl 1, 17, 31, 14, 17, 3, 40, 38, 5, 8, 14, 11, 0, 10, 0, 0, 6, 0, 0, 0, 1, 0, 2, 18, 0, 0, 14, 0, 14, 9, 15, 11, 2, 0, 0, 67, 19, 16, 8, 2, 115, 12, 5, 22, 32, 37, 0, 29, 1, 2, 0, 0, 0, 0, 0, 0, 2, 28, 0, 0, 0, 0, 0, 0, 72, 5, 26, 0, y_spam 1, 143, 42, 15, 32, 4, 40, 12, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0, 5, 0, 6, 1, 24, 0, 23, 0, 0, 24, 36, 5, 10, 5, 115, 12, 1, 9, 5, 5, 0, 10, 1, 1, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 36, 5, 2, 0, dnsbl 1, 99, 3, 9, 9, 0, 40, 2, 0, 2, 3, 2, 0, 1, 0, 0, 2, 0, 0, 0, 1, 0, 0, 7, 0, 0, 11, 0, 12, 7, 15, 11, 2, 0, 0, 27, 1, 0, 0, 0, 114, Tadeusz Łuba ZCB


Pobierz ppt "Synteza logiczna w eksploracji danych"

Podobne prezentacje


Reklamy Google