Eksploracja danych (Data mining)

Eksploracja danych (Data mining)
jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: • medycynie • farmakologii • bankowości • lingwistyce • rozpoznawaniu mowy • ochrona środowiska Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie. 1

Eksploracja danych…. Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases). Potrafi zdiagnozować pacjenta Potrafi przeprowadzić sondaż? Potrafi klasyfikować dane? Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku

Pozyskiwanie wiedzy z baz danych
na abstrakcyjnym poziomie algorytmów polega na Redukcji atrybutów Generacji reguł decyzyjnych Hierarchicznym podejmowanie decyzji Są to algorytmy analogiczne do algorytmów stosowanych w syntezie logicznej! 3

Eksploracja danych a synteza logiczna
Generacja reguł decyzyjnych Redukcja atrybutów Hierarchiczne podejmowanie decyzji Minimalizacja funkcji boolowskich Redukcja argumentów Dekompozycja funkcjonalna

Tablice i reguły decyzyjne
Wiele rzeczywistych zjawisk opisuje się tablicami danych a b d e 1 2 3 4 5 6 Ob i e k t y Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, d. Jednocześnie obiekty są klasyfikowane, kolumna e.

Tablice i reguły decyzyjne
1 2 3 4 5 6 Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi: U1: (a,1)  (b,0)  (d,1) (e,1) U5: (a,1)  (b,1)  (d,2) (e,2) redukcja atrybutów redukcja (generacja) reguł decyzyjnych

Generacja reguł Metoda uogólniania reguł decyzyjnych:
Wyrażenia takie można „upraszczać” za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne. Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M.

Przykład generacji reguł
Tablica decyzyjna Tablica reguł minimalnych U a b c d e 1 2 3 4 5 6 7 a b c d e 1 – 2

Przykład: uogólniamy U1
b c d e 1 2 3 4 5 6 7 1 d c b a M = Macierz M powstaje przez porównanie obiektów: (u1, u3), (u1, u4), ..., (u1, u7). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=0, dla różnych m=1.

Przykład: uogólniamy U1
b c d e 1 2 1 d c b a M = a, b, c, d a, b, d b, d b a, d Minimalne pokrycia są: {a,b} oraz {b,d}, Wyznaczone na ich podstawie minimalne reguły: U a b c d e 1 - 2 (a,1) & (b,0)  (e,1) (b,0) & (d,1)  (e,1)

Przykład generacji reguł cd.
Po uogólnieniu obiektu u1  u2. U a b c d e 1 - 2 3 4 5 6 7 U a b c d e 1 - 2 u2 można usunąć

Przykład generacji reguł c.d.
b c d e 1 2 3 4 5 6 7 Dla obiektu u3 Dla obiektu u4 (a,0)  (e,0) (b,1) & (d,1)  (e,0) Niestety po uogólnieniu ani u3 nie pokrywa u4, ani u4 nie pokrywa u3

Przykład generacji reguł c.d.
b c d e 1 2 3 4 5 6 7 Dla obiektu u5 u6, u7 (d,2)  (e,2)

Reguły minimalne Uogólnione reguły decyzyjne: (a,1) & (b,0)  (e,1)
(a,0)  (e,0) (b,1) & (d,1)  (e,0) (d,2)  (e,2) a b c d e 1 – 2 w innym zapisie: (a,1) & (b,0)  (e,1) (a,0)  (b,1) & (d,1)  (e,0) (d,2)  (e,2)

Interpretacja reguł uogólnionych
Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane Ale pojawia się nowy zestaw danych a=1,b=1, c=1, d= 1 Jaka decyzja? U a b c d e 1 2 3 4 5 6 7 a b c d e 1 – 2 Na uogólnionych regułach jest to oczywiste! e = 0

Zastosowania Przykładowo:
Sytuacja ta występuje np. przy wnioskach kredytowych składanych w bankach. Ponieważ część z nich jest akceptowana, a część odrzucana, można dane zebrane w dłuższym okresie czasu zapisać w tablicy decyzyjnej, uogólnić i dalej stosować w uproszczonej formie do podejmowania decyzji. Klientów charakteryzuje się za pomocą następujących cech jakościowych i ilościowych: Przykładowo: Sytuacja zawodowa: B (bezrobotny), P (pracujący) przeznaczenie kredytu: komputer (K), sprzęt audio (A), biżuteria (B)… wiek w latach stan konta

Przykładowa tablica danych...
Sytuacja zawodowa Przeznaczenie: Komp., sam. wiek Stan konta Staż pracy w danym zakładzie pracy C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 Klasa P K S nie 18 200 20 15 1 tak 100 2 B R 25 50 40 12 • M 21 1500 30 3 38 1000

……. Zastosowania LERS Po uogólnieniu reguł decyzyjnych…
[wiek > 25] & [stan konta > 70] & [staż pracy > 2]  tak ……. [płeć = kobieta] & [wiek < 25]  nie Proces uogólniania takich reguł to jedno głównych zagadnień Eksploracji Danych … Do wykonywania takich obliczeń opracowano wiele narzędzi komputerowych. Do najbardziej znanych należy… LERS

Breast Cancer Database:
Diagnostyka raka piersi Breast Cancer Database: Ocena spoistości masy nowotworowej Ocena jednolitości rozmiaru komórek Ocena jednolitości kształtu komórek …. 9. Występowanie podziałów komórkowych (mitoza) Instancje (obiekty): 699 (dane poszczególnych pacjentów) Liczba atrybutów: 10 Klasyfikacja (2 klasy) Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA

Breast Cancer Database (fragment)
ID a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 5 1 2 3 4 7 10 6 8 9  2020

Pozyskiwanie wiedzy z baz danych
LERS był wykorzystany do obliczenia reguł decyzyjnych wspomagających diagnostykę raka piersi. R. K. Nowicki Rozmyte systemy decyzyjne w zadaniach z ograniczoną wiedzą, Akademicka Oficyna Wydawnicza EXIT, Warszawa 2009. (Reguły decyzyjne dla Breast Cancer Database…) 21

Komputerowe systemy klasyfikacji danych
ROSETTA Rough Set Toolkit for Analysis of Data: Biomedical Centre (BMC), Uppsala, Sweden. ale skoro wiemy, że można do tych obliczeń stosować metody syntezy logicznej … 22

Porównanie RSES ESPRESSO .i 7 (x1=1)&(x5=1)&(x6=1)&(x2=1)=>(x8=0)
.type fr .p 9 .e TABLE extlbis ATTRIBUTES 8 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 x8 numeric 0 OBJECTS 9 (x1=1)&(x5=1)&(x6=1)&(x2=1)=>(x8=0) (x1=1)&(x2=0)&(x5=1)&(x3=0)&(x4=0)&(x6=0)=>(x8=0) (x4=0)&(x1=1)&(x2=0)&(x7=0)=>(x8=1) (x2=1)&(x4=0)&(x5=1)&(x6=0)=>(x8=1)

Porównanie Przykład sugeruje, że algorytmy stosowane w komputerowych systemach eksploracji danych nie są najskuteczniejsze. I być może warto je opracować na nowo korzystając z metod syntezy logicznej. Przykładem potwierdzającym tę tezę jest redukcja atrybutów, którą najpierw omówimy w ujęciu redukcji argumentów.

Redukcja atrybutów a1 a2 a3 a4 a5 a6 d 1 2 3 4 5 6 7 8 9 10 a1 a3 a5
2 3 4 5 6 7 8 9 10 a1 a3 a5 a6 d 1 2 3 4 5 6 7 8 9 10 Redukty: {a1 , a3 , a5 , a6 } {a2 , a3 , a5 , a6 }

Przykład redukcji atrybutów
ponieważ wiersze 6 i 10 różnią się na pozycji a1 3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 a wiersze 2 i 8 różnią się na pozycji a6

3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1

3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 1,9 2,9 4,5 4,8 3,7 a2 , a4 , a5 a2 , a3 , a4 , a5 a3 , a4 a2 , a4 a4 , a5 (a4 + a2) (a4 + a3) (a4 + a5) = a4 + a2a3a5 {a1 , a4 , a6 } {a1 , a2 , a3 , a5 , a6 }

Plik danych RSES TABLE EXPLOR ATTRIBUTES 7 x1 numeric 0 x2 numeric 0
OBJECTS 10 REDUCTS (2) { x1, x4, x6 } { x1, x2, x3, x5, x6 }

Inna metoda obliczania reduktów…
Omówioną metodę można znacznie usprawnić wykorzystując stosowaną w syntezie logicznej procedurę uzupełniania funkcji boolowskiej. Twierdzenie: Każdy wiersz i macierzy , stanowiącej uzupełnienie macierzy porównań M reprezentuje pokrycie kolumnowe M, gdzie j  M wtedy i tylko wtedy, gdy Powyższe twierdzenie sprowadza proces obliczania reduktów do obliczania uzupełnienia jednorodnej funkcji boolowskiej. Procedura ta (nazwana UNATE_COMPLEMENT) została opracowana jako fragment procedury COMPLEMENT programu Espresso.

Przykład – metoda klasyczna
x1 x2 x4 x3 x4 x1 x2 x1 x4 (x1 + x2 + x4) (x3 + x4) (x1 + x2) (x1 + x4) = = x1x3 + x2x4 +x1x4 To są wszystkie minimalne pokrycia kolumnowe macierzy M

Przykład – metoda uzupełniania
x3x4 x1x2 00 01 11 10 1 x1x3 + x2x4 +x1x4 To samo co poprzednio! 32

Obliczanie reduktów metodą uzupełniania…
…jest bardzo skuteczne 1 Przykład TL27 .i 7 .o 1 .type fr .p 9 .e Tablica porównań Tablica porównań nie jest funkcją boolowską 33

Redukcja (usuwanie) wierszy tabl. porównań
.i 7 .o 1 .type fr .p 9 .e Zredukowana tablica porównań .i 7 .o 1 .p 6 .end reprezentuje funkcję boolowską 34

Do obliczenia uzupełnienia zastosujmy…
Espresso {x1,x3,x4,x6,x7} {x2,x3,x4,x6} .i 7 .o 1 .p 6 .end {x2,x4,x5,x6} {x2,x4,x6,x7} ESPRESSO .i 7 .o 1 .p 4 .end

Skuteczność metody uzupełniania…
…w zastosowaniu do rzeczywistych baz danych Audiology Database Dermatology Database Number of instances: 200 training cases Number of attributes: 71 Classification (24 classes) Number of Instances: 366 Number of attributes: 34 Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine 06510 Ankara, Turkey Phone: +90 (312) Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter 36

Trains .type fdr .i 32 .o 1 .p end RSES nie może policzyć, znajduje tylko rozwiązanie heurystyczne 333 redukty

5574 redukty Funkcja KAZ .type fr .i 21 .o 1 .p 31
.end 5574 redukty

Bezwzględna przewaga metody uzupełniania!
Eksperymenty attributes objects RSES/ROSETTA prop. method reducts trains 33 10 >5 h out of memory <1 sec. 689 KAZ 22 31 70 min. 5574 house 17 435 4 sec. 2 sec. 1 audiology 71 200 2 min. 37367 dermatology 35 366 90 min. 115556 Bezwzględna przewaga metody uzupełniania! 39

Wnioski Metody syntezy logicznej są skuteczne Dają rewelacyjne wyniki
Proste do implementacji Mogą być źródłem ciekawych prac dyplomowych 40

Dekompozycja tablic decyzyjnych
Atrybuty B A G Decyzja pośrednia Tablica decyzyjna H Decyzja końcowa Atrybuty

Dekompozycja tablic decyzyjnych
G H Decyzja końcowa Decyzja pośrednia F = H(A,G(B)) G  P(B): P(A)  G  PD

Przykład dekompozycji TD
3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 A = {a4 , a5 , a6 } B = {a1 , a2 , a3 }

Przykład c.d. F G: H: a4 a5 a6 g d 1 2 3 4 5 6 7 8 9 a1 a2 a3 g 1 2 3
2 3 4 5 6 7 8 9 a1 a2 a3 g 1 2 3 4 5 6

Kompresja danych S = pqi Dekompozycja SG + SH = 87% SF
SG = 42 jednostki SF = 130 jednostek Dekompozycja SH = 72 jednostki SG + SH = 87% SF

Przykład 68% kompresji danych

Eksploracja danych (Data mining)

Podobne prezentacje

Prezentacja na temat: "Eksploracja danych (Data mining)"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Eksploracja danych (Data mining)

Podobne prezentacje

Prezentacja na temat: "Eksploracja danych (Data mining)"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres