Eksploracja danych (Data mining)

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do informatyki Wykład 6
Advertisements

Obserwowalność System ciągły System dyskretny
Metody ekonometryczne
Przetwarzanie i rozpoznawanie obrazów
Przetwarzanie i rozpoznawanie obrazów
Filtracja obrazów cd. Filtracja obrazów w dziedzinie częstotliwości
Liczby pierwsze.
Domy Na Wodzie - metoda na wlasne M
Losy życiowe wychowanków Ośrodka Szkolno-Wychowawczego nr 3 w Warszawie Maria Jóźwicka-Sadownik.
Materiały pochodzą z Platformy Edukacyjnej Portalu
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
Algorytm Rochio’a.
Minimalizacja funkcji boolowskich
I T P W ZPT 1 Jak smakuje Espresso I T P W ZPT 2.
Struktury układów logicznych
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Klasyfikacja systemów
Transformacja Z (13.6).
Tytuł prezentacji Warszawa, r..
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Technika Mikroprocesorowa 1
Technika Mikroprocesorowa 1
Synteza układów sekwencyjnych z (wbudowanymi) pamięciami ROM
Agnieszka Jankowicz-Szymańska1, Wiesław Wojtanowski1,2
Ekonometria szeregów czasowych
Zmodyfikowana metoda ekspansji Komputerowe narzędzia syntezy logicznej
Wyrażenia algebraiczne
Synteza logiczna w projektowaniu układów cyfrowych
Synteza logiczna w eksploracji danych
Espresso mankamenty.
Espresso mankamenty.
II Zadanie programowania liniowego PL
1 ANALIZA STANU BEZROBOCIA NA TERENIE MIASTA I GMINY GOŁAŃCZ ANALIZA STANU BEZROBOCIA NA TERENIE MIASTA I GMINY GOŁAŃCZ ZA ROK 2004 ORAZ PORÓWNANIE Z LATAMI.
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
Podstawy działania wybranych usług sieciowych
Minimalizacja funkcji boolowskich
Przykład syntezy strukturalnej
Minimalizacja funkcji boolowskich
Synteza logiczna w projektowaniu…
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Metoda klasyczna ... to metoda tablicowa, graficzna, której podstawowe
Struktury układów logicznych
Posługiwanie się systemami liczenia
-17 Oczekiwania gospodarcze – Europa Wrzesień 2013 Wskaźnik > +20 Wskaźnik 0 a +20 Wskaźnik 0 a -20 Wskaźnik < -20 Unia Europejska ogółem: +6 Wskaźnik.
+21 Oczekiwania gospodarcze – Europa Grudzień 2013 Wskaźnik > +20 Wskaźnik 0 do +20 Wskaźnik 0 do -20 Wskaźnik < -20 Unia Europejska ogółem: +14 Wskaźnik.
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
VII EKSPLORACJA DANYCH
W2 Modelowanie fenomenologiczne I
II Zadanie programowania liniowego PL
Reprezentacja liczb w systemie binarnym ułamki i liczby ujemne
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Bramki logiczne i układy kombinatoryczne
Systemy dynamiczne 2014/2015Obserwowalno ść i odtwarzalno ść  Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Obserwowalność.
Działania w systemie binarnym
Elementy geometryczne i relacje
Strategia pomiaru.
ZPT Synteza logiczna w eksploracji danych jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach niemal w każdej dziedzinie.
I T P W ZPT 1. I T P W ZPT 2 Synteza logicznaInżynieria informacji Dekompozycja funkcjonalna Odwzorowanie technologiczne FPGA Hierarchiczne podejmowanie.
I T P W ZPT 1 Minimalizacja funkcji boolowskich c.d. Pierwsze skuteczne narzędzie do minimalizacji wieloargumentowych i wielowyjściowych funkcji boolowskich.
ZPT f Gate ArrayStandard Cell Programmable Logic Devices PAL, PLA 1 Omówione do tej pory metody syntezy dotyczą struktur bramkowych… Dekompozycja funkcji.
ZPT 1 Dekompozycja nierozłączna Pojęcie r - przydatności Dekompozycja zrównoważona Dekompozycja równoległa.
Pojęcia podstawowe c.d. Rachunek podziałów Elementy teorii grafów
Synteza logiczna w eksploracji danych
Metoda klasyczna (wg książki Sasao)
Metody syntezy logicznej w zadaniach pozyskiwania wiedzy
Zapis prezentacji:

Eksploracja danych (Data mining) jest dynamicznie rozwijającą się dziedziną informatyki o szerokich zastosowaniach: • medycynie • farmakologii • bankowości • lingwistyce • rozpoznawaniu mowy • ochrona środowiska Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie. 1

Eksploracja danych…. Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases). Potrafi zdiagnozować pacjenta Potrafi przeprowadzić sondaż? Potrafi klasyfikować dane? Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku

Pozyskiwanie wiedzy z baz danych na abstrakcyjnym poziomie algorytmów polega na Redukcji atrybutów Generacji reguł decyzyjnych Hierarchicznym podejmowanie decyzji Są to algorytmy analogiczne do algorytmów stosowanych w syntezie logicznej! 3

Eksploracja danych a synteza logiczna Generacja reguł decyzyjnych Redukcja atrybutów Hierarchiczne podejmowanie decyzji Minimalizacja funkcji boolowskich Redukcja argumentów Dekompozycja funkcjonalna

Tablice i reguły decyzyjne Wiele rzeczywistych zjawisk opisuje się tablicami danych a b d e 1 2 3 4 5 6 Ob i e k t y Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, d. Jednocześnie obiekty są klasyfikowane, kolumna e.

Tablice i reguły decyzyjne 1 2 3 4 5 6 Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi: U1: (a,1)  (b,0)  (d,1) (e,1) U5: (a,1)  (b,1)  (d,2) (e,2) redukcja atrybutów redukcja (generacja) reguł decyzyjnych

Generacja reguł Metoda uogólniania reguł decyzyjnych: Wyrażenia takie można „upraszczać” za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne. Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M.

Przykład generacji reguł Tablica decyzyjna Tablica reguł minimalnych U a b c d e 1 2 3 4 5 6 7 a b c d e 1 – 2

Przykład: uogólniamy U1 b c d e 1 2 3 4 5 6 7 1 d c b a M = Macierz M powstaje przez porównanie obiektów: (u1, u3), (u1, u4), ..., (u1, u7). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=0, dla różnych m=1.

Przykład: uogólniamy U1 b c d e 1 2 1 d c b a M = a, b, c, d a, b, d b, d b a, d Minimalne pokrycia są: {a,b} oraz {b,d}, Wyznaczone na ich podstawie minimalne reguły: U a b c d e 1 - 2 (a,1) & (b,0)  (e,1) (b,0) & (d,1)  (e,1)

Przykład generacji reguł cd. Po uogólnieniu obiektu u1  u2. U a b c d e 1 - 2 3 4 5 6 7 U a b c d e 1 - 2 u2 można usunąć  

Przykład generacji reguł c.d. b c d e 1 2 3 4 5 6 7 Dla obiektu u3 Dla obiektu u4 (a,0)  (e,0) (b,1) & (d,1)  (e,0) Niestety po uogólnieniu ani u3 nie pokrywa u4, ani u4 nie pokrywa u3

Przykład generacji reguł c.d. b c d e 1 2 3 4 5 6 7 Dla obiektu u5 u6, u7 (d,2)  (e,2)

Reguły minimalne Uogólnione reguły decyzyjne: (a,1) & (b,0)  (e,1) (a,0)  (e,0) (b,1) & (d,1)  (e,0) (d,2)  (e,2) a b c d e 1 – 2 w innym zapisie: (a,1) & (b,0)  (e,1) (a,0)  (b,1) & (d,1)  (e,0) (d,2)  (e,2)

Interpretacja reguł uogólnionych Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane Ale pojawia się nowy zestaw danych a=1,b=1, c=1, d= 1 Jaka decyzja? U a b c d e 1 2 3 4 5 6 7 a b c d e 1 – 2 Na uogólnionych regułach jest to oczywiste! e = 0

Zastosowania Przykładowo: Sytuacja ta występuje np. przy wnioskach kredytowych składanych w bankach. Ponieważ część z nich jest akceptowana, a część odrzucana, można dane zebrane w dłuższym okresie czasu zapisać w tablicy decyzyjnej, uogólnić i dalej stosować w uproszczonej formie do podejmowania decyzji. Klientów charakteryzuje się za pomocą następujących cech jakościowych i ilościowych: Przykładowo: Sytuacja zawodowa: B (bezrobotny), P (pracujący) przeznaczenie kredytu: komputer (K), sprzęt audio (A), biżuteria (B)… wiek w latach stan konta

Przykładowa tablica danych... Sytuacja zawodowa Przeznaczenie: Komp., sam. wiek Stan konta Staż pracy w danym zakładzie pracy C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 Klasa P K S nie 18 200 20 15 1 tak 100 2 B R 25 50 40 12 • M 21 1500 30 3 38 1000

……. Zastosowania LERS Po uogólnieniu reguł decyzyjnych… [wiek > 25] & [stan konta > 70] & [staż pracy > 2]  tak ……. [płeć = kobieta] & [wiek < 25]  nie Proces uogólniania takich reguł to jedno głównych zagadnień Eksploracji Danych … Do wykonywania takich obliczeń opracowano wiele narzędzi komputerowych. Do najbardziej znanych należy… LERS

Breast Cancer Database: Diagnostyka raka piersi Breast Cancer Database: Ocena spoistości masy nowotworowej Ocena jednolitości rozmiaru komórek Ocena jednolitości kształtu komórek …. 9. Występowanie podziałów komórkowych (mitoza) Instancje (obiekty): 699 (dane poszczególnych pacjentów) Liczba atrybutów: 10 Klasyfikacja (2 klasy) Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA

Breast Cancer Database (fragment) ID a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 1000025 5 1 2 3 1002945 4 7 10 1015425 1016277 6 8 1017023 1017122 9 1018099 1018561 1033078 1035283 1036172 1041801 1043999 1044572 1047630 1048672 1049815 1050670 1050718 1054590  2020

Pozyskiwanie wiedzy z baz danych LERS był wykorzystany do obliczenia reguł decyzyjnych wspomagających diagnostykę raka piersi. R. K. Nowicki Rozmyte systemy decyzyjne w zadaniach z ograniczoną wiedzą, Akademicka Oficyna Wydawnicza EXIT, Warszawa 2009. (Reguły decyzyjne dla Breast Cancer Database…) 21

Komputerowe systemy klasyfikacji danych ROSETTA Rough Set Toolkit for Analysis of Data: Biomedical Centre (BMC), Uppsala, Sweden. http://logic.mimuw.edu.pl/~rses/ http://www.lcb.uu.se/tools/rosetta/ ale skoro wiemy, że można do tych obliczeń stosować metody syntezy logicznej … 22

Porównanie RSES ESPRESSO .i 7 (x1=1)&(x5=1)&(x6=1)&(x2=1)=>(x8=0) .type fr .p 9 1000101 0 1011110 0 1101110 0 1110111 0 0100101 1 1000110 1 1010000 1 1010110 1 1110101 1 .e TABLE extlbis ATTRIBUTES 8 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 x8 numeric 0 OBJECTS 9 1 0 0 0 1 0 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 1 0 1 1 0 1 0 0 0 0 1 1 0 1 0 1 1 0 1 1 1 1 0 1 0 1 1 (x1=1)&(x5=1)&(x6=1)&(x2=1)=>(x8=0) (x1=1)&(x2=0)&(x5=1)&(x3=0)&(x4=0)&(x6=0)=>(x8=0) (x4=0)&(x1=1)&(x2=0)&(x7=0)=>(x8=1) (x2=1)&(x4=0)&(x5=1)&(x6=0)=>(x8=1)

Porównanie Przykład sugeruje, że algorytmy stosowane w komputerowych systemach eksploracji danych nie są najskuteczniejsze. I być może warto je opracować na nowo korzystając z metod syntezy logicznej. Przykładem potwierdzającym tę tezę jest redukcja atrybutów, którą najpierw omówimy w ujęciu redukcji argumentów.

Redukcja atrybutów a1 a2 a3 a4 a5 a6 d 1 2 3 4 5 6 7 8 9 10 a1 a3 a5 2 3 4 5 6 7 8 9 10 a1 a3 a5 a6 d 1 2 3 4 5 6 7 8 9 10 Redukty: {a1 , a3 , a5 , a6 } {a2 , a3 , a5 , a6 }

Przykład redukcji atrybutów ponieważ wiersze 6 i 10 różnią się na pozycji a1 3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 a wiersze 2 i 8 różnią się na pozycji a6

Przykład redukcji atrybutów 3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1

Przykład redukcji atrybutów 3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 1,9 2,9 4,5 4,8 3,7 a2 , a4 , a5 a2 , a3 , a4 , a5 a3 , a4 a2 , a4 a4 , a5 (a4 + a2) (a4 + a3) (a4 + a5) = a4 + a2a3a5 {a1 , a4 , a6 } {a1 , a2 , a3 , a5 , a6 }

Plik danych RSES TABLE EXPLOR ATTRIBUTES 7 x1 numeric 0 x2 numeric 0 OBJECTS 10 0 0 0 0 0 0 1 0 0 1 1 0 0 1 1 2 2 0 1 1 2 0 1 1 0 0 1 2 0 1 0 2 0 1 3 1 2 2 3 2 0 2 1 2 2 2 0 1 1 0 0 1 1 0 1 3 0 1 0 3 2 0 4 2 2 2 3 2 0 4 REDUCTS (2) { x1, x4, x6 } { x1, x2, x3, x5, x6 }

Inna metoda obliczania reduktów… Omówioną metodę można znacznie usprawnić wykorzystując stosowaną w syntezie logicznej procedurę uzupełniania funkcji boolowskiej. Twierdzenie: Każdy wiersz i macierzy , stanowiącej uzupełnienie macierzy porównań M reprezentuje pokrycie kolumnowe M, gdzie j  M wtedy i tylko wtedy, gdy Powyższe twierdzenie sprowadza proces obliczania reduktów do obliczania uzupełnienia jednorodnej funkcji boolowskiej. Procedura ta (nazwana UNATE_COMPLEMENT) została opracowana jako fragment procedury COMPLEMENT programu Espresso.

Przykład – metoda klasyczna x1 x2 x4 x3 x4 x1 x2 x1 x4 (x1 + x2 + x4) (x3 + x4) (x1 + x2) (x1 + x4) = = x1x3 + x2x4 +x1x4 To są wszystkie minimalne pokrycia kolumnowe macierzy M

Przykład – metoda uzupełniania x3x4 x1x2 00 01 11 10 1 x1x3 + x2x4 +x1x4 To samo co poprzednio! 32

Obliczanie reduktów metodą uzupełniania… …jest bardzo skuteczne 1100000 0000011 0010101 0010011 0110000 1111011 0011000 0001110 0001000 0101011 1001011 0101000 0111110 0111000 0011011 1010010 0110001 0100111 0100001 0000010 1 Przykład TL27 .i 7 .o 1 .type fr .p 9 1000101 0 1011110 0 1101110 0 1110111 0 0100101 1 1000110 1 1010000 1 1010110 1 1110101 1 .e Tablica porównań Tablica porównań nie jest funkcją boolowską 33

Redukcja (usuwanie) wierszy tabl. porównań 1100000 1 0000011 1 0010101 1 0010011 1 0110000 1 1111011 1 0011000 1 0001110 1 0001000 1 0101011 1 1001011 1 0101000 1 0111110 1 0111000 1 0011011 1 1010010 1 0110001 1 0100111 1 0100001 1 0000010 1 .i 7 .o 1 .type fr .p 9 1000101 0 1011110 0 1101110 0 1110111 0 0100101 1 1000110 1 1010000 1 1010110 1 1110101 1 .e Zredukowana tablica porównań .i 7 .o 1 .p 6 11----- 1 --1-1-1 1 -11---- 1 -1----1 1 ---1--- 1 -----1- 1 .end 1100000 1 0010101 1 0110000 1 0110001 1 0100001 1 reprezentuje funkcję boolowską 34

Do obliczenia uzupełnienia zastosujmy… Espresso {x1,x3,x4,x6,x7} {x2,x3,x4,x6} .i 7 .o 1 .p 6 11----- 1 --1-1-1 1 -11---- 1 -1----1 1 ---1--- 1 -----1- 1 .end {x2,x4,x5,x6} {x2,x4,x6,x7} ESPRESSO .i 7 .o 1 .p 4 0-00-00 0 -000-0- 0 -0-000- 0 -0-0-00 0 .end

Skuteczność metody uzupełniania… …w zastosowaniu do rzeczywistych baz danych Audiology Database Dermatology Database Number of instances: 200 training cases Number of attributes: 71 Classification (24 classes) Number of Instances: 366 Number of attributes: 34 Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine 06510 Ankara, Turkey Phone: +90 (312) 214 1080 Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter (porter@fall.cs.utexas.EDU) 36

Trains .type fdr .i 32 .o 1 .p 10 23016320081311611006100100010010 0 12009130071200020-----0101000000 0 11006100041311013-----0000101000 0 21007130011300212006121100100000 0 12001131101200010-----0101000000 0 010103000613----------0000001000 1 1100110009130150------0000001000 1 011101200910----------0001000000 1 21007100151200612007101001000000 1 000091201622----------1000000000 1 .end RSES nie może policzyć, znajduje tylko rozwiązanie heurystyczne 333 redukty

5574 redukty Funkcja KAZ .type fr .i 21 .o 1 .p 31 100110010110011111101 1 111011111011110111100 1 001010101000111100000 1 001001101100110110001 1 100110010011011001101 1 100101100100110110011 1 001100100111010011011 1 001101100011011011001 1 110110010011001001101 1 100110110011010010011 1 110011011011010001100 1 010001010000001100111 0 100110101011111110100 0 111001111011110011000 0 101101011100010111100 0 110110000001010100000 0 110110110111100010111 0 110000100011110010001 0 001001000101111101101 0 100100011111100110110 0 100011000110011011110 0 110101000110101100001 0 110110001101101100111 0 010000111001000000001 0 001001100101111110000 0 100100111111001110010 0 000010001110001101101 0 101000010100001110000 0 101000110101010011111 0 101010000001100011001 0 011100111110111101111 0 .end 5574 redukty

Bezwzględna przewaga metody uzupełniania! Eksperymenty   attributes objects RSES/ROSETTA prop. method reducts trains 33 10 >5 h out of memory <1 sec. 689 KAZ 22 31 70 min. 5574 house 17 435 4 sec. 2 sec. 1 audiology 71 200 2 min. 37367 dermatology 35 366 90 min. 115556 Bezwzględna przewaga metody uzupełniania! 39

Wnioski Metody syntezy logicznej są skuteczne Dają rewelacyjne wyniki Proste do implementacji Mogą być źródłem ciekawych prac dyplomowych 40

Dekompozycja tablic decyzyjnych Atrybuty B A G Decyzja pośrednia Tablica decyzyjna H Decyzja końcowa Atrybuty

Dekompozycja tablic decyzyjnych G H Decyzja końcowa Decyzja pośrednia F = H(A,G(B)) G  P(B): P(A)  G  PD

Przykład dekompozycji TD 3 1 2 a4 a5 7 4 9 8 10 6 5 d a6 a3 a2 a1 A = {a4 , a5 , a6 } B = {a1 , a2 , a3 }

Przykład c.d. F G: H: a4 a5 a6 g d 1 2 3 4 5 6 7 8 9 a1 a2 a3 g 1 2 3 2 3 4 5 6 7 8 9 a1 a2 a3 g 1 2 3 4 5 6

Kompresja danych S = pqi Dekompozycja SG + SH = 87% SF SG = 42 jednostki SF = 130 jednostek Dekompozycja SH = 72 jednostki SG + SH = 87% SF

Przykład 68% kompresji danych