ZPT Synteza logiczna w eksploracji danych jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach niemal w każdej dziedzinie.

Slides:



Advertisements
Podobne prezentacje
I część 1.
Advertisements

Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
C++ w Objectivity Marcin Michalak s1744. Pomocne pakiety: Data Definition Language (DDL). Standard Template Library (STL). Active Schema.
Filtracja obrazów cd. Filtracja obrazów w dziedzinie częstotliwości
Domy Na Wodzie - metoda na wlasne M
Software Engineering 0. Information on the Course Leszek J Chmielewski Faculty of Applied Informatics and Mathematics (WZIM) Warsaw University of Life.
Ernest Jamro Kat. Elektroniki AGH, Kraków Dep. Of Electronics, AGH
Algorytm Rochio’a.
Ministerstwo Gospodarki Poland'sexperience Waldemar Pawlak Deputy Prime Minister, Minister of Economy March 2010.
Testowanie oprogramowania metodą badania pokrycia kodu
Klasyfikacja systemów
Transformacja Z (13.6).
Tytuł prezentacji Warszawa, r..
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
ZDJĘCIA OBIEKTÓW UKŁADU SŁONECZNEGO I GŁEBOKIEGO KOSMOSU WYKONANE PRZEZ CZŁONKÓW SZKOLNEGO KLUBU PRZYRODNICZEGO ALTAIR ZE SZKOŁY PODSTAWIOWEJ W ŁUKOMIU.
Synteza układów sekwencyjnych z (wbudowanymi) pamięciami ROM
Piotr Nowak Development Manager Construction Innovation and Development Department The Chartered Institute of Building.
Zmodyfikowana metoda ekspansji Komputerowe narzędzia syntezy logicznej
Synteza logiczna w eksploracji danych
Espresso mankamenty.
Espresso mankamenty.
MISTRZOSTWA BYDGOSZCZY
Damian Wojdan Kraków,
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
Analiza wpływu regulatora na jakość regulacji (1)
Eksploracja danych (Data mining)
Minimalizacja funkcji boolowskich
PROPOZYCJE ZAPISU Autorzy: Uczniowie należący do Samorządu Szkolnego.
Przygotował: Adrian Walkowiak
FUNKCJA L I N I O W A Autorzy: Jolanta Kaczka Magdalena Wierdak
Systemy klastrowe inaczej klasterowe.
Elektronika cyfrowa Prezentacja Remka Kondrackiego.
Prezentacja z przedmiotu „systemy wizyjne”
Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium Programowania i Zastosowań Komputerów DorFin Baza.
Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium Programowania i Zastosowań Komputerów Autor: Marcin.
Szkoła systemów społecznych. Istota, przedstawiciele, wyniki
Zwiększenie wykorzystania energii z OZE w budownictwie
Uwaga !!! Uczniowie SP 32 w Toruniu ! Zapraszamy was i Wasze rodziny do wzięcia udziału w Festynie Zdrowia, który odbędzie się 31 maja 2013 roku podczas.
ALGORYTM.
Analiza stanu naprężenia
Wykonała Sylwia Kozber
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
Antonie de Saint-Exupery
Instalacja serwera WWW na komputerze lokalnym
Warsztaty C# Część 2 Grzegorz Piotrowski Grupa.NET PO
Warsztaty C# Część 3 Grzegorz Piotrowski Grupa.NET PO
KINECT – czyli z czym to się je?. Damian Zawada
Wielowymiarowa analiza poziomu ubóstwa w województwie podlaskim WSTĘPNE WYNIKI BADAŃ
Bazy danych.
Wydatki na zakup podręczników i akcesoriów szkolnych gemiusReport sierpień 2006.
- powtórzenie wiadomości
Problematyka wykładu Wprowadzenie Podział układów sekwencyjnych
Strategie badań – ilościowe v. jakościowe - porównanie
Konferencja prasowa z okazji VIII Światowego Dnia FAS 8 września 2008 r. Świadomość zagrożeń wynikających ze spożywania alkoholu przez kobiety w ciąży.
RENTOWNY PROGRAM AUTOMATYCZNEJ DOSTAWY (ADR)RENTOWNY PROGRAM AUTOMATYCZNEJ DOSTAWY (ADR) (Nowy Program – 1 września 2009 r.) Przykład: LifePak ® - 72,60.
Rzeszów r.. Liczba osób badanych 3 Odpowiedzi badanych na temat stosowania krzyku przez rodziców 4.
1 Technika cyfrowa Systemy zapisu liczb wykonał Andrzej Poczopko.
Metoda klasyczna ... to metoda tablicowa, graficzna, której podstawowe
Struktury układów logicznych
Analiza matury 2013 Opracowała Bernardeta Wójtowicz.
-17 Oczekiwania gospodarcze – Europa Wrzesień 2013 Wskaźnik > +20 Wskaźnik 0 a +20 Wskaźnik 0 a -20 Wskaźnik < -20 Unia Europejska ogółem: +6 Wskaźnik.
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Działania w systemie binarnym
Kalendarz 2020.
Elementy geometryczne i relacje
Strategia pomiaru.
ZPT Synteza logiczna w eksploracji danych jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach niemal w każdej dziedzinie.
Zapis prezentacji:

ZPT Synteza logiczna w eksploracji danych jest dynamicznie rozwijającą się dziedziną informatyki o coraz szerszych zastosowaniach niemal w każdej dziedzinie życia bankowości lingwistyce marketing farmakologii telekomunikacji 1 Również w MEDYCYNIE Eksploracja danych (Data mining)

ZPT 2 Zastosowania

ZPT Zastosowania 3 LERS (Learning from Examples Based on Rough Sets) LERS J. Grzymała-Busse, et al., Melanoma Prediction Using Data Mining System LERS, Proc. 25th Ann. International Conference Computer Software and Applications (COMPSAC). Chicago (Illinois, USA), IEEE Comp. Soc., Los Alamitos (California, USA) 2001, pp J. Grzymała-Busse, LERS – a Data Mining System, in Data Mining and Knowledge Discovery Handbook, 2005, VIII, , DOI: / X_65Data Mining and Knowledge Discovery Handbook

ZPT 4 Potrafi zdiagnozować pacjenta Potrafi zdiagnozować pacjenta Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Potrafi podjąć decyzję o przyznaniu kredytu klientowi banku Potrafi wykryć anomalie w sieci Potrafi wykryć anomalie w sieci Potrafi przeprowadzić sondaż Potrafi przeprowadzić sondaż Eksploracja danych…. Nazywa się również odkrywaniem wiedzy w bazach danych (ang. knowledge discovery in databases). Eksploracja danych Przez eksplorację danych rozumie się proces automatycznego odkrywania znaczących i dotychczas nieznanych informacji z dużych baz danych, czyli informacji ujawniających ukrytą wiedzę o badanym przedmiocie.

ZPT Pozyskiwanie wiedzy z baz danych Redukcji atrybutów Generacji reguł decyzyjnych i wielu innych procedurach… na abstrakcyjnym poziomie algorytmów polega na 5 Są to algorytmy przetwarzające ogromne bazy danych…

ZPT Komputerowe systemy eksploracji danych 6 Rough Set Toolkit for Analysis of Data: Biomedical Centre (BMC), Uppsala, Sweden. ROSETTA

ZPT WEKA, ROSE University of Waikato, Hamilton, New Zealand Preprocess - wczytanie i wstępne przetwarzanie danych, Classify-klasyfikacja danych, Cluster - klasteryzacja, inaczej analiza skupień, Associate - indukcja reguł asocjacyjnych, Select attributes selekcja cech znaczących, Visualize - wizualizacja danych.

ZPT 8 Znaczenie eksploracji danych abde Klasyfikacja (Decyzja) W tablicach takich obiekty reprezentowane w poszczególnych wierszach opisywane są wartościami atrybutów a, b, d. Jednocześnie obiekty są klasyfikowane, kolumna e. ObiektyObiekty Wiele rzeczywistych zjawisk opisuje się tablicami danych

ZPT 9 Tablice i reguły decyzyjne U1: (a,1) (b,0) (d,1) (e,1) U5: (a,1) (b,1) (d,2) (e,2) abde redukcja atrybutów redukcja (generacja) reguł decyzyjnych Tablice takie można również reprezentować za pomocą wyrażeń logicznych zwanych regułami decyzyjnymi:

ZPT 10 Generacja reguł Metoda uogólniania reguł decyzyjnych: Tworzy się macierz porównań M, Wyznacza minimalne pokrycie M, Atrybutami reguły minimalnej są atrybuty należące do minimalnego pokrycia M. Wyrażenia takie można upraszczać za pomocą metod stosowanych w syntezie logicznej. Np. metodą analogiczną do ekspansji można uogólniać (minimalizować) reguły decyzyjne.

ZPT 11 Przykład generacji reguł Uabcde Tablica decyzyjna abcde 10––1 0–––0 –1–10 –––22 Tablica reguł minimalnych

ZPT 12 Przykład: uogólniamy U 1 Uabcde Macierz M powstaje przez porównanie obiektów: (u 1, u 3 ), (u 1, u 4 ),..., (u 1, u 7 ). Wynikiem porównania są wiersze M. Dla takich samych wartości atrybutów odpowiedni m=0, dla różnych m= dcba M

ZPT 13 Przykład: uogólniamy U 1 Minimalne pokrycia są: {a,b} oraz {b,d}, dcba M a, b, c, d a, b, d b, d b a, d Wyznaczone na ich podstawie minimalne reguły: (a,1) & (b,0) (e,1) (b,0) & (d,1) (e,1) Uabcde Uabcde

ZPT 14 Przykład generacji reguł cd. Uabcde Po uogólnieniu obiektu u 1 u 2. u 2 można usunąć Uabcde

ZPT 15 Przykład generacji reguł c.d. Uabcde (a,0) (e,0) (b,1) & (d,1) (e,0) Dla obiektu u3Dla obiektu u4 Niestety po uogólnieniu ani u 3 nie pokrywa u 4, ani u 4 nie pokrywa u 3

ZPT 16 Przykład generacji reguł c.d. Uabcde (d,2) (e,2) Dla obiektu u5 u 6, u 7

ZPT 17 Reguły minimalne abcde 10––1 0–––0 –1–10 –––22 (a,1) & (b,0) (e,1) (a,0) (e,0) (b,1) & (d,1) (e,0) (d,2) (e,2) (a,1) & (b,0) (e,1) (a,0) (b,1) & (d,1) (e,0) (d,2) (e,2) w innym zapisie: Uogólnione reguły decyzyjne:

ZPT 18 Interpretacja reguł uogólnionych Uabcde Pierwotna tablica decyzyjna: zapisane są w niej dane zebrane do tej pory i już sklasyfikowane abcde 10––1 0–––0 –1–10 –––22 Takie metody stosuje się w przypadkach, gdy dysponuje się zbiorem obiektów, których przynależność do odpowiedniej klasy jest znana, a celem jest klasyfikacja nowych danych. a=1,b=1, c=1, d= 1 Na uogólnionych regułach jest to oczywiste! Ale pojawia się nowy zestaw danych Jaka decyzja? e = 0

ZPT 19 Przykładowa baza (tablica) danych Pacjenci Badanie 1 Badanie 2 Badanie 3 Badanie 4 Badanie 5 Badanie 6 Badanie 7 Badanie 8 Diagnoza P D3 P D3 P D3 P D1 P D2 P D3 P D3 Wyniki badań i diagnozy 7 pacjentów Wyniki badań i symptomy choroby zapisane są symbolicznymi wartościami atrybutów Reguły decyzyjne (Bad_1=1)&(Bad_2=1)…&(Bad_5=1)…&(Bad_8=0)=>(Diagnoza=D3)

ZPT 20 Pacjenci Badanie 1 Badanie 2 Badanie 3 Badanie 4 Badanie 5 Badanie 6 Badanie 7 Badanie 8 Diagnoza P D3 P D3 P D3 P D1 P D2 P D3 P D3 (Bad_2=1)&(Bad_4=1)=>(Diagnoza=D3) (Bad_4=1)&(Bad_7=0)=>(Diagnoza=D3) (Bad_1=0)&(Bad_3=1)&(Bad_6=0)=>(Diagnoza=D1) ( (Bad_3=1)&(Bad_5=0)&(Bad_6=0)=>(Diagnoza=D1) (Bad_2=0)=>(Diagnoza=D2) (Bad_1=0)&(Bad_4=1)&(Bad_6=0)&(Bad_8=0)=>(Diagnoza=D2) Reguły decyzyjne: Uogólnione reguły decyzyjne Reguły decyzyjne wygenerowane z pierwotnej bazy danych używane są do klasyfikowania nowych obiektów.

ZPT 21 Uogólnione reguły decyzyjne… (Bad_2=1)&(Bad_4=1)=>(Diagnoza=D3) (Bad_4=1)&(Bad_7=0)=>(Diagnoza=D3) (Bad_1=0)&(Bad_3=1)&(Bad_6=0)=>(Diagnoza=D1) (Bad_3=1)&(Bad_5=0)&(Bad_6=0)=>(Diagnoza=D1) (Bad_2=0)=>(Diagnoza=D2) (Bad_1=0)&(Bad_4=1)&(Bad_6=0)&(Bad_8=0)=>(Diagnoza=D2) …mogą być zastosowane do zdiagnozowania nowego pacjenta. Dla nowego pacjenta Diagnoza = D3 Bad1Bad2Bad3Bad4Bad5Bad6Bad7Bad8Diagnoza P D3 P D3 P D3 P D1 P D2 P D3 P D3 Nowy pacjent ???

ZPT 22 Redukcja atrybutów Bad1Bad2Bad3Bad4Bad5Bad6Bad7Bad8Diagnoza P D3 P D3 P D3 P D1 P D2 P D3 P D3 Bad1Bad6Bad7Bad8Diagnoza P11000D3 P20101D3 P31000D3 P40000D1 P50010D2 P60100D3 P70001D3 Poszukiwanie takich podzbiorów atrybutów, które zachowują podział obiektów na klasy decyzyjne taki sam, jak wszystkie atrybuty { Bad_1 Bad_4 Bad_6 Bad_8 } { Bad_1 Bad_6 Bad_7 Bad_8 } { Bad_1 Bad_3 Bad_6 } { Bad_1 Bad_2 Bad_6 Bad_8 }

ZPT 23 UC Irvine Machine Learning Repository Breast Cancer Database Audiology Database Dermatology Database Wymagania na przetwarzanie coraz większych baz danych rosną, natomiast metody i narzędzia eksploracji danych stają się coraz mniej skuteczne Rosnące wymagania

ZPT Breast Cancer Database: Instancje (obiekty): 699 (dane poszczególnych pacjentów) Liczba atrybutów: 10 Klasyfikacja (2 klasy) Sources: Dr. WIlliam H. Wolberg (physician); University of Wisconsin Hospital ;Madison; Wisconsin; USA 1.Ocena spoistości masy nowotworowej 2.Ocena jednolitości rozmiaru komórek 3.Ocena jednolitości kształtu komórek …. 9. Występowanie podziałów komórkowych (mitoza) 24 Diagnostyka raka piersi

ZPT Breast Cancer Database (fragment) IDa1a2a3a4a5a6a7a8a9a

ZPT RULE_SET breast_cancer RULES 35 (x9=1)&(x8=1)&(x2=1)&(x6=1)=>(x10=2) (x9=1)&(x2=1)&(x3=1)&(x6=1)=>(x10=2) (x9=1)&(x8=1)&(x4=1)&(x3=1)=>(x10=2) (x9=1)&(x4=1)&(x6=1)&(x5=2)=>(x10=2) ………………….. (x9=1)&(x6=10)&(x1=10)=>(x10=4) (x9=1)&(x6=10)&(x5=4)=>(x10=4) (x9=1)&(x6=10)&(x1=8)=>(x10=4) REDUCTS (27) { x1, x2, x3, x4, x6 } { x1, x2, x3, x5, x6 } { x2, x3, x4, x6, x7 } { x1, x3, x4, x6, x7 } { x1, x2, x4, x6, x7 } ……………. { x3, x4, x5, x6, x7, x8 } { x3, x4, x6, x7, x8, x9 } { x4, x5, x6, x7, x8, x9 }

ZPT 27 LERS Diagnostyka raka piersi (p8,1..1.5) & (p3,1..1.5) & (p4,1..1.5) -> (diagnoza.zdrowy) (p9,1..1.5) & (p6,1..1.5) & (p2, ) -> (diagnoza,zdrowy) (p7,1..2.5) & (p5, ) -> (diagnoza,zdrowy) (p5,1..2.5) & (p8,1..1.5) & (p2, ) -> (diagnoza,zdrowy) (p9,1..1.5) & (p8, ) & (p5, ) & (p1, ) -> (diagnoza,zdrowy) Reguły decyzyjne dla Breast Cancer Database (dla danych numerycznych) (p6, ) & (p8, ) & (p7, ) -> (diagnoza,rak) (p8, ) & (p4, ) -> (diagnoza,rak) (p6, ) & (p8, ) & (p3, ) -> (diagnoza,rak) (p9,1..1.5) & (p8, ) & (p1, ) -> (diagnoza,rak) (p6, ) & (p9, ) & (p8, ) -> (diagnoza,rak)

ZPT Audiology Database Number of instances: 200 training cases Number of attributes: 71 Classification (24 classes) Sources: (a) Original Owner: Professor Jergen at Baylor College of Medicine (b) Donor: Bruce Porter Dermatology Database Number of Instances: 366 Number of attributes: 34 Classification (6 classes) Source Information: Nilsel Ilter, M.D., Ph.D., Gazi University, School of Medicine Ankara, Turkey Phone: +90 (312) Inne bazy danych z zakresu medycyny 28

ZPT 29 UC Irvine Machine Learning Repository Breast Cancer Database Audiology Database Dermatology Database

ZPT 30 Porównanie Espresso i RSES RSES.i 7.o 1.type fr.p e ESPRESSO TABLE extlbis ATTRIBUTES 8 x1 numeric 0 x2 numeric 0 x3 numeric 0 x4 numeric 0 x5 numeric 0 x6 numeric 0 x7 numeric 0 x8 numeric 0 OBJECTS (x1=1)&(x5=1)&(x6=1)&(x2=1)=>(x8=0) (x1=1)&(x2=0)&(x5=1)&(x3=0)&(x4=0)&(x6=0)=>(x8=0) (x4=0)&(x1=1)&(x2=0)&(x7=0)=>(x8=1) (x2=1)&(x4=0)&(x5=1)&(x6=0)=>(x8=1)

ZPT 31 … co uzyskamy stosując RSES do realizacji sprzętu RSES ESPRESSO

ZPT Porównanie… Przykład sugeruje, że algorytmy stosowane w komputerowych systemach eksploracji danych nie są najskuteczniejsze. I być może warto je opracować na nowo korzystając z lepszych metod syntezy logicznej. Przykładem potwierdzającym tę tezę jest redukcja atrybutów, stosowana w RSES, ROSE, WEKA… 32

ZPT Inna metoda obliczania reduktów… Twierdzenie: Każdy wiersz i macierzy, stanowiącej uzupełnienie macierzy porównań M reprezentuje pokrycie kolumnowe M, gdzie j L wtedy i tylko wtedy, gdy Powyższe twierdzenie sprowadza proces obliczania reduktów do obliczania uzupełnienia jednorodnej funkcji boolowskiej. Procedura ta (nazwana UNATE_COMPLEMENT) została opracowana jako fragment procedury COMPLEMENT programu Espresso. Klasyczną metodę można znacznie usprawnić wykorzystując stosowaną w syntezie logicznej procedurę uzupełniania funkcji boolowskiej. 33 Nigdy nie była stosowana do obliczania reduktów

ZPT Przykład – metoda klasyczna (x 3 + x 4 ) x 1 x 2 x 4 x 3 x 4 x 1 x 2 x 1 x 4 (x 1 + x 2 + x 4 )(x 1 + x 2 ) (x 1 + x 4 ) = = x 1 x 3 + x 2 x 4 +x 1 x 4 To są wszystkie minimalne pokrycia kolumnowe macierzy M M: Pokrycie kolumnowe (przypomnienie) 34

ZPT x3x4x1x2x3x4x1x M: 35 Przykład – metoda uzupełniania x 1 x 3 + x 2 x 4 +x 1 x 4 To samo co poprzednio!

ZPT Metoda obliczania reduktów… 36 jest równoważna obliczaniu Complementu (Uzupełnienia) funkcji boolowskiej, reprezentowanej Tablicą porównań. Espresso

ZPT databaseattr.inst.RSES/ROSETTA compl. method reducts house172321s187ms4 breast-cancer -wisconsin s823ms27 KAZ223170min234ms5574 trains3310 out of memory (5h 38min) 6ms689 agaricus-lepiota -mushroom min4m 47s507 urology36500 out of memory (12h) 42s 741ms23437 audiology71200 out of memory (1h 17min) 14s 508ms37367 dermatology35366 out of memory (3h 27min) 3m 32s lung-cancer5732 out of memory (5h 20min) 111h 57m Eksperymenty Bezwzględna przewaga metody uzupełniania!

ZPT 38 Funkcja KAZ.type fr.i 21.o 1.p end Przed redukcją Jedno z wielu rozwiązań p o redukcji argumentów Ile jest takich rozwiązań Redukcja argumentów/atrybutów Po redukcji

ZPT 39 Funkcja KAZ.type fr.i 21.o 1.p end Wszystkich rozwiązań: z minimalną i najmniejszą liczbą argumentów jest 35, z minimalną liczbą argumentów jest: 5574 Czas obliczeń RSES = 70 min. Czas obliczeń dla nowej metody= 234 ms. 18 tysięcy razy szybciej!

ZPT 40 Wprowadzenie metody uzupełniania funkcji boolowskich do procedury obliczania reduktów zmniejsza czas obliczeń o rząd, a niekiedy o kilka rzędów wielkości Wniosek

ZPT Podsumowanie Metody syntezy logicznej wypracowane dla potrzeb projektowania układów cyfrowych są skuteczne również w eksploracji danych Dają rewelacyjne wyniki Są proste w implementacji Są źródłem ciekawych prac dyplomowych 41

ZPT Wnioski 42 Są źródłem ciekawych prac dyplomowych WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA pod auspicjami Polskiej Akademii Nauk WYDZIAŁ INFORMATYKI STUDIA I STOPNIA (INŻYNIERSKIE) PRACA DYPLOMOWA Piotr Decyk Implementacja algorytmu obliczania reduktów wielowartościowych funkcji logicznych

ZPT Prace dyplomowe 43 WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA pod auspicjami Polskiej Akademii Nauk Konrad Królikowski IMPLEMENTACJA ALGORYTMU OBLICZANIA REDUKTÓW METODĄ UZUPEŁNIANIA FUNKCJI BOOLOWSKICH Andrzej Kisiel UOGÓLNIANIE REGUŁ DECYZYJNYCH BINARNYCH TABLIC DANYCH METODĄ UZUPEŁNIANIA FUNKCJI BOOLOWSKICH

ZPT journal homepage: Hierarchical decision rules mining Qinrong Feng, Duoqian Miao, Yi Cheng Department of Computer Science and Technology, Tongji University, Shanghai , PR China Expert Systems with Applications 37 (2010) 2081– 2091 Prace dyplomowe…