Wydział Informatyki i Nauki o Materiałach PIOTR PORWIK Uniwersytet Śląski Instytut INFORMATYKI Wydział Informatyki i Nauki o Materiałach Klasyfikatory zespołowe z wyborem kompetencji w rozpoznawaniu obiektów Dear Organizers. Let me thank for invitation. It is my honour to be participant of this conference and take part in this meeting. Thank a lot
AGENDA Problemy klasyfikacji danych. Uczenie klasyfikatora. Klasyfikacja (jedno i wieloklasowa). Typy klasyfikatorów (pojedyncze i zespołowe). Kompetencje klasyfikatorów. Przykład porównawczy.
Instytut Informatyki http://ii.us.edu.pl
Jak wybrać klasyfikator w uczeniu maszyn? Jak duży jest zbiór danych treningowych? Jak trenować wybrany klasyfikator? Zalety algorytmów dedykowanych. Jaki algorytm uczenia maszynowego powinien zostać wybrany dla określonego problemu klasyfikacji? NIE MA UNIWERSALNYCH KLASYFIKATORÓW! Model klasyfikatora musi by indywidualnie dobrany w zależności od problemu klasyfikacji.
Najprostsze zadanie klasyfikacji CEL: Znaleźć regułę klasyfikacji przez określenie do jakiej klasy przypisać obiekt o zarejestrowanej cesze Powyżej above Poniżej below, under
Przykład bardziej skomplikowany Separacja liniowa obiektów nie jest możliwa
Problem danych wejściowych Dane są przeważnie niekompletne (np. zbiory danych medycznych). Dane mogą być niezrównoważone (więcej pacjentów z lżejszym przebiegiem choroby niż przypadków terminalnych). Dane mogą się nakładać (overlap data) Pułapki statystyczne. Musimy uważać na we have to watch over statistical traps
Brakujące dane Brakujące dane zmniejszają jakość klasyfikacji. Komplikacje w analizie danych. Różnice klasyfikacji dla zbiorów kompletnych i zdegradowanych.
Dane niezrównoważone Dla takich danych (rysunek) klasyfikator będzie zawsze promował klasę większościową
Nakładające się dane (Overlapping data) Rzutowanie projection Ciemny dark Jasny bright
Płapki statystyczne (Francis Anscomb’s*) quartet) Różne prezentacje graficzne ale te same parametry statystyczne zmiennej x Średnia =9 Wariancja=11 zmiennej y Średna=7.50 Wariancja=4,125 Równanie regresji linowej y=3+0.5x *) Anscombe, F. J. (1973). "Graphs in Statistical Analysis". American Statistician. 27 (1): 17–21.
Klasyfikacja jednoklasowa (1) Znamy tylko obiekty jednej klasy. Nie znamy kontrprzykładów Wszystkie obiekty z poza klasy są odrzucane.
Jednoklasowa klasyfikacja (2)
Klasyfikacja dwuklasowa (binarna) Znamy kontrprzykłady One-vs-rest: {a} vs {not a} {b} vs {not b}
Klasyfikacja wieloklasowa Ta technika może być zredukowana do klasyfikacji binarnej: The one-vs.-rest (OvR) The one-vs-all ( OvA) The one-against-all (OAA) Wiele algorytmów tego typu było rozwijanych na bazie sieci neuronowych, drzew decyzyjnych, klasyfikatorów k-NN, naiwnego klasyfikatora Bayesa, maszyn wektorów nośnych. Te techniki należą do algorytmów adaptacyjnych. different names of the same technique
Zespoły klasyfikatorów Zespół składa się z pojedynczych heterogenicznych lub homogenicznych klasyfikatorów. Zalety: Można użyć różnych podzbiorów treningowych dla różnych klasyfikatorów pojedynczych. Można użyć różnych metod uczenia klasyfikatora Głosowanie na podstawie funkcji wsparcia pojedynczych klasyfikatorów
Zespół klasyfikatorów (2) Reguła decyzyjna: M klasyfikatorów i ich funkcji wsparcia
Zespół klasyfikatorów (3) Zalety: Każdy indywidualny klasyfikator w zespole jest uczony indywidualne na podstawie różnych przykładów. Każdy klasyfikator w zespole może być uczony na podstawie różnych podzbiorów cech rozpoznawanego obiektu. W zespole klasyfikatorów mogą kooperować takie same lub róże klasyfikatory bazowe. Nie ma ograniczeń co do liczby klasyfikatorów w zespole, chociaż za duża ich liczba może zmniejszyć kompetencję klasyfikatorów składowych. Classier ensemble can works in parallel and distributed computer architecture and final decision is formed as combination of the networked decision. Mentioned strategy reduce computation time, especially for big data and in classifier's learning mode when model is not yet known. Machine learning strategies are often heuristic search algorithms with predefined evaluation functions. It means that these algorithms could work with different initial points. For each initial point it can be considered as a multi local search which should increases likelihood of optimal solution achievement.
Jakość klasyfikacji Określenie jakości klasyfikatora ze zbiorem treningowym jest możliwa do określenia wyłącznie na podstawie eksperymentów. gdzie: - Zbiór treningowy - Zbiór testowy, oraz
Testowanie jakości klasyfikatora The two sets: Training dataset Validation dataset re-substitution method, holdout method, leave-one-out-method, cross-validation method, rotation method, bootstrap method, smoothing method,
Jak dobierać klasyfikatory w zespole (komitecie)? (1) Komitet klasyfikatorów osiąga wysoki współczynnik rozpoznawania obiektów, kiedy każdy z klasyfikatorów składowych popełnia mało błędów , a każdy z niech ma róże zakresy kompetencji
Jak dobierać klasyfikatory w zespole (komitecie)? (2) Jeśli klasyfikatory składowe popełniają mało błędów, ale nie są zróżnicowane – nic nie wnoszą do komitetu.
Jak dobierać klasyfikatory w zespole (komitecie)? (3) Jeśli klasyfikatory składowe są różne ale mają słabe kompetencje obniżają jakośś klasyfikacji zespołu
Przykłady z biometrii i medycyny Dynamiczna weryfikacja podpisów1,2) Rozpoznawanie osób na podstawie analizy tywarzy3) System medyczny – stopnie włóknienia wątroby4) 1) Porwik P. ,Doroz R. ,Orczyk T.The k-NN classifier and self-adaptive Hotelling data reduction technique in handwritten signatures recognition. Pattern Analysis and Applications. Volume 18(4), 2015, pp. 983-1001. 2) Doroz R., Porwik P., Orczyk T. Dynamic signature verification method based on association of features with similarity measures. Neurocomputing. Vol. 171, pp. 921-931, 2016 3) Wrobel K., Doroz R., Porwik P., Naruniec J., Kowalski M., Using a Probabilistic Neural Network for lip-based biometric verification. Engineering Applications of Artificial Intelligence. Vol. 64, pp. 112-127, 2017. 4) Porwik P., Orczyk T., Lewandowski M., Cholewa M., Feature projection k-NN classifier model for imbalanced and incomplete medical data. Biocybernetics and Biomedical Engineering. Vol. 36(4), pp. 644-656, 2016
Wykorzystanie kompetencji klasyfikatorów
Wykorzystanie kompetencji klasyfikatorów
Wykorzystanie kompetencji klasyfikatorów. Przykład
Dziękuję !
Signature recognition
Signature recognition
Signature recognition match
Hotelling’s data reduction
Results (1)
Results (2)
Lip-based recognition (1)
Lip-based recognition (2) Dopasowac to fitted, matched
Lip-based recognition (3) Beard, moustache
Lip-based recognition (4)
Results
Recognition of liver disease stages (1) Medical data are mostly complicated and noised: are incomplete, are imbalanced, measurements are often not normalized/ in different scales because of different techniques and standards of data analysis in medical laboratories.
Recognition of liver disease stages (2) Measured medical patient’s parameters
Liver data classification K classes M objects N features f
Data visualization
Liver fibrosis recognition. Results SFA single feature accuracy SFCS single feature class separation