Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Wydział Informatyki i Nauki o Materiałach
PIOTR PORWIK Uniwersytet Śląski Instytut INFORMATYKI Wydział Informatyki i Nauki o Materiałach Klasyfikatory zespołowe z wyborem kompetencji w rozpoznawaniu obiektów Dear Organizers. Let me thank for invitation. It is my honour to be participant of this conference and take part in this meeting. Thank a lot
2
AGENDA Problemy klasyfikacji danych. Uczenie klasyfikatora. Klasyfikacja (jedno i wieloklasowa). Typy klasyfikatorów (pojedyncze i zespołowe). Kompetencje klasyfikatorów. Przykład porównawczy.
3
Instytut Informatyki
4
Jak wybrać klasyfikator w uczeniu maszyn?
Jak duży jest zbiór danych treningowych? Jak trenować wybrany klasyfikator? Zalety algorytmów dedykowanych. Jaki algorytm uczenia maszynowego powinien zostać wybrany dla określonego problemu klasyfikacji? NIE MA UNIWERSALNYCH KLASYFIKATORÓW! Model klasyfikatora musi by indywidualnie dobrany w zależności od problemu klasyfikacji.
5
Najprostsze zadanie klasyfikacji
CEL: Znaleźć regułę klasyfikacji przez określenie do jakiej klasy przypisać obiekt o zarejestrowanej cesze Powyżej above Poniżej below, under
6
Przykład bardziej skomplikowany
Separacja liniowa obiektów nie jest możliwa
7
Problem danych wejściowych
Dane są przeważnie niekompletne (np. zbiory danych medycznych). Dane mogą być niezrównoważone (więcej pacjentów z lżejszym przebiegiem choroby niż przypadków terminalnych). Dane mogą się nakładać (overlap data) Pułapki statystyczne. Musimy uważać na we have to watch over statistical traps
8
Brakujące dane Brakujące dane zmniejszają jakość klasyfikacji.
Komplikacje w analizie danych. Różnice klasyfikacji dla zbiorów kompletnych i zdegradowanych.
9
Dane niezrównoważone Dla takich danych (rysunek) klasyfikator
będzie zawsze promował klasę większościową
10
Nakładające się dane (Overlapping data)
Rzutowanie projection Ciemny dark Jasny bright
11
Płapki statystyczne (Francis Anscomb’s*) quartet)
Różne prezentacje graficzne ale te same parametry statystyczne zmiennej x Średnia =9 Wariancja=11 zmiennej y Średna=7.50 Wariancja=4,125 Równanie regresji linowej y=3+0.5x *) Anscombe, F. J. (1973). "Graphs in Statistical Analysis". American Statistician. 27 (1): 17–21.
12
Klasyfikacja jednoklasowa (1)
Znamy tylko obiekty jednej klasy. Nie znamy kontrprzykładów Wszystkie obiekty z poza klasy są odrzucane.
13
Jednoklasowa klasyfikacja (2)
14
Klasyfikacja dwuklasowa (binarna)
Znamy kontrprzykłady One-vs-rest: {a} vs {not a} {b} vs {not b}
15
Klasyfikacja wieloklasowa
Ta technika może być zredukowana do klasyfikacji binarnej: The one-vs.-rest (OvR) The one-vs-all ( OvA) The one-against-all (OAA) Wiele algorytmów tego typu było rozwijanych na bazie sieci neuronowych, drzew decyzyjnych, klasyfikatorów k-NN, naiwnego klasyfikatora Bayesa, maszyn wektorów nośnych. Te techniki należą do algorytmów adaptacyjnych. different names of the same technique
16
Zespoły klasyfikatorów
Zespół składa się z pojedynczych heterogenicznych lub homogenicznych klasyfikatorów. Zalety: Można użyć różnych podzbiorów treningowych dla różnych klasyfikatorów pojedynczych. Można użyć różnych metod uczenia klasyfikatora Głosowanie na podstawie funkcji wsparcia pojedynczych klasyfikatorów
17
Zespół klasyfikatorów (2)
Reguła decyzyjna: M klasyfikatorów i ich funkcji wsparcia
18
Zespół klasyfikatorów (3)
Zalety: Każdy indywidualny klasyfikator w zespole jest uczony indywidualne na podstawie różnych przykładów. Każdy klasyfikator w zespole może być uczony na podstawie różnych podzbiorów cech rozpoznawanego obiektu. W zespole klasyfikatorów mogą kooperować takie same lub róże klasyfikatory bazowe. Nie ma ograniczeń co do liczby klasyfikatorów w zespole, chociaż za duża ich liczba może zmniejszyć kompetencję klasyfikatorów składowych. Classier ensemble can works in parallel and distributed computer architecture and final decision is formed as combination of the networked decision. Mentioned strategy reduce computation time, especially for big data and in classifier's learning mode when model is not yet known. Machine learning strategies are often heuristic search algorithms with predefined evaluation functions. It means that these algorithms could work with different initial points. For each initial point it can be considered as a multi local search which should increases likelihood of optimal solution achievement.
19
Jakość klasyfikacji Określenie jakości klasyfikatora ze zbiorem treningowym jest możliwa do określenia wyłącznie na podstawie eksperymentów. gdzie: - Zbiór treningowy - Zbiór testowy, oraz
20
Testowanie jakości klasyfikatora
The two sets: Training dataset Validation dataset re-substitution method, holdout method, leave-one-out-method, cross-validation method, rotation method, bootstrap method, smoothing method,
21
Jak dobierać klasyfikatory w zespole (komitecie)? (1)
Komitet klasyfikatorów osiąga wysoki współczynnik rozpoznawania obiektów, kiedy każdy z klasyfikatorów składowych popełnia mało błędów , a każdy z niech ma róże zakresy kompetencji
22
Jak dobierać klasyfikatory w zespole (komitecie)? (2)
Jeśli klasyfikatory składowe popełniają mało błędów, ale nie są zróżnicowane – nic nie wnoszą do komitetu.
23
Jak dobierać klasyfikatory w zespole (komitecie)? (3)
Jeśli klasyfikatory składowe są różne ale mają słabe kompetencje obniżają jakośś klasyfikacji zespołu
24
Przykłady z biometrii i medycyny
Dynamiczna weryfikacja podpisów1,2) Rozpoznawanie osób na podstawie analizy tywarzy3) System medyczny – stopnie włóknienia wątroby4) 1) Porwik P. ,Doroz R. ,Orczyk T.The k-NN classifier and self-adaptive Hotelling data reduction technique in handwritten signatures recognition. Pattern Analysis and Applications. Volume 18(4), 2015, pp 2) Doroz R., Porwik P., Orczyk T. Dynamic signature verification method based on association of features with similarity measures. Neurocomputing. Vol. 171, pp , 2016 3) Wrobel K., Doroz R., Porwik P., Naruniec J., Kowalski M., Using a Probabilistic Neural Network for lip-based biometric verification. Engineering Applications of Artificial Intelligence. Vol. 64, pp , 2017. 4) Porwik P., Orczyk T., Lewandowski M., Cholewa M., Feature projection k-NN classifier model for imbalanced and incomplete medical data. Biocybernetics and Biomedical Engineering. Vol. 36(4), pp , 2016
25
Wykorzystanie kompetencji klasyfikatorów
26
Wykorzystanie kompetencji klasyfikatorów
27
Wykorzystanie kompetencji klasyfikatorów. Przykład
28
Dziękuję !
29
Signature recognition
30
Signature recognition
31
Signature recognition
match
32
Hotelling’s data reduction
33
Results (1)
34
Results (2)
35
Lip-based recognition (1)
36
Lip-based recognition (2)
Dopasowac to fitted, matched
37
Lip-based recognition (3)
Beard, moustache
38
Lip-based recognition (4)
39
Results
40
Recognition of liver disease stages (1)
Medical data are mostly complicated and noised: are incomplete, are imbalanced, measurements are often not normalized/ in different scales because of different techniques and standards of data analysis in medical laboratories.
41
Recognition of liver disease stages (2)
Measured medical patient’s parameters
42
Liver data classification
K classes M objects N features f
43
Data visualization
44
Liver fibrosis recognition. Results
SFA single feature accuracy SFCS single feature class separation
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.