Szymon Grabowski Katedra Informatyki Stosowanej Politechniki Łódzkiej

Slides:



Advertisements
Podobne prezentacje
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Advertisements

Metody losowania próby
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Algorytm Dijkstry (przykład)
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Perceptrony
Badania operacyjne. Wykład 1
Sztuczne sieci neuronowe
Metody wnioskowania na podstawie podprób
Sortowanie Zajęcia 13.
Szymon Grabowski Katedra Informatyki Stosowanej PŁ
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie obrazów
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Eksperymentalna ocena jakości rozpoznawania
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Klasyfikacja Sformułowanie problemu Metody klasyfikacji
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Mirosław ŚWIERCZ Politechnika Białostocka, Wydział Elektryczny
Sieci Hopfielda.
Sieci neuronowe jednokierunkowe wielowarstwowe
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych
Sztuczne Sieci Neuronowe
Konstrukcja, estymacja parametrów
Analiza współzależności cech statystycznych
Elementy Rachunku Prawdopodobieństwa i Statystyki
formalnie: Uczenie nienadzorowane
Wspomaganie decyzji nie zwalnia od decyzji...
Detekcja twarzy w obrazach cyfrowych
Techniki eksploracji danych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Systemy wspomagania decyzji
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Ekonometryczne modele nieliniowe
Jacek Wasilewski Politechnika Warszawska Instytut Elektroenergetyki
Seminarium licencjackie Beata Kapuścińska
Sieci neuronowe, falki jako przykłady metod analizy sygnałów
Ekonometryczne modele nieliniowe
Grafika i komunikacja człowieka z komputerem
Grafika i komunikacja człowieka z komputerem
JAKOŚĆ TECHNICZNA WĘGLA
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
SZTUCZNA INTELIGENCJA
Metody Inteligencji Obliczeniowej
Ważone indeksy w badaniu podmiotów ekonomii społecznej Marek Bożykowski
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
Grafika 2d - Podstawy. Kontakt Daniel Sadowski FTP: draver/GRK - wyklady.
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Z ŁOŻONE SYSTEMY KLASYFIKUJĄCE DLA DANYCH Z NIEZRÓWNOWAŻONYMI LICZEBNIE KLASAMI DECYZYJNYMI Autor: inż. Tomasz Maciejewski Promotor: dr hab. inż. Jerzy.
Wizualizacja algorytmu grupowania k-średnich Maciej Łakomy Promotor: Dr hab. prof. WWSI Michał Grabowski.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Systemy neuronowo – rozmyte
Topologie fizyczne i logiczne sieci
Perceptrony o dużym marginesie błędu
Co do tej pory robiliśmy:
Perceptrony o dużym marginesie błędu
MNK – podejście algebraiczne
Inteligencja Obliczeniowa Perceptrony
Zapis prezentacji:

Szymon Grabowski Katedra Informatyki Stosowanej Politechniki Łódzkiej Rozpoznawanie Obrazów Prezentacja do laboratorium z przedmiotu Rozpoznawanie Obrazów; Informatyka, studia dzienne i zaoczne Szymon Grabowski Katedra Informatyki Stosowanej Politechniki Łódzkiej Łódź, 2003

Podstawowe zagadnienia rozpoznawania obrazów: klasyfikacja – ustalanie dyskretnych etykiet klas rozpoznawanych obiektów; regresja – ustalanie etykiet klas rozpoznawanych obiektów w dziedzinie ciągłej. Przy klasyfikacji zakładamy brak relacji porządku dla zbioru etykiet klas. Sz.Grabowski, Rozpoznawanie Obrazów

Sz.Grabowski, Rozpoznawanie Obrazów Rozróżniamy między klasyfikacją nadzorowaną (supervised classification) i nienadzorowaną (unsupervised classification). Klasyfikacja nadzorowana: etykiety klas nieznanych obiektów odgaduje się na podstawie zbioru obiektów o znanych etykietach; tj. zbioru uczącego (training set, learning set). Klasyfikacja nienadzorowana: zbiór uczący nie jest dany. Zadanie: rozdzielenie zbioru obiektów na dwa lub więcej podzbiorów; obiekty w obrębie pojedynczego podzbioru powinny być możliwie podobne (w przestrzeni zadanych cech i w sensie określonej metryki lub miary podobieństwa). Sz.Grabowski, Rozpoznawanie Obrazów

Zastosowania: Klasyfikacja nienadzorowana: segmentacja obiektów w obrazach 2- i 3-wymiarowych; kategoryzacja dokumentów tekstowych, np. na potrzeby wyszukiwarek sieciowych; automatyczne grupowanie słów o wspólnym rdzeniu. Klasyfikacja nadzorowana: wspomaganie diagnostyki medycznej; kontrola jakości artykułów przemysłowych; detekcja obiektów na zdjęciach satelitarnych i lotniczych (remote sensing); rozpoznawanie pisma maszynowego i ręcznego (Optical Character Recognition, OCR). Sz.Grabowski, Rozpoznawanie Obrazów

Przykładowe zadania rozpoznawania Przykład z prezentacji (Cunningham, 2001). 2 klasy (jabłka i gruszki), 10 obiektów w zbiorze uczącym, 6 cech (5 liczbowych, jedna symboliczna). Potrzebna reguła decyzyjna ustalająca klasę obiektu w wierszu na dole. Sz.Grabowski, Rozpoznawanie Obrazów

Zjawisko przeuczenia: małe błędy na zbiorze uczącym NIE przekładają się na porównywalnie małe błędy na zbiorze testowym (inaczej: słaba generalizacja). Rys. z pracy (Jain i in., 2000). Rozbieżność między błędem estymowanym w czasie uczenia sieci neuronowej a błędem na zbiorze testowym. Sz.Grabowski, Rozpoznawanie Obrazów

Podstawowe rodziny klasyfikatorów Sieci neuronowe (neural networks) Zalety: – zwykle duża szybkość klasyfikacji; – elastyczność (duża przestrzeń rozpatrywanych modeli); – stosunkowo duża odporność na zbędne cechy. Wady: – powolne uczenie; – kryterium średniego błędu kwadratowego (w pełni adekwatne tylko w niektórych problemach); – znaczące niebezpieczeństwo przeuczenia. Sz.Grabowski, Rozpoznawanie Obrazów

Podstawowe rodziny klasyfikatorów, c.d. Drzewa decyzyjne (decision trees) Zalety: – często duża szybkość klasyfikacji; – prostota ogólnej koncepcji; – niewrażliwość na skalowanie cech; – względna odporność na zbędne cechy. Wady: – trudność w aproksymacji prostych, lecz nierównolegle do osi ułożonych granic decyzyjnych; – niestabilność (małe zmiany na wejściu powodują duże zmiany w strukturze drzewa); – problematyczna obsługa brakujących wartości cech. Sz.Grabowski, Rozpoznawanie Obrazów

Podstawowe rodziny klasyfikatorów, c.d. Klasyfikatory minimalnoodległościowe (nearest neighbor classifiers) Zalety (oryginalnej reguły k-NN): – asymptotyczna optymalność; – wysoka jakość klasyfikacji w praktyce; – prostota, podatność na liczne modyfikacje. Wady (oryginalnej reguły k-NN): – wolna klasyfikacja; – wrażliwość na zbędne cechy; – mała przestrzeń rozpatrywanych modeli. Klasyfikacja próbki q regułą 3-NN Sz.Grabowski, Rozpoznawanie Obrazów

Podstawowe kryteria oceny klasyfikatorów: jakość klasyfikacji; szybkość klasyfikacji; szybkość uczenia; zrozumiałość wygenerowanego modelu dla człowieka. Podstawowe zagadnienia badawcze: konstrukcja możliwie dokładnych klasyfikatorów; redukcja zbioru odniesienia; selekcja cech; topologia i dobór komponentów w klasyfikatorach o strukturze sieciowej; dobór metryki. Sz.Grabowski, Rozpoznawanie Obrazów

Sz.Grabowski, Rozpoznawanie Obrazów Jak mierzyć jakość klasyfikacji? 1. Metoda resubstytucji (resubstitution method) — cały dany zbiór jest używany zarówno do uczenia, jak i do testowania. Wada: zawyżone (zbyt optymistyczne) wyniki. 2. Metoda wydzielania (holdout method) — losowa połowa zbioru służy do konstrukcji klasyfikatora, a druga połowa do jego testowania. Wada: pesymistyczna estymacja jakości klasyfikatora. 3. Metoda minus jednego elementu (ang. leave-one-out method) — klasyfikator generowany jest n–1 razy, tj. dla każdego (n–1)-elementowego podzbioru pełnego zbioru, podczas gdy zbiorem testowym dla każdego wygenerowanego klasyfikatora jest tylko jedna pozostała próbka. Estymacja błędu jest w tej metodzie nieobciążona (tj. sprawiedliwa), ale wariancja błędu jest znaczna; ponadto nie jest łatwo osiągnąć satysfakcjonującą szybkość działania tej metody. Sz.Grabowski, Rozpoznawanie Obrazów

Sz.Grabowski, Rozpoznawanie Obrazów Jak mierzyć jakość klasyfikacji (c.d.)? 4. Metoda k-krotnej walidacji skrośnej (ang. k-fold cross validation) — kompromis pomiędzy metodą wydzielania a metodą minus jednego elementu: dostępny zbiór dzielony jest losowo na k równych podzbiorów, a następnie każda z k części jest po kolei zbiorem testowym, zaś pozostałe k–1 części zbiorem uczącym. Błąd estymacji tej metody jest stosunkowo niski (generalnie tym niższy, im większe k), wariancja błędu jest niższa niż przy metodzie minus jednego elementu, zaś koszt czasowy realizacji dla praktycznych wartości k=5..10 – umiarkowany. Metoda ta jest obecnie najczęściej stosowana w praktyce. Sz.Grabowski, Rozpoznawanie Obrazów

Dwie odmienne techniki przyspieszania klasyfikacji: Klasyfikatory minimalnoodległościowe („najbliższy sąsiad/sąsiedzi”): wysoka jakość klasyfikacji, ale mała szybkość. Dwie odmienne techniki przyspieszania klasyfikacji: struktury danych do szybkiego szukania najbliższych sąsiadów; redukcja zbioru odniesienia. Sz.Grabowski, Rozpoznawanie Obrazów

Reguła k-NN, podstawowy klasyfikator minimalnoodległościowy Uczenie: policz frakcję błędów errk przy k=1, 2, ..., n–1 najbliższych sąsiadach każdej próbki ze zbioru uczącego; remisy w głosowaniu rozstrzygaj arbitralnie; zwróć k minimalizujące opisany błąd. Klasyfikacja — analogiczna; k najbliższych sąsiadów próbki testowej szukanych jest w zbiorze uczącym. Dwie możliwe implementacje fazy klasyfikacji: „naiwna”, z przechowywaniem aktualnej listy k najbliższych sąsiadów (kosztowny najgorszy przypadek, ale szybka w praktyce), oraz optymalizująca najgorszy przypadek poprzez posortowanie (wystarcza częściowe) zbioru uczącego względem odległości do bieżącej próbki testowej. Sz.Grabowski, Rozpoznawanie Obrazów

Koncepcja symetrycznego sąsiedztwa: bliskość sąsiadów; układ geometryczny sąsiadów w przestrzeni („wokół” próbki testowej). Reguła k-NN ignoruje aspekt położenia sąsiadów w przestrzeni. Praktyczne definicje symetrycznego sąsiedztwa: Chaudhuri, 1996; Zhang i in., 1997. Sz.Grabowski, Rozpoznawanie Obrazów

Sz.Grabowski, Rozpoznawanie Obrazów Reguła k scentrowanych sąsiadów (k Nearest Centroid Neighbors, k-NCN) — Sánchez i in., 1997; koncepcja NCN: Chaudhuri, 1996 Reguła k-NCN, k=3 Sz.Grabowski, Rozpoznawanie Obrazów

Porównanie klasyfikatorów minimalnoodległościowych Sz.Grabowski, Rozpoznawanie Obrazów

Redukcja zbioru odniesienia: większa szybkość klasyfikacji (zwykle regułą 1-NN), porównywalna lub nieco niższa jakość Przykład dwuklasowy: czerwone obiekty wchodzą do zbioru zredukowanego Sz.Grabowski, Rozpoznawanie Obrazów

Kryteria oceny algorytmów redukcji: Szybkość klasyfikacji Pamięć dla klasyfikatora (tj. dla zbioru zredukowanego) Jakość klasyfikacji (ogólna) Jakość klasyfikacji w obecności szumu Szybkość uczenia (generacji zbioru zredukowanego) Pamięć potrzebna do uczenia Zdolność szybkiej modyfikacji zbioru zredukowanego w przypadku dynamicznym Sz.Grabowski, Rozpoznawanie Obrazów

Algorytm redukcji Tomeka Do zbioru zredukowanego wchodzą obiekty: 1, 7, 5, 8 Zaleta alg. Tomeka: wysoka jakość indukowanego klasyfikatora; wada: niski stopień redukcji. Sz.Grabowski, Rozpoznawanie Obrazów

Sz.Grabowski, Rozpoznawanie Obrazów Algorytm redukcji Skalaka (1994) — własności: probablistyczny (procedura klasy random mutation hill climbing); wielkość zbioru zredukowanego zadawana przez użytkownika; brak gwarancji zgodności zbioru zredukowanego ze zb. oryginalnym. Skalak(h, m): wybierz losowo bez zwracania h próbek ze zbioru odniesienia (uczącego) S; tworzą one aktualny zbiór zredukowany R; wyznacz jakość reguły 1-NN ze zbiorem R na próbkach zbioru S; wykonaj m prób mutacji: pojedyncza mutacja polega na wylosowaniu jednej próbki z R oraz jednej próbki z S\R; jeśli zamiana tych próbek poprawia estymowaną (na S) jakość klasyfikacji, to ją zaakceptuj. Sz.Grabowski, Rozpoznawanie Obrazów