Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców. Wykład 26 Włodzisław Duch Uniwersytet Mikołaja Kopernika.

Podobne prezentacje


Prezentacja na temat: "Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców. Wykład 26 Włodzisław Duch Uniwersytet Mikołaja Kopernika."— Zapis prezentacji:

1 Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców. Wykład 26 Włodzisław Duch Uniwersytet Mikołaja Kopernika

2 Co było Odkrywanie wiedzy metodami neuronowymi Stosowanie reguł Drzewa decyzji Metody indukcyjne

3 Co będzie Metody oparte na podobieństwie k-nn - metoda najbliższych sąsiadów Ogólna teoria metod opartych na podobieństwie

4 Co to jest Poszukaj najbardziej podobnych przypadków i przypisz nieznany przypadek do tej samej grupy. W sztucznej inteligencji mamy: " Memory-Based Methods (MBM), " Instance-Based Methods (IBM), " Case-Based Methods (CBM), " Case-Based Reasoning (CBR), " Memory-Based Reasoning (MBR), " Similarity-Based Reasoning (SBR). Wszystkie te nazwy odnoszą się do metod wykorzystujących podobieństwo; inspiracje z pattern recognition - teorii rozpoznawania struktur.

5 SBL ogólnie Mając dany zbiór referencyjny wektorów i ich klas: {X (k), C k = C(X (k) )} należy określić klasę wektora X lub p(C i |X; M) p(C i |X; M) prawdopodobieństwo klasyfikacji, d(X, X (k) ) miara podobieństwa (miara odległości) M = parametry i procedury modelu (metric function etc). Uczenie leniwe (lazy learning) i pracowite Metody oparte na podobieństwie obejmują wszystkie metody generujące prototypy, np. kNN, RBF, LVQ, SOM,... Metody oparte na funkcjach dyskryminujących można również zaliczyć do tej klasy.

6 k-NN Metoda k najbliższych sąsiadów Mając {X (k), C k = C(X (k) )} określ p(C i |X; M) 1. Przygotuj dane: średnia zero, standaryzacja wariancji 2. Zdefinuj funkcję odległości, np. Euklidesową lub Manhattan 3. Klasyfikuj (nie ma uczenia!) Dla 1-NN znajdź w zbiorze referencyjnym min k d(X, R (k) ), przyjmij p(C i |X; M) = 1 dla C i = C(R (k) ) Dla k-NN: wybierz k (uczenie), min. l. błedów w L-1-O na zb. treningowym znajdź k najbliższych sąsiadów; Jeśli k i wektorów z klasy C i to p(C i |X; M) = k i /k

7 Subtelności k-NN Prosta ale... Standaryzacja może pogarszać zamiast polepszać. Problem impasów: dla danych dyskretnych i parzystego k może być kilka wektorów referencyjnych w tej samej odległości: 1.Używaj nieparzystego k 2.Zwiększ k aż impas zostanie przełamany 3.Zmiejsz k 4.Przyjmij klasę a priori bardziej prawdopodobną 5.Odrzuć impasy jako niemożliwe do klasyfikacji 6.Przełam impas w przypadkowy sposób 7.Obliczaj prawdopodobieństwa zamiast przewidywania klas Sieć Hamminga - realizacja sieciowa.

8 Zalety k-NN Liczne zalety 1)Liczba klas nie jest ograniczona. 2)Łatwo jest dodać interpolację liniową, pozwalającą na lokalne uśrednienie wartości i zastosowania do aproksymacji. 3)Klasyfikator lub pamięć heteroasocjacyjna: dowolne cechy pozwalają na przewidywania pozostałych (opt. k i inne parametry mogą być różne). 4)Stabilność: NN, DT, systemy regułowe to systemy niestabilne przy perturbacji zbioru uczącego, knn jest metodą stabilną. 5)P-reguły są bardziej ogólne od C i F-reguł (?) 6)Bardzo proste metody, należy ich zawsze używać najpierw. 7)Nie ma uczenia; nie ma parametrów do manipulacji 8)Łatwo zrobić test bez jednego (leave-one-out) 9)Często daje b. dobre wyniki (zwłaszcza dla obrazów)

9 Wady k-NN... i parę wad 1)Potrzeba wiele przykładów treningowych by uzyskać dobre wyniki. 2)Trzyma się wszystkie dane treningowe, konieczna duża pamięć. 3)Obliczanie odległości wymaga O(n 2 ) operacji, potrzebna duża pamięć. 4)Może być powolne na etapie klasyfikacji. 5)Brak selekcji cech może powodować trudności w interpretacji i mylne wyniki. Regiony decyzyjne: wypukłe wielościany. Błąd dla k i dla liczby wektorów referencyjnych osiąga optymalne wartości statystyczne (Bayesowskie). W praktyce twierdzenia asymptotyczne nie mają zastosowania.

10 Ogólna teoria Jak można sparametryzować wyrażenia na prawd. klasyfikacji? Model M zawiera: ·k to liczba uwzględnianych wektorów ref. w otoczeniu wektora X; ·d(×; r) f. odległości (podobieństwa), r = maks. promień sfery i pozostałe parametry adaptacyjne. ·G(d(X, R p )), f. ważąca wpływ wektorów R p na p-stwo klasyfikacji; ·{R p } to zbiór wektorów ref. utworzonym ze zbioru treningowego {X p }; ·E[×] jest f. kosztu minimalizowaną podczas uczenia; ·K[×] jest f. skalującą wpływ błędu dla danego prototypu z bazy treningowej na f. kosztu. Liczne procedury: selekcja cech/prototypów, wartości brakujące, minimalizacja, realizacja sieciowa, komitety...

11 Przykłady metod Wiele znanych metod to szczególne przypadki SBM kNN Uogólnione kNN - ważenie f. odległości r-NN LVQ Klasyfikatory Gaussowskie Sieci RBF Sieci MLP - po odpowiednim uogólnieniu na D-MLP Nowe modele: szukanie w przestrzeni modeli Wykład Karola - szczegóły

12 Koniec wykładu 26 Dobra - jeszcze nie noc !


Pobierz ppt "Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców. Wykład 26 Włodzisław Duch Uniwersytet Mikołaja Kopernika."

Podobne prezentacje


Reklamy Google