Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Inteligencja Obliczeniowa Metody probabilistyczne. Wykład 27 Włodzisław Duch Uniwersytet Mikołaja Kopernika.

Podobne prezentacje


Prezentacja na temat: "Inteligencja Obliczeniowa Metody probabilistyczne. Wykład 27 Włodzisław Duch Uniwersytet Mikołaja Kopernika."— Zapis prezentacji:

1 Inteligencja Obliczeniowa Metody probabilistyczne. Wykład 27 Włodzisław Duch Uniwersytet Mikołaja Kopernika

2 Co było Odkrywanie wiedzy metodami neuronowymi Stosowanie reguł Drzewa decyzji

3 Co będzie Modele probabilistyczne Klasyfikator Bayesowski Statystyczna teoria decyzji Przykład z rozkładem normalnym

4 Podstawy probabilistyczne Wektory X X należące do K klas 1... K. P k = P( k ), prawd. a priori (bezwarunkowe) wystąpienia X z klasy k. Jeśli brakuje innych danych o obiekcie to należy stosować klasyfikator większościowy, czyli: Zwykle znane są również prawd. warunkowe: P k (X) = P(X|C= k ) = P(X| k ), rozkład wektorów w klasie k Prawd. łączne: P(X, k ) = P(X| k ) P( k ) Prawd. a posteriori: P( k |X) nieznane: dane X, z jakiej klasy?

5 Bayes dla dwóch klas Prawd. posterioryczne (warunkowe) P( k |X) są unormowane. Dla dwóch klas reguła Bayesa mówi: p(X) = bezwarunkowe p. obserwacji wektora X Dla P 1 =2/3 i P 2 =1/3 p. posterioryczne obliczone z reguły Bayesa:

6 Własności klasyfikatora Bayesa Dla jednakowych P( k ) reguła Bayesa sprowadza się do maksymalizacji p. warunkowych P(X| k ). Dla dwóch klas reguła Bayesa wybiera klasę 1 gdy: (X) nazywany jest ilorazem szans (likelihood ratio); Reguła Bayesa minimalizuje średnie p. błędnej klasyfikacji.

7 Decyzje w 2D Dla dwóch Gaussowskich rozkładów: Granice decyzji są hiperbolami.

8 Statystyczna Teoria Decyzji Konsekwencje decyzji: straty, koszty lub ryzyko. Ĉ: X {1.. K, D, O}, procedura klasyfikacyjna D - brak zaufania do klasyfikacji (odrzucone), O - wyjątki (outliers). Ryzyko: oczekiwane straty Bezwarunkowe prawdopodobieństwo błędnej klasyfikacji klasy k : Prawdopodobieństwo braku klasyfikacji dla wektorów z klasy k

9 Ryzyko klasyfikacji Najprostsza funkcja kosztów (loss function) L(k,l), gdzie k to klasa prawdziwa a l to klasa przypisana (pomijając wyjątki) to: d - koszt braku klasyfikacji. Ryzyko klasyfikatora dla klasy k, zakładając l=K+1 jako klasę D, wynosi:

10 Całkowite ryzyko klasyfikatora Uśredniając po wszystkich klasach: Reguła Bayesa: wybór klasy dla minimalnego ryzyka. Równoważna wyborowi klasy k dla której Ryzyko warunkowe: dla wszystkich j k.

11 Funkcje dyskryminacyjne P. posterioryczne pełnią rolę f. dyskryminacyjnych, czyli f. d i (X) > d j (X) w obszarze wektorów X odpowiadającym klasie i. dla klas. większościowego dla MPA dla maks. szansy dla minimalnego ryzyka Granice decyzji dla d i (X) = d j (X) Dowolna monotoniczna f (d j (X)) jest równie dobra, np.: Dychotomizator dla pary klas:

12 Przesunięte rozkłady Gaussa Jeśli założyć Gaussowskie rozkłady f. dyskryminujące są kwadratowe. Przypadek najprostszy: różne średnie, ta sama wariancja Po przekształceniu i uwzględnieniu jednakowych wariancji : Dychotomizator w tym przypadku: Granica decyzji d(X)=0 dla jednakowych p. apriorycznych jest pośrodku.

13 Gaussy w wielu wymiarach Ogólny rozkład Gaussa w n wymiarach: Niediagonalna macierz kowariancji obraca rozkład Gaussa. Nietrudno jest wyliczyć funkcję dyskryminującą Granica decyzji to f. drugiego stopnia w n wymiarach.

14 Przypadki szczególne Człon kwadratowy to odległość Mahalanobisa pomiędzy X i Dla jednakowych macierzy kowariancji f. dyskryminująca jest liniowa. gdzie: Jeśli macierze kowariancji i p. a priori są identyczne to wystarczy: F. dyskryminujące równoważne są klasyfikatorowi minimalnoodległo- ściowemu (nie ma takich!). Jeśli macierz kowariancji jest diagonalna to

15 COLT, teoria uczenia COLT, Computational Learning Theory PAC, Probably Approximately Correct Rezultaty oszacowań błędu klasyfikatora dla danych testowych T o rozkładzie ; jeśli |T|>30 to z prawd mamy: Dla małych błędów niepewność oszacowania dla całego rozkładu z dużym prawd. zmierza do zera jak pierwiastek z /|T| Wymiar VC (Vapnika-Chervonenkisa): charakteryzuje złożoność p-ni hipotez: VC(H) = d, l. przykładów, które można przypisać do dwóch klas na 2 d sposobów, i wszystkie dają się zrealizować za pomocą hipotez H Np. dla hiperpłaszczyzny, N wymiarów, VC(H)=N+1

16 Koniec wykładu 27 Dobra - jeszcze nie noc !


Pobierz ppt "Inteligencja Obliczeniowa Metody probabilistyczne. Wykład 27 Włodzisław Duch Uniwersytet Mikołaja Kopernika."

Podobne prezentacje


Reklamy Google