Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Inteligencja Obliczeniowa Metody probabilistyczne.

Podobne prezentacje


Prezentacja na temat: "Inteligencja Obliczeniowa Metody probabilistyczne."— Zapis prezentacji:

1 Inteligencja Obliczeniowa Metody probabilistyczne.
Wykład 27 Włodzisław Duch Uniwersytet Mikołaja Kopernika

2 Co było Odkrywanie wiedzy metodami neuronowymi Stosowanie reguł
Drzewa decyzji

3 Co będzie Modele probabilistyczne Klasyfikator Bayes’owski
Statystyczna teoria decyzji Przykład z rozkładem normalnym

4 Podstawy probabilistyczne
Wektory XÎX należące do K klas w1 ... wK. Pk = P(wk), prawd. a priori (bezwarunkowe) wystąpienia X z klasy wk. Jeśli brakuje innych danych o obiekcie to należy stosować klasyfikator większościowy, czyli: Zwykle znane są również prawd. warunkowe: Pk(X) = P(X|C=wk) = P(X|wk), rozkład wektorów w klasie wk Prawd. łączne: P(X,wk) = P(X|wk) P(wk) Prawd. a posteriori: P(wk|X) nieznane: dane X, z jakiej klasy?

5 Bayes dla dwóch klas Prawd. posterioryczne (warunkowe) P(wk|X) są unormowane. Dla dwóch klas reguła Bayes’a mówi: p(X) = bezwarunkowe p. obserwacji wektora X Dla P1=2/3 i P2 =1/3 p. posterioryczne obliczone z reguły Bayesa:

6 Własności klasyfikatora Bayes’a
Dla jednakowych P(wk) reguła Bayes’a sprowadza się do maksymalizacji p. warunkowych P(X|wk). Dla dwóch klas reguła Bayes’a wybiera klasę 1 gdy: L(X) nazywany jest ilorazem szans (likelihood ratio); Reguła Bayesa minimalizuje średnie p. błędnej klasyfikacji e.

7 Decyzje w 2D Dla dwóch Gaussowskich rozkładów:
Granice decyzji są hiperbolami.

8 Statystyczna Teoria Decyzji
Konsekwencje decyzji: straty, koszty lub ryzyko. Ĉ: X ® {1.. K, D, O}, procedura klasyfikacyjna D - brak zaufania do klasyfikacji (odrzucone), O - wyjątki (outliers). Ryzyko: oczekiwane straty Bezwarunkowe prawdopodobieństwo błędnej klasyfikacji klasy wk: Prawdopodobieństwo braku klasyfikacji dla wektorów z klasy wk

9 Ryzyko klasyfikacji Najprostsza funkcja kosztów (loss function) L(k,l), gdzie k to klasa prawdziwa a l to klasa przypisana (pomijając wyjątki) to: d - koszt braku klasyfikacji. Ryzyko klasyfikatora dla klasy k, zakładając l=K+1 jako klasę D, wynosi:

10 Całkowite ryzyko klasyfikatora
Uśredniając po wszystkich klasach: Ryzyko warunkowe: Reguła Bayes’a: wybór klasy dla minimalnego ryzyka. Równoważna wyborowi klasy k dla której dla wszystkich jk.

11 Funkcje dyskryminacyjne
P. posterioryczne pełnią rolę f. dyskryminacyjnych, czyli f. di(X) > dj(X) w obszarze wektorów X odpowiadającym klasie wi. Granice decyzji dla di(X) = dj(X) Dowolna monotoniczna f (dj(X)) jest równie dobra, np.: dla klas. większościowego dla MPA dla maks. szansy dla minimalnego ryzyka Dychotomizator dla pary klas:

12 Przesunięte rozkłady Gaussa
Jeśli założyć Gaussowskie rozkłady f. dyskryminujące są kwadratowe. Przypadek najprostszy: różne średnie, ta sama wariancja Dychotomizator w tym przypadku: Po przekształceniu i uwzględnieniu jednakowych wariancji s : Granica decyzji d(X)=0 dla jednakowych p. apriorycznych jest pośrodku.

13 Gaussy w wielu wymiarach
Ogólny rozkład Gaussa w n wymiarach: Niediagonalna macierz kowariancji obraca rozkład Gaussa. Nietrudno jest wyliczyć funkcję dyskryminującą Granica decyzji to f. drugiego stopnia w n wymiarach.

14 Przypadki szczególne Człon kwadratowy to odległość Mahalanobisa pomiędzy X i m Dla jednakowych macierzy kowariancji f. dyskryminująca jest liniowa. gdzie: Jeśli macierze kowariancji i p. a priori są identyczne to wystarczy: F. dyskryminujące równoważne są klasyfikatorowi minimalnoodległo-ściowemu (nie ma takich!). Jeśli macierz kowariancji jest diagonalna to

15 COLT, teoria uczenia COLT, Computational Learning Theory
PAC, Probably Approximately Correct Rezultaty oszacowań błędu klasyfikatora dla danych testowych T o rozkładzie W; jeśli |T|>30 to z prawd mamy: Dla małych błędów niepewność oszacowania dla całego rozkładu z dużym prawd. zmierza do zera jak pierwiastek z e/|T| Wymiar VC (Vapnika-Chervonenkisa): charakteryzuje złożoność p-ni hipotez: VC(H) = d, l. przykładów, które można przypisać do dwóch klas na 2d sposobów, i wszystkie dają się zrealizować za pomocą hipotez H Np. dla hiperpłaszczyzny, N wymiarów, VC(H)=N+1

16 Koniec wykładu 27 Dobra - jeszcze nie noc !


Pobierz ppt "Inteligencja Obliczeniowa Metody probabilistyczne."

Podobne prezentacje


Reklamy Google