Inteligencja Obliczeniowa Metody probabilistyczne.

Slides:



Advertisements
Podobne prezentacje
Statystyka Wojciech Jawień
Advertisements

Analiza wariancji jednoczynnikowa
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Analiza informacji Meteorologicznych Wykład 7
Metody rozwiązywania układów równań liniowych
Inteligencja Obliczeniowa Indukcja reguł - modele.
Inteligencja Obliczeniowa Sieci RBF.
Inteligencja Obliczeniowa Otwieranie czarnej skrzynki.
Katedra Informatyki Stosowanej UMK
Inteligencja Obliczeniowa Drzewa Decyzji.
Katedra Informatyki Stosowanej UMK
Uczenie konkurencyjne.
Inteligencja Obliczeniowa Sieci dynamiczne.
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
Inteligencja Obliczeniowa Perceptrony
Inteligencja Obliczeniowa Feature Space Mapping.
Sztuczne sieci neuronowe
Elementy Modelowania Matematycznego
Elementy Modelowania Matematycznego
Wnioskowanie Bayesowskie
Statystyczne parametry akcji
Statystyka w doświadczalnictwie
Zagadnienie niedokładności w GIS
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Niepewności przypadkowe
Eksperymentalna ocena jakości rozpoznawania
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Modele (hipotezy) zagnieżdżone
Linear Methods of Classification
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Analiza wariancji.
Matematyka.
Elementy Rachunku Prawdopodobieństwa i Statystyki
WYKŁAD 2 Pomiary Przemieszczeń Odkształcenia
Techniki eksploracji danych
formalnie: Naiwny klasyfikator Bayesa
Obserwowalność i odtwarzalność
Sterowanie – metody alokacji biegunów II
Ekonometria stosowana
Błędy i niepewności pomiarowe II
Filozoficzne i metodologiczne aspekty indukcji eliminacyjnej
Ekonometryczne modele nieliniowe
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Rozkład wariancji z próby (rozkład  2 ) Pobieramy próbę x 1,x 2,...,x n z rozkładu normalnego o a=0 i  =1. Dystrybuanta rozkładu zmiennej x 2 =x 1 2.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Statystyczna Analiza Danych SAD2 Wykład 4 i 5. Test dla proporcji (wskaźnika struktury) 2.
Statystyczna analiza danych SAD2 Wykład 5. Testy o różnicy wartości średnich dwóch rozkładów normalnych (znane wariancje) Statystyczna analiza danych.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
WYKŁAD Teoria błędów Katedra Geodezji im. K. Weigla ul. Poznańska 2
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
EKONOMETRIA W3 prof. UG, dr hab. Tadeusz W. Bołt
Perceptrony o dużym marginesie błędu
Jednorównaniowy model regresji liniowej
Podstawy teorii uczenia
Perceptrony o dużym marginesie błędu
Algebra WYKŁAD 4 ALGEBRA.
MNK – podejście algebraiczne
Analiza niepewności pomiarów
Inteligencja Obliczeniowa Perceptrony
Zapis prezentacji:

Inteligencja Obliczeniowa Metody probabilistyczne. Wykład 27 Włodzisław Duch Uniwersytet Mikołaja Kopernika

Co było Odkrywanie wiedzy metodami neuronowymi Stosowanie reguł Drzewa decyzji

Co będzie Modele probabilistyczne Klasyfikator Bayes’owski Statystyczna teoria decyzji Przykład z rozkładem normalnym

Podstawy probabilistyczne Wektory XÎX należące do K klas w1 ... wK. Pk = P(wk), prawd. a priori (bezwarunkowe) wystąpienia X z klasy wk. Jeśli brakuje innych danych o obiekcie to należy stosować klasyfikator większościowy, czyli: Zwykle znane są również prawd. warunkowe: Pk(X) = P(X|C=wk) = P(X|wk), rozkład wektorów w klasie wk Prawd. łączne: P(X,wk) = P(X|wk) P(wk) Prawd. a posteriori: P(wk|X) nieznane: dane X, z jakiej klasy?

Bayes dla dwóch klas Prawd. posterioryczne (warunkowe) P(wk|X) są unormowane. Dla dwóch klas reguła Bayes’a mówi: p(X) = bezwarunkowe p. obserwacji wektora X Dla P1=2/3 i P2 =1/3 p. posterioryczne obliczone z reguły Bayesa:

Własności klasyfikatora Bayes’a Dla jednakowych P(wk) reguła Bayes’a sprowadza się do maksymalizacji p. warunkowych P(X|wk). Dla dwóch klas reguła Bayes’a wybiera klasę 1 gdy: L(X) nazywany jest ilorazem szans (likelihood ratio); Reguła Bayesa minimalizuje średnie p. błędnej klasyfikacji e.

Decyzje w 2D Dla dwóch Gaussowskich rozkładów: Granice decyzji są hiperbolami.

Statystyczna Teoria Decyzji Konsekwencje decyzji: straty, koszty lub ryzyko. Ĉ: X ® {1.. K, D, O}, procedura klasyfikacyjna D - brak zaufania do klasyfikacji (odrzucone), O - wyjątki (outliers). Ryzyko: oczekiwane straty Bezwarunkowe prawdopodobieństwo błędnej klasyfikacji klasy wk: Prawdopodobieństwo braku klasyfikacji dla wektorów z klasy wk

Ryzyko klasyfikacji Najprostsza funkcja kosztów (loss function) L(k,l), gdzie k to klasa prawdziwa a l to klasa przypisana (pomijając wyjątki) to: d - koszt braku klasyfikacji. Ryzyko klasyfikatora dla klasy k, zakładając l=K+1 jako klasę D, wynosi:

Całkowite ryzyko klasyfikatora Uśredniając po wszystkich klasach: Ryzyko warunkowe: Reguła Bayes’a: wybór klasy dla minimalnego ryzyka. Równoważna wyborowi klasy k dla której dla wszystkich jk.

Funkcje dyskryminacyjne P. posterioryczne pełnią rolę f. dyskryminacyjnych, czyli f. di(X) > dj(X) w obszarze wektorów X odpowiadającym klasie wi. Granice decyzji dla di(X) = dj(X) Dowolna monotoniczna f (dj(X)) jest równie dobra, np.: dla klas. większościowego dla MPA dla maks. szansy dla minimalnego ryzyka Dychotomizator dla pary klas:

Przesunięte rozkłady Gaussa Jeśli założyć Gaussowskie rozkłady f. dyskryminujące są kwadratowe. Przypadek najprostszy: różne średnie, ta sama wariancja Dychotomizator w tym przypadku: Po przekształceniu i uwzględnieniu jednakowych wariancji s : Granica decyzji d(X)=0 dla jednakowych p. apriorycznych jest pośrodku.

Gaussy w wielu wymiarach Ogólny rozkład Gaussa w n wymiarach: Niediagonalna macierz kowariancji obraca rozkład Gaussa. Nietrudno jest wyliczyć funkcję dyskryminującą Granica decyzji to f. drugiego stopnia w n wymiarach.

Przypadki szczególne Człon kwadratowy to odległość Mahalanobisa pomiędzy X i m Dla jednakowych macierzy kowariancji f. dyskryminująca jest liniowa. gdzie: Jeśli macierze kowariancji i p. a priori są identyczne to wystarczy: F. dyskryminujące równoważne są klasyfikatorowi minimalnoodległo-ściowemu (nie ma takich!). Jeśli macierz kowariancji jest diagonalna to

COLT, teoria uczenia COLT, Computational Learning Theory PAC, Probably Approximately Correct Rezultaty oszacowań błędu klasyfikatora dla danych testowych T o rozkładzie W; jeśli |T|>30 to z prawd. 0.95 mamy: Dla małych błędów niepewność oszacowania dla całego rozkładu z dużym prawd. zmierza do zera jak pierwiastek z e/|T| Wymiar VC (Vapnika-Chervonenkisa): charakteryzuje złożoność p-ni hipotez: VC(H) = d, l. przykładów, które można przypisać do dwóch klas na 2d sposobów, i wszystkie dają się zrealizować za pomocą hipotez H Np. dla hiperpłaszczyzny, N wymiarów, VC(H)=N+1

Koniec wykładu 27 Dobra - jeszcze nie noc !