Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Podstawy teorii uczenia

Podobne prezentacje


Prezentacja na temat: "Podstawy teorii uczenia"— Zapis prezentacji:

1 Podstawy teorii uczenia
Wykład 4 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch (c) Tralvex Yeap. All Rights Reserved

2 Co było Najprostsze rozproszone pamięci skojarzeniowe.
BCM, Binarna Pamięć Skojarzeniowa; CMM, macierze korelacji, zastosowania do słowników; BAM, dwukierunkowa progowa pamięć asocjacyjna. (c) Tralvex Yeap. All Rights Reserved

3 Co będzie Prawdopodobieństwa Uczenie Bayesowskie
(c) Tralvex Yeap. All Rights Reserved

4 Uczenie Chcemy się czegoś nauczyć o strukturze danych, stworzyć model, który potrafi ją analizować. W nauce i zastosowaniach technicznych tworzy się modele parametryczne zjawisk. Są łatwe w interpretacji, ale wymagają teorii i można je zrobić tyko w stosunkowo prostych przypadkach. Np. prawa fizyki opierają się na takich modelach. Empiryczne modelowanie nieparametryczne nie zakłada żadnego modelu, tylko dopasowuje się do danych. Takie modele dominują w biologii. Uczymy się z danych! Mając przykłady = dane treningowe, tworzymy model danych odpowiadający na specyficzne pytania, oceniając te cechy danych, które mogą się przydać do przyszłych ocen. Uczenie = ocena parametrów; paradoksalnie model nieparametryczny ma dużo parametrów, ale nie mających bezpośredniej interpretacji. (c) Tralvex Yeap. All Rights Reserved

5 Obiekty w przestrzeni cech
Opis matematyczny reprezentuje obiekty O przy pomocy pomiarów, jakie na nich przeprowadzono, podając wartości cech {Oi} => X(Oi), gdzie Xj(Oi) jest wartością j-tej cechy opisującej Oi Atrybut i cecha są często traktowane jako synonimy, chociaż ściśle ujmując “wiek” jest atrybutem a “młody” cechą, wartością. Typy atrybutów: kategoryczne: symboliczne, dyskretne – mogą mieć charakter nominalny (nieuporządkowany), np. “słodki, kwaśny, gorzki”, albo porządkowy, np. kolory w widmie światła, albo: mały < średni < duży (drink). ciągłe: wartości numeryczne, np. wiek. x2 x1 x3 x(O) Wektor cech X =(x1,x2,x3 ... xd), o d-składowych wskazuje na punkt w przestrzeni cech. (c) Tralvex Yeap. All Rights Reserved

6 Prawdopodobieństwo Przewidywaniom można przypisać prawdopodobieństwo.
Próbkom X przypisać można K kategorii (klas) C1 ... CK Ogólnie Ci jest stanem którego prawdopodobieństwo chcemy ocenić. Pk = P(Ck), a priori (bezwarunkowe) prawd. zaobserwowania X  Ck Jeśli nic innego nie wiemy to njabardziej prawdopodobna klasa X to klasa większościowa: Klasyfikator większościowy: przypisuje X do klasy większościowej. Np: prognoza pogody – jutro taka sama jak dzisiaj (zwykle działa). (c) Tralvex Yeap. All Rights Reserved

7 Rodzaje prawdopodobieństwa
Tablica współwystępowania klasa-cecha: P(C,ri)=N(C,ri)/N N(C, ri) = macierz, rzędy = klasy, kolumny = cechy ri P(C, ri) – prawdopodobieństwo łączne, P obserwacji obiektu z klasy C dla którego cecha xri P(C) to prawd. a priori pojawienia się obiektów z danej klasy, przed wykonaniem pomiarów i określeniem, że xri ma jakąś wartość. To suma w danym rzędzie: P(xri) to prawd że znajdujemy jakąś obserwację dla które cecha xri czyli suma dla danej kolumny. (c) Tralvex Yeap. All Rights Reserved

8 Prawdopodobieństwa warunkowe
Jeśli znana jest klasa C (rodzaj obiektu) to jakie jest prawdopodobieństwo że ma on własność xri ? P(xri|C) oznacza warunkowe prawdopodobieństwo, że znając klasę C cecha x będzie leżała w przedziale ri. Suma po wszystkich wartościach cech daje 1: dla łącznego prawdopodobieństwa Dlatego mamy: PC(x)=P(x|C) rozkład prawd. warunkowego to po prostu przeskalowane prawdopodobieństwo łączne, trzeba podzielić P(C,x)/P(C) (c) Tralvex Yeap. All Rights Reserved

9 Reguły sumowania Relacje probabilistyczne wynikają z prostych reguł sumowania! Macierz rozkładu łącznych prawdopodobieństw: P(C, x) dla dyskretnych wartości obserwacji x, liczymy ile razy zaobserwowano łącznie N(C,x), skalujemy tak by prawdop. sumowało się do 1, czyli P(C, x) = N(C,x)/N Rząd macierzy P(C, x) sumuje się do: dlatego P(x|C)=P(C, x)/P(C) sumuje się do Kolumna macierzy P(C, x) sumuje się do: dlatego P(C|x)=P(C, x)/P(x) sumuje się do (c) Tralvex Yeap. All Rights Reserved

10 Twierdzenie Bayesa Formuła Bayesa pozwala na obliczenie prawdopodobieństwa a posteriori P(C|x) (czyli po dokonaniu obserwacji) znając łatwy do zmierzenia rozkład warunkowy P(x|C). Sumują się do 1 bo wiemy, że jeśli obserwujemy xi to musi to być jedna z C klas, jak też wiemy, że jeśli obiekt jest z klasy C to x musi mieć jedną z wartości xi Obydwa prawdopodobieństwa są wynikiem podzielenia P(C,xi). Formułka Bayesa jest więc oczywista. Inaczej: H=hipoteza, E=obserwacja (c) Tralvex Yeap. All Rights Reserved

11 Przykład: ryby Chapter 1.2, Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 Automatyzacja sortowania dwóch gatunków ryb, łososia i suma morskiego, które przesuwają się na pasie sortownika. Czujniki oceniają różne cechy: długość, jasność, szerokość, liczbę płetw Patrzymy na histogramy. Wybieramy liczbę przedziałów, np. n=20 (dyskretne dane) obliczamy szerokość przedziału D=(xmax- xmin)/n, obliczamy N(C,ri) = #sztuk C  {łosoś, sum} w każdym przedziale ri = [xmin+(i-1)D, xmin+iD], i=1...n prawdopodobieństwo łączne P(C,ri)=N(C,ri)/N, gdzie N = liczba ryb Łączne prawdopodobieństwo P(C,ri) = P(ri|C)P(C) (c) Tralvex Yeap. All Rights Reserved

12 Histogramy Rozkład liczby ryb w dwóch wymiarach w 20 przedziałach:l długość i jasność. Zaznaczono optymalne progi podziału. P(ri|C) przybliża rozkład prawdopodobieństwa dla klasy P(x|C). Możemy go dokładnie obliczyć tylko w granicy nieskończenie wielu przykładów i podziału na nieskończenie wiele przedziałów. W praktyce zawsze dzielimy na niewielką liczbę przedziałów. (c) Tralvex Yeap. All Rights Reserved

13 Przykłady histogramów
Histogramy w 2D: użyteczne ale mogą być trudne do analizy. SigmaPlot, Origin, pakiety statystyczne np. SPSS je pokazują. Wyniki zależą od dyskretyzacji ciągłych wartości Różne aplety tworzące wykresy mają zastosowanie w biznesie Histogramy w kamerach i aparatach cyfrowych: (c) Tralvex Yeap. All Rights Reserved

14 Histogramy 2D w bioinformatyce
Popularna prezentacja: dwie zmienne nominalne (geny, próbki) vs. zmienna ciągła (aktywność) znormalizowana do [-1,+1]. Ekspresja genów dla 16 typów w komórek typu B; kolor zastępuje wysokość słupka histogramu. Intensywność = -1 => hamowana, jasnozielony Intensywność = 0 => normalna, czarny Intensywność =+1 => wysoka, jasnoczerwony Aktywność genu(nazwa genu, typ komórek) (c) Tralvex Yeap. All Rights Reserved

15 Prawdopodobieństwo warunkowe
Przewidywania nie mogą być gorsze niż klasyfikator większościowy! Zwykle możemy określić prawdopodobieństwo warunkowe, mając dane X Ck jaka jest najbardziej prawdopodobna klasa? Łączne prawdopodobieństwo X dla wk Czy znajomość prawd. warunkowych wystarczy do przewidywań? Nie! Ważne jest prawd. posterioryczne: Fig. 2.1, Duda, Hart, Stork, Pattern Classification (Wiley). (c) Tralvex Yeap. All Rights Reserved

16 Reguła Bayesa Prawd. posterioryczne są unormowane:
Reguła Bayesa dla 2 klas wynika z prostej równości: P(X) to bezwarunkowe prawdop. wylosowania X; zwykle to 1/n, czyli jednakowe dla n probek. Dla P1=2/3 i P2=1/3 robi się: Fig. 2.2, Duda, Hart, Stork, Pattern Classification (Wiley). (c) Tralvex Yeap. All Rights Reserved

17 Decyzje Bayesowskie Decyzja Bayesa: mając próbkę X wybierz klasę 1 jeśli: Używając reguły Bayesa mnożymy obie strony przez P(X): Prawdopodobieństwo błędu: Średni błąd: Regułą Bayesa minimalizuje średni błąd P(e |X) (c) Tralvex Yeap. All Rights Reserved

18 Szansa (Likelihood) Całkowity błąd przewidywań na skończonej bazie próbek: Założenie: P(X) daje się ocenić z częstości występowania X. Dane używane są do ocen prawdopodobieństwa. Bayesowskie decyzje można powiązać z ilorazem szans: Przy jednakowych prawd. a priori decydują prawdop. warunkowe. Fig. 2.3, Duda, Hart, Stork, Pattern Classification (Wiley). (c) Tralvex Yeap. All Rights Reserved

19 Regiony decyzji w 2D Gaussowskie rozkłady prawd warunkowych dla obu pomiarów (długość, jasność): Fig. 2.6, Duda, Hart, Stork, Pattern Classification. Regiony decyzji w 2D są hiperboliczne, regiony w R2 są rozłączne. Elipsy pokazują stałe wartości Pk(X). (c) Tralvex Yeap. All Rights Reserved

20 Kwiatki Mamy dwa rodzaje Irysów: Irys Setosa oraz Irys Virginica
Długość liści określamy w dwóch przedziałach, r1=[0,3] cm i r2=[3,6] cm. Dla 100 kwiatów dostajemy następujące rozkłady (Setosa, Virginica): wiersze kolumny Prawdopodobieństwa łączne i warunkowe różnych kwiatów Irysów: Stąd (c) Tralvex Yeap. All Rights Reserved

21 Przykład C1 to stan natury, choroba “denga”, a C2 to brak dengi, czyli zdrowie. Załóżmy, że prawdopodobieństwo zachorowania to P(C1)=1/1000 Załóżmy, że test T ma dokładność 99%, czyli wynik dodatni dla chorego na dengę ma prawdopodobieństwo P(T=+| C1) = 0.99, a negatywny dla zdrowych ludzi to również P(T=-| C2) = 0.99. Jeśli test wypadł pozytywnie, jaka jest szansa, że masz dengę? Jakie jest prawdopodobieństwo P(C1|T=+)? P(T=+) = P(C1,T=+)+P(C2,T=+) = P(T=+|C1) P(C1)+P(T=-|C2) P(C2) = 0.99* *0.999=0.011 P(C1|T=+)=P(T=+| C1)P(C1)/P(T=+) = 0.99*0.001/0.011 = 0.09, or 9% Kalkulator Baysowski jest tu: (c) Tralvex Yeap. All Rights Reserved

22 Podsumowanie Chcemy prawd. posterioryczne:
Likelihood x Prior _________________ Evidence Minimalizację błędów można robić na wiele sposobów: gdzie Ki(X) = 1 dla X z klasy Ci, lub 0 dla innych klas. Można wprowadzić koszty różnych typów błędów i minimalizować ryzyko używając Bayesowskich procedur. Bezpośrednie oceny prawdopodobieństw dla X o więcej niż 2 wymiarach wymagają zbyt wielu danych, dlatego potrzebny jest model M(w) minimalizujący błędy. (c) Tralvex Yeap. All Rights Reserved

23 Ocena modelu: dwa typy błędów
Macierz pomyłek (konfuzji) Notacja często używana w aplikacjach medycznych: P++ sukces, true positive (TP); P++/P+ ułamek TP do wszystkich P+; P-- sukces, true negative (TN); P--/P- ułamek TN do wszystkich P- Dokładność = P++ + P-- = 1 - Błąd = 1 - P-+ - P+- P-+ fałszywy alarm, false positive (FP); np. zdrowy uznany za chorego P+- strata, false negative (FN); np. chory uznany za zdrowego. (c) Tralvex Yeap. All Rights Reserved

24 Co dalej? Samoorganizacja – uczenie bez nadzoru
Mapowanie topograficzne i mózgi SOM – Samoorganizująca Się Mapa Growing Cell Structures Przykłady zastosowań Przykłady wizualizacji Samoorganizacja i mapy ekwiprobabilistyczne Uczenie konkurencyjne. Gaz neuronowy. Skalowanie wielowymiarowe i redukcja wymiarowości problemu. (c) Tralvex Yeap. All Rights Reserved

25 Koniec wykładu 4 (c) Tralvex Yeap. All Rights Reserved


Pobierz ppt "Podstawy teorii uczenia"

Podobne prezentacje


Reklamy Google