Podstawy teorii uczenia

Slides:



Advertisements
Podobne prezentacje
Leszek Smolarek Akademia Morska w Gdyni 2005/2006
Advertisements

Ocena wartości diagnostycznej testu – obliczanie czułości, swoistości, wartości predykcyjnych testu. Krzywe ROC. Anna Sepioło gr. B III OAM.
Ocena dokładności i trafności prognoz
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Analiza współzależności zjawisk
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Inteligencja Obliczeniowa Otwieranie czarnej skrzynki.
Inteligencja Obliczeniowa Drzewa Decyzji.
Katedra Informatyki Stosowanej UMK
Uczenie konkurencyjne.
Inteligencja Obliczeniowa Metody probabilistyczne.
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Perceptrony
Elementy Modelowania Matematycznego
Elementy Modelowania Matematycznego
Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
Wykład 3 Sparametryzowane rodziny funkcji
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Uogólniony model liniowy
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Analiza korelacji.
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 14 Liniowa regresja
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
Linear Methods of Classification
Hipotezy statystyczne
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Sieci bayesowskie Wykonali: Mateusz Kaflowski Michał Grabarczyk.
Uczenie w Sieciach Rekurencyjnych
Proste obliczenia w arkuszu
Analiza dyskryminacji
Ekonometria stosowana
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Ekonometria stosowana
Co to jest dystrybuanta?
Dopasowanie rozkładów
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku.
Weryfikacja hipotez statystycznych
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Statystyczna analiza danych
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Learnmatrix, Adaline, Madaline i modele liniowe
Testy nieparametryczne
Systemy neuronowo – rozmyte
Podstawy teorii uczenia
Perceptrony o dużym marginesie błędu
Co do tej pory robiliśmy:
Jednorównaniowy model regresji liniowej
Sztuczna Inteligencja Szukanie, gry i ludzkie myślenie
Włodzisław Duch Katedra Informatyki Stosowanej,
Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Perceptrony
Katedra Informatyki Stosowanej UMK
Korelacja i regresja liniowa
Zapis prezentacji:

Podstawy teorii uczenia Wykład 4 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch (c) 1999. Tralvex Yeap. All Rights Reserved

Co było Najprostsze rozproszone pamięci skojarzeniowe. BCM, Binarna Pamięć Skojarzeniowa; CMM, macierze korelacji, zastosowania do słowników; BAM, dwukierunkowa progowa pamięć asocjacyjna. (c) 1999. Tralvex Yeap. All Rights Reserved

Co będzie Prawdopodobieństwa Uczenie Bayesowskie (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie Chcemy się czegoś nauczyć o strukturze danych, stworzyć model, który potrafi ją analizować. W nauce i zastosowaniach technicznych tworzy się modele parametryczne zjawisk. Są łatwe w interpretacji, ale wymagają teorii i można je zrobić tyko w stosunkowo prostych przypadkach. Np. prawa fizyki opierają się na takich modelach. Empiryczne modelowanie nieparametryczne nie zakłada żadnego modelu, tylko dopasowuje się do danych. Takie modele dominują w biologii. Uczymy się z danych! Mając przykłady = dane treningowe, tworzymy model danych odpowiadający na specyficzne pytania, oceniając te cechy danych, które mogą się przydać do przyszłych ocen. Uczenie = ocena parametrów; paradoksalnie model nieparametryczny ma dużo parametrów, ale nie mających bezpośredniej interpretacji. (c) 1999. Tralvex Yeap. All Rights Reserved

Obiekty w przestrzeni cech Opis matematyczny reprezentuje obiekty O przy pomocy pomiarów, jakie na nich przeprowadzono, podając wartości cech {Oi} => X(Oi), gdzie Xj(Oi) jest wartością j-tej cechy opisującej Oi Atrybut i cecha są często traktowane jako synonimy, chociaż ściśle ujmując “wiek” jest atrybutem a “młody” cechą, wartością. Typy atrybutów: kategoryczne: symboliczne, dyskretne – mogą mieć charakter nominalny (nieuporządkowany), np. “słodki, kwaśny, gorzki”, albo porządkowy, np. kolory w widmie światła, albo: mały < średni < duży (drink). ciągłe: wartości numeryczne, np. wiek. x2 x1 x3 x(O) Wektor cech X =(x1,x2,x3 ... xd), o d-składowych wskazuje na punkt w przestrzeni cech. (c) 1999. Tralvex Yeap. All Rights Reserved

Prawdopodobieństwo Przewidywaniom można przypisać prawdopodobieństwo. Próbkom X przypisać można K kategorii (klas) C1 ... CK Ogólnie Ci jest stanem którego prawdopodobieństwo chcemy ocenić. Pk = P(Ck), a priori (bezwarunkowe) prawd. zaobserwowania X  Ck Jeśli nic innego nie wiemy to njabardziej prawdopodobna klasa X to klasa większościowa: Klasyfikator większościowy: przypisuje X do klasy większościowej. Np: prognoza pogody – jutro taka sama jak dzisiaj (zwykle działa). (c) 1999. Tralvex Yeap. All Rights Reserved

Rodzaje prawdopodobieństwa Tablica współwystępowania klasa-cecha: P(C,ri)=N(C,ri)/N N(C, ri) = macierz, rzędy = klasy, kolumny = cechy ri P(C, ri) – prawdopodobieństwo łączne, P obserwacji obiektu z klasy C dla którego cecha xri P(C) to prawd. a priori pojawienia się obiektów z danej klasy, przed wykonaniem pomiarów i określeniem, że xri ma jakąś wartość. To suma w danym rzędzie: P(xri) to prawd że znajdujemy jakąś obserwację dla które cecha xri czyli suma dla danej kolumny. (c) 1999. Tralvex Yeap. All Rights Reserved

Prawdopodobieństwa warunkowe Jeśli znana jest klasa C (rodzaj obiektu) to jakie jest prawdopodobieństwo że ma on własność xri ? P(xri|C) oznacza warunkowe prawdopodobieństwo, że znając klasę C cecha x będzie leżała w przedziale ri. Suma po wszystkich wartościach cech daje 1: dla łącznego prawdopodobieństwa Dlatego mamy: PC(x)=P(x|C) rozkład prawd. warunkowego to po prostu przeskalowane prawdopodobieństwo łączne, trzeba podzielić P(C,x)/P(C) (c) 1999. Tralvex Yeap. All Rights Reserved

Reguły sumowania Relacje probabilistyczne wynikają z prostych reguł sumowania! Macierz rozkładu łącznych prawdopodobieństw: P(C, x) dla dyskretnych wartości obserwacji x, liczymy ile razy zaobserwowano łącznie N(C,x), skalujemy tak by prawdop. sumowało się do 1, czyli P(C, x) = N(C,x)/N Rząd macierzy P(C, x) sumuje się do: dlatego P(x|C)=P(C, x)/P(C) sumuje się do Kolumna macierzy P(C, x) sumuje się do: dlatego P(C|x)=P(C, x)/P(x) sumuje się do (c) 1999. Tralvex Yeap. All Rights Reserved

Twierdzenie Bayesa Formuła Bayesa pozwala na obliczenie prawdopodobieństwa a posteriori P(C|x) (czyli po dokonaniu obserwacji) znając łatwy do zmierzenia rozkład warunkowy P(x|C). Sumują się do 1 bo wiemy, że jeśli obserwujemy xi to musi to być jedna z C klas, jak też wiemy, że jeśli obiekt jest z klasy C to x musi mieć jedną z wartości xi Obydwa prawdopodobieństwa są wynikiem podzielenia P(C,xi). Formułka Bayesa jest więc oczywista. Inaczej: H=hipoteza, E=obserwacja (c) 1999. Tralvex Yeap. All Rights Reserved

Przykład: ryby Chapter 1.2, Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 Automatyzacja sortowania dwóch gatunków ryb, łososia i suma morskiego, które przesuwają się na pasie sortownika. Czujniki oceniają różne cechy: długość, jasność, szerokość, liczbę płetw Patrzymy na histogramy. Wybieramy liczbę przedziałów, np. n=20 (dyskretne dane) obliczamy szerokość przedziału D=(xmax- xmin)/n, obliczamy N(C,ri) = #sztuk C  {łosoś, sum} w każdym przedziale ri = [xmin+(i-1)D, xmin+iD], i=1...n prawdopodobieństwo łączne P(C,ri)=N(C,ri)/N, gdzie N = liczba ryb Łączne prawdopodobieństwo P(C,ri) = P(ri|C)P(C) (c) 1999. Tralvex Yeap. All Rights Reserved

Histogramy Rozkład liczby ryb w dwóch wymiarach w 20 przedziałach:l długość i jasność. Zaznaczono optymalne progi podziału. P(ri|C) przybliża rozkład prawdopodobieństwa dla klasy P(x|C). Możemy go dokładnie obliczyć tylko w granicy nieskończenie wielu przykładów i podziału na nieskończenie wiele przedziałów. W praktyce zawsze dzielimy na niewielką liczbę przedziałów. (c) 1999. Tralvex Yeap. All Rights Reserved

Przykłady histogramów Histogramy w 2D: użyteczne ale mogą być trudne do analizy. SigmaPlot, Origin, pakiety statystyczne np. SPSS je pokazują. Wyniki zależą od dyskretyzacji ciągłych wartości http://www.shodor.org/interactivate/activities/Histogram/ Różne aplety tworzące wykresy mają zastosowanie w biznesie http://www.quadbase.com/espresschart/help/examples/ http://www.stat.berkeley.edu/~stark/SticiGui/index.htm Histogramy w kamerach i aparatach cyfrowych: (c) 1999. Tralvex Yeap. All Rights Reserved

Histogramy 2D w bioinformatyce Popularna prezentacja: dwie zmienne nominalne (geny, próbki) vs. zmienna ciągła (aktywność) znormalizowana do [-1,+1]. Ekspresja genów dla 16 typów w komórek typu B; kolor zastępuje wysokość słupka histogramu. Intensywność = -1 => hamowana, jasnozielony Intensywność = 0 => normalna, czarny Intensywność =+1 => wysoka, jasnoczerwony Aktywność genu(nazwa genu, typ komórek) (c) 1999. Tralvex Yeap. All Rights Reserved

Prawdopodobieństwo warunkowe Przewidywania nie mogą być gorsze niż klasyfikator większościowy! Zwykle możemy określić prawdopodobieństwo warunkowe, mając dane X Ck jaka jest najbardziej prawdopodobna klasa? Łączne prawdopodobieństwo X dla wk Czy znajomość prawd. warunkowych wystarczy do przewidywań? Nie! Ważne jest prawd. posterioryczne: Fig. 2.1, Duda, Hart, Stork, Pattern Classification (Wiley). (c) 1999. Tralvex Yeap. All Rights Reserved

Reguła Bayesa Prawd. posterioryczne są unormowane: Reguła Bayesa dla 2 klas wynika z prostej równości: P(X) to bezwarunkowe prawdop. wylosowania X; zwykle to 1/n, czyli jednakowe dla n probek. Dla P1=2/3 i P2=1/3 robi się: Fig. 2.2, Duda, Hart, Stork, Pattern Classification (Wiley). (c) 1999. Tralvex Yeap. All Rights Reserved

Decyzje Bayesowskie Decyzja Bayesa: mając próbkę X wybierz klasę 1 jeśli: Używając reguły Bayesa mnożymy obie strony przez P(X): Prawdopodobieństwo błędu: Średni błąd: Regułą Bayesa minimalizuje średni błąd P(e |X) (c) 1999. Tralvex Yeap. All Rights Reserved

Szansa (Likelihood) Całkowity błąd przewidywań na skończonej bazie próbek: Założenie: P(X) daje się ocenić z częstości występowania X. Dane używane są do ocen prawdopodobieństwa. Bayesowskie decyzje można powiązać z ilorazem szans: Przy jednakowych prawd. a priori decydują prawdop. warunkowe. Fig. 2.3, Duda, Hart, Stork, Pattern Classification (Wiley). (c) 1999. Tralvex Yeap. All Rights Reserved

Regiony decyzji w 2D Gaussowskie rozkłady prawd warunkowych dla obu pomiarów (długość, jasność): Fig. 2.6, Duda, Hart, Stork, Pattern Classification. Regiony decyzji w 2D są hiperboliczne, regiony w R2 są rozłączne. Elipsy pokazują stałe wartości Pk(X). (c) 1999. Tralvex Yeap. All Rights Reserved

Kwiatki Mamy dwa rodzaje Irysów: Irys Setosa oraz Irys Virginica Długość liści określamy w dwóch przedziałach, r1=[0,3] cm i r2=[3,6] cm. Dla 100 kwiatów dostajemy następujące rozkłady (Setosa, Virginica): wiersze kolumny Prawdopodobieństwa łączne i warunkowe różnych kwiatów Irysów: Stąd (c) 1999. Tralvex Yeap. All Rights Reserved

Przykład C1 to stan natury, choroba “denga”, a C2 to brak dengi, czyli zdrowie. Załóżmy, że prawdopodobieństwo zachorowania to P(C1)=1/1000 Załóżmy, że test T ma dokładność 99%, czyli wynik dodatni dla chorego na dengę ma prawdopodobieństwo P(T=+| C1) = 0.99, a negatywny dla zdrowych ludzi to również P(T=-| C2) = 0.99. Jeśli test wypadł pozytywnie, jaka jest szansa, że masz dengę? Jakie jest prawdopodobieństwo P(C1|T=+)? P(T=+) = P(C1,T=+)+P(C2,T=+) = P(T=+|C1) P(C1)+P(T=-|C2) P(C2) = 0.99*0.001+0.01*0.999=0.011 P(C1|T=+)=P(T=+| C1)P(C1)/P(T=+) = 0.99*0.001/0.011 = 0.09, or 9% Kalkulator Baysowski jest tu: http://StatPages.org/bayes.html (c) 1999. Tralvex Yeap. All Rights Reserved

Podsumowanie Chcemy prawd. posterioryczne: Likelihood x Prior _________________ Evidence Minimalizację błędów można robić na wiele sposobów: gdzie Ki(X) = 1 dla X z klasy Ci, lub 0 dla innych klas. Można wprowadzić koszty różnych typów błędów i minimalizować ryzyko używając Bayesowskich procedur. Bezpośrednie oceny prawdopodobieństw dla X o więcej niż 2 wymiarach wymagają zbyt wielu danych, dlatego potrzebny jest model M(w) minimalizujący błędy. (c) 1999. Tralvex Yeap. All Rights Reserved

Ocena modelu: dwa typy błędów Macierz pomyłek (konfuzji) Notacja często używana w aplikacjach medycznych: P++ sukces, true positive (TP); P++/P+ ułamek TP do wszystkich P+; P-- sukces, true negative (TN); P--/P- ułamek TN do wszystkich P- Dokładność = P++ + P-- = 1 - Błąd = 1 - P-+ - P+- P-+ fałszywy alarm, false positive (FP); np. zdrowy uznany za chorego P+- strata, false negative (FN); np. chory uznany za zdrowego. (c) 1999. Tralvex Yeap. All Rights Reserved

Co dalej? Samoorganizacja – uczenie bez nadzoru Mapowanie topograficzne i mózgi SOM – Samoorganizująca Się Mapa Growing Cell Structures Przykłady zastosowań Przykłady wizualizacji Samoorganizacja i mapy ekwiprobabilistyczne Uczenie konkurencyjne. Gaz neuronowy. Skalowanie wielowymiarowe i redukcja wymiarowości problemu. (c) 1999. Tralvex Yeap. All Rights Reserved

Koniec wykładu 4 (c) 1999. Tralvex Yeap. All Rights Reserved