Podstawy teorii uczenia

Slides:



Advertisements
Podobne prezentacje
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Advertisements

Ekonometria WYKŁAD 10 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Plan Czym się zajmiemy: 1.Bilans przepływów międzygałęziowych 2.Model Leontiefa.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Rozwiązywanie równań I-go stopnia z jedną niewiadomą
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
ZASTOSOWANIE  Programowanie  Ułatwianie pracy  Szybkie obliczanie  Spisywanie kosztów  Tworzenie tabel i wykresów  Obliczanie średniej, sumy,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Konstruowanie robotów z wykorzystaniem Vex IQ
Systemy wizyjne - kalibracja
Kluczowe elementy skutecznej strategii analizy danych internetowych
Logika dla prawników Podział logiczny.
W kręgu matematycznych pojęć
Schematy blokowe.
Opracowanie wyników pomiaru
Od neuronow do populacji
Wyznaczanie miejsc zerowych funkcji
SYSTEM KWALIFIKACJI, AWANSÓW I SPADKÓW
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
On-the-Fly Garbage Collection
Liczby pierwsze.
„Prawa Ceteris Paribus i socjo-ekonomiczne mechanizmy”
Modele SEM założenia formalne
Rekursje Tak jak w innych językach funkcje mogą odwoływać się same do siebie Możemy regulować głębokość przed stwierdzeniem błędu (MaxRecursion, $RecursionLimit,
ALGORYTMY I STRUKTURY DANYCH
Podstawy automatyki I Wykład /2016
Wstęp do Informatyki - Wykład 3
Elementy analizy matematycznej
Opracowała: Monika Grudzińska - Czerniecka
kilka powodów dlaczego warto uczyĆ się matematyki
Graficzne metody analizy danych
KOREKTOR RÓWNOLEGŁY DLA UKŁADÓW Z NIEMINIMALNOFAZOWYMI OBIEKTAMI Ryszard Gessing Instytut Automatyki, Politechnika Śląska Plan referatu Wprowadzenie.
Elementy fizyki kwantowej i budowy materii
Podstawy teorii uczenia
Tensor naprężeń Cauchyego
Instrukcje wyboru.
Własności statystyczne regresji liniowej
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
MATEMATYKAAKYTAMETAM
Proste obliczenia w arkuszu kalkulacyjnym
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
ETO w Inżynierii Chemicznej
Zaskakujące decyzje Lista symptomów i chorób: C (częsta), R (Rzadka),
Implementacja rekurencji w języku Haskell
Doskonalenie rachunku pamięciowego u uczniów
REGRESJA WIELORAKA.
Wyrównanie sieci swobodnych
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Język C++ Operatory Łukasz Sztangret Katedra Informatyki Stosowanej i Modelowania Prezentacja przygotowana w oparciu o materiały Danuty Szeligi i Pawła.
Prawa ruchu ośrodków ciągłych c. d.
WYBRANE ZAGADNIENIA PROBABILISTYKI
Elipsy błędów.
Grazyna Mirkowska Matematyka Dyskretna PJWSTK 2001
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Podstawy teorii uczenia Wykład 8 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch (c) 1999. Tralvex Yeap. All Rights Reserved

Co było SDM, Rozproszona Pamięć Komórkowa CMAC – model móżdżku. RAMnet – sieci n-ek Sieć Hamminga Macierz ucząca się Steinbucha MBR - Memory Based Reasoning. (c) 1999. Tralvex Yeap. All Rights Reserved

Co będzie Prawdopodobieństwa Uczenie Bayesowskie (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie Chcemy się czegoś nauczyć o strukturze danych, stworzyć model, który potrafi ją analizować. W nauce i zastosowaniach technicznych tworzy się modele parametryczne zjawisk. Są łatwe w interpretacji, ale wymagają teorii i można je zrobić tyko w stosunkowo prostych przypadkach. Np. prawa fizyki opierają się na takich modelach. Empiryczne modelowanie nieparametryczne nie zakłada żadnego modelu, tylko dopasowuje się do danych. Takie modele dominują w biologii. Uczymy się z danych! Mając przykłady = dane treningowe, tworzymy model danych odpowiadający na specyficzne pytania, oceniając te cechy danych, które mogą się przydać do przyszłych ocen. Uczenie = ocena parametrów; paradoksalnie model nieparametryczny ma dużo parametrów, ale nie mających bezpośredniej interpretacji. (c) 1999. Tralvex Yeap. All Rights Reserved

Obiekty w przestrzeni cech Opis matematyczny reprezentuje obiekty O przy pomocy pomiarów, jakie na nich przeprowadzono, podając wartości cech {Oi} => X(Oi), gdzie Xj(Oi) jest wartością j-tej cechy opisującej Oi Atrybut i cecha są często traktowane jako synonimy, chociaż ściśle ujmując “wiek” jest atrybutem a “młody” cechą, wartością. Typy atrybutów: kategoryczne: symboliczne, dyskretne – mogą mieć charakter nominalny (nieuporządkowany), np. “słodki, kwaśny, gorzki”, albo porządkowy, np. kolory w widmie światła, albo: mały < średni < duży (drink). ciągłe: wartości numeryczne, np. wiek. x2 x1 x3 x(O) Wektor cech X =(x1,x2,x3 ... xd), o d-składowych wskazuje na punkt w przestrzeni cech. (c) 1999. Tralvex Yeap. All Rights Reserved

Prawdopodobieństwo Przewidywaniom można przypisać prawdopodobieństwo. Próbkom X przypisać można K kategorii (klas) C1 ... CK Ogólnie Ci jest stanem którego prawdopodobieństwo chcemy ocenić. Pk = P(Ck), a priori (bezwarunkowe) prawd. zaobserwowania X  Ck Jeśli nic innego nie wiemy to njabardziej prawdopodobna klasa X to klasa większościowa: Klasyfikator większościowy: przypisuje X do klasy większościowej. Np: prognoza pogody – jutro taka sama jak dzisiaj (zwykle działa). (c) 1999. Tralvex Yeap. All Rights Reserved

Rodzaje prawdopodobieństwa Tablica współwystępowania klasa-cecha: P(C,ri)=N(C,ri)/N N(C, ri) = macierz, rzędy = klasy, kolumny = cechy ri P(C, ri) – prawdopodobieństwo łączne, P obserwacji obiektu z klasy C dla którego cecha xri P(C) to prawd. a priori pojawienia się obiektów z danej klasy, przed wykonaniem pomiarów i określeniem, że xri ma jakąś wartość. To suma w danym rzędzie: P(xri) to prawd że znajdujemy jakąś obserwację dla które cecha xri czyli suma dla danej kolumny. (c) 1999. Tralvex Yeap. All Rights Reserved

Prawdopodobieństwa warunkowe Jeśli znana jest klasa C (rodzaj obiektu) to jakie jest prawdopodobieństwo że ma on własność xri ? P(xri|C) oznacza warunkowe prawdopodobieństwo, że znając klasę C cecha x będzie leżała w przedziale ri. Suma po wszystkich wartościach cech daje 1: dla łącznego prawdopodobieństwa Dlatego mamy: PC(x)=P(x|C) rozkład prawd. warunkowego to po prostu przeskalowane prawdopodobieństwo łączne, trzeba podzielić P(C,x)/P(C) (c) 1999. Tralvex Yeap. All Rights Reserved

Reguły sumowania Relacje probabilistyczne wynikają z prostych reguł sumowania! Macierz rozkładu łącznych prawdopodobieństw: P(C, x) dla dyskretnych wartości obserwacji x, liczymy ile razy zaobserwowano łącznie N(C,x), skalujemy tak by prawdop. sumowało się do 1, czyli P(C, x) = N(C,x)/N Rząd macierzy P(C, x) sumuje się do: dlatego P(x|C)=P(C, x)/P(C) sumuje się do Kolumna macierzy P(C, x) sumuje się do: dlatego P(C|x)=P(C, x)/P(x) sumuje się do (c) 1999. Tralvex Yeap. All Rights Reserved

Twierdzenie Bayesa Formuła Bayesa pozwala na obliczenie prawdopodobieństwa a posteriori P(C|x) (czyli po dokonaniu obserwacji) znając łatwy do zmierzenia rozkład warunkowy P(x|C). Sumują się do 1 bo wiemy, że jeśli obserwujemy xi to musi to być jedna z C klas, jak też wiemy, że jeśli obiekt jest z klasy C to x musi mieć jedną z wartości xi Obydwa prawdopodobieństwa są wynikiem podzielenia P(C,xi). Formułka Bayesa jest więc oczywista. Inaczej: H=hipoteza, E=obserwacja (c) 1999. Tralvex Yeap. All Rights Reserved

Przykład: ryby Chapter 1.2, Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 Automatyzacja sortowania dwóch gatunków ryb, łososia i suma morskiego, które przesuwają się na pasie sortownika. Czujniki oceniają różne cechy: długość, jasność, szerokość, liczbę płetw Patrzymy na histogramy. Wybieramy liczbę przedziałów, np. n=20 (dyskretne dane) obliczamy szerokość przedziału D=(xmax- xmin)/n, obliczamy N(C,ri) = #sztuk C  {łosoś, sum} w każdym przedziale ri = [xmin+(i-1)D, xmin+iD], i=1...n prawdopodobieństwo łączne P(C,ri)=N(C,ri)/N, gdzie N = liczba ryb Łączne prawdopodobieństwo P(C,ri) = P(ri|C)P(C) (c) 1999. Tralvex Yeap. All Rights Reserved

Histogramy Rozkład liczby ryb w dwóch wymiarach w 20 przedziałach:l długość i jasność. Zaznaczono optymalne progi podziału. P(ri|C) przybliża rozkład prawdopodobieństwa dla klasy P(x|C). Możemy go dokładnie obliczyć tylko w granicy nieskończenie wielu przykładów i podziału na nieskończenie wiele przedziałów. W praktyce zawsze dzielimy na niewielką liczbę przedziałów. (c) 1999. Tralvex Yeap. All Rights Reserved

Przykłady histogramów Histogramy w 2D: użyteczne ale mogą być trudne do analizy. SigmaPlot, Origin, pakiety statystyczne np. SPSS je pokazują. Wyniki zależą od dyskretyzacji ciągłych wartości http://www.shodor.org/interactivate/activities/Histogram/ Różne aplety tworzące wykresy mają zastosowanie w biznesie http://www.quadbase.com/espresschart/help/examples/ http://www.stat.berkeley.edu/~stark/SticiGui/index.htm Histogramy w kamerach i aparatach cyfrowych: (c) 1999. Tralvex Yeap. All Rights Reserved

Histogramy 2D w bioinformatyce Popularna prezentacja: dwie zmienne nominalne (geny, próbki) vs. zmienna ciągła (aktywność) znormalizowana do [-1,+1]. Ekspresja genów dla 16 typów w komórek typu B; kolor zastępuje wysokość słupka histogramu. Intensywność = -1 => hamowana, jasnozielony Intensywność = 0 => normalna, czarny Intensywność =+1 => wysoka, jasnoczerwony Aktywność genu(nazwa genu, typ komórek) (c) 1999. Tralvex Yeap. All Rights Reserved

Prawdopodobieństwo warunkowe Przewidywania nie mogą być gorsze niż klasyfikator większościowy! Zwykle możemy określić prawdopodobieństwo warunkowe, mając dane X Ck jaka jest najbardziej prawdopodobna klasa? Łączne prawdopodobieństwo X dla wk Czy znajomość prawd. warunkowych wystarczy do przewidywań? Nie! Ważne jest prawd. posterioryczne: Fig. 2.1, Duda, Hart, Stork, Pattern Classification (Wiley). (c) 1999. Tralvex Yeap. All Rights Reserved

Reguła Bayesa Prawd. posterioryczne są unormowane: Reguła Bayesa dla 2 klas wynika z prostej równości: P(X) to bezwarunkowe prawdop. wylosowania X; zwykle to 1/n, czyli jednakowe dla n probek. Dla P1=2/3 i P2=1/3 robi się: Fig. 2.2, Duda, Hart, Stork, Pattern Classification (Wiley). (c) 1999. Tralvex Yeap. All Rights Reserved

Decyzje Bayesowskie Decyzja Bayesa: mając próbkę X wybierz klasę 1 jeśli: Używając reguły Bayesa mnożymy obie strony przez P(X): Prawdopodobieństwo błędu: Średni błąd: Regułą Bayesa minimalizuje średni błąd P(e |X) (c) 1999. Tralvex Yeap. All Rights Reserved

Szansa (Likelihood) Całkowity błąd przewidywań na skończonej bazie próbek: Założenie: P(X) daje się ocenić z częstości występowania X. Dane używane są do ocen prawdopodobieństwa. Bayesowskie decyzje można powiązać z ilorazem szans: Przy jednakowych prawd. a priori decydują prawdop. warunkowe. Fig. 2.3, Duda, Hart, Stork, Pattern Classification (Wiley). (c) 1999. Tralvex Yeap. All Rights Reserved

Regiony decyzji w 2D Gaussowskie rozkłady prawd warunkowych dla obu pomiarów (długość, jasność): Fig. 2.6, Duda, Hart, Stork, Pattern Classification. Regiony decyzji w 2D są hiperboliczne, regiony w R2 są rozłączne. Elipsy pokazują stałe wartości Pk(X). (c) 1999. Tralvex Yeap. All Rights Reserved

Kwiatki Mamy dwa rodzaje Irysów: Irys Setosa oraz Irys Virginica Długość liści określamy w dwóch przedziałach, r1=[0,3] cm i r2=[3,6] cm. Dla 100 kwiatów dostajemy następujące rozkłady (Setosa, Virginica): wiersze kolumny Prawdopodobieństwa łączne i warunkowe różnych kwiatów Irysów: Stąd (c) 1999. Tralvex Yeap. All Rights Reserved

Przykład C1 to stan natury, choroba “denga”, a C2 to brak dengi, czyli zdrowie. Załóżmy, że prawdopodobieństwo zachorowania to P(C1)=1/1000 Załóżmy, że test T ma dokładność 99%, czyli wynik dodatni dla chorego na dengę ma prawdopodobieństwo P(T=+| C1) = 0.99, a negatywny dla zdrowych ludzi to również P(T=-| C2) = 0.99. Jeśli test wypadł pozytywnie, jaka jest szansa, że masz dengę? Jakie jest prawdopodobieństwo P(C1|T=+)? P(T=+) = P(C1,T=+)+P(C2,T=+) = P(T=+|C1) P(C1)+P(T=-|C2) P(C2) = 0.99*0.001+0.01*0.999=0.011 P(C1|T=+)=P(T=+| C1)P(C1)/P(T=+) = 0.99*0.001/0.011 = 0.09, or 9% Kalkulator Baysowski jest tu: http://StatPages.org/bayes.html (c) 1999. Tralvex Yeap. All Rights Reserved

Podsumowanie Chcemy prawd. posterioryczne: Likelihood x Prior _________________ Evidence Minimalizację błędów można robić na wiele sposobów: gdzie Ki(X) = 1 dla X z klasy Ci, lub 0 dla innych klas. Można wprowadzić koszty różnych typów błędów i minimalizować ryzyko używając Bayesowskich procedur. Bezpośrednie oceny prawdopodobieństw dla X o więcej niż 2 wymiarach wymagają zbyt wielu danych, dlatego potrzebny jest model M(w) minimalizujący błędy. (c) 1999. Tralvex Yeap. All Rights Reserved

Ocena modelu: dwa typy błędów Macierz pomyłek (konfuzji) Notacja często używana w aplikacjach medycznych: P++ sukces, true positive (TP); P++/P+ ułamek TP do wszystkich P+; P-- sukces, true negative (TN); P--/P- ułamek TN do wszystkich P- Dokładność = P++ + P-- = 1 - Błąd = 1 - P-+ - P+- P-+ fałszywy alarm, false positive (FP); np. zdrowy uznany za chorego P+- strata, false negative (FN); np. chory uznany za zdrowego. (c) 1999. Tralvex Yeap. All Rights Reserved

Co dalej? Sieć Hamminga – prototypy. Adaline. Learnmatrix. Madaline. (c) 1999. Tralvex Yeap. All Rights Reserved

Koniec wykładu 8 (c) 1999. Tralvex Yeap. All Rights Reserved