formalnie: Naiwny klasyfikator Bayesa

Slides:



Advertisements
Podobne prezentacje
Leszek Smolarek Akademia Morska w Gdyni 2005/2006
Advertisements

Test zgodności c2.
Statystyka Wojciech Jawień
Instrukcje - wprowadzenie
Analiza współzależności zjawisk
Metody Analizy Programów Wykład 02
Wprowadzenie do optymalizacji wielokryterialnej.
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Inteligencja Obliczeniowa Metody probabilistyczne.
Struktura problemu decyzyjnego
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
Liniowość - kryterium Kryterium Znane jako zasada superpozycji
KNW- Wykład 8 Wnioskowanie rozmyte.
Elementy Modelowania Matematycznego
Elementy Modelowania Matematycznego
Test zgodności Joanna Tomanek i Piotr Nowak.
Statystyka w doświadczalnictwie
Algorytm Rochio’a.
Wprowadzenie do budowy usług informacyjnych
OPIS SEPARACJI JAKO KLASYFIKACJA
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Elementy Rachunku Prawdopodobieństwa c.d.
Eksperymentalna ocena jakości rozpoznawania
I T P W ZPT 1 Jak smakuje Espresso I T P W ZPT 2.
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Linear Methods of Classification
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Microsoft Office Excel
Ocena przydatności algorytmu – czas działania (złożoność czasowa)
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Elementy Rachunku Prawdopodobieństwa i Statystyki
formalnie: Uczenie nienadzorowane
nieformalnie: Prawie o tym jak mierzyć zawartość cukru w cukrze...
Wspomaganie decyzji nie zwalnia od decyzji...
Sieci bayesowskie Wykonali: Mateusz Kaflowski Michał Grabarczyk.
Techniki eksploracji danych
formalnie: Rozmyte systemy wnioskujące
RACHUNEK PRAWDOPODOBIEŃSTWA
Hipotezy statystyczne
DOŚWIADCZENIA LOSOWE.
Marcin Jaruszewicz Jacek Mańdziuk
A. Jędryczkowski – 2007 r.. Algorytmem nazwiemy ścisły przepis postępowania, którego wykonanie gwarantuje otrzymanie danych wynikowych z dostarczonych.
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Testowanie hipotez statystycznych
Co to jest dystrybuanta?
siła cz.IV W części IV prezentacji: treść II zasady dynamiki
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski.
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
WYKŁAD Teoria błędów Katedra Geodezji im. K. Weigla ul. Poznańska 2
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Formalnie: Pamięci asocjacyjne Dorota Cendrowska nieformalnie: (???) To miasto było na ‘K’... Na pewno na ‘K’! (???) Mam! To było Świnoujście...
formalnie: Sieci jednokierunkowe: architektura, uczenie, zastosowania
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
Zapis prezentacji:

formalnie: Naiwny klasyfikator Bayesa Dorota Cendrowska nieformalnie: Nienaiwnie naiwny, ale działa...

Plan wykładu mało przydatny element „klasyki” probabilistyki twierdzenie Bayesa odkryte na nowo klasyfikator Bayesa: założenia własności złożoność praktyczne uwagi implementacyjne zastosowania

Z pewnością liczone nie raz... ale po co? pewne twierdzenie: znane zastosowanie: W koszyczku Czerwonego Kapturka znajduje się właściwa liczba magicznych kul w kolorze zielonym i białym. Jakie jest prawdopodobieństwo wyjęcia białej kuli, skoro w ręku Wilk ma już zieloną?

Do czego może się przydać tfuu... Bayes? stare, dobre twierdzenie Bayesa:

Do czego może się przydać tfuu... Bayes? stare, dobre twierdzenie Bayesa: odrobina manewrów:

Do czego może się przydać tfuu... Bayes? stare, dobre twierdzenie Bayesa: odrobina manewrów: miłe konsekwencje:

Martyrologia matrymonialna… Bayesa ;) konsekwencje: znaczenie, ilustracja (ciut drastyczna):  P(miły facet/„jej” mąż) P(„jej” mąż/miły facet)

Bayes i XX wiek... konsekwencje:

Bayes i XX wiek... konsekwencje:

Gdyby A i B nabrało rumieńców?

Gdyby A i B nabrało rumieńców?

Gdyby A i B nabrało rumieńców?

Naiwny klasyfikator Bayesa Własności (I): hipotezy o przynależności do danej klasy są tworzone tylko i wyłącznie na podstawie zbioru uczącego poprzez wyznaczanie pewnych prawdopodobieństw (rozumianych jako częstości). Złożoność obliczeniowa O(nm) (n: liczba atrybutów, m: rozmiar zbioru uczącego). Najlepszy (!) wynik dla algorytmu uwzględniającego wszystkie wiersze i atrybuty zbioru uczącego.

Klasyfikator Bayesa i... prawdopodobieństwo Prawdopodobieństwo nie jest wyznaczane na podstawie rozkładu, bo ten nie jest znany! Prawdopodobieństwo liczone jest jako częstość występowania danej cechy w zbiorze uczącym, na przykład:

Naiwny klasyfikator Bayesa Założenie: atrybuty są zmiennymi losowymi wzajemnie niezależnymi, tj.: w konsekwencji: Założenie to zwykle jest nieprawdziwe, ale nie zmienia to faktu, że naiwny klasyfikator Bayesa jest jednym z optymalniejszych.

Naiwny klasyfikator Bayesa (teoretycznie)

Naiwny klasyfikator Bayesa (teoretycznie)

Naiwny klasyfikator Bayesa (teoretycznie)

Naiwny klasyfikator Bayesa (teoretycznie)

Naiwny klasyfikator Bayesa (teoretycznie)

Naiwny klasyfikator Bayesa (teoretycznie)

Naiwny klasyfikator Bayesa (teoretycznie) szukane max(P(B/A), czyli:

Naiwny klasyfikator Bayesa (teoretycznie) Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (teoretycznie) Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (teoretycznie) 2 9 A1 A2 A3 2 9 Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (teoretycznie) 2 5 9 9 A1 A2 A3 2 9 Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (teoretycznie) 0,09293 2 5 9 9 9 12 A1 A2 A3 2 9 Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (teoretycznie) 0,09293 2 5 9 9 9 12 1 A1 A2 A3 2 3 9 Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (teoretycznie) 0,09293 2 5 9 9 9 12 1 A1 A2 A3 2 3 3 9 Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (teoretycznie) 0,09293 2 5 9 9 9 12 0,00000 1 3 A1 A2 A3 2 3 3 12 9 Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (teoretycznie) 0,09293 2 5 9 9 9 12 0,00000 1 3 A1 A2 A3 2 3 3 12 9 Klasyfikacja oznacza wybór kategorii najbardziej prawdopodobnej na podstawie wyliczonych względnych częstości.

Naiwny klasyfikator Bayesa (implementacja) Implementacji podlega obliczenie „prawdopodobieństw” — częstości wystąpień w zbiorze uczącym: gdzie d przyjmuje wszystkie wartości atrybutu szukanego. Własności (II): Prosty zestaw operacji. Suma sumarum: najefektywniejszy obliczeniowo algorytm uczenia.

Naiwny klasyfikator Bayesa (praktycznie) 0,09293 2 5 9 9 9 12 0,00000 1 3 A1 A2 A3 2 3 3 12 ? 9 czy zbiór „dość” reprezentatywny?

Bayes, prawdopodobieństwa i zbiory danych Przykład: dane dotyczące samochodów: 1728 wierszy danych, 6 atrybutów każdy atrybuty jakościowe: buying v-high, high, med, low maint v-high, high, med, low doors 2, 3, 4, 5-more persons 2, 4, more boot small, med, big safety low, med, high klasy: unacc, acc, good, v-good

Terminy... Arność atrybutu jakościowego — liczba różnych wartości jakie może przyjąć atrybut, na przykład: (arność=4) buying v-high, high, med, low (arność=4) maint v-high, high, med, low (arność=4) doors 2, 3, 4, 5-more (arność=3) persons 2, 4, more (arność=3) boot small, med, big (arność=3) safety low, med, high (arność=4) klasy: unacc, acc, good, v-good Arność — |A| — musi być znana, choć nie musi być w pełni reprezentowana w zbiorze uczącym.

Naiwny klasyfikator Bayesa (praktycznie) 0,09293 2 5 9 9 9 12 0,00000 1 3 A1 A2 A3 2 3 3 12 ? 9 czy zbiór „dość” reprezentatywny?

Naiwny klasyfikator Bayesa (implementacja) Uwzględniając niereprezentatywność poszczególnych wartości atrybutów „prawdopodobieństwa” obliczane są według wzorów:

Po co arność? Aby wiedzieć ile prawdopodobieństw należy policzyć:

Naiwny klasyfikator Bayesa (praktycznie) 0,07212 2+1 5+1 9+1 9+4 9+3 12+4 0,01191 1+1 0+1 3+1 2 3+4 3+3 12+4 9 0+1 0+1 0+1 0+4 0+3 12+4 0,00520

Naiwny klasyfikator Bayesa Własności (III): Nieznane wartości atrybutów klasyfikowanego przykładu nie stanowią problemu dla klasyfikatora Bayesa. Można przyjąć: innymi słowy: atrybut ten nie jest uwzględniany w części warunkowej: wniosek: algorytm może być użyty do uzupełniania atrybutów jakościowych.

Własność III (praktycznie) Aby wiedzieć ile prawdopodobieństw należy policzyć:

Naiwny klasyfikator Bayesa (praktycznie) Własności (IV): Klasyfikator może zwracać wartość „nie wiem” w przypadku, gdy różnica maksymalnej wartości prawdopodobieństwa i kolejnej największej wartości prawdopodobieństwa jest mniejsza niż przyjęte .

Naiwny klasyfikator Bayesa (praktycznie) Własności (IV): Klasyfikator może zwracać wartość „nie wiem” w przypadku, gdy różnica maksymalnej wartości prawdopodobieństwa i kolejnej największej wartości prawdopodobieństwa jest mniejsza niż przyjęte . 0,07212 0,01191 0,00520 „nie wiem” dla =0,065

jak zwykle, zamiast zakończenia... filozoficznie: — Wie pani — powiedział do pani Bird, gdy przyszła do jadalni, by sprawdzić, czy już zjadł grzankę z marmoladą — nigdy dotąd nie zrobiłem wszystkiego, bo gdybym zrobił, to nie czekałyby mnie już żadne niespodzianki. fragment okładki i książki pt. „Paddington daje sobie radę” (autor: Michael Bond)