Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka

Podobne prezentacje


Prezentacja na temat: "WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka"— Zapis prezentacji:

1 WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka
Wykład 2 Piotr Gawrysiak 2005

2 Statystyczne NLP Podejście statystyczne zakłada wykorzystanie metod wnioskowania statystycznego do analizy języka naturalnego Wnioskowanie statystyczne – analiza pewnych danych eksperymentalnych (wyników doświadczenia, odpowiedzi na pytania ankietera itp.), generowanych zgodnie z pewnym nieznanym rozkładem prawdopodobieństwa, w celu określenia cech tego rozkładu Przykład w NLP – modelowanie języka Jak przewidzieć wystąpienie kolejnego słowa w sekwencji słów? Do tego potrzebny jest model generacji słów w języku, określający prawdopodobieństwa wystąpienia pewnych słów pod warunkiem wystąpienia słów poprzedzających.

3 Rachunek prawdopodobieństwa
Zdarzenia losowe, doświadczenia, przestrzenie... Doświadczenie losowe (experiment)– proces, w którym czynione są obserwacje, składa się ze zdarzeń Obserwowane są zdarzenia elementarne (basic outcomes) Przestrzeń /wszystkich możliwych/ zdarzeń elementarnych (sample space) – Ω Przestrzeń Ω może być ciągła (temperatura powietrza, wzrost) lub dyskretna (rzuty kostką, wystąpienia słów) Zdarzenie A – podzbiór Ω Zbiór pusty – zdarzenie niemożliwe, Ω – zdarzenie pewne Przykłady przestrzeni zdarzeń: Rzut monetą: Ω={O,R}, kostką: Ω={1..6} Lotto: |Ω|=106 Błędy ortograficzne: Ω=Z*, gdzie Z – alfabet, Z* - ciągi znaków nad tym alfabetem Brakujące słowa: |Ω|=wielkość słownika

4 Rachunek prawdopodobieństwa
Przykład z rzutem monetą – rzucamy 3 razy: Ω={OOO, OOR, ORO, ROO, RRO, ROR, ORR, RRR} |Ω|=8 Zdarzenie – wyrzucono trzy orły: A1={RRR} Zdarzenie – wyrzucono pod rząd dwie reszki: A2={RRO,ORR,RRR} Zdarzenie – wyrzucono pod rząd cztery orły: A3=ø Zdarzenia to zbiory więc zastosowanie mają operacje teoriomnogościowe – suma zdarzeń (OR), iloczyn zdarzeń (AND), różnica zdarzeń, dopełnienie zdarzeń (zdarzenie przeciwne) itd. Kostka do gry Ω={1..6}, |Ω|=6 Zdarzenie – wyrzucono parzystą liczbę oczek: A4={2,4,6} Zdarzenie przeciwne – wyrzucono nieparzystą liczbę oczek: A5 = Ω-A4 = {1,3,5}

5 Prawdopodobieństwo Jakie jest prawdopodobieństwo zdarzenia?
Powtarzamy eksperyment t razy, zliczając liczbę c wystąpień zdarzenia A Powyższe serie powtarzamy wielokrotnie Wartość ci/ti zbliża się do pewnej (nieznanej a priori) stałej wartości Ta stała wartość to prawdopodobieństwo zdarzenia A, P(A) /Nb. powyższe to definicja częstościowa prawdopodobieństwa, R. von Mises; ponadto np. definicje – geometryczna oraz klasyczna Laplace’a 1812/ Oczywiście w praktyce nie da się przeprowadzić nieskończonej liczby doświadczeń, zatem wartość prawdopodobieństwa możemy jedynie estymować z c1/t1

6 Prawdopodobieństwo Definicja aksjomatyczna prawdopodobieństwa
(Kołmogorowa, 1933) P: F [0,1] P(Ω)=1 Dla rozłącznych zbiorów AjF Z powyższych aksjomatów wynikają własności funkcji prawdopodobieństwa takie jak: P(Ø)=0 ABP(A)P(B)

7 Prawdopodobieństwo warunkowe
Prawdopodobieństwo warunkowe i łączne Niekiedy mamy częściową wiedzę o możliwym wyniku doświadczenia Prawdopodobieństwo zdarzenia A: P(A) (prior probability) Załóżmy, że wiemy iż zaszło zdarzenie B Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, iż zaszło zdarzenie B: P(A|B) (posterior probability) P(A|B) = P(AB)/P(B), P(B)>0 Oczywiście analogicznie P(B|A) = P(AB)/P(A), P(A)>0 zatem P(AB)=P(B)*P(A|B)=P(A)*P(B|A) Gdy są to zdarzenia niezależne /P(A|B)=P(A) itd./ to: P(AB)=P(A)*P(B)

8 Reguła łańcuchowa Niezależność zdarzeń, reguła łańcuchowa
Dwa zdarzenia są niezależne, gdy wystąpienie jednego z nich nie ma wpływu na wystąpienie drugiego: pogoda dzisiaj i 20 września 1800 roku wynik dwóch rzutów monetą każde dwa zdarzenia takie że P(AB)=P(A)*P(B) Zdarzenia mogą być także warunkowo niezależne (conditionally independent): P(AB|C)=P(A|C)*P(B|C) Uogólnienie prawdopodobieństwa warunkowego – reguła łańcuchowa

9 Wzór Bayesa Wzór Bayesa (Bayes Theorem)
Wzór Bayesa pozwala nam odwrócić stosunek zależności pomiędzy zdarzeniami – czyli obliczyć P(B|A) gdy znane jest P(A|B) Gdy nie znamy P(A) Czasem możemy mianownik zignorować – gdy interesuje nas tylko określenie najbardziej prawdopodobnego zdarzenia ze zbioru zdarzeń zależnych od A Ew. P(A) = P(A  B) + P(A  B) = P(A|B)P(B)+P(A|B)P(B) „Golden Rule of SNLP” Dzielimy zbiór A na dwie rozłączne części – z których jedna oczywiście może być zbiorem pustym

10 Wzór Bayesa Z czego wynika bardziej ogólna postać wzoru Bayesa: A jest dzielony na i rozłącznych podzbiorów Przykład: S: zdrętwienie mięśni szyi, M: zapalenie opon mózgowych P(S|M) =0.5, P(M) = 1/50000, P(S)=1/20 Czujemy że drętwieje nam szyja, czy to powód do niepokoju?

11 Wzór Bayesa Przykład 2: Mamy „prawie dobry algorytm wykrywający konstrukcję typu parasitic gap” : Which book did she review __ without reading __? Algorytm myli się „w obie strony” G: w zdaniu jest parasitic gap, T: algorytm wykrył pg P(G) = , P(T|G)=0.95, P(T|G)=0.005 Algorytm wykrył pg, czy pg jest rzeczywiście w zdaniu?

12 Zmienne losowe Dla każdego doświadczenia przestrzeń zdarzeń elementarnych może być inna Zmienne losowe pozwalają nam analizować prawdopodobieństwa dla wartości numerycznych Zmienna losowa – funkcja X taka że: zmienna losowa ciągła zmienna losowa dyskretna, skokowa (discreet random variable), S – przeliczalny podzbiór R próba Bernouliego

13 Zmienne losowe Funkcja rozkładu prawdopodobieństwa, rozkład prawdopodobieństwa (probability mass function, pmf) pmf określa prawdopodobieństwo przyjęcia pewnej wartości przez zmienną losową np. dla trzech rzutów monetą, X~liczba orłów: Wartość oczekiwana (expectation) – średnia wartości zmiennej losowej (xi) 1 2 3 P(Axi) 1/8 3/8 Expectation dla powyższego przykładu = ( )/4=6/4

14 Zmienne losowe Własności wartości oczekiwanej E(X+Y) = E(X) + E(Y)
E(XY) = E(X)*E(Y) jeśli zmienne losowe X i Y są niezależne Wariancja (variance) – określa na ile wartości zmiennej losowej odchylają się od średniej Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

15 Modele probabilistyczne w NLP
Przy analizie danych tekstowych (zakładając istnienie procesu stochastycznego generującego dane) nie znamy zwykle pmf Należy zatem estymować pmf analizując próbki danych Podejście bayesowskie Podejście częstościowe Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

16 Podejście częstościowe
Zgodnie z definicją częstościową Częstość względna: proporcja wystąpień zdarzenia do liczby wszystkich zdarzeń C(u) liczba wystąpień zdarzenia w N próbach Dla względna częstość dąży do pewnej wartości, będącej oszacowaniem prawdopodobieństwa Dwie metody – parametryczna i bezparametryczna Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

17 Metoda parametryczna i bezparam.
Zakładamy iż jakiś proces w języku jest poprawnie modelowany jednym ze znanych rozkładów statystycznych (rozkład statystyczny – rodzina parametryzowanych pmf) takich jak rozkład normalny, dwumianowy itd. Znając naturę procesu pozostaje ustalić jedynie parametry rozkładu, do czego potrzeba stosunkowo niewiele danych Metoda bezparametryczna: Nie przyjmujemy żadnych założeń dotyczących rozkładu analizowanych danych pmf należy estymować empirycznie, analizując dużą ilość danych -> zwykle otrzymamy rozkład dyskretnym, ale możemy go przekształcać w ciągły przez interpolację Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

18 Przykłady rozkładów Rozkład dwumianowy
Seria doświadczeń o dwóch możliwych wynikach (próby Bernouliego) niezależnych od siebie r – liczba sukcesów w n próbach p - prawdopodobieństwo sukcesu w jednej próbie (np. zmienna losowa R, r=liczba orłów w n rzutach nieuczciwą monetą) W zastosowaniach w NLP – często przyjmuje się przybliżenie o niezależności występowania słów (zdań) w tekście. Wtedy rozkład dwumianowy może mieć zastosowanie. Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych Parametry

19 Rozkład dwumianowy Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych Inne rozkłady dyskretne: Poissona, Bernoulliego b(r;1,p), wielomianowe

20 Przykłady rozkładów cd.
Rozkład normalny Rozkład ciągły Parametry – średnia i odchylenie standardowe Krzywa Gaussa – dzwonowa W NLP rozkłady ciągłe niezbyt użyteczne – dziedzina (słowa) jest bowiem z natury dyskretna, chociaż też się przydają W statystyce rozkład dwumianowy aproksymuje się zwykle normalnym – co jest uzasadnione, gdy oba prawdopodobieństwa są zbliżone – co może nie być prawdą w wielu metodach NLP Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

21 Rozkład normalny Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

22 Podejście częstościowe
D: dane M: model (rodzina pmf) Θ: parametry (np. μ, σ) Dla ustalonego M : maximum likelihood estimate (MLE) wybieramy parametry takie, że: Wybór modelu podobnie: Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

23 Podejście Bayesowskie
W statystyce Bayesowskiej obliczamy stopnie ufności, wychodząc z pierwotnych wartości prawdopodobieństwa (prior beliefs) i dokonując ich uaktualnienia w świetle nowych faktów (zdarzeń) Przykład: 10 rzutów monetą, 8 orłów Um – model taki że P(orzeł) = m s – sekwencja rzutów gdzie i orłów i j reszek Załóżmy jednak, iż mieliśmy uprzednie przekonanie o jakości monety (tj. iż była uczciwa) I chcemy je zweryfikować po dokonaniu doświadczenia: Maksimum w 0.5 Expectation dla powyższego przykładu = ( )/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych


Pobierz ppt "WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka"

Podobne prezentacje


Reklamy Google