WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka Wykład 2 Piotr Gawrysiak pgawrysiak@supermedia.pl 2005
Statystyczne NLP Podejście statystyczne zakłada wykorzystanie metod wnioskowania statystycznego do analizy języka naturalnego Wnioskowanie statystyczne – analiza pewnych danych eksperymentalnych (wyników doświadczenia, odpowiedzi na pytania ankietera itp.), generowanych zgodnie z pewnym nieznanym rozkładem prawdopodobieństwa, w celu określenia cech tego rozkładu Przykład w NLP – modelowanie języka Jak przewidzieć wystąpienie kolejnego słowa w sekwencji słów? Do tego potrzebny jest model generacji słów w języku, określający prawdopodobieństwa wystąpienia pewnych słów pod warunkiem wystąpienia słów poprzedzających.
Rachunek prawdopodobieństwa Zdarzenia losowe, doświadczenia, przestrzenie... Doświadczenie losowe (experiment)– proces, w którym czynione są obserwacje, składa się ze zdarzeń Obserwowane są zdarzenia elementarne (basic outcomes) Przestrzeń /wszystkich możliwych/ zdarzeń elementarnych (sample space) – Ω Przestrzeń Ω może być ciągła (temperatura powietrza, wzrost) lub dyskretna (rzuty kostką, wystąpienia słów) Zdarzenie A – podzbiór Ω Zbiór pusty – zdarzenie niemożliwe, Ω – zdarzenie pewne Przykłady przestrzeni zdarzeń: Rzut monetą: Ω={O,R}, kostką: Ω={1..6} Lotto: |Ω|=106 Błędy ortograficzne: Ω=Z*, gdzie Z – alfabet, Z* - ciągi znaków nad tym alfabetem Brakujące słowa: |Ω|=wielkość słownika
Rachunek prawdopodobieństwa Przykład z rzutem monetą – rzucamy 3 razy: Ω={OOO, OOR, ORO, ROO, RRO, ROR, ORR, RRR} |Ω|=8 Zdarzenie – wyrzucono trzy orły: A1={RRR} Zdarzenie – wyrzucono pod rząd dwie reszki: A2={RRO,ORR,RRR} Zdarzenie – wyrzucono pod rząd cztery orły: A3=ø Zdarzenia to zbiory więc zastosowanie mają operacje teoriomnogościowe – suma zdarzeń (OR), iloczyn zdarzeń (AND), różnica zdarzeń, dopełnienie zdarzeń (zdarzenie przeciwne) itd. Kostka do gry Ω={1..6}, |Ω|=6 Zdarzenie – wyrzucono parzystą liczbę oczek: A4={2,4,6} Zdarzenie przeciwne – wyrzucono nieparzystą liczbę oczek: A5 = Ω-A4 = {1,3,5}
Prawdopodobieństwo Jakie jest prawdopodobieństwo zdarzenia? Powtarzamy eksperyment t razy, zliczając liczbę c wystąpień zdarzenia A Powyższe serie powtarzamy wielokrotnie Wartość ci/ti zbliża się do pewnej (nieznanej a priori) stałej wartości Ta stała wartość to prawdopodobieństwo zdarzenia A, P(A) /Nb. powyższe to definicja częstościowa prawdopodobieństwa, R. von Mises; ponadto np. definicje – geometryczna oraz klasyczna Laplace’a 1812/ Oczywiście w praktyce nie da się przeprowadzić nieskończonej liczby doświadczeń, zatem wartość prawdopodobieństwa możemy jedynie estymować z c1/t1
Prawdopodobieństwo Definicja aksjomatyczna prawdopodobieństwa (Kołmogorowa, 1933) P: F [0,1] P(Ω)=1 Dla rozłącznych zbiorów AjF Z powyższych aksjomatów wynikają własności funkcji prawdopodobieństwa takie jak: P(Ø)=0 ABP(A)P(B)
Prawdopodobieństwo warunkowe Prawdopodobieństwo warunkowe i łączne Niekiedy mamy częściową wiedzę o możliwym wyniku doświadczenia Prawdopodobieństwo zdarzenia A: P(A) (prior probability) Załóżmy, że wiemy iż zaszło zdarzenie B Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, iż zaszło zdarzenie B: P(A|B) (posterior probability) P(A|B) = P(AB)/P(B), P(B)>0 Oczywiście analogicznie P(B|A) = P(AB)/P(A), P(A)>0 zatem P(AB)=P(B)*P(A|B)=P(A)*P(B|A) Gdy są to zdarzenia niezależne /P(A|B)=P(A) itd./ to: P(AB)=P(A)*P(B)
Reguła łańcuchowa Niezależność zdarzeń, reguła łańcuchowa Dwa zdarzenia są niezależne, gdy wystąpienie jednego z nich nie ma wpływu na wystąpienie drugiego: pogoda dzisiaj i 20 września 1800 roku wynik dwóch rzutów monetą każde dwa zdarzenia takie że P(AB)=P(A)*P(B) Zdarzenia mogą być także warunkowo niezależne (conditionally independent): P(AB|C)=P(A|C)*P(B|C) Uogólnienie prawdopodobieństwa warunkowego – reguła łańcuchowa
Wzór Bayesa Wzór Bayesa (Bayes Theorem) Wzór Bayesa pozwala nam odwrócić stosunek zależności pomiędzy zdarzeniami – czyli obliczyć P(B|A) gdy znane jest P(A|B) Gdy nie znamy P(A) Czasem możemy mianownik zignorować – gdy interesuje nas tylko określenie najbardziej prawdopodobnego zdarzenia ze zbioru zdarzeń zależnych od A Ew. P(A) = P(A B) + P(A B) = P(A|B)P(B)+P(A|B)P(B) „Golden Rule of SNLP” Dzielimy zbiór A na dwie rozłączne części – z których jedna oczywiście może być zbiorem pustym
Wzór Bayesa Z czego wynika bardziej ogólna postać wzoru Bayesa: A jest dzielony na i rozłącznych podzbiorów Przykład: S: zdrętwienie mięśni szyi, M: zapalenie opon mózgowych P(S|M) =0.5, P(M) = 1/50000, P(S)=1/20 Czujemy że drętwieje nam szyja, czy to powód do niepokoju?
Wzór Bayesa Przykład 2: Mamy „prawie dobry algorytm wykrywający konstrukcję typu parasitic gap” : Which book did she review __ without reading __? Algorytm myli się „w obie strony” G: w zdaniu jest parasitic gap, T: algorytm wykrył pg P(G) =0.00001, P(T|G)=0.95, P(T|G)=0.005 Algorytm wykrył pg, czy pg jest rzeczywiście w zdaniu?
Zmienne losowe Dla każdego doświadczenia przestrzeń zdarzeń elementarnych może być inna Zmienne losowe pozwalają nam analizować prawdopodobieństwa dla wartości numerycznych Zmienna losowa – funkcja X taka że: zmienna losowa ciągła zmienna losowa dyskretna, skokowa (discreet random variable), S – przeliczalny podzbiór R próba Bernouliego
Zmienne losowe Funkcja rozkładu prawdopodobieństwa, rozkład prawdopodobieństwa (probability mass function, pmf) pmf określa prawdopodobieństwo przyjęcia pewnej wartości przez zmienną losową np. dla trzech rzutów monetą, X~liczba orłów: Wartość oczekiwana (expectation) – średnia wartości zmiennej losowej (xi) 1 2 3 P(Axi) 1/8 3/8 Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4
Zmienne losowe Własności wartości oczekiwanej E(X+Y) = E(X) + E(Y) E(XY) = E(X)*E(Y) jeśli zmienne losowe X i Y są niezależne Wariancja (variance) – określa na ile wartości zmiennej losowej odchylają się od średniej Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych
Modele probabilistyczne w NLP Przy analizie danych tekstowych (zakładając istnienie procesu stochastycznego generującego dane) nie znamy zwykle pmf Należy zatem estymować pmf analizując próbki danych Podejście bayesowskie Podejście częstościowe Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych
Podejście częstościowe Zgodnie z definicją częstościową Częstość względna: proporcja wystąpień zdarzenia do liczby wszystkich zdarzeń C(u) liczba wystąpień zdarzenia w N próbach Dla względna częstość dąży do pewnej wartości, będącej oszacowaniem prawdopodobieństwa Dwie metody – parametryczna i bezparametryczna Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych
Metoda parametryczna i bezparam. Zakładamy iż jakiś proces w języku jest poprawnie modelowany jednym ze znanych rozkładów statystycznych (rozkład statystyczny – rodzina parametryzowanych pmf) takich jak rozkład normalny, dwumianowy itd. Znając naturę procesu pozostaje ustalić jedynie parametry rozkładu, do czego potrzeba stosunkowo niewiele danych Metoda bezparametryczna: Nie przyjmujemy żadnych założeń dotyczących rozkładu analizowanych danych pmf należy estymować empirycznie, analizując dużą ilość danych -> zwykle otrzymamy rozkład dyskretnym, ale możemy go przekształcać w ciągły przez interpolację Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych
Przykłady rozkładów Rozkład dwumianowy Seria doświadczeń o dwóch możliwych wynikach (próby Bernouliego) niezależnych od siebie r – liczba sukcesów w n próbach p - prawdopodobieństwo sukcesu w jednej próbie (np. zmienna losowa R, r=liczba orłów w n rzutach nieuczciwą monetą) W zastosowaniach w NLP – często przyjmuje się przybliżenie o niezależności występowania słów (zdań) w tekście. Wtedy rozkład dwumianowy może mieć zastosowanie. Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych Parametry
Rozkład dwumianowy Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych Inne rozkłady dyskretne: Poissona, Bernoulliego b(r;1,p), wielomianowe
Przykłady rozkładów cd. Rozkład normalny Rozkład ciągły Parametry – średnia i odchylenie standardowe Krzywa Gaussa – dzwonowa W NLP rozkłady ciągłe niezbyt użyteczne – dziedzina (słowa) jest bowiem z natury dyskretna, chociaż też się przydają W statystyce rozkład dwumianowy aproksymuje się zwykle normalnym – co jest uzasadnione, gdy oba prawdopodobieństwa są zbliżone – co może nie być prawdą w wielu metodach NLP Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych
Rozkład normalny Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych
Podejście częstościowe D: dane M: model (rodzina pmf) Θ: parametry (np. μ, σ) Dla ustalonego M : maximum likelihood estimate (MLE) wybieramy parametry takie, że: Wybór modelu podobnie: Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych
Podejście Bayesowskie W statystyce Bayesowskiej obliczamy stopnie ufności, wychodząc z pierwotnych wartości prawdopodobieństwa (prior beliefs) i dokonując ich uaktualnienia w świetle nowych faktów (zdarzeń) Przykład: 10 rzutów monetą, 8 orłów Um – model taki że P(orzeł) = m s – sekwencja rzutów gdzie i orłów i j reszek Załóżmy jednak, iż mieliśmy uprzednie przekonanie o jakości monety (tj. iż była uczciwa) I chcemy je zweryfikować po dokonaniu doświadczenia: Maksimum w 0.5 Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych