Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

WUT TWG 2005 WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka Wykład 2 Piotr Gawrysiak 2005.

Podobne prezentacje


Prezentacja na temat: "WUT TWG 2005 WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka Wykład 2 Piotr Gawrysiak 2005."— Zapis prezentacji:

1 WUT TWG 2005 WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka Wykład 2 Piotr Gawrysiak 2005

2 WUT TWG 2005 Statystyczne NLP Podejście statystyczne zakłada wykorzystanie metod wnioskowania statystycznego do analizy języka naturalnego Wnioskowanie statystyczne – analiza pewnych danych eksperymentalnych (wyników doświadczenia, odpowiedzi na pytania ankietera itp.), generowanych zgodnie z pewnym nieznanym rozkładem prawdopodobieństwa, w celu określenia cech tego rozkładu Przykład w NLP – modelowanie języka Jak przewidzieć wystąpienie kolejnego słowa w sekwencji słów? Do tego potrzebny jest model generacji słów w języku, określający prawdopodobieństwa wystąpienia pewnych słów pod warunkiem wystąpienia słów poprzedzających.

3 WUT TWG 2005 Rachunek prawdopodobieństwa Zdarzenia losowe, doświadczenia, przestrzenie... Doświadczenie losowe (experiment)– proces, w którym czynione są obserwacje, składa się ze zdarzeń Obserwowane są zdarzenia elementarne (basic outcomes) Przestrzeń /wszystkich możliwych/ zdarzeń elementarnych (sample space) – Ω Przestrzeń Ω może być ciągła (temperatura powietrza, wzrost) lub dyskretna (rzuty kostką, wystąpienia słów) Zdarzenie A – podzbiór Ω Zbiór pusty – zdarzenie niemożliwe, Ω – zdarzenie pewne Przykłady przestrzeni zdarzeń: Rzut monetą: Ω={O,R}, kostką: Ω={1..6} Lotto: |Ω|=10 6 Błędy ortograficzne: Ω=Z*, gdzie Z – alfabet, Z* - ciągi znaków nad tym alfabetem Brakujące słowa: |Ω|=wielkość słownika

4 WUT TWG 2005 Rachunek prawdopodobieństwa Przykład z rzutem monetą – rzucamy 3 razy: Ω={OOO, OOR, ORO, ROO, RRO, ROR, ORR, RRR} |Ω|=8 Zdarzenie – wyrzucono trzy orły: A 1 ={RRR} Zdarzenie – wyrzucono pod rząd dwie reszki: A 2 ={RRO,ORR,RRR} Zdarzenie – wyrzucono pod rząd cztery orły: A 3 =ø Zdarzenia to zbiory więc zastosowanie mają operacje teoriomnogościowe – suma zdarzeń (OR), iloczyn zdarzeń (AND), różnica zdarzeń, dopełnienie zdarzeń (zdarzenie przeciwne) itd. Kostka do gry Ω={1..6}, |Ω|=6 Zdarzenie – wyrzucono parzystą liczbę oczek: A 4 ={2,4,6} Zdarzenie przeciwne – wyrzucono nieparzystą liczbę oczek: A5 = Ω-A4 = {1,3,5}

5 WUT TWG 2005 Prawdopodobieństwo Jakie jest prawdopodobieństwo zdarzenia? Powtarzamy eksperyment t razy, zliczając liczbę c wystąpień zdarzenia A Powyższe serie powtarzamy wielokrotnie Wartość c i /t i zbliża się do pewnej (nieznanej a priori) stałej wartości Ta stała wartość to prawdopodobieństwo zdarzenia A, P(A) /Nb. powyższe to definicja częstościowa prawdopodobieństwa, R. von Mises; ponadto np. definicje – geometryczna oraz klasyczna Laplacea 1812/ Oczywiście w praktyce nie da się przeprowadzić nieskończonej liczby doświadczeń, zatem wartość prawdopodobieństwa możemy jedynie estymować z c 1 /t 1

6 WUT TWG 2005 Prawdopodobieństwo Definicja aksjomatyczna prawdopodobieństwa (Kołmogorowa, 1933) P: F [0,1] P(Ω)=1 Dla rozłącznych zbiorów Aj F Z powyższych aksjomatów wynikają własności funkcji prawdopodobieństwa takie jak: P(Ø)=0 A B P(A) P(B)

7 WUT TWG 2005 Prawdopodobieństwo warunkowe Prawdopodobieństwo warunkowe i łączne Niekiedy mamy częściową wiedzę o możliwym wyniku doświadczenia Prawdopodobieństwo zdarzenia A: P(A) (prior probability) Załóżmy, że wiemy iż zaszło zdarzenie B Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, iż zaszło zdarzenie B: P(A|B) (posterior probability) P(A|B) = P(A B)/P(B), P(B)>0 Oczywiście analogicznie P(B|A) = P(A B)/P(A), P(A)>0 zatem P(A B)=P(B)*P(A|B)=P(A)*P(B|A) Gdy są to zdarzenia niezależne /P(A|B)=P(A) itd./ to: P(A B)=P(A)*P(B)

8 WUT TWG 2005 Reguła łańcuchowa Niezależność zdarzeń, reguła łańcuchowa Dwa zdarzenia są niezależne, gdy wystąpienie jednego z nich nie ma wpływu na wystąpienie drugiego: pogoda dzisiaj i 20 września 1800 roku wynik dwóch rzutów monetą każde dwa zdarzenia takie że P(A B)=P(A)*P(B) Zdarzenia mogą być także warunkowo niezależne (conditionally independent): P(A B|C)=P(A|C)*P(B|C) Uogólnienie prawdopodobieństwa warunkowego – reguła łańcuchowa

9 WUT TWG 2005 Wzór Bayesa Wzór Bayesa (Bayes Theorem) Wzór Bayesa pozwala nam odwrócić stosunek zależności pomiędzy zdarzeniami – czyli obliczyć P(B|A) gdy znane jest P(A|B) Gdy nie znamy P(A) Czasem możemy mianownik zignorować – gdy interesuje nas tylko określenie najbardziej prawdopodobnego zdarzenia ze zbioru zdarzeń zależnych od A Ew. P(A) = P(A B) + P(A B) = P(A|B)P(B)+P(A|B)P(B) Dzielimy zbiór A na dwie rozłączne części – z których jedna oczywiście może być zbiorem pustym Golden Rule of SNLP

10 WUT TWG 2005 Wzór Bayesa Z czego wynika bardziej ogólna postać wzoru Bayesa: A jest dzielony na i rozłącznych podzbiorów Przykład: S: zdrętwienie mięśni szyi, M: zapalenie opon mózgowych P(S|M) =0.5, P(M) = 1/50000, P(S)=1/20 Czujemy że drętwieje nam szyja, czy to powód do niepokoju?

11 WUT TWG 2005 Wzór Bayesa Przykład 2: Mamy prawie dobry algorytm wykrywający konstrukcję typu parasitic gap : Which book did she review __ without reading __? Algorytm myli się w obie strony G: w zdaniu jest parasitic gap, T: algorytm wykrył pg P(G) = , P(T|G)=0.95, P(T|G)=0.005 Algorytm wykrył pg, czy pg jest rzeczywiście w zdaniu?

12 WUT TWG 2005 Zmienne losowe Dla każdego doświadczenia przestrzeń zdarzeń elementarnych może być inna Zmienne losowe pozwalają nam analizować prawdopodobieństwa dla wartości numerycznych Zmienna losowa – funkcja X taka że: zmienna losowa dyskretna, skokowa (discreet random variable), S – przeliczalny podzbiór R zmienna losowa ciągła próba Bernouliego

13 WUT TWG 2005 Zmienne losowe Funkcja rozkładu prawdopodobieństwa, rozkład prawdopodobieństwa (probability mass function, pmf) pmf określa prawdopodobieństwo przyjęcia pewnej wartości przez zmienną losową np. dla trzech rzutów monetą, X~liczba orłów: Wartość oczekiwana (expectation) – średnia wartości zmiennej losowej (x i )0123 P(A xi )1/83/8 1/8

14 WUT TWG 2005 Zmienne losowe Własności wartości oczekiwanej E(X+Y) = E(X) + E(Y) E(XY) = E(X)*E(Y) jeśli zmienne losowe X i Y są niezależne Wariancja (variance) – określa na ile wartości zmiennej losowej odchylają się od średniej

15 WUT TWG 2005 Modele probabilistyczne w NLP Przy analizie danych tekstowych (zakładając istnienie procesu stochastycznego generującego dane) nie znamy zwykle pmf Należy zatem estymować pmf analizując próbki danych Podejście bayesowskiePodejście częstościowe

16 WUT TWG 2005 Podejście częstościowe Zgodnie z definicją częstościową Częstość względna: proporcja wystąpień zdarzenia do liczby wszystkich zdarzeń C(u) liczba wystąpień zdarzenia w N próbach Dla względna częstość dąży do pewnej wartości, będącej oszacowaniem prawdopodobieństwa Dwie metody – parametryczna i bezparametryczna

17 WUT TWG 2005 Metoda parametryczna i bezparam. Metoda parametryczna: Zakładamy iż jakiś proces w języku jest poprawnie modelowany jednym ze znanych rozkładów statystycznych (rozkład statystyczny – rodzina parametryzowanych pmf) takich jak rozkład normalny, dwumianowy itd. Znając naturę procesu pozostaje ustalić jedynie parametry rozkładu, do czego potrzeba stosunkowo niewiele danych Metoda bezparametryczna: Nie przyjmujemy żadnych założeń dotyczących rozkładu analizowanych danych pmf należy estymować empirycznie, analizując dużą ilość danych -> zwykle otrzymamy rozkład dyskretnym, ale możemy go przekształcać w ciągły przez interpolację

18 WUT TWG 2005 Przykłady rozkładów Rozkład dwumianowy Seria doświadczeń o dwóch możliwych wynikach (próby Bernouliego) niezależnych od siebie r – liczba sukcesów w n próbach p - prawdopodobieństwo sukcesu w jednej próbie (np. zmienna losowa R, r=liczba orłów w n rzutach nieuczciwą monetą) W zastosowaniach w NLP – często przyjmuje się przybliżenie o niezależności występowania słów (zdań) w tekście. Wtedy rozkład dwumianowy może mieć zastosowanie. Parametry

19 WUT TWG 2005 Rozkład dwumianowy Inne rozkłady dyskretne: Poissona, Bernoulliego b(r;1,p), wielomianowe

20 WUT TWG 2005 Przykłady rozkładów cd. Rozkład normalny Rozkład ciągły Parametry – średnia i odchylenie standardowe Krzywa Gaussa – dzwonowa W NLP rozkłady ciągłe niezbyt użyteczne – dziedzina (słowa) jest bowiem z natury dyskretna, chociaż też się przydają W statystyce rozkład dwumianowy aproksymuje się zwykle normalnym – co jest uzasadnione, gdy oba prawdopodobieństwa są zbliżone – co może nie być prawdą w wielu metodach NLP

21 WUT TWG 2005 Rozkład normalny

22 WUT TWG 2005 Podejście częstościowe D: dane M: model (rodzina pmf) Θ: parametry (np. μ, σ) Dla ustalonego M : maximum likelihood estimate (MLE) wybieramy parametry takie, że: Wybór modelu podobnie:

23 WUT TWG 2005 Podejście Bayesowskie W statystyce Bayesowskiej obliczamy stopnie ufności, wychodząc z pierwotnych wartości prawdopodobieństwa (prior beliefs) i dokonując ich uaktualnienia w świetle nowych faktów (zdarzeń) Przykład: 10 rzutów monetą, 8 orłów Um – model taki że P(orzeł) = m s – sekwencja rzutów gdzie i orłów i j reszek Załóżmy jednak, iż mieliśmy uprzednie przekonanie o jakości monety (tj. iż była uczciwa) I chcemy je zweryfikować po dokonaniu doświadczenia: Maksimum w 0.5


Pobierz ppt "WUT TWG 2005 WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka Wykład 2 Piotr Gawrysiak 2005."

Podobne prezentacje


Reklamy Google