WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka

Slides:



Advertisements
Podobne prezentacje
ESTYMACJA PRZEDZIAŁOWA
Advertisements

Statystyka Wojciech Jawień
Wykład 5 Standardowy błąd a odchylenie standardowe
Analiza współzależności zjawisk
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Zmienne losowe i ich rozkłady
Elementy Modelowania Matematycznego
Elementy Rachunku Prawdopodobieństwa
Wnioskowanie Bayesowskie
Metody wnioskowania na podstawie podprób
Model ciągły wyceny opcji Blacka – Scholesa - Mertona
Instrumenty o charakterze własnościowym Akcje. Literatura Jajuga K., Jajuga T. Inwestycje Jajuga K., Jajuga T. Inwestycje Luenberger D.G. Teoria inwestycji.
Statystyka w doświadczalnictwie
Analiza korelacji.
Rachunek prawdopodobieństwa 1
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Wykład 4 Przedziały ufności
Elementy Rachunku Prawdopodobieństwa c.d.
Elementy Rachunku Prawdopodobieństwa c.d.
Wykład 6 Metody Monte Carlo
Wzory ułatwiające obliczenia
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Hipotezy statystyczne
Podstawy statystyki Dr Janusz Górczyński.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
Sieci bayesowskie Wykonali: Mateusz Kaflowski Michał Grabarczyk.
RACHUNEK PRAWDOPODOBIEŃSTWA
Statystyka – zadania 4 Janusz Górczyński.
Kombinatoryka w rachunku prawdopodobieństwa.
Hipotezy statystyczne
DOŚWIADCZENIA LOSOWE.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Błędy i niepewności pomiarowe II
Planowanie badań i analiza wyników
Kości zostały rzucone…
Dopasowanie rozkładów
Wnioskowanie statystyczne
Zagadnienia AI wykład 2.
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Kości zostały rzucone Suma oczek.
Rozkład wariancji z próby (rozkład  2 ) Pobieramy próbę x 1,x 2,...,x n z rozkładu normalnego o a=0 i  =1. Dystrybuanta rozkładu zmiennej x 2 =x 1 2.
Model ciągły wyceny opcji Blacka – Scholesa - Mertona
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
STATYSTYKA – kurs podstawowy wykład 3 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 2 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Zdarzenia losowe. Opracowanie: Beata Szabat. Zdarzenia losowe. Często w życiu codziennym używamy określeń: - to jest bardzo prawdopodobne, - to jest mało.
STATYSTYKA – kurs podstawowy wykład 11
Model Poissona w ujęciu bayesowskim
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Zmienna losowa. Wybrane rozkłady zmiennej. Przedział ufności.
Monte Carlo, bootstrap, jacknife
Zapis prezentacji:

WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka Wykład 2 Piotr Gawrysiak pgawrysiak@supermedia.pl 2005

Statystyczne NLP Podejście statystyczne zakłada wykorzystanie metod wnioskowania statystycznego do analizy języka naturalnego Wnioskowanie statystyczne – analiza pewnych danych eksperymentalnych (wyników doświadczenia, odpowiedzi na pytania ankietera itp.), generowanych zgodnie z pewnym nieznanym rozkładem prawdopodobieństwa, w celu określenia cech tego rozkładu Przykład w NLP – modelowanie języka Jak przewidzieć wystąpienie kolejnego słowa w sekwencji słów? Do tego potrzebny jest model generacji słów w języku, określający prawdopodobieństwa wystąpienia pewnych słów pod warunkiem wystąpienia słów poprzedzających.

Rachunek prawdopodobieństwa Zdarzenia losowe, doświadczenia, przestrzenie... Doświadczenie losowe (experiment)– proces, w którym czynione są obserwacje, składa się ze zdarzeń Obserwowane są zdarzenia elementarne (basic outcomes) Przestrzeń /wszystkich możliwych/ zdarzeń elementarnych (sample space) – Ω Przestrzeń Ω może być ciągła (temperatura powietrza, wzrost) lub dyskretna (rzuty kostką, wystąpienia słów) Zdarzenie A – podzbiór Ω Zbiór pusty – zdarzenie niemożliwe, Ω – zdarzenie pewne Przykłady przestrzeni zdarzeń: Rzut monetą: Ω={O,R}, kostką: Ω={1..6} Lotto: |Ω|=106 Błędy ortograficzne: Ω=Z*, gdzie Z – alfabet, Z* - ciągi znaków nad tym alfabetem Brakujące słowa: |Ω|=wielkość słownika

Rachunek prawdopodobieństwa Przykład z rzutem monetą – rzucamy 3 razy: Ω={OOO, OOR, ORO, ROO, RRO, ROR, ORR, RRR} |Ω|=8 Zdarzenie – wyrzucono trzy orły: A1={RRR} Zdarzenie – wyrzucono pod rząd dwie reszki: A2={RRO,ORR,RRR} Zdarzenie – wyrzucono pod rząd cztery orły: A3=ø Zdarzenia to zbiory więc zastosowanie mają operacje teoriomnogościowe – suma zdarzeń (OR), iloczyn zdarzeń (AND), różnica zdarzeń, dopełnienie zdarzeń (zdarzenie przeciwne) itd. Kostka do gry Ω={1..6}, |Ω|=6 Zdarzenie – wyrzucono parzystą liczbę oczek: A4={2,4,6} Zdarzenie przeciwne – wyrzucono nieparzystą liczbę oczek: A5 = Ω-A4 = {1,3,5}

Prawdopodobieństwo Jakie jest prawdopodobieństwo zdarzenia? Powtarzamy eksperyment t razy, zliczając liczbę c wystąpień zdarzenia A Powyższe serie powtarzamy wielokrotnie Wartość ci/ti zbliża się do pewnej (nieznanej a priori) stałej wartości Ta stała wartość to prawdopodobieństwo zdarzenia A, P(A) /Nb. powyższe to definicja częstościowa prawdopodobieństwa, R. von Mises; ponadto np. definicje – geometryczna oraz klasyczna Laplace’a 1812/ Oczywiście w praktyce nie da się przeprowadzić nieskończonej liczby doświadczeń, zatem wartość prawdopodobieństwa możemy jedynie estymować z c1/t1

Prawdopodobieństwo Definicja aksjomatyczna prawdopodobieństwa (Kołmogorowa, 1933) P: F [0,1] P(Ω)=1 Dla rozłącznych zbiorów AjF Z powyższych aksjomatów wynikają własności funkcji prawdopodobieństwa takie jak: P(Ø)=0 ABP(A)P(B)

Prawdopodobieństwo warunkowe Prawdopodobieństwo warunkowe i łączne Niekiedy mamy częściową wiedzę o możliwym wyniku doświadczenia Prawdopodobieństwo zdarzenia A: P(A) (prior probability) Załóżmy, że wiemy iż zaszło zdarzenie B Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, iż zaszło zdarzenie B: P(A|B) (posterior probability) P(A|B) = P(AB)/P(B), P(B)>0 Oczywiście analogicznie P(B|A) = P(AB)/P(A), P(A)>0 zatem P(AB)=P(B)*P(A|B)=P(A)*P(B|A) Gdy są to zdarzenia niezależne /P(A|B)=P(A) itd./ to: P(AB)=P(A)*P(B)

Reguła łańcuchowa Niezależność zdarzeń, reguła łańcuchowa Dwa zdarzenia są niezależne, gdy wystąpienie jednego z nich nie ma wpływu na wystąpienie drugiego: pogoda dzisiaj i 20 września 1800 roku wynik dwóch rzutów monetą każde dwa zdarzenia takie że P(AB)=P(A)*P(B) Zdarzenia mogą być także warunkowo niezależne (conditionally independent): P(AB|C)=P(A|C)*P(B|C) Uogólnienie prawdopodobieństwa warunkowego – reguła łańcuchowa

Wzór Bayesa Wzór Bayesa (Bayes Theorem) Wzór Bayesa pozwala nam odwrócić stosunek zależności pomiędzy zdarzeniami – czyli obliczyć P(B|A) gdy znane jest P(A|B) Gdy nie znamy P(A) Czasem możemy mianownik zignorować – gdy interesuje nas tylko określenie najbardziej prawdopodobnego zdarzenia ze zbioru zdarzeń zależnych od A Ew. P(A) = P(A  B) + P(A  B) = P(A|B)P(B)+P(A|B)P(B) „Golden Rule of SNLP” Dzielimy zbiór A na dwie rozłączne części – z których jedna oczywiście może być zbiorem pustym

Wzór Bayesa Z czego wynika bardziej ogólna postać wzoru Bayesa: A jest dzielony na i rozłącznych podzbiorów Przykład: S: zdrętwienie mięśni szyi, M: zapalenie opon mózgowych P(S|M) =0.5, P(M) = 1/50000, P(S)=1/20 Czujemy że drętwieje nam szyja, czy to powód do niepokoju?

Wzór Bayesa Przykład 2: Mamy „prawie dobry algorytm wykrywający konstrukcję typu parasitic gap” : Which book did she review __ without reading __? Algorytm myli się „w obie strony” G: w zdaniu jest parasitic gap, T: algorytm wykrył pg P(G) =0.00001, P(T|G)=0.95, P(T|G)=0.005 Algorytm wykrył pg, czy pg jest rzeczywiście w zdaniu?

Zmienne losowe Dla każdego doświadczenia przestrzeń zdarzeń elementarnych może być inna Zmienne losowe pozwalają nam analizować prawdopodobieństwa dla wartości numerycznych Zmienna losowa – funkcja X taka że: zmienna losowa ciągła zmienna losowa dyskretna, skokowa (discreet random variable), S – przeliczalny podzbiór R próba Bernouliego

Zmienne losowe Funkcja rozkładu prawdopodobieństwa, rozkład prawdopodobieństwa (probability mass function, pmf) pmf określa prawdopodobieństwo przyjęcia pewnej wartości przez zmienną losową np. dla trzech rzutów monetą, X~liczba orłów: Wartość oczekiwana (expectation) – średnia wartości zmiennej losowej (xi) 1 2 3 P(Axi) 1/8 3/8 Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4

Zmienne losowe Własności wartości oczekiwanej E(X+Y) = E(X) + E(Y) E(XY) = E(X)*E(Y) jeśli zmienne losowe X i Y są niezależne Wariancja (variance) – określa na ile wartości zmiennej losowej odchylają się od średniej Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

Modele probabilistyczne w NLP Przy analizie danych tekstowych (zakładając istnienie procesu stochastycznego generującego dane) nie znamy zwykle pmf Należy zatem estymować pmf analizując próbki danych Podejście bayesowskie Podejście częstościowe Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

Podejście częstościowe Zgodnie z definicją częstościową Częstość względna: proporcja wystąpień zdarzenia do liczby wszystkich zdarzeń C(u) liczba wystąpień zdarzenia w N próbach Dla względna częstość dąży do pewnej wartości, będącej oszacowaniem prawdopodobieństwa Dwie metody – parametryczna i bezparametryczna Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

Metoda parametryczna i bezparam. Zakładamy iż jakiś proces w języku jest poprawnie modelowany jednym ze znanych rozkładów statystycznych (rozkład statystyczny – rodzina parametryzowanych pmf) takich jak rozkład normalny, dwumianowy itd. Znając naturę procesu pozostaje ustalić jedynie parametry rozkładu, do czego potrzeba stosunkowo niewiele danych Metoda bezparametryczna: Nie przyjmujemy żadnych założeń dotyczących rozkładu analizowanych danych pmf należy estymować empirycznie, analizując dużą ilość danych -> zwykle otrzymamy rozkład dyskretnym, ale możemy go przekształcać w ciągły przez interpolację Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

Przykłady rozkładów Rozkład dwumianowy Seria doświadczeń o dwóch możliwych wynikach (próby Bernouliego) niezależnych od siebie r – liczba sukcesów w n próbach p - prawdopodobieństwo sukcesu w jednej próbie (np. zmienna losowa R, r=liczba orłów w n rzutach nieuczciwą monetą) W zastosowaniach w NLP – często przyjmuje się przybliżenie o niezależności występowania słów (zdań) w tekście. Wtedy rozkład dwumianowy może mieć zastosowanie. Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych Parametry

Rozkład dwumianowy Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych Inne rozkłady dyskretne: Poissona, Bernoulliego b(r;1,p), wielomianowe

Przykłady rozkładów cd. Rozkład normalny Rozkład ciągły Parametry – średnia i odchylenie standardowe Krzywa Gaussa – dzwonowa W NLP rozkłady ciągłe niezbyt użyteczne – dziedzina (słowa) jest bowiem z natury dyskretna, chociaż też się przydają W statystyce rozkład dwumianowy aproksymuje się zwykle normalnym – co jest uzasadnione, gdy oba prawdopodobieństwa są zbliżone – co może nie być prawdą w wielu metodach NLP Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

Rozkład normalny Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

Podejście częstościowe D: dane M: model (rodzina pmf) Θ: parametry (np. μ, σ) Dla ustalonego M : maximum likelihood estimate (MLE) wybieramy parametry takie, że: Wybór modelu podobnie: Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych

Podejście Bayesowskie W statystyce Bayesowskiej obliczamy stopnie ufności, wychodząc z pierwotnych wartości prawdopodobieństwa (prior beliefs) i dokonując ich uaktualnienia w świetle nowych faktów (zdarzeń) Przykład: 10 rzutów monetą, 8 orłów Um – model taki że P(orzeł) = m s – sekwencja rzutów gdzie i orłów i j reszek Załóżmy jednak, iż mieliśmy uprzednie przekonanie o jakości monety (tj. iż była uczciwa) I chcemy je zweryfikować po dokonaniu doświadczenia: Maksimum w 0.5 Expectation dla powyższego przykładu = (0+1+2+3)/4=6/4 Tu by się jeszcze przydało coś o rozkładach łącznych