W4: Statystyka, Zastosowania

W4: Statystyka, Zastosowania
Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

Plan W1: Lingwistyka W2: Gramatyki W3: Składnia, Semantyka
W4: Statystyka, Zastosowania 2 z 54

Statystyka, Modele statystyczne
HMM (Hidden Markov Model), czyli ukryte modeli Markowa prawdopodobieństwo warunkowe Przykład: potrzebna jest reprezentacja wartości prawdopodobieństwa tego, że wystąpi słowo „dog”, jeśli przed nim wystąpi słowo „the”, lub „prawda, że słowo jest N, jeżeli przed nim jest ADJ, który poprzedzony jest DET”. 3 z 54

Statystyka (2) Notacja:
P - prawdopodobieństwo () - tego I - to co dane = - jest C - przeliczenie czegoś – pewnych obiektów Każde słowo w tekscie będziemy numerować 1  m. Wtedy dla „prawdopodobieństwa, że słowem drugim będzie „dog”, jeżeli pierwszym słowem jest „the” (przy wykonaniu warunku) : P( W2 = „dog” | W1 = „the” ) wi zamiast: i-te słowo ze słownika P( W2 = wj | W1 = wi ) Po prostu liczymy ile razy wypadnie słowo wj po wi i obliczamy stosunek wiwj do wszystkich wi w tekście Czyli będziemy zliczać wszystkie wystąpienia „the” w naszym tekście, oraz te „the”, które poprzedzają słowo „dog” 4 z 54

Statystyka (3) C( the, dog ) / C( the)
P( W2 = wj | W1 = wi ) = C(W1 = wi ,W2 = wj ) / C(W1 = wi) Jeżeli użyć notacji dla kolejno występujących słów Wn i Wn-1, to otrzymamy: P( Wn = wj | Wn-1 = wi ) = C(Wn-1 = wi ,Wn = wj ) / C(Wn-1 = wi) jawne modele Markova (Visible Markov Models, VMM) model Charniaka (1993) Brill-model (1992) HMM (ukryte modeli Markowa) 5 z 54

Statystyka (4) Załóżmy, że chcemy obliczyć prawdopodobieństwo dla rozpoznania frazy „the big dog”. Modele statystyczne mogą obliczać i dłuższe frazy. Przede wszystkim zanotujemy skrót do zapisu sekwencji słów: P( the big dog ) = P( the ) P( big | the ) P( dog | the big ). Jest to standardowy wzór statystyczny dla warunkowego prawdopodobieństwa. Wzór ogólny ma postać: P( W1,n ) = P( W1 ) P( W2 | W1 ) P( W3 | W1,2 ) P( Wn | W1,n-1 ), gdzie P( W1,n ) oznacza prawdopodobieństwo znalezienie ciągu słów od W1 do Wn w tekście w języku angielskim. Jest to skrót dla P( W1, W2, ... , Wn ). Są także skróty dla P( W1 = W1, W2 = W2, ... , Wn = Wn ), czyli prawdopodobieństwo, że pierwszym słowem jest W1, drugim W2, itd., a ostatnim Wn. Punktem wyjściowym tego wzoru jest odnalezienie trzech odrębnych, indywidualnych prawdopodobieństw: P( the big dog ) = P( the ) P( big | the ) P( dog | the big) P( the pig dog ) = P( the ) P( pig | the ) P( dog | the pig) Tu proste prawdopodobieństwa są mnożone (obliczany iloraz). 6 z 54

Statystyka (5) Jeżeli zastosujemy nasz model nie do słów, a do ich cech, to możemy zapisać: P( DET ADJ N) = P( DET ) P( ADJ | DET) P( N | DET ADJ ) P( DET ADV N) = P( DET ) P( ADV | DET) P( N | DET ADV ) Tu fraza “the big dog” jest określona dokładnie Ale analiza przez poszukiwanie ADV lub ADJ nie jest dokładnie określona, gdyż można utworzyć taką frazę jak „the quickly house”, która nie należy do języka angielskiego, pomimo, że jej P(N | DET ADV) jest dość duże 7 z 54

Statystyka (6) Innym typem analizatora statystycznego jest tak zwany Brill-model (1992) Oparty jest on o reguły GRAMATYKI GENERATYWNEJ G = { , N, P, S }, gdzie:  - to zbiór symboli terminalnych (czasami używa się T) N - to zbiór symboli nieterminalnych P - to zbiór reguł produkcyjnych S - to symbol startowy Za symbol startowy będziemy uważać zdanie, za symbole terminalne – słowa – jak na przykład cat, dog itp. Symbole nieterminalne zawierają nazwy fraz np. NP., VP, PP, ADV, V, ADJ, N itp. Kiedy stosowane są reguły produkcyjne nazywamy ich wyniki wywodem, a notujemy -> 8 z 54

Statystyka (7) S -> NP VP NP -> N NP -> ADJ N VP -> V
VP -> V ADV ADJ -> BIG ADJ -> FIERCE N -> DOGS N -> CATS V -> ATTACK V -> EAT ADV -> FEROCIOUSLY ADV -> NIOSILY 9 z 54

Statystyka (8) Wtedy możemy wywód zaprezentować jako drzewo : S NP VP
ADJ N V ADV Fierce dogs attack ferociously lub: NP VP ADJ N VP ADJ N V ADV Fierce N V ADV Fierce dogs V ADV Fierce dogs attack ADV Fierce dogs attack ferociously. 10 z 54

Statystyka (9) Przyjmijmy : S -> aA A -> bB B -> cA B -> d
Wtedy łatwo wyprodukować łańcuchy abc abcbd abcbcbd abcbcbcbd ... Wykorzystaliśmy tu regułę X -> tY. 11 z 54

Statystyka (10) Możemy reprezentować wynik (przebieg) gramatyki w postaci sieci tranzytywnej (TN):EBAS a b d c Można mówić o probabilistycznym automacie skończonych stanów, tzw. łańcuchy Markowa. The (0,6) dog (0,5) ate(0,7)E21S A (0,4) cat (0,5) slept (0,3) Węzeł (1) ma prawdopodobieństwo 0,5 dla “cat” i 0,5 dla “dog”. Przejście ze stanu (2) ma prawdopodobieństwo 0,7 i 0,3 odpowiednio dla „ate” i „slept”. W sumie dają 1.0. {Zbiór wszystkich zdań wygenerowanych za pomocą łańcuchów Markowa.} jawne modele Markova (Visible Markov Models, VMM) S A B E S 1 2 E 12 z 54

Statystyka (11) Możemy tu mówić o probabilistycznej regularnej gramatyce. Na przykład: the dog ate P = 0,6 * 0,5 * 0,7 = 0,21 the dog slept P = 0,6 * 0,5 * 0,3 = 0,09 a dog ate P = 0,4 * 0,5 * 0,7 = 0,14 a dog slept P = 0,4 * 0,5 * 0,3 = 0,06 the cat ate P = 0,6 * 0,5 * 0,7 = 0,21 the cat slept P = 0,6 * 0,5 * 0,3 = 0,09 a cat ate P = 0,4 * 0,5 * 0,7 = 0,14 a act slept P = 0,4 * 0,5 * 0,3 = 0,06 __________________________________________ Razem: = 1,00 13 z 54

Statystyka (12) Mówiliśmy o prawdopodobieństwie wystąpienia ciągu dwóch słów przed danym słowem. Wróćmy do wzoru: P( W1,n ) = P( W1 ) P( W2 | W1) P( W3 | W1,2 ) ... P( Wn | W1,n ) Jeżeli mamy ciąg ośmiu słów, to ostatni term jest W1,7 , co jest skrótem dla ciągu W1, W2, ..., W7. Innymi słowy – dla frazy o długości 8 potrzebujemy korpusu z 7 słów. Jeżeli 30 słów- to ostatni jest W1,29. Musimy obliczyć wszystkie te prawdopodobieństwa. Żeby do końca wyobrazić sobie dramat tego podejścia, uświadomimy sobie, że dla słowa, które stoi przed aktualnym, mamy wzór: P( W1,n ) = P( W1 ) P( W2 | W1) P( W3 | W1,2 ) ... P( Wn | Wn-2,n-1 ) I tak, jeżeli ostatnie słowo jest 50-te, to ... Musimy wprowadzić symbol  dla oznaczenia iloczynu wszystkich ciągów termów. n P( W1,n ) = P( W1 ) P( W2 | W1 )  P( Wi | Wi-2, i-1) i = 3 Dwa termy przed symbolem , to prawdopodobieństwa dla pierwszych dwóch słów. Wprowadzimy dwa słowa „urojone” – słowo 0 i słowo –1, dla których zakładamy, że znane jest prawdopodobieństwo. Taki trik pozwala zapisać: n P( W1,n ) =  P(Wi | Wi-2, i-1 ) i=1 14 z 54

P( W1,n | Wi-2, i-1 ) = C( Wi-2,i ) / C( Wi-2, i-1)
Statystyka (13) Możemy teraz obliczać prawdopodobieństwo dla wszystkich fraz z 2 i 3 słów, za pomocą zwykłej metody: P( W1,n | Wi-2, i-1 ) = C( Wi-2,i ) / C( Wi-2, i-1) Dlaczego mówimy trigram? Dlatego, że 3 jest maksymalną liczbą dla obliczania indywidualnych fraz, aby utworzyć naszą kolekcję statystyczną, czyli korpus z 2 – 3 słownych łańcuchów. Można mówić o łańcuchach Markowa dla systemu opartego o trygramy. Łuki oznaczać będziemy wejściowymi słowami i prawdopodobieństwem. Węzły stanu będziemy etykietować ostatnimi dwoma słowami w wyjściowej frazie. W taki właśnie sposób możemy reprezentować prostą (elementarną) gramatykę, w której istnieją tylko dwa terminalne symbole (słowa) a i b, oraz generować zdania w tej gramatyce. a: P(a|ba) a: P(a|bb) b: P(b|ba) aa bb ba ab 15 z 54

HMM (Hidden Markov Model) – ukryte modele Markowa
Skorzystamy ze współczynnika wagi. Wtedy to nasz zapis przybierze postać: P( Wn | Wn-2,n-1 ) = λ1 P( Wn) + λ2 P( Wn | Wn-1) + λ3 P( Wn | Wn-2, n-1 ) Tu symbol λ wykorzystano jako dodatek do prawdopodobieństwa w przypadku unigramów i bigramów. Za pomocą λ można sterować przebiegiem analizy – nadając nieważnym frazom mającym niezerowe prawdopodobieństwa wartości zero. Z tego wzoru wynika teoria HMM, gdzie λ jest wykorzystywana dla automatycznego poszukiwania dobrych wartości, czyli dobrych przejść (wyborów). Ponadto HMM daje możliwość wyboru różnych dróg przejścia dla tego samego wyjściowego symbolu, z odpowiednią wartością prawdopodobieństwa. Łuki te mogą prowadzić do różnych stanów. Jest to niemożliwe w modelach determinowanych stanów, a w HMM te same frazy mogą produkować zadaną frazę, korzystając z innych stanów tranzytywnego obejścia drogi. Obejście to nazywa się hidden, stąd nazwa HMM. 16 z 54

HMM w formie diagramu Wykorzystamy nasz wcześniejszy wzór trigramów.
Przykład: HMM – prezentujący część naszego „ab”-języka. b: P(b|ab) b:P(b|b) b:P(b) a:P(a|ab) a:P(a|b) a:P(a) ξ: λ2 ξ: λ3 ξ: λ1 ab λ1 bb ba 17 z 54

λ1P( a ) + λ2 P( b ) + λ3 P( a | ab)
HMM w formie diagramu W tym diagramie, drzewo „pseudostanów” (stany λ) jest wykorzystane zgodnie ze stałymi we wzorze. Łuki obchodzą te węzły i podają na wyjściu symbol ξ z prawdopodobieństwem równym stałej λ w tym węźle. Nieistniejące (ukryte) słowa są trikiem charakteryzującym diagram. Wykorzystanie takiego diagramu powoduje obliczenie prawdopodobieństwa łańcuchów (fraz) słów, z wykorzystaniem krzyżujących się łuków. W przypadku tym odpowiednio obliczone prawdopodobieństwo przenoszone jest od jednego stanu – do drugiego. Warunek: obliczamy sumę jedynie dla nie-pseudostanów; wtedy sumujemy wszystkie łuki między „dobrymi” stanami. Dal serii przechodzenia stanów – robimy iloczyn tych sum. I tak – prawdopodobieństwo przejścia od stanu „ab” do stanu „ba” (do wyjścia „a”) jest sumą: λ1P( a ) + λ2 P( b ) + λ3 P( a | ab) W chwili obecnej ukryte modele Markowa są wykorzystywane np. w analizatorach statystycznych, w których opracowane są efektywne algorytmy dla rozwiązania problemu sumowania wszystkich przejść. 18 z 54

Statystyka (14) LITERATURA:
Charniak E., Statisticae Language Learning. (Breadfotd/ MIT Press) (1993) Brill, E., A simple Rule-Based Part of Speech Tagger Proces. 3rd Conf. on Applied Natural Language Processing (Trento, Italy) (1992) Jurafsky & Martin; Dr. Jan Hajič, CS Dept., Johns Hopkins Univ. Introduction to Natural Language Processing ( ), 19 z 54

Parser Polsyn Część składowa projektów Thetos, LAS, PolSumm, Liana, Dialog-2 Przebieg analizy: Analiza morfologiczna Analiza składniowa (Polsyn) Interpretacja semantyczna Tekst 20 z 54

Struktura zdania w SGGP
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. 21 z 54

GS poziomu pierwszego TZG1 GAT1 NG2 ZPK2 NG4 VG2 ZPK3 PG1 NG1 NG3 NG5
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka,której prawdziwego imienia nikt nie pamiętał. TZG1 GAT1 NG2 ZPK2 NG4 VG2 ZPK3 PG1 NG1 NG3 NG5 ZPK1 VG1 22 z 54

GS poziomu drugiego TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 NG7 [Anafora] NG8 PG2 AG2 VG3 NG6 AG4 [EOC] NG9 VG4 AG6 [EOC] 23 z 54

Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 24 z 54

Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 25 z 54

Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka,której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 26 z 54

Anafora w SGGP W SGGP przez anaforę rozumiemy relację nie między pojedynczymi słowami, a między GS W naszym przykładzie: NG7 - anafora NG6 - antecedent NG7 Przykłady inne: Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Wtedy wybiła północ i stało się to, co zapowiedziała wróżka. 27 z 54

Analiza semantyczna Predykatywno-argumentowy model zdania
Relacja n-arna Zbiór relacji binarnych Relacje wyprowadzone Interpretacja semantyczna 28 z 54

Modelowanie tekstu Na potrzeby Thetosa i Polsumm
Podział zdań złożonych na pojedyncze Rekonstrukcja strukturalnej i leksykalnej pełni składu zdań Anafory Elipsy Forma kanoniczna zdania 29 z 54

Projekt Thetos Polish Text into Sign Language Translator
Zastosowanie wyników w systemie Thetos wersja 1 ( ) wersja 2 ( ) Część lingwistyczna Część animacyjna 30 z 54

Schemat translacji w Thetosie-2 Ogólny widok modyfikacji
input text Linguistic subsystem Text modeling processor modeled input text (in canonical form) Text translating processor output text (textual form of the sign language) Animation subsystem animated gesture sequence 31 z 54

Schemat translacji w Thetosie-2 Procesor modelujący tekst
32 z 54

Schemat translacji w Thetosie-2 Procesor tłumaczący tekst
33 z 54

Schemat translacji w Thetosie-2 Widok ogólny
34 z 54

Anafora przy tłumaczeniu (1)
Zdania w języku miganym nie mogą być złożone Problemy: Jak przekazać w języku migowym/miganym związek anaforyczny? Jak uzupełniać braki w zdaniach z elipsą? Czy i w jakim stopniu w języku miganym występują te mechanizmy językowe? Jak przetłumaczyć elipsę na elipsę? 35 z 54

Badania statystyczne Wyliczenie zakresu przeszukiwania:
Półautomatyczne wyliczenie zakresu 36 z 54

Badania statystyczne(2)
Postać raportu: Liczba anafor: 6 (Chm-Aut) odległość maksymalna: 3 odległość minimalna: 1 odległość średnia: 1,66 Liczba anafor: 8 (S-P1) - odległość maksymalna: 2 - odległość minimalna: 1 - odległość średnia: 1,25 Liczba anafor: 9 (Kr.Śn.) - odległość maksymalna: 4 - odległość średnia: 2,44 Liczba anafor: 35 (S-P2) - odległość maksymalna: 7 - odległość średnia: 1,82 37 z 54

Badania statystyczne(3)
Fragmenty tekstów: Królewna Śnieżka – 6 KB Kopciuszek - 3 KB Czerwony Kapturek - 3 KB Robinson - 6 KB Pani Twardowska - 4 KB Wioska - 2 KB J. Chmielewska, Autobiografia - 1 KB H. Sienkiewicz, Potop – 2 fragmenty 2 KB 3 KB 38 z 54

Badania statystyczne (4)
Wyniki: Anafor w tekście 80% 10% 2% Odstęp (w zdaniach) 0 - 2 3 4-8 39 z 54

Badania statystyczne (6)
Czerwony Kapturek Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. Dziewczynka chodziła w czerwonej pelerynce z kapturkiem i dlatego wszyscy nazywali ją Czerwonym Kapturkiem. Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Czerwony Kapturek miał babcię, która mieszkała w chatce w lesie. W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad. 40 z 54

Przekształcenie tekstu
Wyniki generowania zdań Dla zdania S1: [NG6 VG3 AG2 PG2] pewny dziewczynka mieszkać dawno , dawno to w mały wiejski domek Dla zdania S2: [NG9 VG4 NG8 NG7] nikt pamiętać nie prawdziwy imię który Przekształcenie tekstu: Nowa grupa NG7’: Zmiany strukturalne: dziewczynka - reprezentant antecedensa (NG6) - zastępuje której (NG7) morfo-syntaktyczne charakterystyki NG7’ dziedziczone po NG7 Nowa grupa NG8’ = NG8+NG7’ Zdanie S2 po przebudowie: [NG9 VG4 NG8’] nikt pamiętać nie prawdziwy imię dziewczynka 41 z 54

Generowanie W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad. 42 z 54

Program PolSumm Program streszczania tekstów Metody statystyczne
Metody lingwistyczne Analiza składniowa, semantyczna Metoda dominant Wybór istotnych faktów Metoda statystyczna Wyszukiwanie informacji Obliczenie unikalnej wagi dla każdego zdania 43 z 54

Program PolSumm c.d. Etapy streszczania w programie PolSumm
Wybór istotnych faktów Generowanie tekstu streszczenia Analiza lingwistyczna 44 z 54

Serwer lingwistyczny LAS (1)
Stanowisko badawcze Serwer analizy lingwistycznej LAS (Linguistics Analysis Server) 45 z 54

Analiza morfologiczna Analiza składniowa Thetos Polsumm Modelowanie tekstu Słowniki ??? 46 z 54

Forum 47 z 54

System LIAna (1) Opracowanie oprogramowania wspomagającego analityka obiektowego Opracowanie elementów metodyki LIA (Linguistically based Information Analysis) dla języka polskiego algorytmy automatycznej identyfikacji kluczowych abstrakcji: wydzielenie kandydatów na klasy, obiekty lub atrybuty wydzielenie kandydatów na relacje, zdarzenia lub metody algorytmy inne: wyszukiwanie kontekstów dla zidentyfikowanych pojęć podejmowanie decyzji na podstawie macierzy kontekstowej sporządzenie arkuszu roboczego analityka (tezaurus, baza doświadczenia) itd. 48 z 54

Schemat ogólny systemu Liana
BD kontekstów Analiza lingwistyczna Baza Tekstów Wizualizacja wyników analizy lingwistycznej BD leksemów Wyniki analizy lingwistycznej Kontekster Tworzenie arkusza OOA/D Procesor tablicy kontekstów Wizualizacja wyników OOA/D (Edytory graficzne diagramów) BD wymagań Tablica kontekstów Arkusz roboczy OOA/D 49 z 54

Interpretacja semantyczna
System Liana (2) Schemat przekształcenia RelSyn RelOOA/D Interpretacja semantyczna Oparta o cechy gramatyczne Oparta o ontologie Opracowanie ontologii: Wybór relacji Opracowanie sieci pojęć Opracowanie maszyny decyzyjnej RelSyn Interpretacja semantyczna RelOOA/D 50 z 54

LingBench 51 z 54

LingBench 52 z 54

LingBench http://www.natlantech.com
53 z 54

Koniec 54 z 54

W4: Statystyka, Zastosowania

Podobne prezentacje

Prezentacja na temat: "W4: Statystyka, Zastosowania"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

W4: Statystyka, Zastosowania

Podobne prezentacje

Prezentacja na temat: "W4: Statystyka, Zastosowania"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres