Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

W4: Statystyka, Zastosowania Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006.

Podobne prezentacje


Prezentacja na temat: "W4: Statystyka, Zastosowania Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006."— Zapis prezentacji:

1

2 W4: Statystyka, Zastosowania Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

3 z 54 Plan W1: Lingwistyka W2: Gramatyki W3: Składnia, Semantyka W4: Statystyka, Zastosowania

4 z 54 Statystyka, Modele statystyczne HMM (Hidden Markov Model), czyli ukryte modeli Markowa prawdopodobieństwo warunkowe Przykład: potrzebna jest reprezentacja wartości prawdopodobieństwa tego, że wystąpi słowo dog, jeśli przed nim wystąpi słowo the, lub prawda, że słowo jest N, jeżeli przed nim jest ADJ, który poprzedzony jest DET.

5 z 54 Statystyka (2) Notacja: –P- prawdopodobieństwo –()- tego –I- to co dane –=- jest –C- przeliczenie czegoś – pewnych obiektów Każde słowo w tekscie będziemy numerować 1 m. Wtedy dla prawdopodobieństwa, że słowem drugim będzie dog, jeżeli pierwszym słowem jest the (przy wykonaniu warunku) : P( W 2 = dog | W 1 = the ) w i zamiast: i-te słowo ze słownika P( W 2 = w j | W 1 = w i ) Po prostu liczymy ile razy wypadnie słowo w j po w i i obliczamy stosunek w i w j do wszystkich w i w tekście Czyli będziemy zliczać wszystkie wystąpienia the w naszym tekście, oraz te the, które poprzedzają słowo dog

6 z 54 Statystyka (3) C( the, dog ) / C( the) P( W 2 = w j | W 1 = w i ) = C(W 1 = w i,W 2 = w j ) / C(W 1 = w i ) Jeżeli użyć notacji dla kolejno występujących słów W n i W n-1, to otrzymamy: P( W n = w j | W n-1 = w i ) = C(W n-1 = w i,W n = w j ) / C(W n-1 = w i ) jawne modele Markova (Visible Markov Models, VMM) model Charniaka (1993) Brill-model (1992) HMM (ukryte modeli Markowa)

7 z 54 Statystyka (4) Załóżmy, że chcemy obliczyć prawdopodobieństwo dla rozpoznania frazy the big dog. Modele statystyczne mogą obliczać i dłuższe frazy. Przede wszystkim zanotujemy skrót do zapisu sekwencji słów: P( the big dog ) = P( the ) P( big | the ) P( dog | the big ). Jest to standardowy wzór statystyczny dla warunkowego prawdopodobieństwa. Wzór ogólny ma postać: P( W 1,n ) = P( W 1 ) P( W 2 | W 1 ) P( W 3 | W 1,2 )... P( W n | W 1,n-1 ), gdzie P( W 1,n ) oznacza prawdopodobieństwo znalezienie ciągu słów od W 1 do W n w tekście w języku angielskim. Jest to skrót dla P( W 1, W 2,..., W n ). Są także skróty dla P( W 1 = W 1, W 2 = W 2,..., W n = W n ), czyli prawdopodobieństwo, że pierwszym słowem jest W 1, drugim W 2, itd., a ostatnim W n. Punktem wyjściowym tego wzoru jest odnalezienie trzech odrębnych, indywidualnych prawdopodobieństw: P( the big dog ) = P( the ) P( big | the ) P( dog | the big) P( the pig dog ) = P( the ) P( pig | the ) P( dog | the pig) Tu proste prawdopodobieństwa są mnożone (obliczany iloraz).

8 z 54 Statystyka (5) Jeżeli zastosujemy nasz model nie do słów, a do ich cech, to możemy zapisać: P( DET ADJ N) = P( DET ) P( ADJ | DET) P( N | DET ADJ ) P( DET ADV N) = P( DET ) P( ADV | DET) P( N | DET ADV ) Tu fraza the big dog jest określona dokładnie Ale analiza przez poszukiwanie ADV lub ADJ nie jest dokładnie określona, gdyż można utworzyć taką frazę jak the quickly house, która nie należy do języka angielskiego, pomimo, że jej P(N | DET ADV) jest dość duże

9 z 54 Statystyka (6) Innym typem analizatora statystycznego jest tak zwany Brill- model (1992) Oparty jest on o reguły GRAMATYKI GENERATYWNEJ –G = {, N, P, S }, gdzie: – - to zbiór symboli terminalnych (czasami używa się T) –N - to zbiór symboli nieterminalnych –P - to zbiór reguł produkcyjnych –S - to symbol startowy Za symbol startowy będziemy uważać zdanie, za symbole terminalne – słowa – jak na przykład cat, dog itp. Symbole nieterminalne zawierają nazwy fraz np. NP., VP, PP, ADV, V, ADJ, N itp. Kiedy stosowane są reguły produkcyjne nazywamy ich wyniki wywodem, a notujemy ->

10 z 54 Statystyka (7) S -> NP VP NP -> N NP -> ADJ N VP -> V VP -> V ADV ADJ -> BIG ADJ -> FIERCE N -> DOGS N -> CATS V -> ATTACK V -> EAT ADV -> FEROCIOUSLY ADV -> NIOSILY

11 z 54 Statystyka (8) Wtedy możemy wywód zaprezentować jako drzewo : S NPVP ADJN VADV Fiercedogs attackferociously lub: S NPVP ADJ N VP ADJ N V ADV Fierce N V ADV Fierce dogs V ADV Fierce dogs attack ADV Fierce dogs attack ferociously.

12 z 54 Statystyka (9) Przyjmijmy : –S -> aA –A -> bB –B -> cA –B -> d Wtedy łatwo wyprodukować łańcuchy –abc –abcbd –abcbcbd –abcbcbcbd –... Wykorzystaliśmy tu regułę X -> tY.

13 z 54 Statystyka (10) Możemy reprezentować wynik (przebieg) gramatyki w postaci sieci tranzytywnej (TN):EBAS a b d c Można mówić o probabilistycznym automacie skończonych stanów, tzw. łańcuchy Markowa. The (0,6) dog (0,5) ate(0,7)E21S A (0,4) cat (0,5) slept (0,3) Węzeł (1) ma prawdopodobieństwo 0,5 dla cat i 0,5 dla dog. Przejście ze stanu (2) ma prawdopodobieństwo 0,7 i 0,3 odpowiednio dla ate i slept. W sumie dają 1.0. {Zbiór wszystkich zdań wygenerowanych za pomocą łańcuchów Markowa.} jawne modele Markova (Visible Markov Models, VMM) SABE S12E

14 z 54 Statystyka (11) Możemy tu mówić o probabilistycznej regularnej gramatyce. Na przykład: the dog ate P = 0,6 * 0,5 * 0,7 = 0,21 the dog sleptP = 0,6 * 0,5 * 0,3 = 0,09 a dog ateP = 0,4 * 0,5 * 0,7 = 0,14 a dog sleptP = 0,4 * 0,5 * 0,3 = 0,06 the cat ateP = 0,6 * 0,5 * 0,7 = 0,21 the cat sleptP = 0,6 * 0,5 * 0,3 = 0,09 a cat ate P = 0,4 * 0,5 * 0,7 = 0,14 a act sleptP = 0,4 * 0,5 * 0,3 = 0,06 __________________________________________ Razem: = 1,00

15 z 54 Statystyka (12) Mówiliśmy o prawdopodobieństwie wystąpienia ciągu dwóch słów przed danym słowem. Wróćmy do wzoru: P( W 1,n ) = P( W 1 ) P( W 2 | W 1 ) P( W 3 | W 1,2 )... P( W n | W 1,n ) Jeżeli mamy ciąg ośmiu słów, to ostatni term jest W 1,7, co jest skrótem dla ciągu W 1, W 2,..., W 7. Innymi słowy – dla frazy o długości 8 potrzebujemy korpusu z 7 słów. Jeżeli 30 słów- to ostatni jest W 1,29. Musimy obliczyć wszystkie te prawdopodobieństwa. Żeby do końca wyobrazić sobie dramat tego podejścia, uświadomimy sobie, że dla słowa, które stoi przed aktualnym, mamy wzór: P( W 1,n ) = P( W 1 ) P( W 2 | W 1 ) P( W 3 | W 1,2 )... P( W n | W n-2,n-1 ) I tak, jeżeli ostatnie słowo jest 50-te, to... Musimy wprowadzić symbol dla oznaczenia iloczynu wszystkich ciągów termów. n P( W 1,n ) = P( W 1 ) P( W 2 | W 1 ) P( W i | W i-2, i-1 ) i = 3 Dwa termy przed symbolem, to prawdopodobieństwa dla pierwszych dwóch słów. Wprowadzimy dwa słowa urojone – słowo 0 i słowo –1, dla których zakładamy, że znane jest prawdopodobieństwo. Taki trik pozwala zapisać: n P( W 1,n ) = P(W i | W i-2, i-1 ) i=1

16 z 54 Statystyka (13) Możemy teraz obliczać prawdopodobieństwo dla wszystkich fraz z 2 i 3 słów, za pomocą zwykłej metody: P( W1,n | Wi-2, i-1 ) = C( Wi-2,i ) / C( Wi-2, i-1) Dlaczego mówimy trigram? Dlatego, że 3 jest maksymalną liczbą dla obliczania indywidualnych fraz, aby utworzyć naszą kolekcję statystyczną, czyli korpus z 2 – 3 słownych łańcuchów. Można mówić o łańcuchach Markowa dla systemu opartego o trygramy. Łuki oznaczać będziemy wejściowymi słowami i prawdopodobieństwem. Węzły stanu będziemy etykietować ostatnimi dwoma słowami w wyjściowej frazie. W taki właśnie sposób możemy reprezentować prostą (elementarną) gramatykę, w której istnieją tylko dwa terminalne symbole (słowa) a i b, oraz generować zdania w tej gramatyce. a: P(a|ba) a: P(a|bb) b: P(b|ba) a: P(a|ba) aabbbaab

17 z 54 HMM (Hidden Markov Model) – ukryte modele Markowa Skorzystamy ze współczynnika wagi. Wtedy to nasz zapis przybierze postać: P( W n | W n-2, n-1 ) = λ 1 P( W n ) + λ 2 P( W n | W n-1 ) + λ 3 P( W n | W n-2, n-1 ) Tu symbol λ wykorzystano jako dodatek do prawdopodobieństwa w przypadku unigramów i bigramów. Za pomocą λ można sterować przebiegiem analizy – nadając nieważnym frazom mającym niezerowe prawdopodobieństwa wartości zero. Z tego wzoru wynika teoria HMM, gdzie λ jest wykorzystywana dla automatycznego poszukiwania dobrych wartości, czyli dobrych przejść (wyborów). Ponadto HMM daje możliwość wyboru różnych dróg przejścia dla tego samego wyjściowego symbolu, z odpowiednią wartością prawdopodobieństwa. Łuki te mogą prowadzić do różnych stanów. Jest to niemożliwe w modelach determinowanych stanów, a w HMM te same frazy mogą produkować zadaną frazę, korzystając z innych stanów tranzytywnego obejścia drogi. Obejście to nazywa się hidden, stąd nazwa HMM.

18 z 54 HMM w formie diagramu Wykorzystamy nasz wcześniejszy wzór trigramów. Przykład: HMM – prezentujący część naszego ab-języka. b: P(b|ab) b:P(b|b) b:P(b) a:P(a|ab) a:P(a|b)b:P(b) a:P(a) ξ: λ 2 ξ: λ 3 ξ: λ 1 ab λ1λ1 λ1λ1 bb ba λ1λ1

19 z 54 HMM w formie diagramu W tym diagramie, drzewo pseudostanów (stany λ) jest wykorzystane zgodnie ze stałymi we wzorze. Łuki obchodzą te węzły i podają na wyjściu symbol ξ z prawdopodobieństwem równym stałej λ w tym węźle. Nieistniejące (ukryte) słowa są trikiem charakteryzującym diagram. Wykorzystanie takiego diagramu powoduje obliczenie prawdopodobieństwa łańcuchów (fraz) słów, z wykorzystaniem krzyżujących się łuków. W przypadku tym odpowiednio obliczone prawdopodobieństwo przenoszone jest od jednego stanu – do drugiego. Warunek: obliczamy sumę jedynie dla nie-pseudostanów; wtedy sumujemy wszystkie łuki między dobrymi stanami. Dal serii przechodzenia stanów – robimy iloczyn tych sum. I tak – prawdopodobieństwo przejścia od stanu ab do stanu ba (do wyjścia a) jest sumą: λ 1 P( a ) + λ 2 P( b ) + λ 3 P( a | ab) W chwili obecnej ukryte modele Markowa są wykorzystywane np. w analizatorach statystycznych, w których opracowane są efektywne algorytmy dla rozwiązania problemu sumowania wszystkich przejść.

20 z 54 Statystyka (14) LITERATURA: –Charniak E., Statisticae Language Learning. (Breadfotd/ MIT Press) (1993) –Brill, E., A simple Rule-Based Part of Speech Tagger Proces. 3rd Conf. on Applied Natural Language Processing (Trento, Italy) (1992) –Jurafsky & Martin; –Dr. Jan Hajič, CS Dept., Johns Hopkins Univ. Introduction to Natural Language Processing ( ),

21 z 54 Parser Polsyn Część składowa projektów Thetos, LAS, PolSumm, Liana, Dialog-2 Przebieg analizy: Analiza morfologiczna Analiza składniowa (Polsyn) Interpretacja semantyczna Tekst

22 z 54 Struktura zdania w SGGP Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał.

23 z 54 GS poziomu pierwszego Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka,której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3

24 z 54 GS poziomu drugiego Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3NG4 NG5VG2 ZPK3 AG1 PG2 AG2 VG3 NG6AG4 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG6 [EOC]

25 z 54 Poziom funkcjonalny Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3NG4 NG5VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] podmiot VG3 predykat S1 major okoliczn_gr S2 VG4 predykat podmiot dopełnienie problem

26 z 54 Poziom funkcjonalny Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3NG4 NG5VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] podmiot VG3 predykat S1 major okoliczn_gr S2 VG4 predykat podmiot dopełnienie problem

27 z 54 Poziom funkcjonalny Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka,której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3NG4 NG5VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] podmiot VG3 predykat S1 major okoliczn_gr S2 VG4 predykat podmiot dopełnienie problem

28 z 54 Anafora w SGGP W SGGP przez anaforę rozumiemy relację nie między pojedynczymi słowami, a między GS W naszym przykładzie: –NG7 - anafora –NG6 - antecedent NG7 Przykłady inne: Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Wtedy wybiła północ i stało się to, co zapowiedziała wróżka.

29 z 54 Analiza semantyczna Predykatywno-argumentowy model zdania Relacja n-arna Zbiór relacji binarnych Relacje wyprowadzone Interpretacja semantyczna

30 z 54 Modelowanie tekstu Na potrzeby Thetosa i Polsumm Podział zdań złożonych na pojedyncze Rekonstrukcja strukturalnej i leksykalnej pełni składu zdań –Anafory –Elipsy Forma kanoniczna zdania

31 z 54 Projekt Thetos Polish Text into Sign Language Translator Zastosowanie wyników w systemie Thetos –wersja 1 ( ) –wersja 2 ( ) Część lingwistyczna Część animacyjna

32 z 54 animated gesture sequence Schemat translacji w Thetosie-2 Ogólny widok modyfikacji output text (textual form of the sign language) Linguistic subsystem modeled input text (in canonical form) input text Text modeling processor Text translating processor Animation subsystem

33 z 54 Schemat translacji w Thetosie-2 Procesor modelujący tekst

34 z 54 Schemat translacji w Thetosie-2 Procesor tłumaczący tekst

35 z 54 Schemat translacji w Thetosie-2 Widok ogólny

36 z 54 Anafora przy tłumaczeniu (1) Zdania w języku miganym nie mogą być złożone Problemy: –Jak przekazać w języku migowym/miganym związek anaforyczny? –Jak uzupełniać braki w zdaniach z elipsą? –Czy i w jakim stopniu w języku miganym występują te mechanizmy językowe? –Jak przetłumaczyć elipsę na elipsę?

37 z 54 Badania statystyczne Wyliczenie zakresu przeszukiwania: –Półautomatyczne wyliczenie zakresu

38 z 54 Badania statystyczne(2) Postać raportu: –Liczba anafor: 6 (Chm-Aut) –odległość maksymalna: 3 –odległość minimalna: 1 –odległość średnia: 1,66 –Liczba anafor: 8 (S-P1) –- odległość maksymalna: 2 –- odległość minimalna: 1 –- odległość średnia: 1,25 –Liczba anafor: 9 (Kr.Śn.) –- odległość maksymalna: 4 –- odległość minimalna: 1 –- odległość średnia: 2,44 –Liczba anafor: 35 (S-P2) –- odległość maksymalna: 7 –- odległość minimalna: 1 –- odległość średnia: 1,82

39 z 54 Badania statystyczne(3) Fragmenty tekstów: –Królewna Śnieżka – 6 KB –Kopciuszek - 3 KB –Czerwony Kapturek - 3 KB –Robinson - 6 KB –Pani Twardowska - 4 KB –Wioska - 2 KB –J. Chmielewska, Autobiografia - 1 KB –H. Sienkiewicz, Potop – 2 fragmenty 2 KB 3 KB

40 z 54 Badania statystyczne (4) Wyniki: Anafor w tekście 80%10%2% Odstęp (w zdaniach)

41 z 54 Badania statystyczne (6) Czerwony Kapturek –Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. Dziewczynka chodziła w czerwonej pelerynce z kapturkiem i dlatego wszyscy nazywali ją Czerwonym Kapturkiem. Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. –Czerwony Kapturek miał babcię, która mieszkała w chatce w lesie. –W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad.

42 z 54 Przekształcenie tekstu Wyniki generowania zdań –Dla zdania S1: [NG6 VG3 AG2 PG2] pewny dziewczynka mieszkać dawno, dawno to w mały wiejski domek –Dla zdania S2: [NG9 VG4 NG8 NG7] nikt pamiętać nie prawdziwy imię który Przekształcenie tekstu: –Nowa grupa NG7: Zmiany strukturalne: dziewczynka - reprezentant antecedensa (NG6) - zastępuje której (NG7) morfo-syntaktyczne charakterystyki NG7 dziedziczone po NG7 –Nowa grupa NG8 = NG8+NG7 –Zdanie S2 po przebudowie: [NG9 VG4 NG8] nikt pamiętać nie prawdziwy imię dziewczynka

43 z 54 Generowanie W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad.

44 z 54 Program PolSumm Program streszczania tekstów Metody statystyczne Metody lingwistyczne –Analiza składniowa, semantyczna –Metoda dominant Wybór istotnych faktów –Metoda statystyczna –Wyszukiwanie informacji Obliczenie unikalnej wagi dla każdego zdania

45 z 54 Program PolSumm c.d. Etapy streszczania w programie PolSumm Wybór istotnych faktów Generowanie tekstu streszczenia Analiza lingwistyczna

46 z 54 Serwer lingwistyczny LAS (1) Stanowisko badawcze Serwer analizy lingwistycznej LAS (Linguistics Analysis Server)

47 z 54 Serwer lingwistyczny LAS (2) Analiza morfologiczna Analiza morfologiczna Analiza składniowa Thetos Polsumm Modelowanie tekstu Słowniki ???

48 z 54 Serwer lingwistyczny LAS (3) Forum Forum

49 z 54 System LIAna (1) Opracowanie oprogramowania wspomagającego analityka obiektowego Opracowanie elementów metodyki LIA (Linguistically based Information Analysis) dla języka polskiego –algorytmy automatycznej identyfikacji kluczowych abstrakcji: wydzielenie kandydatów na klasy, obiekty lub atrybuty wydzielenie kandydatów na relacje, zdarzenia lub metody –algorytmy inne: wyszukiwanie kontekstów dla zidentyfikowanych pojęć podejmowanie decyzji na podstawie macierzy kontekstowej sporządzenie arkuszu roboczego analityka (tezaurus, baza doświadczenia) itd.

50 z 54 BD kontekstów Analiza lingwistyczna Baza Tekstów Wizualizacja wyników analizy lingwistycznej BD leksemów Wyniki analizy lingwistycznej Kontekster Tworzenie arkusza OOA/D Procesor tablicy kontekstów Wizualizacja wyników OOA/D (Edytory graficzne diagramów) BD wymagań Tablica kontekstów Arkusz roboczy OOA/D Schemat ogólny systemu Liana

51 z 54 System Liana (2) Schemat przekształcenia RelSyn RelOOA/D Interpretacja semantyczna –Oparta o cechy gramatyczne –Oparta o ontologie Opracowanie ontologii:Opracowanie ontologii: –Wybór relacji –Opracowanie sieci pojęć –Opracowanie maszyny decyzyjnej RelSyn Interpretacja semantyczna RelOOA/D

52 z 54 LingBench

53 z 54 LingBench

54 z 54 LingBench

55 z 54


Pobierz ppt "W4: Statystyka, Zastosowania Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006."

Podobne prezentacje


Reklamy Google