Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Skrót: wykłady 7-11 i trochę semantyki z wykładu 6.

Podobne prezentacje


Prezentacja na temat: "Skrót: wykłady 7-11 i trochę semantyki z wykładu 6."— Zapis prezentacji:

1 Skrót: wykłady 7-11 i trochę semantyki z wykładu 6

2 Semantyka czyli znaczenie ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym – nazwy obiektów, relacji między nimi,... – sieci semantyczne wskazujące na hierarchię i pokrewieństwo terminów ustalenie sposobu reprezentowania znaczenia określenie niezbędnego zakresu wiedzy pragmatycznej określenie zasad wnioskowania

3 warstwy problemu reprezentacja znaczenia : metoda zapisu potrzebnych informacji wnioskowanie : uzyskiwanie nowych informacji z już dostępnych analiza semantyczna : automatyczne generowanie zapisu znaczenia zdań (równocześnie lub nie z analizą syntaktyczną)

4 Reprezentacja znaczenia W jaki sposób można reprezentować semantykę języka naturalnego, czyli jakie mechanizmy formalne można tym celu wykorzystać (zdefiniować)?... W praktyce może to być cokolwiek, co odpowiada praktycznym potrzebom programu dokonującego interpretacji semantycznej Kiedy potrzebna jest semantyka: – odpowiedzi na pytania – ustalenie, czy dane zdanie jest prawdziwe – wnioskowanie, – etc.

5 Rachunek predykatów I rzędu Naturalną metodą reprezentowania semantyki jest rachunek predykatów I rzędu Nie jest to idealny sposób zapisu, nie pozwala na wyrażenie wszystkich znaczeń, ale ma wiele właściwych cech: – pozwala zapisać czy jakiś fakt jest prawdziwy czy fałszywy – pozwala zapisywać pytania (użycie zmiennych) – są metody wnioskowania Wybór rachunku pred. I rzędu nie jest całkowicie arbitralny czy sterowany konkretnymi aplikacjami. Można zauważyć pewne analogie między językiem naturalnym a językiem rachunku predykatów. Cechy rachunku pred. I rzędu: wprowadzenie zmiennych, użycie kwantyfikatorów, częściowo kompozycyjna semantyka

6 Struktura predykatowo-argumentowa Nawet dość pobieżna analiza wykazuje, że struktura predykatowo -argumentowa dobrze oddaje znaczenie wielu elementów języka naturalnego. W szczególności niektóre typy słów w łatwy sposób można przetłumaczyć na predykaty, podczas gdy inne pełnią funkcje ich argumentów: słowa kojarzone z predykatami: – czasowniki (frazy czasownikowe), przyimki, przymiotniki, niektóre czasowniki słowa kojarzone z argumentami: – rzeczowniki (frazy rzeczownikowe)

7 Przykład zapisu znaczenia Reprezentacja rzeczowników: - imiona własne -> tłumaczone na unikalne nazwy Jan -> Jan, Marii -> Maria (często to nie wystarcza) - rzeczowniki pospolite nie określają konkretnego obiektu, ale pewien obiekt o jakiś znanych cechach książka -> x Isa(x, Book)

8 Przykład zapisu znaczenia Przykład: Jan dał Marii książkę. Tłumaczenie bezpośrednie: Dać(Jan, Maria, książka) Lepsze (dokładniejsze) tłumaczenie: (należy stosować ten sposób) – czasownik decyduje o nazwie predykatu, liczbie i roli jego argumentów, dać oznacza więc: w,x,y,z Giving(x) Giver(w, x) Givee(y, x) Given(z, x) dla powyżsższego zdania więc: x,y Giving(x) Giver(John, x) Givee(Mary, x) Given(y, x) Isa(y, Book) Różnica między zapisem rzeczowników Jan i książka to różnica interpretacji rzeczowników własnych i pospolitych

9 Analiza semantyczna Analiza semantyczna to proces przekształcenia wyrażenia lingwistycznego w zapis jego znaczenia Są miliony sposobów dokonania takiego przekształcenia, od rozwiązań całkowicie ad hoc, opracowanych na potrzeby konkretnych aplikacji do wyrafinowanych metod teoretycznych o często wątpliwym znaczeniu praktycznym Większość metod analizy semantycznej opiera się na wynikach analizy syntaktycznej (albo jest dokonywana równolegle z nią)

10 Semantyka kompozycyjna Większość metod zapisu znaczenia zakłada KOMPOZYCYJNOŚĆ semantyki, tzn. przyjmuje założenie, że znaczenie większych fragmentów teksu (zdania) może zostać określona jako funkcja znaczeń jego elementów, czyli słów i fraz Na czy polega to w praktyce? Pokażemy na przykładzie zdania: (AyCaramba to nazwa restauracji (niewgetariańskiej)) AyCaramba serves meat

11 Przykład S e Isa(e, Serving) Server(e, AyCaramba) Served(e, Meat) NP VP NP Proper-Noun Verb Mass-Noun AyCaramba serves meat

12 Rozszerzone reguły syntaktyczne Jak uzyskać znaczenie zdania ze znaczenia elementów? Dołączymy do reguł gramatyki CFG dodatkowe informacje (podobnie jak miało to miejsce przy rozszerzaniu CFG do gramatyk unifikacyjnych) Reguła gramatyki będzie miała teraz postać: A 1... n { f( j.sem,..., k.sem) } W powyższym przykładzie: ProperNoun AyCaramba {AyCaramba} MassNoun meat {Meat} NP ProperNoun {ProperNoun:sem} NP MassNoun {MassNoun:sem} Verb serves { e, x, y Isa(e, Serving) Server(e, x) Served(e, y)}

13 Wyrażenia Lambda Jak włączyć semantykę argumentów do semantyki czasownika? Wyrażenia Lambda : xP(x) xP(x)(A) P(A) Verb serves { x y { e Isa(e, Serving) Server(e, y) Served(e, x)} S NP VP {VP:sem(NP:sem)} VP Verb NP {Verb:sem(NP:sem)}

14 Przykład analizy semantycznej S ( AyCaramba serves meat ) e Isa(e, Serving) Server(e, AyCaramba) Served(e, Meat) NP ACVP y e Isa(e, Serving) Server(e, y) Served(e, Meat)} NP Meat Proper-Noun ACVerb Mass-Noun Meat AyCaramba serves meat

15 Kolejny przykład W restauracji podają mięso. Wydaje się, że interpretacją powyższego zdania powinno być: e,x Isa(e, Serving) Server(e, x) Served(e, Meat) Isa(x, Restaurant) ale, jeżeli założymy, że interpretacją wyrazu restauracja jest wyrażenie: x Isa(x, Restaurant) to jak uzyskać powyższe tłumaczenie z: { x y { e Isa(e, Serving) Server(e, y) Served(e, x)} Proste zastąpienie zmiennej wyrażeniem nie prowadzi do właściwego rezultatu. Wynikiem jest: e Isa(e, Serving) Server(e, xIsa(x, Restaurant)) Served(e, Meat) niestety powyższy zapis nie jest wyrażeniem rach. pred. I rz. (FOPC)

16 Wprowadzenie termów złożonych Rozwiązaniem problemu jest taki zapis semantyki fraz rzeczownikowych, aby jej elementy były dostępne z zewnątrz: Wprowadzenie termów złożonych i sposobu ich przekształcania:, np. x Isa(x; Restaurant) e Isa(e, Serving) Server(e, ) Served(e, Meat) Przekształcenie na wyrażenie logiki I rzędu: P ( ) Quantifier variable body Connective P(variable) Server(e, ) xIsa(x, Restaurant) Server(e, x)

17 Niejednoznaczności – Struktura składniowa (i znaczenie) Pacjent opuścił salę operacyjną w dobrym stanie – nawiasowanie negacji Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię) – kwantyfikacja Każdy chce mieć piękny samochód. (każdy inny) Każdy chce wygrać szczęśliwy los. (ten jedyny) – wiązane zaimków Jan kazał Piotrowi wyczyścić swoje buty.

18 Wieloznaczność kwantyfikatorów Every restaurant has a menu. Czy to... x (Isa(x, Restaurantx) e, y Having(e) ^ Haver(e, x) ^ Isa(y, Menu) ^ Had(e, y) ) czy... y (Isa(y, Menu) ^ x Isa(x, Restaurant) e Having(e) ^ Haver(e, x) ^ Had(e, y) ) przy wieloznaczność zakresu kwantyfikatorów, brak jest ogólnych reguł rozstrzygania

19 Statystyka a język naturalny Chomsky, 1969 It must be recognized that the notion of a probability of a sentence is an entirely useless one, under any interpretation of this term Powszechnie zaakceptowane powinno być stwierdzenie, że prawdopodobieństwo zdania jest pojęciem całkowicie nieprzydatnym, niezależnie od sposobu jego zdefiniowania. … ale jednak tak nie jest

20 Podejście statystyczne dane: teksty w języku naturalnym metody analizy: liczenie wyrazów, liter, znaków możliwe wnioski: – kolejność słów, stałe frazy (nazwy produktów, firm,...) – współwystępowanie słów (np. w tekście, w którym często pojawia się słowo drzewa słowo bal ma pewnie znaczenie inne niż w tekście, w którym występuje często słowo suknia czy frak) - podział tekstów na kategorie tematyczne – rozpoznanie języka, w którym jest tekst (nie trzeba mieć słownika), np. duża liczba słów zaczynających się od wielkiej litery może sugerować niemiecki, częstotliwość zbitek th lub ph angielski...

21 Podejście statystyczne, cd. Dane: teksty w języku naturalnym z anotacjami (tagami) zawierającymi: – informacje o części mowy i cechach fleksyjnych metody analizy: liczenie wyrazów lub tagów (i ich sekwencji) 1 wersja: anotacje wzięte ze słownika, niejednoznaczne – piec rzeczownik, r. m3, mianownik, czasownik, bezokolicznik 2 wersja: anotacje ujednoznacznione (ręcznie lub automatycznie, w szczególności metodami statystycznymi) 3: inne rodzaje anotacji: informacje o granicach zdań, fraz, o strukturze składniowej...

22 Podejście statystyczne, cd. Co można osiągnąć? – anotacje ujednoznacznione znacznie zwiększają skuteczność wyszukiwania, np. w odpowiedzi na pytanie mama (we wszystkich formach) nie otrzymamy form czasownika mieć aby jednak dalej poprawić skuteczność potrzebne są anotacje semantyczne: np. serwis : porcelanowy, sportowy/giełdowy czy początek gry – wyszukiwać określonego typu informacje bnez znajomości dokładnej struktury tesktu – formułowanie hipotez o budowie tekstu (znajdowanie granic fraz, zdań, wzorców syntaktyznych)

23 Rozstrzyganie niejednoznaczności. Reguły czy statystyka? Przykłady problemów, jednoznaczność w kontekście, np.: – she books, ona pali --> books, pali (?) to czasowniki reguła: jeżeli niejednoznaczne słowo (rzeczownik/czasownik) poprzedzone jest (zgodnym) zaimkiem, to jest to czasownik – ale nie zawsze, np. przecież ona pali nie przesunęła – niejasne sytuacje: on pali, nie potnie teraz tych pali on pali, o ile wiem, nie potnie, pali – pociąć bal -> czasowniki narzucają wymagania na typ obiektów opisywanych przez ich wymagania przygotowywać się na bal podnieść bal – ale: tańczyć na balu

24 Postulaty Nie zgaduj, jeśli wiesz – morfologia (odmiana) – słowniki (listy słów) – jednoznaczne nazwy – być może część stałych fraz – reguły syntaktyczne?? Wykorzystuj statystykę (opierając się o dane rzeczywiste) dla ustalania preferencji

25 Prawo Bayesa p(A,B) = p(B,A) bo p(A p B czyli: skoro p(A|B)=p(A B) /p(B) to p(A B) = p(A|B) p(B) i p(A B) = p(B|A) p(A) p(A|B) p(B) = p(B|A) p(A) i p(A|B) = p(B|A) p(A) / p(B) p(B|A) = p(A|B) p(B) / p(A) Powyższa reguła znana jest jako prawo Bayesa. Pozwala ona na przechodzenie między prawdopodobieństwami p(A|B) i p(B|A) w zależności od tego, jakimi danymi dysponujemy

26 Noisy Channel Model Zadaniem jest odkodowanie sygnału źródłowego Input Output(noisy) The channel 0,1,1,1,0,1,0,1,... (adds noise) 0,1,1,0,0,1,1,0,... SOURCE NOISY CHANNEL DECODER word noisy word guess at original word Model to prawdopodobieństwo błędów (szumu): Przykład: p(0|1) =.25 (otrzymaliśmy 1 a było 0 - czyli prawdopodobieństwo że było 0 pod warunkiem, ze otrzymaliśmy 1) p(1|1) =.75 (otrzymaliśmy 1 i było 1) p(1|0) =.5 (otrzymaliśmy 0, a było 1) p(0|0) =.5 The channel (adds noise)

27 Noisy Channel - zastosowania Wiele problemów związanych z NLP może być widziane jako problemy związane z likwidacją szumów (noisy channel problems), m.in. – OCR text print (adds noise), scan image – rozpoznawanie pisma odręcznego text neurones, muscles (noise), scan/digitize image – poprawianie błędów pisowni (spelling correctors) – rozpoznawanie mowy (dyktowanie, wydawanie poleceń) text conversion to acoustic signal (noise) acoustic waves – ??tłumaczenie maszynowe text in target language translation (noise) source language – tagowanie (Part of Speech Tagging) sequence of tags selection of word forms text

28 Wykorzystanie prawa Bayesa W przypadku zaszumienia sygnału poszukujemy najbardziej prawdopodobnego ciągu wejściowego, który mógłby odpowiadać zaobserwowanemu sygnałowi. Poszukujemy więc: argmax Source P(Source|Signal) Niestety zwykle brak niezbędnych danych. Jednak: P (Source|Signal) = P (Signal|Source) P(Source) / P (Signal) co nam daje: argmax Source P(Signal|Source)P(Source) / P(Signal) W jaki sposób to nam może pomóc, skoro dysponujemy jedynie zaobserwowanym sygnałem, a nie znamy sygnału właściwego? Wiemy, jaka jest przestrzeń możliwych danych początkowe. Możemy wstawić każdą z nich do powyższego równania, policzyć prawdopodobieństwa i wybrać hipotezę o najwyższym prawdopodobieństwie. p(A|B) = p(B|A) p(A) / p(B)

29 Wykorzystanie prawa Bayesa do kontroli pisowni dane (signal): słowo źle napisane rezultat (source): poprawne słowo Załóżmy, że V jest przestrzenią możliwych słów, w oznacza prawidłowe słowo, a s błędną jego pisownię w = argmax w V P(w|s) = argmax w V P(s|w)P(w) / P(s) Do policzenia powyższego potrzebujemy: P(s|w), P(w), P(s) P(s) - prawdopodobieństwo pojawienia się błędnego słowa s P(w) - prawdopodobieństwo pojawienia się w tekście słowa w P(s|w) - prawdopodobieństwo pojawienia się s zamiast w Rozważmy przykład: w tekście pojawiło się acress zamiast actress... musimy policzyć prawdopodobieństwo zrobienia takiego błędu...

30 Rodzaje błędów pisowni Postulat zbadania częstości występowania konkretnych błędów w poszczególnych słowach jest nierealistyczny. Nie da się zebrać danych odpowiedniej wielkości Trzeba więc policzyć P(s|w) nie dysponując bezpośrednimi danymi. Źródła błędów: – wstawienie zbędnej litery: ther - the, jeje - jej – brak litery: ther - there, jj - jej – zastąpienie prawidłowej litery inną: noq - now, – zmiana kolejności liter: teh - the, nei - nie Wystąpienie słowa acress zamiast actress może być potraktowane jako błąd braku t, a więc poszukiwane prawdopodobieństwo to... Należy więc w odpowiednio dużym (niepoprawianym) korpusie policzyć częstość braku litery t.

31 Metoda Kernighana (1990) Tabela prawdopodobieństw pomyłek (na podstawie korpusu) P (t|c) = del[c p-1, c p ] / count[c p-1 c p ] if deletion ile razy zamiast c p-1 c p wystąpiło c p-1 ins[c p-1, t p ] / count[c p-1 ] if insertion ile razy zamiast c p-1 wystąpiło c p-1 c p sub[t p, c p ] / count[c p ] if substitution ile razy zamiast c p wystąpiło t p trans[c p, c p+1 ] / count[c p c p+1 ] if transposition ile razy zamiast c p-1 c p wystąpiło c p c p-1 Przykładowo jeśli chcemy podać prawdopodobieństwo błędu jje zamiast jej liczymy częstość wystąpienia je zamiast ej.

32 Metoda Kernighana, cd. założenie podstawowe: w słowie jest tylko jeden błąd generujemy wszystkie możliwe pojedyncze błędy dla danego (błędnego) słowa wyznaczamy wszystkie możliwe rezultaty tych błędów i sprawdzamy, które z nich są słowami naszego języka wyznaczamy prawdopodobieństwo wystąpienia poszczególnych słów proponujemy słowa w kolejności ich prawdopodobieństw

33 Wyniki dla acress zamiast actress Korpus 44 milionów słów, poprawka dla słów niewystępujących w korpusie - dodanie 0.5 do wszystkich częstości P(c) = (C(c)+0.5) /(N+0.5*V) V- liczba słów w słowniku c freq(c) p(c) p(t|c) p(t|c)p(c) % actress x % cress x % caress x % access x % across x % acres x %

34 Podsumowanie metody Brak wykorzystania kontekstu, np.. a stellar and versatile acress whose... (actress) Zamiast obliczania prawdopodobieństwa błędu na podstawie korpusu ustalenie początkowo wszystkich prawdopodobieństw jako równych i uczenie się na podstawie dostarczanych zbiorów danych (pary słów błędnych i poprawnych) ! Jest (bardzo) wiele sposobów, na jakie można w danej sytuacji zastosować model Bayesa - zależy to głownie od rodzaju danych jakie chcemy/możemy zebrać Problemy związane z tym podejściem: – potrzeba istnienia korpusów – szczególne traktowanie słów, które nie wystąpiły ani razu

35 Automaty z prawdopodobieństwem, rozpoznawanie mowy Jeżeli założymy, że reprezentacja wymowy jest niestandardową pisownią możemy rozpoznawanie mowy potraktować jako szczególny przykład korektora pisowni Do rozpoznawania mowy konstruujemy automat, w którym – stany reprezentują elementy wejścia (phones, letters, etc). – przejścia wzbogacone są o prawdopodobieństwa mówiące jakie jest jego prawdopodobieństwo, Suma prawdopodobieństw na przejściach wychodzących z jednego stanu musi wynosić 1 – z uwagi na tradycję symbole zgodnie z którymi dokonywane są przejścia przypisywane są do stanów, a nie samych przejść – Ponieważ analizujemy tekst w języku naturalnym ograniczymy automaty do takich, w których wszystkie przejścia prowadzą w przód

36 Prob, FSA, modele słów Automat rozpoznający wymowę słowa need a14=.11 start n1 iy2 d3 end n iy d... Observation Sequence (phone symbols)

37 Wykorzystanie probabilistycznych FSA Wykorzystując probabilistyczne FSA możemy odpowiedzieć na pytania: jakie jest prawdopodobieństwo wygenerowania konkretnego wyrażenia? Jaka jest najbardziej prawdopodobna ścieżka przejścia dla danego wyrażenia ? Jaki jest najbardziej prawdopodobny rezultat (wyjście) dla danego wejścia? Jak przypisać prawdopodobieństwa do przejść? (??)

38 Model Bayesa dla wymowy Zadanie: na podstawie serii fonemów obliczyć najbardziej prawdopodobne słowo, które im odpowiada (założymy chwilowo, że fonemy te są prawidłowo rozpoznane i że znamy granice słowa) Przykład: założymy, że rozpatrywaną sekwencją jest [ni] korpus mówionego języka angielskiego (Switchboard Corpus) podaje następujące słowa, których wymowa jest [ni]: – the, neat (neat little), new (New York), need, knee, to (talking to you), you ! Wybór zgodnie z regułą w = argmax w W P(y|w) P(w)y= [ni], w -jedno z 7 słów Jak wyznaczyć p(y|w) ?

39 Reguły probabilistyczne Propozycja 1: analogicznie jak dla błędów pisowni (tabele częstości pojedynczych błędów (dla pisowni były to: zamiana, opuszczenie, wstawianie, przestawienie kolejności) – przeszkoda: zmian wymowy może być w jednym słowie wiele, są od siebie zależne (dotyczą nie tylko jednego fonemu) Idea: reguły probabilistyczne przykład: reguła, która mówi, że po wyrazie zakończonym na n, lub m (głoska nosowa) słowo the może być wymówione jako [ni] (a dokładniej dźwięk [ ] może być zastąpiony przez [n]): n / [+nasal]# __ zmiana ta nie zachodzi jednak zawsze: [.15] n / [+nasal]# __ – Jak ustalić wartość [.15]? - odpowied ź : na podstawie korpusu

40 Przykład, I need, cd. Słowo reguła P the nasal assimilation n / [+nasal]# __ [.15] neat pominięcie końcowego t t / V __ # [.52] need pominięcie końcowego d d / V __ # [.11] new zmiana u przed y u i / __ #y [.36] w freq(w) p(w) p(y|w) p(y|w)p(w) knee the neat need new Poprawa wyniku - uwzględnienie kontekstu (np. bigramy)

41 Metody statystyczne w inżynierii lingwistycznej, cz.2

42 Słowa w kontekście Most zaprojektowany prawie 100 lat GW, temu przez Leonarda da Vinci otwarto w środę w Norwegii. W wielu przypadkach jesteśmy w stanie przewidzieć kolejne słowo (a przynajmniej klasę do jakiej należy) Rodzaje zasobów wiedzy, z której korzystamy: – wiedza ogólna o świecie i dotycząca konkretnej dziedziny – wiedza syntaktyczna – wiedza leksykalna

43 Słowa w kontekście Postulat: Dużą część wiedzy niezbędnej do przewidywania możliwego dalszego ciągu wypowiedzi możemy analizować korzystając z metod statystycznych. W szczególności możemy mówić o prawdopodobieństwie zdania (wypowiedzi) Czy rzeczywiście chcemy przewidywać jakie będzie następne słowo? NIE, ale jeżeli umiemy to zrobić, to znaczy, że umiemy porównywać prawdopodobieństwa pewnych połączeń - umiemy oceniać prawdopodobieństwo/poprawność zdania. np. Przy analizie mowy możemy ocenić która z naszych hipotez jest najbardziej prawdopodobna

44 Rzeczywiste błędy pisowni Wiadomo, że pewne typy błędów prowadzą do słów, które występują w słowniku (wykrycie ich wymaga uwzględniania kontekstu); sposób traktowania takich błędów, np. – budowa listy często mylonych słów: piece/peace, whether/weather/, their/there etc. – Jeżeli w zdaniu występuje któreś z często mylonych słów - konstrukcja alternatywnego zdania, – zbadanie prawdopodobieństwa konkurencyjnych zdań i wybór słowa, które wchodziło w skład zdania o większym prawdopod. – np.:... blah blah blah the whether... vs blah blah blah the weather... Prawdopodobieństwo zdania może być widziane jako iloczyn prawdopodobieństwa słów, w nim występujących, np. P(The big cat)= P (the ^ big ^ cat)

45 Łańcuchy (Chain Rule) Przypomnijmy definicję prawdopodobieństwa warunkowego: p(A|B) = p(A^B) / p(B) czyli p(A ^ B) = p(B|A) p(A) tzn. p(The ^ dog) = p(dog|the) p(the) W ogólności: p( A 1, A 2, A 3, A 4,..., A n ) = p(A 1 |A 2,A 3,A 4,...,A n ) p(A 2 |A 3,A 4,...,A n ) p(A 3 |A 4,...,A n )... p(A n-1 |A n ) p(A n ) inaczej p(w n 1 ) = p(w 1 )p(w 2 | w 1 ) p(w 3 |w 2 1 )... p(w n | w n-1 1 ) = n k=1 p(w k | w k-1 1 ) (reguła łańcucha to bezpośrednia konsekwencja reguły Bayesa) !

46 Złota reguła (klasycznej statystycznej inżynierii lingwistycznej) Jeżeli jesteśmy zainteresowani zdarzeniem A pod warunkiem B i jeśli bezpośrednie oszacowanie p(A|B) jest praktycznie trudne bądź niezgodne z naszymi zamierzeniami: – zgodnie z regułą Bayesa liczymy: argmax A p(A|B) = argmax A p(B|A). p(A) / p(B) = argmax A p(B|A) p(A) !... gdyż p(B) jest stałe dla zmieniających się A

47 Złota reguła... OCR, ASR, HR, MT,... p(A|B) = p(B|A) p(A) / p(B) (formuła Bayesa) A best = argmax A p(B|A) p(A) (złota zasada) p(B|A): model akustyczny, leksykalny,... (nazwa zależna od aplikacji) p(A): model języka W statystycznych aplikacjach dotyczących języka naturalnego wiedza o źródle danych nazywana jest częściej modelem języka (Language Model) niż gramatyką. OCR, ASR, HR, MT,...

48 Idealny model języka Język to ciąg form wyrazowych notacja: A ~ W = (w 1,w 2,w 3,...,w d ) zadanie (cel modelowania): p(W) = ? Oczywiście jest reguła: p(W) = p(w 1,w 2,w 3,...,w d ) = = p(w 1 ) p(w 2 |w 1 ) p(w 3 |w 1,w 2 ) p(w d |w 1,w 2,...,w d-1 ) ale niezbyt praktyczna -> zbyt wiele parametrów nawet przy małym d

49 Łańcuchy Markova W idealnym modelu - pamięć nieskończona: – dla w i, znamy wszystkich poprzedników w 1,w 2,w 3,...,w i-1 Przybliżanie - założenie Markova: P (w n | w n-1 1 ) P (w n | w n-1 n-N+1 ), (robimy założenie, które umożliwia nam zbieranie statystyk) tzn. pamięć ograniczona: – zapominamy o zbyt dawnych poprzednikach – pamiętamy tylko kilka (k) poprzedzających słów : w i-k,w i-k+1,...,w i-1 – metoda ta nazywana jest aproksymacją Markova k-tego rzędu – k th order Markov approximation – + niezmienność w czasie

50 Łańcuchy Markova, bigramy pełny wzór: P (w n 1 ) = P (w 1 ) P(w 2 | w 1 ) P(w 3 | w 1 2 )... P(w n | w 1 n-1 ) = P(w k | w 1 k-1 ) k=1..n przybliżenie - założenie Markova: P (w n | w n-1 1 ) P (w n | w n-1 n-N+1 ) (N- rząd) założenie Markova dla bigramów P (w n 1 ) P(w k | w k-1 ) k=1..n

51 Łańcuchy Markova, bigramy Estymacja : P(w k | w k-1 ) na podstawie częstości w korpusie treningowym P (w n | w n-1 ) = c(w n-1 w n ) / w c(w n-1 w) = = c(w n-1 w n ) / c(w n-1 )

52 Przykłady x-Gramy – unigrams: (bez pamięci) P(dog), P(sen) – bigramy: ( pamięć jednego słowa) P(dog|big), P(sen|kolorowy) – trigramy: (pamięć dwóch sów) P(dog|the big) P(sen|nienaturalnie kolorowy) – quadrigramy: (pamięć trzech słów) P(dog|the big bad) P(sen|bardzo nienaturalnie kolorowy)

53 Przykłady z Berkeley restaurant project Prawdopodobieństwa poszczególnych ciągów słów mogą być przybliżane przez liczebności w odpowiednio dużym korpusie. system odpowiada na pytania dotyczące restauracji w Berkeley, California korzystając z odpowiedniej bazy danych przykładowe pytania: Im looking for Cantonese food. Id like to eat dinner someplace nearby. Tell me about Chez Panisse. Can you give me a list of the kinds of food that are available? When is cafe Venezia open during the day? Korpus ok zdań, 1616 form wyrazowych

54 BERP, bigramy Counts I want to eat Chinese food lunch uni. I want to eat Chinese food lunch Probs I want to eat Chinese food lunch I want to eat Chinese food lunch P (w n | w n-1 ) =c(w n-1 w n ) / c(w n-1 )

55 Prawdopodobieństwo zdania Prawdopodobieństwa policzone z danych: eat on (on|eat) eat at eat some eat Indian eat lunch- 0.06eat Thai I- 0.25want to -.65 I want- 0.32to eat -.26 British food-.6 Wyliczone prawdopodobieństwo zdania: P(I want to eat British food) = = P(I| ) P(want|I) P(to|want) P(eat|to) P(British|eat) P(food|British) ( z uwagi na małe liczby operujemy zwykle na logarytmach, logprob)

56 Kilka uwag o podanych liczbach: Częste połaczenia: P (want|I) =.32 P (to|want) =.65 P (eat|to) =.26 P (food|chinese) =.56 P (lunch|eat) =.055 Rzadkie połączenia: P (I|I) P (I|want) P (I|food) ale nie niemożliwe: P (I|I) I I I I want... P (I|want) I want I want P (I|food) the kind of food I want is...

57 Aproksymacja Markova (n-1) th rzędu n-gram LM: p(W) df i=1..d p(w i |w i-n+1,w i-n+2,...,w i-1 ) W szczególności (przy słowniku |V| = 60k): – 0-gram LM: uniform model, p(w) = 1/|V|, 1 parametr – 1-gram LM: unigram model, p(w), parametry – 2-gram LM: bigram model, p(w i |w i-1 ) parametry – 3-gram LM: trigram model,p(w i |w i-2,w i-1 ) parametry N-gramowe modele języka n-gram Language Models

58 Kilka uwag - wnioski niewielka liczba zdarzeń występuje z dużą częstością duża liczba zdarzeń występuje z niska częstością. ! Można szybko zebrać dane dotyczące dużych częstości ! Zebranie danych dotyczących niskich częstości może trwa zbyt długo ! Zera pojawiające się w tabelach są dwojakiego rodzaju: – rzeczywiste 0 – 0 wynikające ze zbyt małej próby

59 N-gramy, problem zerowych wystąpień – w przypadku generowania tekstów jesteśmy ograniczeni tylko do tych n-gramów, które wystąpiły w analizowanym korpusie; przy dostatecznej wielkości korpusu ograniczenie to ma niewielkie znaczenie praktyczne; – przy analizie system przypisuje zerowe prawdopodobieństwa wyrażeniom, które zawierają takie elementy, które nie wystąpiły w korpusie - tak być nie może. Metody obejścia problemu – nie wykorzystywać n-gramów wyższego rzędu – wprowadzenie poprawek do modelu (smoothing) zmniejszeni liczności n-gramów, które wystapiły na rzecz tych, które nie wystąpiły (metody: Add-One, Witten-Bell) środki matematyczne (backoff (Katz Backoff), interpolacja)

60 BERP, bigramy, model Add One Counts,org. I want to eat Chinese food lunch I want to eat Chinese food lunch Counts+1 I want to eat Chinese food lunch I want to eat Chinese food lunch

61 Co osiągnęliśmy? Add One jest złą metodą przybliżania – bardzo duże zmiany częstości (duży % przypisany tym n-gramom, które nigdy nie wystąpiły) – Gale i Church (1994) dowodzą, że jest to metoda gorsza nawet od wersji zupełnie nie poprawianej – można dodawać mniej niż 1, ale wciąż nie jest to najlepsza metoda..

62 Witten-Bell Idea: prawdopodobieństwo n-gramu, który jeszcze nie wystąpił jest zależne od tego jaka część z możliwych n-gramów nie pojawiła się jeszcze w korpusie Ile razy rozpoznawaliśmy jakiś n-gram po raz pierwszy? - tyle razy ile stwierdziliśmy różnych n-gramów (każdy był kiedyś rozpoznany po raz pierwszy), T Tak więc prawdopodobieństwo napotkania nowego typu (n- gramu) (czyli suma prawdopodobieństw wszystkich n-gramów, które jeszcze nie wystapiły): p i * = T /( N + T) T- liczba typów, które wystąpiły w korpusie i:c i =0 N-liczba wszystkich wystąpień wszystkich typów

63 Witten-Bell Discounting Ustaliliśmy prawdopodobieństwo wystąpienia wszystkich nie napotkanych jeszcze n-gramów, ale jak je rozdzielić... Najprostsza propozycja - po równo Z = 1 czyli Z - liczba typów o licz. 0 p i * = T / Z ( N + T) i:c i=0 inaczej : p i * = T / Z ( N + T) if c i =0 Nie możemy jednak tylko dodać przewidywanych prawdopodobieństw - musimy unormować sumę do 1. Tym samym pomniejszamy prawdopodobieństwa tych n-gramów, które się pojawiły w korpusie: p i * = c i / (N + T) if (c i > 0)

64 Witten-Bell dla bigramów W przypadku unigramów metoda ta przypomina metodę Add One Dla bigramów jednak metoda ta uwzględnia w pewnien sposób historię: rozdzielanie prawdopodobieństwa równo pomiędzy wszystkie n- gramy nie jest najlepszą strategią -- niektóre słowa częściej niż inne wprowadzają nowe konteksty, możemy oszacować prawdopodobieństwo wprowadzenia nowego bigramu na podstawie dotychczas zgromadzonych danych: – Dla danego słowa liczymy ile różnych bigramów zaczyna i dzielimy przez liczbę wystąpień wszystkich bigramów zaczynających się od niego metoda często używana w systemach rozpoznawania mowy

65 Final Witten-Bell Bigram Equations Całkowite prawdopodobieństwo bigramów, które się jeszcze nie pojawiły: i:c(wx wi )=0 p i * (w i |w x ) = T (w x) /( N(w x ) + T(w x )) T- liczba typów bigramów, N- liczba wystąpień Dla poszczególnych bigramów (tak jak poprzednio): Z(w x )= 1 (ile bigramów ma 0 wystąpień) i:c(w x w i )=0 p i * (w i |w i-1 ) = T(w i-1 ) / Z(w i-1 ) (N + T(w i-1 )) if c(w i-1 w i )= 0

66 BERP Liczba różnych bigramów dla słów z przykładu : I - 95 want - 76 to -130 eat Chinese - 20 food - 82 lunch - 45 liczba słów 1616, więc dla każdego słowa możliwych bigramów liczba niewidzianych bigramów: I want to eat Chinese food lunch

67 BERP, bigramy, model Witten-Bell Counts I want to eat Chinese food lunch I want to eat Chinese food lunch CountsWB I want to eat Chinese food lunch I want to eat Chinese food lunch

68 bigramy, porównanie Add One i W-B CountsWB I want to eat Chinese food lunch I want to eat Chinese food lunch Counts +1 I want to eat Chinese food lunch I want to eat Chinese food lunch

69 Good-Turing Discouting Idea ogólna: (metoda dobra dla estymacji z dużych danych) – wyznaczenie częstości występowania N-gramów, N(c) określa ile słów występowało c - razy (count-of-counts) – estymator prawdopodobieństwa względnego wyznaczony na podstawie częstości występowania: p r (w) = (c(w) + 1) N(c(w) + 1) / (|T| N(c(w))) – w szczególności oszacowanie częstości grupy na podstawie oszacowanego stosunku grupy 1 do 0 (dla słów jeszcze niespotykanych : c(w) = 0) p r (w) = N(1) / (|T| N(0)) – mała liczba grup (< 5-10, N(c) wysokie) – oczywiście konieczna normalizacja (aby w p(w) = 1)

70 Metody Backoff (cofania, korzystania z wiedzy częściowej) Celem jest znalezienie przybliżeń dla n-gramów, które nie pojawiły się w zbiorze treningowym, a dokładniej prawdopodobieństwa pojawienia się formy x w konkretnym kontekście O ile forma ta już wcześniej występowała (ale w innym kontekście) możemy oprzeć nasze przypuszczenia na danych jej dotyczących. Na przykład: jeżeli nie mamy danych dla P(proces|poszlakowy) możemy skorzystać jakoś z P(proces), które zapewne nie jest zerowe. Ale trzeba wziąć pod uwagę dwa fakty: – normowanie całkowitego prawdopodobieństwa do 1, zachowanie proporcji, tak by nie przypisać zerowym wystąpieniom prawd. wyższego niż dla wystąpień nie zerowych – prawdopodobieństwa te ustalane są w różnych przestrzeniach

71 Katz Backoff Jeżeli N-gram ma liczność zero, cofamy się do N-1 - gramu, jeśli ten też ma liczność zero, to do n-2 - gramu... w przypadku trigramów... p i (w i | w i-2 w i-1 ) if c(w i-2 w i-1 w i )> 0 p`(w i | w i-2 w i-1 ) = 1 p i (w i | w i-1 ) if c(w i-2 w i-1 w i )= 0 and c( w i-1 w i )> 0 2 p i (w i ) wpp.

72 Podsumowanie Każda z zaprezentowanych metod oparta jest na jakieś obserwacji dotyczącej częstości występowania słów w języku. Żadna z tych obserwacji nie jest nieprawdziwa, ale uwzględnienie ich prowadzi do modeli dających różne rezultaty. Tak naprawdę wiele zależy od wielkości i rodzaju korpusu i potrzeb konkretnej aplikacji. Nie ma metody najlepszej. Model języka najprostszy model języka składa się z: – zestawu N-gramów opracowanego na podstawie korpusu – z częstościami wygładzonymi przy pomocy metody Witten- Bell lub Good-Turing w połączeniu z jakąś formą backoff. Mimo swej prostoty taki model jest użyteczny dla wielu zastosowań

73 Testowanie i uczenie Próbujemy odgadnąć prawdopodobieństwa zdarzeń, które się nigdy nie wydarzyły ! Jak możemy ocenić prawidłowość naszych przypuszczeń? Podział zbioru danych na dwa rozłączne podzbiory: – zbiór treningowy wykorzystywany do wyliczenia danych modelu (uczenie się w tym kontekście oznacza wyliczanie częstości występowania w korpusie poszczególnych n-gramów) – zbiór testowy wykorzystywany do sprawdzania modelu

74 Testowanie i uczenie Lepszy sposób: Podział danych na trzy rozłączne zbiory: – zbiór treningowy (Training Set) – zbiór (Dev Test Set) służący do sprawdzenia modelu, poprawienia go bądź wyboru pomiędzy alternatywnymi modelami – zbiór testowy (Test Set) wykorzystywany do końcowej oceny modelu. Dlaczego podział na więcej niż dwa zbiory? – Trudno uniknąć wielokrotnego sprawdzania modelu, a jeżeli tylko sprawdzimy go na danych testowych i wprowadzimy poprawki, to wprowadzamy zakłócenia i nasz zbiór testowy traci niezależność - staje się zbiorem treningowym

75 Testowanie i uczenie Held Out Data (cross-validation) podział danych na N zbiorów trenowanie modelu na N-1 zbiorach testowanie na N-tym zbiorze powtarzanie tego procesu dla n różnych wyborów zbioru testowego uśrednienie rezultatów

76 Rozpoznawanie mowy Zadanie: przekształcenie sygnału mowy na tekst czyli: jakie zdanie języka L jest najbardziej prawdopodobnym źródłem sygnału akustycznego o. Obecne systemy komercyjne dotyczą różnych zastosowań: – teksty o szerokiej tematyce (słownik rzędu słów) – teksty z wąskiej dziedziny, polecenia – pojedyncze słowa Problemy: – wielu mówców mówiących jednocześnie – hałaśliwe otoczenie – szumy kanałów przesyłu (telefon, TV,...)

77 Zadanie rozpoznawania mowy - podejście statystyczne Przypomnienie: W best = argmax w p(W|O) W best = argmax w p(O|W) p(W) (złota zasada) p(O|W): model akustyczny p(W): n-gramowy model języka HMM to metoda wyznaczenia p( O | W)

78 Rozpoznawanie mowy, zadanie łatwe czy trudne? ciąg fonemów (dane z korpusu): ay d ih s hh er d s ah m th ih ng ax b aw m uh v ih ng r ih s en l ih to I just heard something about moving recently łatwiejszy przykład [aa n iy dh ax ] I need the

79 Model słowa automat z wagami (łańcuch Markova) need a14=.11 a01 a12 start n1 iy2 d3 end a23=.89 a34... n ly d... o1 o2 o3 observation sequence (phone symbols) zakładaliśmy tu, że znamy fonemy wejściowe, ale tak naprawdę nie mamy symboli fonemów tylko sygnał, który musimy podzielić na fonemy i słowa...

80 Model słowa, HMM need a14=.11 start n1 iy2 d3 end prawdop. b1(o1) b1(o2) b2(o3) b2(o4) b2(o5) b3(o6) wyjściowe o1 o2 o3o4o5 o6 observation sequence (spectral feature vectors) (trzeba jeszcze dodać pętle w stanach n1, iy2 i d3 dla różnej długości fonemów)

81 Ukryte modele Markova, Hiden Markov Models, HMM Ukrycie alfabetu Najprostszy HMM: stany generują symbole wyjściowe wykorzystując odpowiedni alfabet, ale nie ma to związku z nazwą stanów, jest niewidzialne (poniżej jeszcze każdy stan generuje inny symbol): p(toe) = =.528 enter here p(4|3) = 0.1 a t e o

82 Zwiększona elastyczność... ale różne stany mogą powodować wypisanie takich samych symboli (bo dlaczego nie?) : sumowanie prawdopodobieństw dla wszystkich ścieżek p(toe) = =.568 enter here p(4|3) = 0.1 t t e o

83 Wyjście związane z przejściami Jeszcze większa elastyczność: generowanie wyjścia na przejściach, nie w stanach enter here 0.1 t t e o e o e e o t p(toe) = =.624

84 ... i w końcu prawdopodobieństwa wyjścia Maksymalna elestyczność: [Unigramowy] rozkład (przestrzeń - alfabet wyjściowy) na każdym wyjściu: enter here !simplified! p(t)=.5 p(o)=.2 p(e)=.3 p(toe) = p(t)=.8 p(o)=.1 p(e)=.1 p(t)=0 p(o)=0 p(e)=1 p(t)=.1 p(o)=.7 p(e)=.2 p(t)=0 p(o)=.4 p(e)=.6 p(t)=0 p(o)=1 p(e)=

85 Inne ujęcie Zamiast przypisywać rozkład prawdopodobieństwa do jednego przejścia, można zapisać odpowiednio wiele przejść i każdemu przypisać odpowiedni symbol wyjściowy i prawdopodobieństwo: t,.48 t,.2 o,.616 e,.6 e,.12 enter here p(toe) = e,.176 o,.06 e,.06 e,.12 o,.08 o,1 t,.088 o,.4 W praktyce wykorzystuje się ten sposób, który w danej sytuacji jest wygodniejszy.

86 Formalizacja HMM (najogólniejszy przypadek ) to (S, s 0, Y, P S, P Y ), gdzie: – S = {s 0,s 1,s 2,...,s T } to zbiór stanów, s 0 jest stanem początkowym, – Y = {y 1,y 2,...,y V } to alfabet wyjściowy, – P S (s j |s i ) zbiór prawdopodobieństw przejść wielkość P S : |S| 2. – P Y (y k |s i,s j ) zbiór prawdopodobieństw wyjściowych (wygenerowania symboli) wielkość P Y : |S| 2 x |Y| Przykład: – S = {x, 1, 2, 3, 4}, s 0 = x – Y = { t, o, e }

87 HMM, przykład Dla omawianego grafu: – S = {x, 1, 2, 3, 4}, s 0 = x – Y = { e, o, t } – P S : P Y : x x = 1 x x x x x x t o e

88 Wykorzystanie HMM Generowanie ( o niewielkim praktycznym znaczeniu :-)): 1. początek w s = s przejście z s do s z prawdopodobieństwem P S (s|s). 3. Wypisanie symbolu y k z prawdopodobieństwem P S (y k |s,s). 4. powtarzanie od kroku 2 (aż ktoś powie dość ) analiza: rozpoznawanie mowy, przypisywanie tagów morfologicznych...

89 Wykorzystanie HMM HMM: model probabilistyczny i niedeterministyczny – sekwencja stanów nie pozwala na jednoznaczne odtworzenie danych – dane nie wyznaczają jednoznacznie ciągu stanów – najlepsze co można zrobić to dla danego ciągu wejściowego odnaleźć najbardziej prawdopodobny ciąg stanów (lub odwrotnie, dla danego ciągu stanów wskazać najbardziej prawdopodobny ciąg wejściowy): Dla danego HMM & sekwencji wyjściowej Y = {y 1,y 2,...,y k }: (Zadanie 1) oblicz prawdopodobieństwo Y; (Zadanie 2) oblicz najbardziej prawdopodobny ciąg stanów, który doprowadził do wygenerowania Y

90 Zad. 1: obliczenie prawdopodob. (zakładamy dla ułatwienia wyjście deterministyczne) HMM:.6 e C A D B p(toe) = =.568 enter here 0.1 t t o Y: t o e time/position t (,0) = 1 (A,1) =.6 (C,1) = B,0,0 C,0 D,0 A,0 B,1,1 C,1 D,1 A,1 B,2,2 C,2 D,2 A,2 B,3,3 C,3 D,3 A,3 (D,2) =.568 (B,3) = trellis state: (HMM state, position) Trellis(siatka) - each state: holds one number (prob): rollout - probability of Y: in the last state za Jan Hajic, 1999

91 Obliczanie wartości - start rozpoczynamy w stanie początkowym ( ), – set its (,0) to 1. tworzymy pierwszą kolumnę siatki: – dla pierwszego symbolu wyjściowego y 1 kolumnę siatki, uwzględniając tylko te stany, w których można wygenerować y 1 – (state,1) = P S (state| ) * (,0)...i zapominamy o kolumie 0.6.4,0 C,1 A,1 position/stage 0 1 =.6 = 1

92 Następny krok Załóżmy, że jesteśmy w kroku i Tworzenie następnego kroku: – utworzenie komórek siatki dla tych stanów, które generują y i+1, ale tylko dla tych, które są osiągalne, z któregoś ze stanów kroku i – ustalenie (state,i+1) na: P S (state|prev.state) (prev.state, i) (dodanie wszystkich tych wartości dla łuków dochodzących do jednej komórki/stanu siatki ) –... i zapominamy o stanie i position/stage i=1 2 C,1 A,1 y i+1 = y 2 : o =.6 = D,2 = p(to) = =.568 t C A D B enter here 0.1 t o e

93 Ostatni krok Kontunujemy, aż do wyczerpania wyjścia – dla przykładu z toe |Y| = 3 czyli do kroku 3 dodajemy wszystkie (state,|Y|) to jest szukane P(Y). Uwagi o algorytmie (miłe): – zużycie pamięci: 2|S| – max mnożeń: |S| 2 |Y| (S -zbiór stanów) B, 3 D,2 =.568 P(Y) =.568 last position/stage 1

94 Pełny przykład (wyjście nieterministyczne) Stage: C A D B t,.48 t,.2 o,.616 e,.6 e,.12 enter here e,.176 o,.06 e,.06 e,.12 o,.08 o,1 t,.088 o,.4 C,1 A,1.48.2,0 C,1 A,1 =.48 = 1 =.2 y 1 : t A,2 D, y 2 : o A,2 D,2 = B,3B,3 D, y 3 : e = = = P(Y) = P(toe) =

95 Zadanie 2: Algorytm Viterbi Algorytm znajdowania najbardziej prawdopodobnej ścieżki stanów, której przejście mogło doprowadzić do wygenerowania zaobserwowanego sygnału (Y) znajdujemy S best = argmax S P(S|Y) (Y jest stałe, więc i P(Y)): S best = argmax S P(S,Y) = = argmax S P(s 0,s 1,s 2,...,s k,y 1,y 2,...,y k ) = = argmax S i=1..k p(y i |s i,s i-1 )p(s i |s i-1 ) (prawdopodobieństwo wygenerowania y i przy przejściu ze stanu s i-1 do s i razy prawdopodobieństwo przejścia z s i-1 do s i ) Jednocześnie rozwiązujemy inny problem - segmentację wejścia na słowa

96 Algorytm Viterbi ogólnie w tablicy viterbi[ stan, pozycja_wejścia_t] przechowujemy max. prawdop., z jakim mogliśmy dojść do tego miejsca w dodatkowej tablicy back_pointers przechowujemy dla każdego stanu numer stanu poprzedniego, który leżał na najlepszej ścieżce do przedłużenia ścieżki z s wybieramy s takie, że iloczyn prawdopod. ścieżki do s razy prawd. przejścia z s do s razy prawd. wygenerowania w s t jest max (dla wszystkich stanów)

97 Viterbi function Viterbi(observations of len T,state-graph) returns best-path num-states num-of-states(state-graph) Create a path probability matrix viterbi[num-states+2,T+2] viterbi[0,0] 1.0 for each time step t from 0 to T do for each state s from 0 to num-states do for each transition s from s specified by state-graph new-score viterbi[s, t] * a[s, s] * b s (o t ) if ((viterbi[s, t+1] = 0) or (new-score > viterbi[s, t+1])) then viterbi[s, t+1] new-score back-pointer[s, t+1] s Backtrace from highest probability state in the final column of viterbi[] and return path prawdop. przejścia z s do s prawdop. s|o t

98 Viterbi Example r classification (C or V?, sequence?): V C C,V enter here V,C 1 V,V C,C t,r o,e,y,r p(t|C) =.3 p(r|C) =.7 p(o|V) =.1 p(e|V) =.3 p(y|V) =.4 p(r|V) =.2 t,r argmax XYZ p(rry|XYZ) = ?.8 Possible state seq.: ( V )( V,C )( C, V )[ VCV ], ( C )( C,C )( C, V )[ CCV ], ( C )( C,V )( V, V ) [ CVV ]

99 Viterbi Computation V C C,V enter here V,C 1 V,V C,C t,r o,e,y,r p(t|C) =.3 p(r|C) =.7 p(o|V) =.1 p(e|V) =.3 p(y|V) =.4 p(r|V) =.2 t,r.8 C C,V V,V = 1 =.6 x.7 =.42 =.42 x.88 x.2 = C,C =.42 x.12 x.7 = C,V C,C = x 1 x V =.4 x.2 =.08 V,C =.08 x 1 x.7 =.056 = x.07 x V,C =.056 x.8 x = max { Y: r r y in trellis state: best prob from start to here

100 n-best State Sequences Keep track of n best back pointers: Ex.: n= 2: Two winners: VCV (best) CCV (2 nd best) C C,V V,V = 1 =.6 x.7 =.42 =.42 x.88 x.2 = C,C =.42 x.12 x.7 = C,V C,C = x 1 x V =.4 x.2 =.08 V,C =.08 x 1 x.7 =.056 = x.07 x V,C =.056 x.8 x = max ?{?{ Y: r r y

101 Potrzebne zasoby Korpus, aby wytrenować model języka. Powinien być duży i reprezentatywny dla konkretnej dziedziny zastosowań Słownik wymowy, który posłuży do zbudowania biblioteki modeli wymowy słów. korpus nagrań (wave files) z transkrypcją słowo po słowie korpus nagrań (spectral feature frames) z transkrypcją zawierającą fonemy

102 Uwagi o zasobach: Model języka powinien możliwie dobrze oddawać dziedzinę, której dotyczy dyktowany tekst, słownik wymowy prawdopodobnie nie będzie kompletny, duże ręcznie anotowane dane zawierające mowę są kosztowne, ręcznie anotowane dane na poziomie fonemów są jeszcze kosztowniejsze ! W rzeczywistości nie da się uzyskać wszystkich potrzebnych liczb z danych treningowych (konieczne estymacje)

103 Uwagi o algorytmie Viterbi Najbardziej prawdopodobny ciąg stanów (odpowiadający najbardziej prawdopodobnemu ciągowi fonemów) może nie odpowiadać najbardziej prawdopodobnemu ciągowi słów (np. jeśli w słowniku jest wiele sposobów wymowy niektórych słów, słowa o jednoznacznej wymowie mogą być preferowane) ! Przy podanym sposobie analizy problemu nie przeszukujemy wcale przestrzeni ciągów słów. Możliwe bezpośrednie wykorzystanie tylko modelu bigramowego (dla modelu trigramowego, ścieżka max. prawdop. nie musi być przedłużeniem najlepszej śiceżki z poprzedniego stanu) - to można ominąć podając więcej rozwiązań

104 Best First Search Alternatywa - przeszukiwanie przestrzeni możliwych ciągów słów przy wykorzystaniu – modelu języka do ewaluacji ścieżki – modelu akustycznego do sugerowania najbardziej prawdopodobnych słów – prawdopodobieństw stanowiących kombinację pr. akustycznych i tych z modelu języka Algorytm: przedłużanie najlepszej ścieżki, wyznaczanie najlepszej, przedłużanie..

105 A* Problem: Co się stanie, jeśli porównamy prawdopodobieństwo rozszerzonej ścieżki do pr. innych, krótszych ścieżek? Rozwiązanie: Zmodyfikowanie prawdopodobieństwa tak, by zawierało heurystykę dotyczącą prawdopodobieństwa dalszego ciągu f *(p)= g(p) + h*(p) f*(p) - pr. całej ściezki g(p) - pr. kawałka p h*(p) - estymacja najlepszego dalszego ciągu (trudne do oszacowania, zależne np. od liczby słów, które zostały)

106 Statystyczne tagowanie morfologiczne (POS). Estymacja parametrów HMM.

107 Tagset (przypomnienie) Najczęstszy zbiór etykiet to spis wszystkich możliwych kombinacji cech gramatycznych dla danego języka T C 1 C 2... C n – zwykle ciąg liter i cyfr: system skrótów: NNS (gen. noun, plural) system pozycyjny: pozycja i odpowiada C i : –AAMP3----2A---- (gen. Adj., Masc., Pl., 3rd case (dative), comparative (2nd degree of comparison), Affirmative ) –tense, person, variant, etc.: N/A (oznaczone -)

108 Zadanie tagowania morfologicznego Formalnie: A + T A to alfabet fonemów (A + niepusty ciąg fonemów) –bardzo często zamiast fonemów - litery T jest zbiorem tagów (etykiet) (tagsetem) Przypomnieć należy wielość poziomów analizy języka: fonetyka... fonologia... morfologia... syntaktyka... semantyka... krok w bok – A + 2 (L,C 1,C 2,...,Cn) T morphology tagging: disambiguation ( ~ select) tagging

109 Przykłady Forma słowa: A + 2 (L,C 1,C 2,...,Cn) T – He always books the violin concert tickets early. MA: books {(book-1,Noun,Pl,-,-),(book-2,Verb,Sg,Pres,3)} tagging (ujednoznacznienie):... (Verb,Sg,Pres,3) –...was pretty good. However, she did not realize... MA: However {(however-1,Conj/coord,-,-,-),(however- 2,Adv,-,-,-)} tagging:... (Conj/coord,-,-,-) – [a n d] [g i v] [i t] [t u:] [j u:] (and give it to you) MA: [t u:] {(to-1,Prep),(two,Num),(to-2,Part/inf),(too,Adv)} tagging:... (Prep)

110 Metody statystyczne (przegląd) Probabilistyczne: HMM –Merialdo i wiele innych (XLT) Maximum Entropy –DellaPietra et al., Ratnaparkhi, i inni oparte na regułach: TBEDL (Transformation Based, Error Driven Learning) –Brills tagger oparte na przykładach –Daelemans, Zavrel, inne oparte na opisie cech (języki fleksyjne) Classifier Combination (Brills ideas)

111 Tagowanie statystyczne Noisy Channel: Input (tags) Output (words) The channel NNP VBZ DT... (adds noise) John drinks the... Ponownie ta sama historia: Argmax P (Tag Sequence|Word Sequence) po przekształceniu: Argmax P(Word Sequence|Tag Sequence)P (Tag Sequence) P (Word Sequence)

112 Elementy modelu - P(Tag Sequence) Jeżeli założymy, że dysponujemy otagowanym korpusem do trenowania naszego tagera i trigramowym modelem języka to P (Tag Sequence) może być przybliżone jako: P(t1) P(t2 | t1) n i=3 P(t i | t i-2 t i-1 ) co można wyliczyć z danych i wygładzić

113 Model word | tag P (Word Sequence|Tag Sequence) Czynimy w tym miejscu upraszczające założenie, że słowo zależy tylko od tagu. n i=1 P(wi |ti ) Łącząc to z modelem języka, poszukujemy sekwencji tagów, które maksymalizują następującą wielkość: P (t 1 )P (t 2 | t 1 ) n i=3 P(t i | t i-2 t i-1 ) ( n i=1 P(w i |t i ) )

114 Tagowanie statystyczne jako HMM Przejścia pomiędzy stanami i ich prawdopodobieństwa pochodzą z modelu języka prawdopodobieństwa wygenerowania symboli wyjściowych pochodzą z rozkładu P(word|tag) jak w przypadku innych podobnych zastosowań znajdujemy najbardziej prawdopodobną sekwencję tagów wykorzystując algorytm Viterbiego

115 Prosty przykład HMM a:P(a|n)P(n|n) a:P(a|n)P(v|n) a:P(a|v)P(v|v) n v b:P(b|n)P(v|n) b:P(b|n)P(n|n) b:P(b|v)P(v|v) tagi: n v słowa: a b i obu słowom mogą być przyporządkowane oba tagi

116 Znajdowanie najbardziej prawdopodob. ścieżki (Viterbi, powt.) Znamy ciąg wyjściowy, szukamy ciągu stanów (t) = arg max P(Word Sequence|Tag Sequence) dla każdego stanu liczymy, jakie jest największe prawdopodobieństwo znalezienia się w nim po t-krokach korzystamy z wyników dla ścieżki o 1 krótszej musimy zapamiętać wynik dla każdego stanu (przy danym wejściu) poprzednie wyniki możemy zapomnieć

117 Najbardziej prawdopodobna ścieżka bbba a:.3 b:.2b:.1 a:.2 n v a:.4 a:.2 b:.5 b:.1 stany bbbbbbbbba n ciąg stanównnnnnnnnnnnvvvn prawdopod V ciąg stanówvnvnvvnvvvnvvvv prawdopod

118 Obliczanie prawdopodobieństw dla HMM Dla każdego stanu s i liczymy po każdym słowie prawdopodobieństwo z jakim dany ciąg słów (długości t) doprowadziłby nas nas tego stanu (warunki początkowe - dla ciągu pustego, pr. dla stanu początkowego =1, dla innych 0) i (t) =(def) P(w 1,t-1, S t =s i ) t>1 (forward probalility) 1. P(w 1,n ) = i=1.. P(w 1,n, S n+1 =s i ) = i=1.. i (n+1) prawd. uzyskania ciągu w 1,n jest sumą prawdopodobieństw uzyskania go poprzez dokończenie ciągu o 1 krótszego poprzez przejście ze wszystkich stanów HMM

119 Obliczanie prawdopodobieństw dla HMM j (t+1) = P(w 1,t, S t+1 =s j ) = i=1.. P(w 1,t, S t =s i, S t+1 =s j ) = i=1.. P(w 1,t-1, S t =s i) P(w t, S t+1 =s j | w 1,t-1, S t = s j ) = (Markov as.) i=1.. P(w 1,t-1, S t =s i) P(w t, S t+1 =s j | S t = s j )= i=1.. i (t) P(s i ->(w t ) s j ) prawd. znalezienia się w momencie t w stanie i razy prawdopodobieństwo przejścia z i do j przy w t

120 Obliczanie prawdopodobieństw dla HMM bbba a:.3 b:.2 nb:.1 v a:.2 a:.4 a:.2 b:.5 b:.1 Time ticks Input bbbbbbbbba n (t) V (t) P( w 1,t )

121 Prawdopodobieństwo liczone wstecz i (t) =(def) P(w 1,t-1, S t =s i ) t>1 (forward probalility) i (t) =(def) P(w t,n | S t =s i ) (backward probalility) prawdopod. zobaczenia ciągu w t,n o ile w kroku t znajdujemy się w s i i (t-1) = j=1.. j (t) P(s i ->(w t-1 ) s j ) prawd. zobaczenia ciągu w t w momencie t razy prawdopodobieństwo przejścia z i do j przy w t-1

122 Obliczanie prawdopodobieństw wstecz dla HMM bbba a:.3 b:.2b:.1 a:.2 nv a:.4 a:.2b:.5 b: Inputbbbabbabaa n (i) V (i) Ze stanu n będziemy mogli przejść z a albo do n z pr=.4, albo do v z pr.3

123 Uczenie Aby zdefiniować HMM musimy mieć prawdopodobieństwa (przejść i generowania słów) jeżeli dysponujemy danymi, to możemy tak dopasowywać nasz model, by większe prawdopodobieństwa nadawał sekwencjom, które pojawiły się w danych treningowych w skrajnym przypadku, możemy zapamiętać dane, ale na to potrzeba bardzo wielu stanów (zupełnie niepraktyczne podejście) jak inaczej: na przykład dla zwykłego łańcucha Markova - liczymy dla danych testowych, ile razy które z przejść zostało wybrane na wszystkie przejścia z danego stanu a na v bb

124 Uczenie Ciąg treningowy: abbaababbaa Liczności: zdowyjście liczność nva5 nnb3 vna2 vnb2 a n a v b b

125 Uczenie HMM Nie zawsze wiemy, które z przejść zostało wybrane (zakładamy, że wszystkie i rozdzielamy prawdopodobieństwo zgodnie z prawdopodobieństwem danej ścieżki) trzeba od czegoś zacząć Problemy z ew. punktami krytycznymi, maximami lokalnymi – C(s i -> (wk) s j) = P(s 1,n+1 | w 1,n ) *licz( s i -> (wk) s j, s 1,n w 1,n ) ile razy ( s i -> (wk) s j ) pojawia się w ciągu stanów jeśli generowane jest w 1,n

126 Przykład 1:.170:.67 1:.480:0.04 a b a b 0:0.16 1:1.01 0:.48 1:1.0 Przybliżenie Właściwy model ciąg treningowy : możliwe ścieżki: ababaa abaaa aaabaa aaaaaa

127 Definicja modelu HMM dla tagowania (prawie) ogólny model HMM: – output (słowa) emitowany przez stany (nie łuki) – stany: (n-1)-tka tagów (jeżeli wykorzystujemy model n-gramowy) – piątka (S, s 0, Y, P S, P Y ), gdzie: S = {s 0,s 1,s 2,...,s T } zbiór stanów, s 0 stan początkowy, Y = {y 1,y 2,...,y V } alfabet wyjściowy (słowa), P S (s j |s i ) zbiór prawdopodobieństw przejść między stanami P S (s j |s i ) = p(t i |t i-n+1,...,t i-1 ); s j = (t i-n+2,...,t i ), s i = (t i-n+1,...,t i-1 ) P Y (y k |s i ) zbiór prawdopodobieństw emisji słów –uproszczenie: P Y (y k |s i ) = P Y (y k |s j ) jeśli s i i s j zawierają najbardziej na prawo ten sam tag: P Y (y k |s i ) = p(w i |t i )

128 Generowanie tekstów w języku naturalnym Jurafsky Daniel, Martin James H. (2000) Speech and Language Processing. Upper Saddle River, Prentice Hall Mykowiecka, A. (1992) Podstawy przetwarzania języka naturalnego. Metody generowania tekstów, Akademicka Oficyna Wydawnicza, RM, Warszawa

129 Charakterystyka problemu Generowanie tekstów: – teksty stałe – wzorce z miejscami do wypełniania – tekst budowany ze słów (niewielkich fraz) Najogólniejszy podział zadania generacji wypowiedzi wyróżnia trzy fazy tworzenia tekstu: – planowanie treści wypowiedzi, wybór adekwatnych informacji – planowanie postaci wypowiedzi, wybór konstrukcji językowych, – ostateczne sformułowanie wybór słów, powiązań, uzgodnienia

130 Planowanie postaci tekstów W pracach nad komputerowym generowaniem tekstu wyróżnić można następujące podejścia: ustalenie schematów typowych wypowiedzi w terminach wybranego zestawu predykatów retorycznych (McKeown, 1985), opis znaczenia tworzonej wypowiedzi za pomocą formuł specjalnie zdefiniowanej logiki (Appelt, 1985), traktowanie tekstu jako drzewa opisującego relacje zachodzące pomiędzy sąsiednimi fragmentami tekstu (Mann & Thompson, 1988),

131 Schematy, McKeown (1982), Paris (1987) Schematy opisują stereotypowe układy zdań w typowych tekstach np. definicjach obiektów. Zaletą schematów jest łatwość ich definiowania i wykorzystywania. Dla wybranego zastosowania określane są schematy odpowiadające wszystkim typom paragrafów, które pojawić się mogą w generowanych tekstach. Dla każdego wykorzystywanego w schematach typu zdania definiowany jest predykat precyzujący rodzaj informacji, jaką można za pomocą takiego zdania przekazać oraz pewne dodatkowe dane, np. ile razy ten typ zdania może pojawić się w ramach jednego paragrafu. Schematy są więc do pewnego stopnia niezależne od konkretnego zastosowania, a wiedza związana z daną dziedziną wykorzystywana jest do powiązania poszczególnych elementów schematu z konkretnymi danymi.

132 Schematy Generowanie tekstu w oparciu o schemat polega na sekwencyjnym analizowaniu wszystkich jego elementów. W każdym kroku dokonywana jest ewaluacja warunków stosowalności predykatów powiązanych z kolejnym elementem schematu, wybór wariantu, dla którego warunki te są spełnione oraz selekcja z odpowiedniej bazy danych informacji potrzebnych do sformułowania wybranego rodzaju zdania. Jednym z ograniczeń w stosowaniu schematów jest brak określenia funkcji retorycznej pełnionej przez poszczególne jego elementy. Z tego względu schematy nie są odpowiednie w przypadku systemów wymagających dynamicznego dostosowywania się do zmiennego kontekstu. Inną wadą jest brak elastyczności -- niezależnie od możliwości zapisu wielu wariantów wypowiedzi schematy zawsze precyzyjnie określają strukturę tworzonego tekstu i nie pozwalają na wprowadzanie zmian (z góry wiadomo dokładnie jakie układy tekstu są dopuszczalne).

133 Zadaniem systemu TEXT było udzielanie odpowiedzi na pytania dotyczące struktury bazy danych. Jedna z jego wersji powstała dla bazy danych zawierającej informacje dotyczące jednostek pływających amerykańskiej marynarki wojennej. Użytkownik systemu mógł otrzymać odpowiedź na pytania typu: – co to jest ?, – co wiesz o ?, – jaka jest różnica pomiędzy a ? żądane informacje wyszukiwane były w opisie bazy danych. Sposób wyszukiwania odpowiednich informacji oraz sposób konstrukcji odpowiedzi był określony dla każdego typu pytania. TEXT, K. McKeown, lata 80-te Pennsylvania. Univ.

134 TEXT - wiedza ogólna System TEXT przechowuje informacje na temat bazy danych, której dotyczą zadawane pytania. Pamiętane dane zorganizowane są w hierarchiczną sieć semantyczną zawierającą: – obiekty występujące w bazie danych (np. nazwy atrybutów, hierarchia atrybutów, powiązania między nimi, sposób w jaki dzielą obiekty na klasy), – obiekty powiązane ( użytkownicy nie znający struktury bazy danych mogą formułować pytania pojęć pokrewnych) Przykładowymi faktami dodatkowymi, które należy umieścić w bazie wiedzy są: – definicje atrybutów, np. pracownik administracji, – informacje niezmienne w konkretnej bazie, np. płeć dla uczniów szkoły męskiej.

135 Typy zdań języka naturalnego (Grimes) Opis atrybutu Maja ma żółtą sukienkę. Zrównoważenie Wina wspaniałe, to wina z dobrych winnic. Uszczegółowienie faktu Wczoraj było gorąco. Termometr_wskazywał_40 Wyjaśnienie Jan wrócił do domu ponieważ zapomniał parasola. Potwierdzenie faktu Publiczność zauważyła różnicę. Już po pierwszych kadrach filmu wybuchł śmiech. Analogia Przyrządź tę potrawę tak jak poprzednio, ale dodaj więcej wina. Podanie cechy wyróżniającej żyrafy wyróżniają się długą szyją Wprowadzenie opisu cech bądź podklas łódź była dość duża, biała, z biało-niebieskim żaglem Przedstawienie możliwego ciągu zdarzeń Jeśli Piotr wróci wcześnie, to nam wszystko opowie. Alternatywa Możemy pójść do kina lub do kawiarni. Skutek Naciśnięcie tego przycisku spowodowało wybuch. Przypuszczenie To było chyba w maju. Wniosek Nie przyjechałeś, więc Krzyś się obraził.

136 Przy użyciu powyższej klasyfikacji zdań zdefiniowane zostały następujące schematy przebiegu wypowiedzi: identyfikacja, opis na podstawie cech części składowych, opis cech, opis porównująco-różnicujący. Schematy opisano jako sekwencje zdań o określonych kategoriach, przy czym na jednej pozycji może w sposób alternatywny pojawić się kilka typów zdań. TEXT, schematy

137 Identyfikacja { Analogia/ Opis cech/ Atrybut/ Przemianowanie/ Przykład} * Przykład szczegółowy/ Potwierdzenie + {Podkreślenie/ Analogia/ Opis atrybutu} {Przykład szczegółowy/ Potwierdzenie} Przykład tekstu, który powstał jako odpowiedź na pytanie: Co to jest statek? Statek to jednostka pływająca po powierzchni. Możliwości przewozowe opisane są przez atrybuty bazy danych DISPLACEMENT i DRAFT. Inne opisujące statek atrybuty to: MAXIMUM_SPEED, PROPULSION, FUEL (FUEL_CAPACITY, FUEL_TYPE). Na przykład DOWNES ma MAXIMUM_SPEED 29, PROPULSION - STMTURGD. Schemat identyfikacji {} opcjonalność, / alternatywa * powtórzenie zero lub więcej razy, + powtórzenie co najmniej raz,

138 TEXT - Planowanie treści wypowiedzi wybór adekwatnego do pytania podzbioru bazy wiedzy. pytania o definicję lub o podanie wszystkich znanych faktów: – z bazy wiedzy wydzielany jest fragment zawierający dany obiekt, jego atrybuty i części składowe oraz obiekty w stosunku do niego nadrzędne. pytania o różnicę: – dobór informacji zależy od wzajemnego położenia w hierarchii rozpatrywanych obiektów. Dla elementów położonych blisko siebie wyznaczany jest podzbiór zawierający wszystkie ich atrybuty. W przeciwnym przypadku wybierane są tylko atrybuty klas, do których należą wskazane obiekty.

139 TEXT - Planowanie postaci wypowiedzi Schematy przypisane do typów pytań – pytanie o definicję: schemat identyfikacji albo opis części składowych – pytania o informację: schemat opisu cech lub części składowych. – pytania o różnice pomiędzy dwoma obiektami: schemat porównawczo-różnicujący Wybór schematu zależy od tego, jakie informacje na temat wskazanego obiektu zawarte są w bazie wiedzy. – pytania o definicję: schemat opisu części składowych wybierany jest wtedy, gdy o samym obiekcie dostępnych jest mniej informacji niż o jego częściach.

140 Wybór w ramach schematu Wybór alternatywnych możliwości w ramach schematu dokonywany jest według zasad sterujących wyborem tematu kolejnego zdania. [Sinder 79,83]. informacje dotyczące tematu wypowiedzi: – bieżący temat, – lista obiektów mogących stać się tematem kolejnego zdania – stos zawierający wszystkie poprzednie tematy. Tematem kolejnego zdania może być: – obiekt, który był tematem poprzedniej wypowiedzi, – obiekt, który został wprowadzony w poprzednim zdaniu, – obiekt, który był tematem któregoś z wcześniejszych zdań, – obiekt związany z innym, spełniającym któryś z powyższych warunków.

141 Wybór konkretnej możliwości zależy od celu, jaki chce osiągnąć mówca, np.: kontynuacja rozmowy na ten sam temat, rozpoczęcie rozmowy na temat wprowadzony w ostatnim zdaniu, powrót do poprzednio omawianych kwestii. Rozwiązanie przyjęte w systemie TEXT: – jeżeli istnieje możliwość zmiany tematu to system jej dokonuje, – w przypadku wyboru pomiędzy tematem bieżącym, a którymś z tematów wcześniejszych system pozostaje przy temacie bieżącym. Wybór w ramach schematu, cd.

142 Ostateczne sformułowanie wypowiedzi Przypisanie informacji pochodzących z bazy wiedzy do poszczególnych zdań konstruowanego akapitu. – Z każdym typem zdania związana jest specyfikacja rodzaju informacji, która może stanowić jego treść. – Sposób przyporządkowania zależny jest od zastosowania. – Nie zależy natomiast od schematu bazy danych. Implementacja schematów: – automat, w którym stany odpowiadają pozycjom w schemacie, a łuki wyborowi możliwości. – testowanie wszystkich możliwości na jeden krok naprzód. – w każdym stanie odbywa się ewaluacja wszystkich możliwości, funkcje określające sposób wyboru najlepszej zawierają zasady wyznaczania tematu następnego zdania

143 RST - teoria opisu struktury wypowiedzi Teoria struktury retorycznej RST (Rhetorical Structure Theory) (Mann, 1988). określenie funkcji pełnionych przez poszczególne elementy składowe tekstu poprzez zbudowanie hierarchii ich wzajemnych zależności. formalizm ten stał się podstawą kilku praktycznych rozwiązań problemu generowania wypowiedzi (m.in. Hovy, 1990; Moore & Swartout, 1991). W stosunku do metody opisu tekstów za pomocą schematów RST zapewnia większą różnorodność tworzonych konstrukcji, umożliwia też bezpośrednie uzależnienie postaci wypowiedzi od celu, jaki chce osiągnąć rozmówca.

144 Relacja RST RST opisuje teksty w kategoriach relacji pomiędzy ich elementami składowymi. Każda relacja dotyczy dwóch obiektów, z których jeden traktowany jest jako główny ( nucleus), a drugi jako zależny (satelite). Element główny może wystąpić samodzielnie, natomiast użycie w wypowiedzi tylko elementu zależnego jest niewłaściwe. relacja nucleus satelite 1-n n+1 - m element zależny można zastąpić innym bez szkody dla spójności tekstu, zamiana elementu głównego ma zazwyczaj zasadniczy wpływ na sens całości. np. wyjaśnienie jakiegoś faktu może zawierać jeden z wielu możliwych sposobów tłumaczenia, różne argumenty, ale temat wyjaśnień jest stały.

145 Składowe relacji RST – warunki, które musi spełniać obiekt główny, – warunki, które powinien spełniać element zależny, – zależności pomiędzy obydwoma obiektami, – efekty powodowane przez zastosowanie opisywanej relacji (obl.) Przykładowo relacja świadectwa (evidence) dotyczy sytuacji, w której budowane zdanie ma przekonać odbiorcę o prawdziwości jakiegoś faktu. Obiektem głównym relacji jest głoszona teza, a elementami zależnymi argumenty ją potwierdzające. Odpowiednie warunki zdefiniowane są następująco: – odbiorca nie jest pewny prawdziwości faktu, – odbiorca jest przekonany o słuszności argumentu, – zrozumienie argumentu powiększy wiarę odbiorcy w fakt. Efekem zastosowania powyższej relacji jest wzrost przekonania odbiorcy o prawdziwości faktu.

146 Analiza tekstu w terminach RST Analiza tekstu to określenie relacji zachodzących między sąsiadującymi ze sobą blokami tekstu; utworzona w ten sposób struktura musi być drzewem. Zdefiniowane w powyższy sposób relacje stanowią element składowy schematów reprezentujących budowę większych fragmentów tekstu. Przykładowe schematy to: okoliczność, tło, uwiarygodnienie, warunek, interpretacja. Poszczególne schematy mogą zawierać jedną lub więcej relacji. W wersji oryginalnej teoria zawierała definicje następujących relacji: okoliczność, rozwinięcie, umożliwienie, świadectwo, zamierzona przyczyna, zamierzony rezultat, antyteza, warunek, interpretacja, ponowne stwierdzenie, następstwo, rozwiązanie, tło, motywacja, potwierdzenie, niezamierzona przyczyna, niezamierzony rezultat, ustępstwo, inaczej, ewaluacja, podsumowanie, kontrast, sposób, porównanie, wkład, połączenie

147 Przykładowa analiza tekstu 1. W opinii X spadek cen na giełdzie był przesadny. 2. Przyczyną tego był wzrost stóp procentowych wielu banków amerykańskich. 3. Ale sceptycyzm jest nadal wysoki. 4. Trudno jest teraz przekonać kogoś do inwestycji na Wall Street. 5. Możliwe jednak, że rynek zareaguje pozytywnie na wystąpienie przew. BRF, 6. który podkreślił, że bank rezerw nie wzmocni swoich warunków kredytowych. concession backgroud bacground cause elaboration

148 Uwagi ogólne Struktury RST zawierają jedynie część informacji związanej z danym tekstem – są reprezentowane powiązania między poszczególnymi frazami wchodzącymi w skład wypowiedzi. – brak - danych dotyczących użycia konkretnych konstrukcji językowych, kolejności poszczególnych elementów, zasad uzgadniania cech gramatycznych. Pierwotną funkcją RST było opisywanie struktury już istniejących tekstów. Przy generowaniu wymagane jest narzucenie pewnych warunków na zasady łączenia relacji tak, by tworzony tekst był spójny. Jednym z podstawowych problemów związanych z RST jest ustalenie listy relacji, które mogą zachodzić między poszczególnymi fragmentami tekstu (próba systematyki: Hovy (1990), około 350 różnych relacji pochodzących z prac 25 osób)

149 Porównanie relacji RST i schematów Zalety schematów: – duża czytelność oraz – łatwość ich definiowania i wykorzystania. Analizując schemat widzimy od razu (oczywiście w pewnym przybliżeniu) strukturę końcowego tekstu. Relacje RST tworzą zbiór oddzielnych reguł opisujących poszczególne zdania. Powiązania wyrażone są za pomocą elementów zależnych i pośrednio poprzez warunki stosowania relacji. Określenie struktury większych fragmentów tekstu wymaga więc prześledzenia wielu relacji, trudno też wskazać konsekwencje zmiany poszczególnych definicji.

150 Porównanie relacji RST i schematów, cd Zaletą relacji RST jest konstruowanie drzewa opisującego strukturę retoryczną tekstu tzn. zależności pomiędzy poszczególnymi jego elementami. Za pomocą RST można kontrolować strukturę mniejszych fragmentów tekstu, nie koniecznie całych paragrafów. Z drugiej strony ustalenie struktury paragrafu przy wykorzystaniu RST jest znacznie trudniejsze. Korzystne byłoby połączenie obu technik budowy tekstu, co można osiągnąć poprzez pewne ograniczenia narzucone na wybór relacji. Takie rozwiązanie zaproponował np. Hovy (1991)

151 Hovy, 1991 moduł budujący drzewo struktury paragrafu tekstu, który przekazać ma wybrane uprzednio informacje. relacje RST -- plan opisujący zależności, jakie muszą zachodzić pomiędzy elementami, by mogły być użyte do jego realizacji. Na przykład tekst odpowiadający relacji circumstance pomiędzy faktami X i Y można skonstruować, jeżeli Y stanowi opis czasu lub położenia X. W oryginalnej koncepcji RST każda relacja mogła być w dowolny sposób połączona z innymi --> niespójność tworzonej wypowiedzi. Ograniczenia na sposób łączenia relacji -- tzw. punkty rozszerzania (growth points) zawierające listę relacji, które mogą być użyte w kolejnym kroku planowania postaci generowanego tekstu.

152 Tworzenie wypowiedzi Hierarchiczne rozwijanie planu aż do wykorzystania wszystkich wyselekcjonowanych elementów zgodnie z następującym schematem: – pobranie kolejnego punktu rozszerzeń ze stosu, – wyszukiwanie relacji spełniających opisane w nim warunki, – dopasowanie odnalezionej relacji do rozpatrywanego punku rozszerzeń, – dołączenie nowej relacji do drzewa (o ile dopasowanie powiodło się).

153 Tworzenie wypowiedzi, cd Jeżeli więcej niż jedna relacja spełnia wymagane warunki tworzone jest alternatywne drzewo struktury wypowiedzi. Proces kończy się gdy zabraknie danych lub gdy żadne ze zbudowanych drzew nie może zostać rozszerzone. Jako ostateczny wynik wybierane są drzewa, które zawierają najwięcej informacji, a z nich te, dla których zostało najmniej niezrealizowanych punktów rozszerzeń. Jeżeli więcej niż jedno drzewo spełnia te warunki, to wyboru dokonuje się poprzez losowanie. Działanie opisywanego systemu przedstawimy na podstawie przykładu dotyczącego ruchu okrętów marynarki wojennej.

154 Przykład, dane wejściowe ((SHIP.EMPLOYMENT A105) (SHIP.R A105 Knox) (SHIP.COURSE.R A ) (CURRENT.POSITION.R A105 P102) (POSITION P102) (LONGITUDE.R P102 79) (LATITUDE.R P102 18) (READINESS.LEVEL.R A104 C4) (NEXT.MAJOR.EMPLOYMENT.R A105 E107) (CURRENT.MAJOR.EMPLOYMENT.R A105 E107) (ENROUTE E105) (EBEG.R E ) (EEND.R E ) (DESTINATION.R E105 SASEBO) (LOAD E107) (EBEG.R E ) (EEND.R E ) Statek o nazwie Knox, w stanie gotowości C4 znajduje się w drodze do Sasebo, gdzie dopłynie 24 kwietnia 1987 i będzie w trakcie załadunku przez 4 dni. Aktualne położenie statku to 18N, 79E, orientacja SSW.

155 Przykład, cd. grupowaniu informacji dotyczących tych samych cech i ewentualnemu utworzeniu struktur odpowiadających faktom złożonym. W podanym przykładzie rezultatem tego procesu jest następujący zbiór opisów, z których każdy będzie następnie wyrażony za pomocą zdania. ((ENROUTE E105) (SHIP.R E105 KNOX) (DESTINATION.R E105 SASEBO) (HEADING.R E105 HEADING416) (READINESS.R E105 READINESS408) (NEXT-ACTION.R E105 ARRIVE400))...

156 Załóżmy, że celem przygotowywanej wypowiedzi jest uświadomienie słuchaczowi pozycji statku E105, co zapisywane jest w następujący sposób: (BMB SPEAKER HEARER (POSITION-OF E105 ?NEXT) BMB oznacza obustronną wiarę mówcy i adresata wypowiedzi (hearer and speaker mutually belive that...). Wyznaczony cel dopasowywany jest do pozycji efekt wszystkich zdefiniowanych w systemie planów/relacji RST. W tym przypadku jedynym planem realizującym wyznaczony cel jest plan odpowiadający relacji sekwencji, który przedstawia się następująco:

157 Relacja SEQUENCE efekt: ((BMB SPEAKER HEARER (POSITION-OF ?PART ?NEXT))) warunki dla połączenia elementu głównego i zależnego: (BMB SPEAKER HEARER (NEXT-ACTION.R ?PART ?NEXT))) warunki dla elementu głównego: (BMB SPEAKER HEARER (TOPIC ?PART)) punkty rozszerzeń dla elementu głównego: ((BMB SPEAKER HEARER (CIRCUMSTANCE-OF ?PART ?CIR)) ~(BMB SPEAKER HEARER (ATTRIBUTE-OF ?PART ?VAL)) ~(BMB SPEAKER HEARER (PURPOSE-OF ?PART ?PURP))} warunki dla elementu zależnego: ((BMB SPEAKER HEARER (TOPIC ?NEXT))) punkty rozszerzeń dla elementu zależnego: ((BMB SPEAKER HEARER (ATTRIBUTE-OF ?NEXT ?VAL)) ~(BMB SPEAKER HEARER (DETAILS-OF ?NEXT ?DETS)) ~(BMB SPEAKER HEARER (POSITION-OF ?NEXT ?FOLL))

158 Relacja SEQUENCE, cd. porządek: N S warunek aktywacji: Czy A może zostać zaprezentowany jako element pewnego łańcucha akcji, czy odbiorca powinien wiedzieć, że A stanowi fragment takiej sekwencji? frazy łączące: ``~'' ``then'' ``next' W kolejnym kroku odszukiwane są elementy, które spełniają warunki opisujące połączenie elementu głównego i zależnego. Po przypisaniu dokonanym podczas dopasowywania celu początkowego: (BMB SPEAKER HEARER (NEXT-ACTION.R ?PART ?NEXT))) (BMB SPEAKER HEARER (NEXT-ACTION.R E105 ?NEXT)) (BMB SPEAKER HEARER (NEXT-ACTION.R E105 ARRIVE400))

159 Tworzenie planu Następnym krokiem realizacji wybranego planu jest rozpatrzenie punktów rozszerzeń. Pierwszym z nich jest: (BMB SPEAKER HEARER (CIRCUMSTANCE-OF E105 ?CIRC)) pasujący do pola efekt relacji circumstance. nazwa: CIRCUMSTANCE efekt: ((BMB SPEAKER HEARER (CIRCUMSTANCE-OF ?X ?CIRC))) sprawdzamy warunku uwzględniając przypisanie ?X do E105, uzyskując m.in: (BMB SPEAKER HEARER (HEADING.R E105 HEADING416)) Pozwala to na sformułowanie nowej relacji circumstance pomiędzy elementami E105 i HEADING416, którą można dołączyć do poprzednio zbudowanej relacji sequence:

160 Tworzenie planu, cd sequence E105ARRIVE400 circumstance ARRIVE400 E105 HEADING416 W trakcie przebudowy drzewa niezrealizowane punkty rozszerzeń relacji sequence przenoszone są do elementu głównego relacji circumstance, co umożliwia dalszą rozbudowę drzewa w węźle E105. Punkty rozszerzeń dla elementu zależnego dodawane są do listy niezrealizowanych rozszerzeń.

161 Tworzenie planu, cd Dalszy ciąg procesu planowania wypowiedzi przebiega następująco: punkt rozszerzeń relacji sequence wypełniany jest przez relację elaboration-attribute pomiędzy elementami E105 i READINESS408, punkt rozszerzeń relacji circumstance wypełniany jest przez relację elaboration-attribute pomiędzy elementami HEADING416 i POSITION410, punkt rozszerzeń elementu zależnego ARRIVE400 wypełniany jest przez relację sequence wiążącą go z elementem E107

162 Tworzenie planu, cd Proces planowania kończy się, gdy wszystkie elementy zbioru wejściowego zostaną wyczerpane. Wynik: sequence circumstance sequence elab-attrib elab-attrib ARRIVE400 E107 E105 RDNSS408 POSTN410 HEADING416 Knox, which is C4, is en route to Sasebo. It is at 18N 79E, heading SSW. (Knox, w stanie gotowości C4 jest w drodze do Sasebo. Jego pozycja to 18N, 79E, orientacja SSW.)

163 Ostateczne formułowanie tekstu Dwa najbardziej znane podejścia: gramatyka systemowa (systemic grammar, Halliday, 1985) gramatyka w formie acyklicznej sieci wyborów funkcyjna gramatyka unifikacyjna (Functional Unification Grammar, Kay, 1979)

164 (WSD, Word sense disambiguation) ( IR, Information Retrieval) Ujednoznacznianie słów Wyszukiwanie informacji (dokumentów tekstowych) Natural Language Information Retrieval, T. Strzałkowski (ed.), Kluwer Academic Press. 1999

165 Powiązania między słowami homonimy - jednakowy kształt słowa, różne znaczenia – np. pokój (pomieszczenie) i pokój (przeciwieństwo wojny) homofony - jednakowe brzmienie słów, różna pisownia, znaczenie – np. może, morze polisemia - wielość powiązanych znaczeń jednego słowa – np. góra (piętro domu, część ubrania...) Synonimy - różne leksemy o tym samym (prawie) znaczeniu (mogące się nawzajem zastąpić w pewnym kontekście) hyponimy - leksemy o szerszym znaczeniu – np. pojazd mechaniczny vs. samochód,

166 Zadania: ustalenie ile i jakich znaczeń posiada dane słowo rozpoznawanie w jakim konkretnym znaczeniu wystąpiło dane słowo - word sense disambiguation taksonomia, hierarchia pojęć

167 WordNet - baza danych o znaczeniach słów Utworzona ręcznie baza zawierająca opisy i powiązania semantyczne dla słów danego języka (pierwszy był angielski, nie ma jeszcze dla polskiego) zakres WordNet 1.6 dla angielskiego liczba formliczba znaczeń rzeczowniki czasowniki przymiotniki przysłówki – WordNet nie zawiera słów z klas zamkniętych, np. spójników – w praktyce mało słów ma wiele znaczeń

168 Przykładowy opis znaczeń Fragment opisu rzeczownika bass w bazie WordNet: 1. bass - the lowest part of the musical range 2. bass, bass part - the lowest part in polyphonic music 3. bass, basso - an adult male singer with the lowest voice 4. sea bass, bass - flesh of lean-flesh saltwater fish 5. fresh water bass, bass - any of varoius North American lean-fleshed freshwater fishes 6. bass, bass voice, basso bass bass...

169 Relacje w WordNet Rzeczowniki relacjadefinicjaprzykład hypernympojęcie -> pojęcie nadrzędnebreakfast->meal hyponympojęcie-> pojęcie podrzędnemeal -> lunch has-membergrupa -> członekkatedra->profesor member-ofczłonek ->grupapilot -> załoga has-partma częścistół -> blat part-ofjest elementemtalerz -> serwis antonymjest przeciwieństwempierwszy ->ostatni Rzeczowniki

170 Przykładowy opis hiponimii Sense 3 bass, basso -- (an adult singer with the lowest voice) => singer, vocalist => musician, instrumentalist, player => performer, performing artist => entertainer => person, individual, someone... => life form, organism, being... => entity, something => causal agent, cause, causal agency => entity, something

171 Role, FrameNet Rolaprzykład AGENTKot rozlał mleko. EXPERIENCERJana boli głowa. FORCEWiatr złamał drzewo. THEMEKiedy rozbił lód. (uczestnik doświadczający skutków) RESULTWybudował dom. CONTENTJan spytał Byłeś tam sam?. INSTRUMENTUderzył go kijem. BENEFICIARYKupił mu dom. SOURCEPrzyleciał z Paryża. GOALPoszedł do szkoły.

172 Selekcja znaczeń - ograniczenia na role – * I wanna eat someplace thats close to ICSI. – I wanna eat some really cheap Chinese food right now. AGENTI / I THEME *someplace... /...food Czasownik eat wymaga, by w roli THEME występował obiekt jadalny

173 Formułowanie ograniczeń Przedmiot dla czasownika eat musi być jadalny: Logika pierwszego rzędu: e,x,y eating(e) Agent(e,x) Theme(e,y) Isa(y,EdibleThing) Hierarchia hiponimii w WordNet Theme {food, nutrient} (jeden z klasyfikatorów, te pojęcia musza znaleźć się w hierarchii) hamburger, beefburger -- (a fried cake of minced meet served on a ban) => sandwich => snack food => dish => nutriment, nourishment, sustenance... =>food nutrient => substance, matter => object, physical object => entity, something

174 Problemy z ujednoznacznianiem Różne ograniczenia na typ argumentów mogą pomóc przy ujednoznacznianiu przykładów: – Which airlines serve Denver? - Pojedź do serwisu. – Which one serves breakfast? - Użyj tego granatowego serwisu. Ale: niedostateczny kontekst: – Jaki serwis polecasz? Sytuacje niecodzienne – On naprawdę zjadł szklankę ! Przeczenie – ale złota nie dało się jeść Bajki dla dzieci, sny...: – śnił mi się latający krokodyl, piżama w różowe słonie

175 Ujednoznacznianie Reguły probabilistyczne niczego (prawie) nie wykluczamy całkowicie, podajemy preferencje algorytm podaje to znaczenie, dla którego prawdopodobieństwo jest w danym kontekście największe odpowiednia metoda dla niejednoznacznych czasowników, ale przy jednoznacznych argumentach Metody machine learning uczenie się na podstawie korpusów anotowanych morfologicznie znajdowanie kontekstów użycia i wyznaczanie prawdopodobieństw dla poszczególnych znaczeń

176 Information Retrieval (IR) Indeksowanie, wyszukiwanie dokumentów tekstowych Wyszukiwanie dokumentów w sieci WWW to obecnie jedna z najczęstszych operacji Problemy: – wyszukanie właściwych dokumentów – efektywne wyszukiwanie w bardzo dużych zbiorach Zadanie: Mając: - korpus tekstów –pytanie użytkownika Wyznaczyć: – uporządkowany zbiór dokumentów stanowiący odpowiedź

177 NLP: powiązania z IR NLP to syntaktyczna, semantyczna i pragmatyczna analiza tekstu w języku naturalnym, znajomość struktury syntaktycznej i interpretacji semantycznej powinna pozwolić na wyszukiwanie sterowane semantyką, a nie tylko słowami kluczowymi, Możliwości powiązań: – metody ustalania znaczenia słów w oparciu o kontekst (word sense disambiguation), – metody identyfikacji informacji w tekście (information extraction), – udzielanie odpowiedzi na podstawie analizy korpusu tekstów.

178 Słowa kluczowe proste określenie poprawności odpowiedzi - tekst pytania (słowa kluczowe) występuje w dokumencie inne kryterium - słowa kluczowe występują w dokumencie często, w dowolnej kolejności (bag of words) ew. wymagamy, żeby były blisko siebie Problemy z wyszukiwaniem wg słów kluczowych: synonimy: – restaurant vs. café – PRC vs. China terminy wieloznaczne: – bat (baseball vs. mammal)- kostka (cukru, nogi) – Apple (company vs. fruit)- na prawo – bit (unit of data vs. act of eating)- rząd (polski, drzew)

179 Trafność (relevance) Trafność (odpowiedniość) jest miarą subiektywną. Może dotyczyć m.in.: – właściwego tematu, – aktualności danych, – wiarygodności danych (pochodzenia z wiarygodnego źródła), – zaspokojenia potrzeb użytkownika (information need). Inteligentne metody IR muszą brać pod uwagę: znaczenie użytych w pytaniu słów, porządek słów w pytaniu, reakcje użytkownika (bezpośredni bądź pośredni feedback), wiarygodność źródła informacji.

180 Składowe systemu IR Text Operations utworzenie listy słow, według której robiony będzie indeks (tokens). – Usunięcie słow nieznaczących (Stopword removal) – wyznaczenie form bazowych (Stemming) Indexing skonstruowanie indeksu od słów do dokumentów (an inverted index of word to document pointers). Searching odszukanie dokumentów zawierających tokeny z pytania. Ranking przypisanie dokumentom wagi.

181 Składowe systemu IR (cd) User Interface - interakcja z użytkownikiem : – Query input and document output. – Relevance feedback. – Visualization of results. Query Operations - przekształcenie pytania dla zwiększenia skuteczności wyszukiwania: – rozszerzenie pytania przy wykorzystaniu tezaurusa – przekształcenie pytania na podstawie otrzymanej informacji zwrotnej

182 Wyzwania sieci www dla IR Distributed Data: dokumenty ulokowane na milionach serwerów Volatile Data: wiele dokumentów nagle pojawia się lub znika Large Volume: bardzo wiele oddzielnych dokumentów Unstructured and Redundant Data: brak jednolitej struktury, błędy HTML, do 30% (prawie) powielonych dokumentów Quality of Data: brak kontroli edytorskiej, nieprawdziwe informacje, kiepskiej jakości teksty, etc. Heterogeneous Data: wiele typów danych (obrazy, filmy,...) języków, zbiorów znaków

183 Liczba indeksowanych stron www GoogleGoogle lists current number of pages searched. SearchEngineWatch, Aug. 15, 2001

184 Niech Rank (r) będzie pozycją słowa na liście posortowanej według malejących częstości. Zipf (1949) odkrył że: częstość występowania obserwacji r, wyrażona jako funkcja jej pozycji na liście częstości (r) jest wyrażana funkcją P r ~ 1/r a gdzie a jest bliskie jedności. jeżeli prawdopodobieństwo wystąpienia słowa o pozycji r wynosi p r, a N jest liczbą wszystkich wystąpień wszystkich słów, to: Prawo Zipfa

185 Prawo Zipfa a przydatność słów dla indeksowania Zarówno słowa występujące bardzo często, jak i te występujące bardzo rzadko, są mało przydatne z punktu widzenia indeksowania, Luhn (1958).

186 Prawo Zipfa a korpus Browna k = 100,000

187 Prawo Zipfa a sieć Web Rozkład Zipfa charakteryzuje m.in.: – liczbę powiązań do i ze strony www – długość stron www – liczbę odwołań do strony www

188 Automatyczna klasyfikacja dokumnetów Ręczna klasyfikacja jest pracochłonna, subiektywna i obarczona błędami potrzebne są metody automatycznej kategoryzacji dokumentów najlepsze metody oparte są metodach machine learning (pattern recognition) przy wykorzystaniu poetykietowanego zbioru treningowego (supervised learning).

189 Automatyczne tworzenie hierarchii dokumentów Do klasyfikacji dokumentów potrzebne są hierarchie typów ręczne towrzenie hierarchii jest... pracochłonne, subiektywne i obarczone błędami potrzebne sa metody automatycznego tworzenia hoierachii na podstawie zbioru dokumnetów metoda - hierarchical text clustering (unsupervised learning) (Hierarchical Agglomerative Clustering, HAC)

190 IR, Vector Space Model Dokumenty i pytania przedstawiane są w postaci wektorów cech reprezentujących występujące obiekty (dokładniej wartość cechy określa, czy dany obiekt występuje czy nie w danym dokumencie ) dokument j -- d j = (t 1,j, t 2,j,..., t N,j ) pytanie k -- q k = (t 1,k, t 2,k,..., t N,k ) w wektorach powyżej zamiast 0,1 umieszczamy liczby oddające częstości dokumenty i pytania są wektorami w przestrzeni N-wymiarowej dla ułatwienia porównań normalizujemy wektory, dzielimy każdą współrzędną przez długość wektora, tj. w i 2 i=1,,N

191 IR, Vector Space Model, cd. Odległość między znormalizowanymi wektorami: sim(q k, d j ) = q k. dj = w i,k x w j,k (dot product) i-1..N wyznacza cosinus kąta między wektorami, takie same wektory kąt 0 cosinus 1, wektory prostopadłe, bardzo odległe, cosinus 0.

192 IR, Vector Space Model, cd. Wartości istotne dla modelu: – częstość występowania słowa w tekście – dystrybucja słowa w zbiorze tekstów słowa występujące rzadko (tylko w niewielu tekstach) dobrze nadają się do wyboru tego właśnie podzbioru słowa często występujące są niedobre do selekcji czegokolwiek

193 IR, Vector Space Model, cd. Miara przydatności obiektów (termów): – N/n i N - liczba dokumentów w kolekcji n i - liczba dokumentów, w których występuje n i (1 - term występuje we wszystkich dokumentach) – idf i = log(N/n i ) (inverse document frequency) – w i,j = tf i,j x idf i (tf i,j częstość termu i w dokumencie j)

194 Wybór termów Stop lista – słowa występujące często, spójniki... – ale (to be or not to be) -> not (Brown corpus, za Frakes, Baeza-Yates)) ustalenie tematów słów (stemming) - nieodzowny dla języka fleksyjnego, ale bardzo trudny przy wielu wymianach tematowych (ćma - temat pusty)

195 Poprawianie pytań Stopniowe tworzenie odpowiedzi (relevance feedback) – mały zbiór odpowiedzi początkowych, – reakcja użytkownika określającego, które z tej grupy są najlepsze – iteracja (często tylko jeden krok interakcji wystarcza) rozszerzenie pytania (query expansion) – dodanie termów pokrewnych tym z pytania (w oparciu o tezaurusy)

196 Ocena wyników Precyzja Precision = liczba podanych właściwych dokumentów liczba wszystkich właściwych dokumentów Pełność Recall = liczba podanych właściwych dokumentów liczba wszystkich podanych dokumentów

197 Search Results Clustering - Definicja problemu: efektywne utworzeniu sensownych grup tematycznie powi ą zanych dokumentów, oraz zwi ę z ły opis w sposób zrozumia ł y dla człowieka Problem nie jest trywialny… – nie jest znana liczba oczekiwanych grup – miara podobieństwa dokumentów jest trudna do zdefiniowania – grupy mogą się nakładać – znalezienie opisu dla grup nie jest proste – wymagana szybkość wykonywania (on-line) – dokumenty mogą być wielojęzyczne – opisy są zazwyczaj krótkie ( snippets ) i niepełne

198 Modelowanie podobieństwa modelowanie odleg ł o ś ci w przetrzeniach n-wymiarowych (Vector Space Model) model grafowy wspó ł wyst ę powanie s ł ów i fraz Pojęcie bliskości w macierzy A: jesteśmy zainteresowani kątem jaki tworzą między sobą wektory dokumentów identyczny kąt -> dokumenty złożone są z identycznych słów -> dokumenty są podobne

199 Przykład –macierz A

200 Algorytmy grupowania a macierz A wykorzystanie informacji o blisko ś ci dokumentów w A zastosowanie maj ą wszelkie metody analizy skupie ń w danych numerycznych problemy grupy zazwyczaj sferyczne ka ż de s ł owo jest traktowane oddzielnie problemy ze znalezieniem opisu grup problem z naturalnym kryterium stopu dla wi ę kszo ś ci algorytmów

201 Algorytm STC – wykorzystanie fraz Suffix Tree Clustering, Oren Zamir, O. Etzioni fraza = sekwencja wyst ę puj ą cych po sobie s ł ów algorytm rozwa ż a wspólne podfrazy wyst ę puj ą ce w dokumentach zalety – brak numerycznej miary odległości – frazy stanowią zazwyczaj dobre opisy grup – liniowa złożoność - O(N) wady – słabo radzi sobie z szumem – problemy z separacją małych grup – wrażliwość na progi i język dokumentów


Pobierz ppt "Skrót: wykłady 7-11 i trochę semantyki z wykładu 6."

Podobne prezentacje


Reklamy Google