Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wykorzystanie NLP w systemach QA 1.XII.2004 Wykorzystanie metod NLP w systemach odpowiedzi na pytania Anna Kupść Instytut Podstaw Informatyki.

Podobne prezentacje


Prezentacja na temat: "Wykorzystanie NLP w systemach QA 1.XII.2004 Wykorzystanie metod NLP w systemach odpowiedzi na pytania Anna Kupść Instytut Podstaw Informatyki."— Zapis prezentacji:

1 Wykorzystanie NLP w systemach QA 1.XII.2004 Wykorzystanie metod NLP w systemach odpowiedzi na pytania Anna Kupść Instytut Podstaw Informatyki Polska Akademia Nauk

2 Wykorzystanie NLP w systemach QA 1.XII.2004 Co to jest QA? QA=Question Answering… systemy odpowiadające na pytania... Spytajmy Arnolda … ?i= &m=1037&rr=y&source= bma999 ?i= &m=1037&rr=y&source= bma999

3 Wykorzystanie NLP w systemach QA 1.XII.2004 Plan Javelin: system odpowiadający na pytania niezwiązane z konkretną dziedziną Czy do tego potrzebne jest NLP? Moduł NLP: –Przetwarzanie tekstu –Reprezentacja tekstu a rodzaje pytań –Określanie koreferencji

4 Wykorzystanie NLP w systemach QA 1.XII.2004 Architektura sytemu Javelin Jak Arnold udziela odpowiedzi?

5 Wykorzystanie NLP w systemach QA 1.XII.2004 Wyszukiwanie Informacji Information Extraction (IE) Kilka podmodułów wykorzystujących: –wzorce powierzchniowe (wyrażenia regularne) –statystyki tekstowe –przetwarzanie języka (NLP) Wyniki uzyskane z poszczególnych modułów IE są normalizowane i szeregowane w module generującym odpowiedzi (AG) i wybrana jest najlepsza

6 Wykorzystanie NLP w systemach QA 1.XII.2004 Przykładowy wynik Przykład: When was Wendys founded? Znaleziony fragment tekstu: –The renowned Murano glassmaking industry, on an island in the Venetian lagoon, has gone through several reincarnations since it was founded in Three exhibitions of 20 th Century Murano glass are coming up in New York. By Wendy Moonan … Wynik: 20 th Century (Poprawna odpowiedź: 1969 )

7 Wykorzystanie NLP w systemach QA 1.XII.2004 Moduł IE: metody statystyczne a NLP Wśród różnych wyników znalezionych przez moduł statystyczny jest też poprawna odpowiedź (1969); jednakże wszystkie wyniki mają przypisaną prawie taką samą wiarygodność (confidence score): –ostateczna odpowiedź zależy od miejsca, które zajmuje na liście (decyduje o tym m.in. wiarygodność) wyników, tworzonej przez AG –(prawidłowa) odpowiedź znaleziona przez moduł NLP pochodzi z fragmentu: R. David Thomas founded Wendys in 1969, … –Odpowiedzi znaleznione przez moduł NLP mają przypisaną większą wiarygodność oraz potwierdzają dodatkowo odpowiedzi znalezione przez pozostałe moduły Tak, NLP jest potrzebne

8 Wykorzystanie NLP w systemach QA 1.XII.2004 Do czego przydaje się NLP w QA? Analiza składniowa (np. strona czynna i bierna): –Q: When was Wendys founded? A: R. David Thomas founded Wendys in 1969… synonimy: –Q: When was JFK killed? A: JFK was assassinated... role semantyczne: –Q: Who sold the car to Peter? A: Peter bought the car from Mark. wnioskowanie: –Q: When was Wendys founded? A: Donatos, founded in 1963, six years before Wendys was founded, began franchising in 1991 as customers took to its ``Edge to Edge'' pizzas. określanie referencji: –Q: Who did J. Howell travel with? A: The tracks run through Belleview, where 19-year-old Jesse Howell was found slain on March 23,1997. His 16-year-old travelling companion, Wendy VonHuben,...

9 Wykorzystanie NLP w systemach QA 1.XII.2004 Moduł NLP parser słowniki analiza morfologiczna analiza tekstu unifikacjaWordNet wyniki fragmenty tekstu Reprezentacja pytania predykaty miara podo- bieństwa określanie koreferencji segmentacja tekstu

10 Wykorzystanie NLP w systemach QA 1.XII.2004 Przetwarzanie tekstu na potrzeby QA (1) Roboust (stabilne?): dowolne teksty, niezwiązane z konkretną dziedziną, zakres: zarówno pytania jak i zdania twierdzące początkowo do przetwarzania użyte zostały ręcznie pisane gramatyki (w stylu LFG), ale: –niewystarczający zakres konstrukcji składniowych (użycie parsera tablicowego (chart parser) częściowo rozwiązało problem) –niejednoznaczności Rozwiązanie: dedykowane gramatyki do analizy pytań i ogólny parser do analizy fragmentów zawierających odpowiedzi

11 Wykorzystanie NLP w systemach QA 1.XII.2004 Przetwarzanie tekstu (2) Segmentacja tekstu ( RASP; Briscoe & Carroll, 2002 ) –zdania –słowa morfologia (RASP) –POS (CLAWS2 tagset; podawane wszystkie etykiety, do przetwarzania brana najbardziej prawdopodobna ) –rdzeń (stem) Informacje słownikowe –słowniki (imiona i nazwiska, nazwy geograficzne) –WordNet Funkcje gramatyczne (Link; Grinberg et al.,1995 )

12 Wykorzystanie NLP w systemach QA 1.XII.2004 Analiza Tekstu Mr. Chairman, Bin Ladin did not believe that we would invade his sanctuary. Mr. Chairman, Bin Ladin did not believe that we would invade his sanctuary. mr NP1 Mr chairman chairman chairman chairman NNS e-306 NNSB1 Chairman 3 4 1,, bin bin NN1 Bin ladin ladin ladin NN NP VV0 Ladin do+ed do+ed do+ed VDD did e-308 LE 1 XX not VV0 believe CS CST DD e-05 REX e-05 RR that PPIS2 we VM would VV0 invade APP$ e-05 PP$ his NN1 sanctuary NMWE SUBJ NMOD NMWE AUX NEG COMPL SUBJ AUX OBJ DET

13 Wykorzystanie NLP w systemach QA 1.XII.2004 Analiza semantyczna Płytka: –reprezentacja głównie w oparciu o strukturę argumentów (ustalona liczba predykatów) –oraz specjalne predykaty dla kilku typów pytań/konstrukcji (np. definicje, apozycje) Unifikacja rozmyta: –oparta na mierze podobieństwa słów, np. murder vs. kill

14 Wykorzystanie NLP w systemach QA 1.XII.2004 Przykłady predykatów predykatprzykładznaczenie ROOTROOT(x1,John) obiekt x1 ma rdzeń John SUBJECTSUBJECT(x2,x1) x1 jest podmiotem x2 EQUIVEQUIV(x1,x3) odpowiedniość semantyczna: -apozycja: John, a student of CMU -równorzędność obiektów: John is a student of CMU ANDAND(x3,x1) AND(x3,x2) John and Mary laughed ROOT(x1,John) ROOT(x2,Mary) AND(x3,x1) AND(x3,x2) ANSANS(x0) odpowiedź

15 Wykorzystanie NLP w systemach QA 1.XII.2004 Przykłady reprezentacji Who killed Jefferson? –Na podstawie struktry argumentów: ANS(x0) ROOT(x1,x0) ROOT(x2,kill) ROOT(x3,Jefferson) SUBJECT(x2,x1) OBJ(x2,x3) What is the definition of hazmat? –dedykowane gramtyki sprowadzają takie pytania do pytaniaWhat is hazmat?, i używane jest EQUIV: EQUIV(x1,x0) ANS(x0) ROOT(x1,hazmat) What is the relationship between Jesse Ventura and Target Stores? –trudne: albo należy szukać własności/predykatów wspólnych dla JV i TS, albo znaleźć jeden predykat, gdzie obaj są argumentami –rozwiązanie: oddzielna strategia dla pytań tego typu

16 Wykorzystanie NLP w systemach QA 1.XII.2004 Unifikacja rozmyta Łączy reprezentację pytania (Q) z reprezentacją fragmentu tekstu (P), aby znaleźć odpowiedź (A) Musi umożliwiać unifikację podobnych (ale nie identycznych) par (Q,P) –Q: Who killed Jefferson? P: Ben murdered Jefferson –Zależności między predykatami w Q są traktowane jak ograniczenia z przypisaną wagą; im więcej ograniczeń spełnia P i im większe podobieństwo odpowiednich słów, tym wyższa wiarygodność odpowiedzi A znalezionej w P

17 Wykorzystanie NLP w systemach QA 1.XII.2004 Rozmyty przykład Przypisanie wag ( w ) każdej relacji w Q: –Q: Who killed Jefferson? w(ANS(x0))=1 w(ROOT(x1,x0))=1 w(ROOT(x2,kill))=.7 w(ROOT(x3,Jefferson))=.9 w(SUBJECT(x2,x1))=.9 w(OBJ(x2,x3))=.9 … podobieństwo (średnia geometryczna) wszystkich (n)głównych relacji w Q i P ( P: Ben murdered Jefferson ): sim(Q,P) = (sim[SUBJ(x2,x1),SUBJ(y2,y1)] * sim[OBJ(x2,x3),OBJ(y2,y3)]*…) 1/n –podobieństwo dla jednej `głównej relacji (np.SUBJ) z Q i P: (sim[x2,y2]*sim[x1,y1]) 1/2 *w(SUBJ(x2,x1)) –podobieństwo termów dla k relacji, w których termy są argumentami (sim[ROOT(x2,kill),ROOT(y2,murder)] *sim[TENSE(x2,past),TENSE(y2,past)]*…) 1/k –podobieństwo słów: sim(kill,murder)*w(ROOT(x2,kill))

18 Wykorzystanie NLP w systemach QA 1.XII.2004 Rozmyte podsumowanie Podobieństwo słów w oparciu o (miarę odległości w) WordNet, ale dowolna inna hierarchia leksykalna może być użyta –WN nie ma połączeń między słowami należącymi do różnych kategorii, np. kill i killer nie są powiązane Wagi i próg podobieństwa przypisane ad hoc –Oszacowanie wartości wg danych z korpusu Niezależne od reprezentacji semantycznej –Wymagany zbiór tych samych relacji użytych w Q i P; lepiej: reprezentacja w oparciu o role semantyczne

19 Wykorzystanie NLP w systemach QA 1.XII.2004 Określanie koreferencji (podobieństwo słów inaczej) Algorytm: Analiza tekstu Przypisanie wartości cech uzgodnienia Określenie możliwych odniesień (NPs mające te same cechy uzgodnienia co zaimek) Redukcja rozwiązań na podstawie: –Zasad lingwistycznych, –Heurystyk z Mitamura et al. (2002)

20 Wykorzystanie NLP w systemach QA 1.XII.2004 Cechy uzgodnienia osoba: standardowo 3, chyba że zaimek 1 lub 2 osoby; liczba: etykieta POS i WordNet: hipernimy group; żywotność: –Imiona/nazwiska (żywotne) i nazwy geograficzne (nieżywotne), –WordNet: hipernimy animate thing, biological group i social group; rodzaj: –heurystyki: tytuły Mr, Mrs, itd.; –słowniki: listy imion, nazwisk i nazw geograficznych; –akronimy ( 2 duże litery): nijaki; –WordNet: hipernimy male/female person –eksperyment: pozyskanie nowych słów tego samego rodzaju z korpusu

21 Wykorzystanie NLP w systemach QA 1.XII.2004 Rodzje uzgodnień dokładne: wszystkie cechy uzgodnienia zaimka i NP muszą być identyczne bez GENDER: jeśli wartości PERSON, NUMBER i ANIMATE są identyczne, zgodność rodzaju zaimka i NP nie musi wystąpić (np. Jones vs. (s)he; dog [animate,neuter] vs. (s)he lub it) bez NUMBER i ANIMATE: jeśli wartości PERSON i GENDER są identyczne, NUMBER albo ANIMATE też musi się zgadzać (np. police vs. it lub they)

22 Wykorzystanie NLP w systemach QA 1.XII.2004 Zasady lingwistyczne Zaimki zwrotne: argument tego samego czasownika William Patrick describes himself as… Zaimki dzierżawcze: wcześniejsza zgodna fraza NP President Clinton has signed an Executive Order imposing financial and other commercial sanctions on the Afghan Taliban for its support of Usama bin Ladin and his terrorist network. Zaimki osobowe: fraza NP, która jest argumentem innego czasownika The last time Dr. Arnold Schecter tried to take contaminated blood samples out of Vietnam, a government agent was waiting for him at the airport.

23 Wykorzystanie NLP w systemach QA 1.XII.2004 Mitamura et al. (2002) Jeśli zostało więcej niż jedno rozwiązanie, stosowane są heurystyki, które preferują: –zaimki; –rzeczowniki nie będące nazwami własnymi; –Gdy są 2 możliwości NP1 i NP2 mające postać NP1 of NP2, wybrane jest NP1, chyba że NP2 określa miarę (type, length, size...); –NP będące podrzędnikiem frazy o takim samym rdzeniu jak fraza, której podrzędnikiem jest zaimek; –NP będące podrzędnikiem takiej samej kategorii składniowej jak fraza, której podrzędnikiem jest zaimek; –NP mające taką samą funkcję gramatyczną jak zaimek; –konkretne NP (z określnikiem, kwantyfikatorem, frazą dzierżawczą); –NP z przedimkiem określonym; –ostatnie (najbliższe) NP;

24 Wykorzystanie NLP w systemach QA 1.XII.2004 Ocena 253 zdania zawierające 361 zaimków; Względny odnośnik: jeśli NP jest zaimkiem, jego odnośnik nie jest znajdowany; Bezwzględny odnośnik: jeśli NP jest zaimkiem, jego odnośnik też jest znaleziony; Punkt odniesienia oceny (ang. baseline): poprzednia fraza NP oraz bez użycia WordNet do nadawania cech uzgodnienia

25 Wykorzystanie NLP w systemach QA 1.XII.2004 Wyniki Testdokładność Baseline: podstawowy algorytm, bez WN Względny odnośnik50.1% Bezwzględny odnośnik55.9% Pełen algorytm, bez WN: Względny odnośnik67.3% Pełen algorytm, z WN: Względny odnośnik70.0% Bezwzględny odnośnik63.9% 17.2% 19.9% 8.0% 2.7%

26 Wykorzystanie NLP w systemach QA 1.XII.2004 Analiza błędów WordNet, względny odnośnik PROBLEM#% słowniki heurystyki przetwarzanie analiza dyskursu98.3 wiedza o świecie98.3 odległość66 Nierozpoznane nazwiska, imiona/nazwiska rozpoznane jako miejscowości lub odwrotnie Nierozpoznane zaimki ekspletywne, frazy współrzędne, złe POS, niewłaściwe uzgodnienie lub nadanie cech (6), analiza skł. Odniesienia w przód, cytaty, elipsy rodzaj gram. zawodów lub narodowości ! !! !!! !

27 Wykorzystanie NLP w systemach QA 1.XII.2004 Co poprawić? … dołączyć moduł do systemu … Poprawić nadawanie cech uzgodnienia: ujednoznacznianie znaczeń wyrazów pospolitych (dotychczas brane najczęstsze w WN) i nazw własnych, np. London: miejscowość czy osoba? (dotychczas preferowana miejscowość – ad hoc); Poprawić algorytm znajdowania referencji: –Zmodyfikować heurystyki; –Reguły uzyskane metodami uczenia maszynowego; Rozszerzyć algorytm do określania bardziej ogólnych odniesień, np. Saddam Hussein vs. Hussein

28 Wykorzystanie NLP w systemach QA 1.XII.2004 Podsumowanie Przedstawiłam kilka technik NLP wykorzystanych w systemie QA; Pokazałam w jaki sposób NLP pomaga QA … –Rozwiązania przyjęte w Javelin: Przetwarzanie tekstu Analiza semantyczna Określanie koreferencji … albo jak może pomóc, jeśli jeszcze nie zawsze działa: –poprawki do przedstawionych rozwiązań;

29 Wykorzystanie NLP w systemach QA 1.XII.2004 Podziękowania Uczestnicy projektu Javelin, w szczególności: Przetwarzanie tekstu: Curtis Huttenhower i Benjamin Van Durme Reprezentacja semantyczna: Benjamin Van Durme i Yifen Huang Określanie koreferencji: Teruko Mitamura Artykuły: –Javelin: –http://www.ipipan.waw.pl/~aniak/papers.html

30 Wykorzystanie NLP w systemach QA 1.XII.2004 PYTANIA? DZIĘKUJĘ ZA UWAGĘ


Pobierz ppt "Wykorzystanie NLP w systemach QA 1.XII.2004 Wykorzystanie metod NLP w systemach odpowiedzi na pytania Anna Kupść Instytut Podstaw Informatyki."

Podobne prezentacje


Reklamy Google