Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Projekt systemu ram semantycznych w słowniku Walenty Anna Andrzejczuk, Elżbieta Hajnicz, Natalia Kocyba Instytut Podstaw Informatyki PAN.

Podobne prezentacje


Prezentacja na temat: "Projekt systemu ram semantycznych w słowniku Walenty Anna Andrzejczuk, Elżbieta Hajnicz, Natalia Kocyba Instytut Podstaw Informatyki PAN."— Zapis prezentacji:

1 Projekt systemu ram semantycznych w słowniku Walenty Anna Andrzejczuk, Elżbieta Hajnicz, Natalia Kocyba Instytut Podstaw Informatyki PAN

2 Cel projektu Rozbudowa słownika walencyjnego o poziom semantyczny

3 Zasoby wykorzystywane w projekcie Walenty (poziom składniowy) Słowosieć Składnica frazowa wzbogacona o poziom semantyczny

4 Terminy hasło słownikowejednostka leksykalna predykat argument (semantyczny) rola semantycznapreferencje selekcyjne rama semantyczna, …, >

5 Czym są role semantyczne? Definicja: typy uczestników sytuacji, które zachowują te same własności semantyczne w różnych realizacjach składniowych. Terminy: deep case, semantic case, thematic role, theta role, θ-role, a także protorole, macrorole Przykłady: 1) Jan (A1) biegnie. 2) Jan (P1) śpi. 3) Jan (A2) złapał ptaka (P2). PL: Jest mi (dat) zimno. DE: Mir (dat) ist kalt. vs EN: I (nom) am cold.

6 Praktyczne wykorzystanie Tworzenie gramatyk formalnych, parsowanie semantyczne Pomoc w dezambiguacji morfoskładniowej: Białe albo różowe kwiatki [kwiatek:subst:pl:nom:m3] zapylają owady. Pszczoły [pszczoła:subst:sg:gen:f] zapylają kwiaty i t o nie podlega[...] pomidory [pomidor:subst:pl:nom:m3] zapylają trzm iele, a o zdrowie [...]

7 Preferencje selekcyjne ~ ograniczenia semantyczne (Verbnet) ograniczenia (tendencje) na realizacje leksykalne dla poszczególnych par argument/rola zwykle wysoki poziom abstrakcyjności: żywotne/nieżywotne; osoba; czasami bardzo mocne ograniczenie: pływać (płyn), pić, jeść, grabić (grabie)

8 Typowy zestaw ról Agens: Jan bierze, rozbija, buduje. Paciens: Jan śpi, choruje, starzeje się, rąbie drzewo; ściana runęła. Experiencer (doświadczający): Jan zobaczył, poznał kogoś; Jan boi się czegoś. Stimulus (bodziec): Jan czyta książkę; zobaczył ptaka. Adressee: opowiedział Janowi bajkę; pokazał gościowi pokój Recipient (odbiorca): dać Piotrowi, Piotr otrzymał coś Beneficient: uszyto mundur żołnierzowi; osiołkowi skradziono ogon; zachorowała mu córka/jego córka; Instrument: młotkiem, na warsztacie tkackim Cause (przyczyna): Stefan ucieszył się na wiadomość; strach pędził go w niewiadome; z powodu deszczu nie odbył się mecz; przez ciebie się spóźnimy; Source (źródło): z domu; stąd Goal (cel): do komory; w dom Trace (ścieżka): przez las; lasem; po moście Location (miejsce): w Polsce; na werandzie; winda mieści 14 osób.

9 Wymogi do zestawu ról Pełność: każdy argument każdego czasownika ma jakąś rolę. Niepowtarzalność: każdy argument każdego czasownika ma przypisaną tylko jedną rolę. Odróżnialność: każdy argument każdego czasownika odróżnialny od innych argumentów za pomocą przypisanej mu roli. Mocna: obowiązuje niepowtarzalność Słaba Niezależność: rola nie zależy od znaczenia konkretnego czasownika i innych ról.

10 Istniejące zestawy ról Ilość: od 2 (protorole Dowty’ego) do ponad 1000 (FrameNet) Role luźne (Verbnet) bądź w zestawie ramy semantycznej (FrameNet) Wyjście od leksykonu czy od tekstu Lista czy hierarchia (Sowa, cz. FrameNet) Cechy binarne (Sowa) Oparcie na składni (Verbnet)/funkcjach gramatycznych (RRG)/tylko na semantyce (FrameNet)

11 Werdykt LRH-2005 „It is not possible to impose any structure over the set of semantic roles that can account for similarities in patterning or dependencies in cooccurrence. The small set of unanalyzed roles that characterizes an ideal semantic role approach, then, is incompatible with linguistic reality.” (Levin and Rappoport-Hovav 2005, s.42) No generally accepted tests

12 Dlaczego nie FrameNet? Duża ilość ról robi wnioskowanie niepraktycznym Trudności w ustalaniu niuansów znaczeń w obu językach Robiony metodą od tekstu/korpusu

13 Dlaczego nie Verbnet? Oparty na klasyfikacji czasowników Levin-1993, gdzie grupy były przypisywane na podstawie podobieństwa alternacji składniowych. Mimo że składnia i semantyka idą w parze, potrafią się rozejść w najmniej spodziewanych miejscach, np. czasowniki 'say' i 'tell' w klasyfikacji Levin są w różnych grupach. Oparcie klasyfikacji na składni robi niepraktycznym porównywanie grup czasowników z różnych języków na większą skale (całego leksykonu). Zainspirować się i przejąć metodę?

14 Podejście składniowe „Perhaps one of the most vexed issues is the distribution of verbs across alternations. Verbs that are similar in meaning do not always show the same alternations, yet despite this apparent idiosyncrasy, argument alternations can be extended to new verbs.” (Beth Levin, Malka Rappaport- Hovav „Argument realization”, MIT, 2005, s.5.) Wyciąg z Słowosieci, czasowniki kontaktu: idlevelsynsetaltconvfnfdevcausephas e laspectmaspectagentinstrumentmateriallocation 23692spulchniać 1obj-loc nCAUSEDZIAŁANI E NDKnominstacc 23703orać 1, zaorywać 1, zorywać 1obj-loc plough nCAUSEDZIAŁANI E NDKnomi:instacc 23714oborywać 1 k nCAUSEDZIAŁANI E NDKnomi:inst acc 23723gracować 1obj-loc nCAUSEDZIAŁANI E NDKnomi:inst:'graca'acc 23733przekopywać 2, kopać 3, skopywać 1 obj-loc nCAUSEDZIAŁANI E NDKnominstacc 23744przekopywać 3obj-loc nCAUSEDZIAŁANI E NDKnominstacc 23753motykować 1obj-loc nCAUSEDZIAŁANI E NDKnomi:inst:'motyka'acc 23763sprężynować 1obj-loc nCAUSEDZIAŁANI E NDKnomi:inst:'kultywatorem lub broną sprężynową' acc:'rola'

15 Różnice w opisach tych samych ról Kupować Locatywne teorie: Goal-Theme-Source FN: Buyer- Goods-Means(karta kredytowa)-Money-Recipient(dla kogo)-Seller (część ramy) VN: Agent-Theme-Source; Agent-Theme-Beneficiary Walenty: Focus_Agent, Focus_Object, Background_Agent, Background_Object:’środki płatnicze’ Karta kredytowa może być potraktowana jako Instrument Mieć (posiadać) VN: Pivot-Theme FN: Owner-Possession Walenty: Beneficiary-Object Mieszkać VN klasa „lodge-46”: Theme-Location FN rama „inhabit”: Resident-Location-co-Resident Istnieć: Theme, Entity, Object

16 Walenty - poziom semantyczny Metarole (atrybuty ról), dla zachowania niepowtarzalności Podwójne role, np. Agent Theme Hierarchia ról: grupy Initiator, Undergoer, itd. Oparcie na Słowosieci: wiele synsetów sztucznych łączą wspólne ramy/zestawy ról Częściowe oparcie na ramach: Communicator::Adressee::Content; Experiencer::Stimulus Nowe role: Benefactor, Protagonist, itd.

17 Podstawowe role semantyczne Grupa INITIATOR Grupa MEDIUM Grupa UNDERGOER Grupa RESULT Kontrolujący sytuację Niekontrolujący sytuacji Nieistotne OżywioneNieistotneOżywioneNieistotne Agent Cognizer Communicat or Cause Effector Stimulus Benefactor Instrument Experiencer Perceiver Protagonist Object Pacient Squirrel Theme Material Addresse e Beneficiar y Recipient Conten t Produc t

18 Role uzupełniające Attribute State Event SourceGoal Location Path Time Duration

19 Atrybuty ról Part, Collection Phase, Scenario Type, Instance Background, Focus

20 P ROCEDURA OPRACOWANIA HASŁA NA PRZYKŁADZIE CZASOWNIKA KUPIĆ (1/3)

21 P ROCEDURA OPRACOWANIA HASŁA NA PRZYKŁADZIE CZASOWNIKA KUPIĆ (2/3)

22 P ROCEDURA OPRACOWANIA HASŁA NA PRZYKŁADZIE CZASOWNIKA KUPIĆ (3/3)

23 Weryfikacja zestawu ról Słowosiec, ponad 19 tys. synsetów czasownikowych oznakowane półautomatycznie z częściowym sprawdzeniem ręcznym, zgodnie z wcześniejszą wersją zestawu ról Asset -> Object:’srodek płatniczy’ Manipulator -> Agent synsety sztuczne, odpowiadające: a) aspektom leksykalnym (zdarzenie, czynność, działanie, itd.) b) grupom semantycznym (ruch, posiadanie, kontakt, relacje temporalne, itd.) c) cecha kauzatywności SET agent='nom' WHERE laspect IN(AKT, CZYNNOŚĆ,DZIAŁANIE) and causephase='CAUSE' and synset NOT LIKE "* się*  6400 Wyłonienie nowych ról w trakcie weryfikacji koncepcji zestawu Sprawdzian dla Słowosieci Wersja anotacji do wykorzystania poziomu zgody między anotatorami

24 Do dyskusji Podwójne role, np. Jan (Agent Theme albo Theme) jedzie. W jakim stopniu narzucone z góry? Cognizer_Communicator: pisać wiersz Effector: zarazić, trwonić (domyślne vs możliwe) Ramy, role (wzajemnie) sprzężone [The island]RECIPIENT gets [water]PRODUCT [from collected rain]MATERIAL. [The island]RECIPIENT gets [water]THEME [from collected rain]SOURCE_LOCATION. -Agent-Product-Material (rama wytwarzania) -Recipient-Object-*Agent (transakcja) -Agent-Theme (ruch) Scenario: negacja, iteracja, wartościowanie, możliwość, interpretacja. Jak zapisywać i rozwijać?

25 Możliwości wnioskowania Jan (Agent/Effector) zaraził Piotra grypą. Piotr zaraził się od Jana (Source) grypą. Trzymać-puścić kubek: Object czy Theme? Negacja ruchu. Jan zabił Piotra. Pogrzeb jest jutro. Sąd odbędzie się za dwa miesiące. Jan zabił Piotra i teraz jest oskarżany o przestępstwo. Z powodu zabójstwa Piotra Jan został oskarżony. Oskarżany za zabójstwo.  Scenariusze Jan (AGENT) wydawał pieniądze ze spadku aż wszystko (Jan-EFFECTOR)) roztrwonił.  przez relację między czasownikami, czynność vs jej interpretacja. Jan (EFFECTOR) zaraził się wirusem grypy od Piotra i (Jan-EXPERIENCER) jest teraz chory. Jan (EFFECTOR), spadając, stłukł szybę i teraz mu (PATIENT) nakładają szwy.

26 Literatura Baker, Collin F., and Josef Ruppenhofer. FrameNet's Frames vs. Levin's Verb Classes." Proceedings of 28th Annual Meeting of the Berkeley Linguistics Society. Eds. J. Larson, and M. Paster Gruber, J. S. (1965) “Studies in Lexical Relations,” Doctoral dissertation, MIT, Cambridge, MA. (Reprinted in Gruber 1976: 1–210.) - (1976) Lexical Structures in Syntax and Semantics, North-Holland, Amsterdam. Fillmore, C. J. (1968) “The Case for Case,” in E. Bach and R. T. Harms, eds., Universals in Linguistic Theory, Holt, Rinehart, and Winston, New York, 1–88. - (1970) “The Grammar of Hitting and Breaking,” in R. Jacobs and P. Rosenbaum, eds. (1970), 120– (1977) “The Case for Case Reopened,” in P. Cole and J. M. Sadock, eds. (1977), 59–81. Jackendoff, R. S. (1972) Semantic Interpretation in Generative Grammar, MIT Press, Cambridge, MA. - (1990b) Semantic Structures, MIT Press, Cambridge, MA. Kotsyba, Natalia (2014). „Using Polish Wordnet for Predicting Semantic Roles for the Valency Dictionary of Polish Verbs”, in Advances in Natural Language Processing. Lecture Notes in Computer Science, Volume 8686, 2014, pp Levin, B. (1993) English Verb Classes and Alternations: A Preliminary Investigation, University of Chicago Press, Chicago, IL.

27 Ela, Ania i Natalia Communicator dziękują Państwu Addressee za uwagę. State


Pobierz ppt "Projekt systemu ram semantycznych w słowniku Walenty Anna Andrzejczuk, Elżbieta Hajnicz, Natalia Kocyba Instytut Podstaw Informatyki PAN."

Podobne prezentacje


Reklamy Google