Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej, Wrocław, Polska # School of Electrical Engineering and Computer Science University of Ottawa, Ottawa, Ontario, Canada Politechnika Wrocławska
Plan prezentacji Politechnika Wrocławska
1.Definicja leksykalności połączeń wyrazowych 2.Intuicyjna definicja wielowyrazowych jednostek 3.Drzewa decyzyjne i ewaluacja naszej procedury 4.Wnioski Plan prezentacji Politechnika Wrocławska
Wielowyrazowe jednostki leksykalne Politechnika Wrocławska
Wielowyrazowe jednostki leksykalne Cel: rozbudowa Słowosieci o jednostki wielowyrazowe Kiedy połączenia słów stają się jednostkami języka? pies Marka versus maszyna do szycia Politechnika Wrocławska
Wiele definicji i liczne kryteria Ograniczenia oraz leksykalizacja Perspektywa ograniczeń: ograniczenia składniowe, semantyczne, zakresu stylistycznego, pragmatyczne Wielowyrazowe jednostki leksykalne ‛Wielowyrazowe jednostki leksykalne odznaczają się niekiedy specjalnymi formalnymi i gramatycznymi własnościami. Na przykład, nie ma przedrostka w angielskich ustalonych połączeniach takich jak at hand, by heart.’ Zgusta, Manual of Lexicography, 2009 Politechnika Wrocławska
Leksykalizacja = proces przechodzenia połączeń wyrazowych do mentalnego słownika Wielowyrazowe jednostki leksykalne ‛Podstawową przesłanką za przyznaniem statusu leksemu połączeniu wyrazowemu jest to, że uległo ona jakiegoś rodzaju leksykalizacji, tzn. że zostało umieszczone w naszym mentalnym słowniku jako jednostka. Svensén, Handbook of Lexicography, 2009 Politechnika Wrocławska
Definicja intuicyjna Politechnika Wrocławska
Wielowyrazowa jednostka leksykalna = wyrażenie zbudowane z więcej niż jednego słowa, pełniące funkcję którejś części mowy, powiązane z określonym znaczeniem i w jakiś sposób przechowywane w mentalnym słowniku człowieka i odtwarzane w sposób natychmiastowy z pamięci jako całość Definicja intuicyjna Politechnika Wrocławska
14 lingwistów (edytorów Słowosieci) Definicja intuicyjna 129 monosemicznych połączeń wyrazowych maszyna do szycia, pies Marka Tak, Nie, Nie wiem Politechnika Wrocławska
Tak ( WJL ), Nie (nie-WJL ), Nie wiem maszyna do szycia Lingwista # decyzjaTTTTNTTTTTTTTT pies Marka Lingwista # decyzjaNNNNNNNNNNNNNN Definicja intuicyjna Politechnika Wrocławska
maszyna do szycia Lingwista # decyzja pies Marka Lingwista # decyzja Definicja intuicyjna Politechnika Wrocławska
maszyna do szycia Lingwista # decyzja suma13 pies Marka Lingwista # decyzja suma Definicja intuicyjna Politechnika Wrocławska
suma decyzji zbiór zrównoważony Definicja intuicyjna częstość Histogram sum Politechnika Wrocławska
bootstrapowe przedziały ufności, B = 10000, α = 5% kappa powinna być > 0.67, a najlepiej > 0.8. We do not omit least certain choices Definicja intuicyjna Politechnika Wrocławska
Omijamy najmniej pewne przypadki Sum of decisions suma decyzji Histogram sum częstość Definicja intuicyjna Politechnika Wrocławska
Definicja intuicyjna bootstrapowe przedziały ufności, B = 10000, α = 5% Sum of decisions suma decyzji Histogram sum częstość Politechnika Wrocławska
Politechnika Wrocławska Definicja intuicyjna
Politechnika Wrocławska Kryteria a leksykalność kryteria leksykograficzne suma decyzji
Sadzenie drzew Politechnika Wrocławska
Pomysł A.Przygotuj listy połączeń wyrazowych do oceny. B.Poproś kilkunastu lingwistów, by zaanotowali listy zgodnie z ich intuicją. C.Wybierz innych lingwistów i poproś ich o zaanotowanie list zgodnie z kryteriami frazeologicznymi. D.Poproś sztuczną inteligencję (Weka), by stworzyła drzewo decyzyjne (procedurę). E.Oceń procedurę, dając ją znowu lingwistom. Sadzenie drzew Politechnika Wrocławska
Trzy listy połączeń wyrazowych L1-varia – 129 różnorodnych połączeń L2-plWN – 200 połączeń ze Słowosieci (próba losowa prosta) L3-kolNA – 200 połączeń typu rzeczownik + przymiotnik (najlepsze 10 tys. kolokacji z korpusu, próba losowa prosta) Sadzenie drzew Politechnika Wrocławska
Drzewo TP ✔ ✘ PAR TERM ✔ ✘ WJL ~WJL ✔ ✘ SEP KIPI > PAR TERM ✔ ✘ ✔ ✘ WJL ~WJL WJL SZU KIPI > ✔ ✘ SEP KIPI > ✔ ✘ WJL ~WJL Typ NA? ✔ ✘ ~WJL Drzewo TP-c separowalność szyk ustalony terminologia wielowyrazowiec luźne połączenie wyrazowe separowalność parafrazowalność rzecz. + przym.? Politechnika Wrocławska
Definicja intuicyjna – zbiory L1 i L3 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska
Ocena na zbiorze L1 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska
Ocena na zbiorze L3 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska
kappa kappa Cohena Politechnika Wrocławska
kappa kappa Cohena Zgodność lingwistów korzystających tylko z definicji intuicyjnej Politechnika Wrocławska
kappa kappa Cohena Ocena na zbiorze L1 (varia) Politechnika Wrocławska
kappa kappa Cohena Ocena na zbiorze L2 (Słowosieć) Politechnika Wrocławska
kappa kappa Cohena Ocena na zbiorze L3 (kolokacje typu NA) Politechnika Wrocławska
Ocena na zbiorze L3 uśrednione decyzje lingwistów korzystających z procedury Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń suma decyzji lingwistów oceniających wg definicji intuicyjnej
Ocena na zbiorze L3 uśrednione decyzje lingwistów korzystających z procedury Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń suma decyzji lingwistów oceniających wg definicji intuicyjnej WJL nie-WJL Nie – Nie wiem - Tak
Ocena na zbiorze L3 wielowyrazowce luźne połączenia uśrednione decyzje lingwistów korzystających z procedury suma decyzji lingwistów oceniających wg definicji intuicyjnej Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń
Wnioski Politechnika Wrocławska
Wnioski 1.Udało nam się stworzyć efektywną procedurę. 2.Procedura daje słownik wysokiej jakości. 3.Drzewo decyzyjne zostało na stałe wpisane do wytycznych dla lingwistów. 4.Dzięki tym wytycznym zaanotowaliśmy już 55 tys. połączeń wyrazowych. Politechnika Wrocławska
Dziękujemy za uwagę! ☺ Politechnika Wrocławska
Appendix Politechnika Wrocławska