Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałArkadiusz Grzelak Został zmieniony 8 lat temu
1
Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej, Wrocław, Polska # School of Electrical Engineering and Computer Science University of Ottawa, Ottawa, Ontario, Canada Politechnika Wrocławska
2
Plan prezentacji Politechnika Wrocławska
3
1.Definicja leksykalności połączeń wyrazowych 2.Intuicyjna definicja wielowyrazowych jednostek 3.Drzewa decyzyjne i ewaluacja naszej procedury 4.Wnioski Plan prezentacji Politechnika Wrocławska
4
Wielowyrazowe jednostki leksykalne Politechnika Wrocławska
5
Wielowyrazowe jednostki leksykalne Cel: rozbudowa Słowosieci o jednostki wielowyrazowe Kiedy połączenia słów stają się jednostkami języka? pies Marka versus maszyna do szycia Politechnika Wrocławska
6
Wiele definicji i liczne kryteria Ograniczenia oraz leksykalizacja Perspektywa ograniczeń: ograniczenia składniowe, semantyczne, zakresu stylistycznego, pragmatyczne Wielowyrazowe jednostki leksykalne ‛Wielowyrazowe jednostki leksykalne odznaczają się niekiedy specjalnymi formalnymi i gramatycznymi własnościami. Na przykład, nie ma przedrostka w angielskich ustalonych połączeniach takich jak at hand, by heart.’ Zgusta, Manual of Lexicography, 2009 Politechnika Wrocławska
7
Leksykalizacja = proces przechodzenia połączeń wyrazowych do mentalnego słownika Wielowyrazowe jednostki leksykalne ‛Podstawową przesłanką za przyznaniem statusu leksemu połączeniu wyrazowemu jest to, że uległo ona jakiegoś rodzaju leksykalizacji, tzn. że zostało umieszczone w naszym mentalnym słowniku jako jednostka. Svensén, Handbook of Lexicography, 2009 Politechnika Wrocławska
8
Definicja intuicyjna Politechnika Wrocławska
9
Wielowyrazowa jednostka leksykalna = wyrażenie zbudowane z więcej niż jednego słowa, pełniące funkcję którejś części mowy, powiązane z określonym znaczeniem i w jakiś sposób przechowywane w mentalnym słowniku człowieka i odtwarzane w sposób natychmiastowy z pamięci jako całość Definicja intuicyjna Politechnika Wrocławska
10
14 lingwistów (edytorów Słowosieci) Definicja intuicyjna 129 monosemicznych połączeń wyrazowych maszyna do szycia, pies Marka Tak, Nie, Nie wiem Politechnika Wrocławska
11
Tak ( WJL ), Nie (nie-WJL ), Nie wiem maszyna do szycia Lingwista #1 1234567891011121314 decyzjaTTTTNTTTTTTTTT pies Marka Lingwista #2 1234567891011121314 decyzjaNNNNNNNNNNNNNN Definicja intuicyjna Politechnika Wrocławska
12
maszyna do szycia Lingwista #1 1234567891011121314 decyzja1111111111111 pies Marka Lingwista #2 1234567891011121314 decyzja Definicja intuicyjna Politechnika Wrocławska
13
maszyna do szycia Lingwista #1 1234567891011121314 decyzja1111111111111 suma13 pies Marka Lingwista #2 1234567891011121314 decyzja suma Definicja intuicyjna Politechnika Wrocławska
14
suma decyzji zbiór zrównoważony Definicja intuicyjna częstość Histogram sum Politechnika Wrocławska
15
bootstrapowe przedziały ufności, B = 10000, α = 5% kappa powinna być > 0.67, a najlepiej > 0.8. We do not omit least certain choices Definicja intuicyjna Politechnika Wrocławska
16
Omijamy najmniej pewne przypadki Sum of decisions suma decyzji Histogram sum częstość Definicja intuicyjna Politechnika Wrocławska
17
Definicja intuicyjna bootstrapowe przedziały ufności, B = 10000, α = 5% Sum of decisions suma decyzji Histogram sum częstość Politechnika Wrocławska
18
Politechnika Wrocławska Definicja intuicyjna
19
Politechnika Wrocławska Kryteria a leksykalność kryteria leksykograficzne suma decyzji
20
Sadzenie drzew Politechnika Wrocławska
21
Pomysł A.Przygotuj listy połączeń wyrazowych do oceny. B.Poproś kilkunastu lingwistów, by zaanotowali listy zgodnie z ich intuicją. C.Wybierz innych lingwistów i poproś ich o zaanotowanie list zgodnie z kryteriami frazeologicznymi. D.Poproś sztuczną inteligencję (Weka), by stworzyła drzewo decyzyjne (procedurę). E.Oceń procedurę, dając ją znowu lingwistom. Sadzenie drzew Politechnika Wrocławska
22
Trzy listy połączeń wyrazowych L1-varia – 129 różnorodnych połączeń L2-plWN – 200 połączeń ze Słowosieci (próba losowa prosta) L3-kolNA – 200 połączeń typu rzeczownik + przymiotnik (najlepsze 10 tys. kolokacji z korpusu, próba losowa prosta) Sadzenie drzew Politechnika Wrocławska
23
Drzewo TP ✔ ✘ PAR TERM ✔ ✘ WJL ~WJL ✔ ✘ SEP KIPI > 0.0059 PAR TERM ✔ ✘ ✔ ✘ WJL ~WJL WJL SZU KIPI > 87.09 ✔ ✘ SEP KIPI > 0.003 ✔ ✘ WJL ~WJL Typ NA? ✔ ✘ ~WJL Drzewo TP-c separowalność szyk ustalony terminologia wielowyrazowiec luźne połączenie wyrazowe separowalność parafrazowalność rzecz. + przym.? Politechnika Wrocławska
24
Definicja intuicyjna – zbiory L1 i L3 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska
25
Ocena na zbiorze L1 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska
26
Ocena na zbiorze L3 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska
27
kappa kappa Cohena Politechnika Wrocławska
28
kappa kappa Cohena Zgodność lingwistów korzystających tylko z definicji intuicyjnej Politechnika Wrocławska
29
kappa kappa Cohena Ocena na zbiorze L1 (varia) Politechnika Wrocławska
30
kappa kappa Cohena Ocena na zbiorze L2 (Słowosieć) Politechnika Wrocławska
31
kappa kappa Cohena Ocena na zbiorze L3 (kolokacje typu NA) Politechnika Wrocławska
32
Ocena na zbiorze L3 uśrednione decyzje lingwistów korzystających z procedury Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń suma decyzji lingwistów oceniających wg definicji intuicyjnej
33
Ocena na zbiorze L3 uśrednione decyzje lingwistów korzystających z procedury Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń suma decyzji lingwistów oceniających wg definicji intuicyjnej WJL nie-WJL Nie – Nie wiem - Tak
34
Ocena na zbiorze L3 wielowyrazowce luźne połączenia uśrednione decyzje lingwistów korzystających z procedury suma decyzji lingwistów oceniających wg definicji intuicyjnej Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń
35
Wnioski Politechnika Wrocławska
36
Wnioski 1.Udało nam się stworzyć efektywną procedurę. 2.Procedura daje słownik wysokiej jakości. 3.Drzewo decyzyjne zostało na stałe wpisane do wytycznych dla lingwistów. 4.Dzięki tym wytycznym zaanotowaliśmy już 55 tys. połączeń wyrazowych. Politechnika Wrocławska
37
Dziękujemy za uwagę! ☺ Politechnika Wrocławska
38
Appendix Politechnika Wrocławska
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.