Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałDaria Olejniczak Został zmieniony 8 lat temu
1
CLARIN-PL enWordNet - rozszerzony angielski wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 ewa.rudnicka@pwr.wroc.pl
2
Plan Motywacja Metodologia rozszerzania Procedura rozszerzania Wyniki Wnioski Dalsze plany
3
Motywacja Wyniki rzutowania Słowosieci na WordNet princetoński: Dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duże różnice w pokryciu leksykalnym pomiędzy dwoma wordnetami Zatrzymanie prac nad dalszym rozwojem WordNetu princetońskiego: Ostatnie większe rozszerzenie 2006 (wersja 3.0) Ostatnia mała aktualizacja 2012 (wersja 3.1)
4
Metodologia Wykorzystanie podzbioru relacji hiponimii międzyjęzykowej jako wskaźników potencjalnych 'białych plam' w WordNecie princetońskim Automatyczne tłumaczenie lematów jednostek leksykalnych z wybranych synsetów Słowosieci przez słownik kaskadowy firmy TiP Uzyskane tłumaczenia przefiltrowane przez zbiór lematów WordNetu princetońskiego: Lista lematów Słowosieci z ekwiwalentami nieobecnymi w WordNecie princetońskim (Lista 1) Lista lematów Słowosieci z ekwiwalentami obecnymi w WordNecie princetońskim (Lista 3) Lista lematów Słowosieci bez ekwiwalentów (Lista 2)
5
Procedura rozszerzania (1) Leksykograf otrzymuje komplet list z wybranej dziedziny semantycznej Opracowuje je w kolejności 1,2,3 Dla Listy 1 przeprowadza weryfikację ekwiwalentów w: Słownikach dwujęzycznych Korpusach Innych godnych zaufaniach źródłach leksykograficznych i encyklopedycznych Wybiera właściwy ekwiwalent, tworzy nową jednostkę i synset Łączy hiponimią z właściwym synsetem angielskim Łączy synonimią międzyjęzykową z polskim synsetem będącym jego bezpośrednim odpowiednikiem semantycznym
6
Procedura rozszerzania (2) Dla Listy 2: sprawdza czy istnieją ekwiwalenty w dostępnych źródłach i dalej postępuje jak w przypadku Listy 1 (chyba że nie udaje się znaleźć bezpośredniego odpowiednika) Dla Listy 3: przeprowadza weryfikację istniejących rzutowań, poprawia ewentualne błędy Dla każdego nowego synsetu dodaje: glosę (często korzystając z Wikipedii) przykład użycia (z korpusu lub innych godnych zaufania źródeł dostępnych na otwartej licencji)
7
Przykład rozszerzonego drzewa hiperonimicznego (1)
8
Skład synsetu, glosa i przykład użycia {tablet computer 1, tablet 5} ##D: A tablet computer is a mobile computer with a touchscreen display, circuitry and battery in a single unit. [##W: Apple is often credited for defining a new class of consumer device with the iPad, which shaped the commercial market for tablets in the following years, and was the most successful tablet at the time of its release.] {##L: http://en.wikipedia.org/wiki/Tablet_computer}
9
Wady i zalety zastosowanej metody rozszerzania Zalety: Precyzyjnie zdefiniowany zestaw słownictwa do rozszerzania Nowe synsety łatwo i bezpiecznie umieszczone w strukturze relacji WordNetu princetońskiego Wady: 'polskocentryczność' – pewne ryzyko
10
Wyniki DziedzinaLiczba nowych synsetów Wytwory 2 014 Substancje 1 000 Myślenie 877 Porozumiewanie się 681 Cechy 567 Grupy 406 Ilości 245 Posiadanie 197 Czas 117 Inne 1 737 Total 7 841
11
Porównanie wielkości wordnetów LiczbaSłowosieć 3.0PWN 3.1enWN 1.0 Lematy178 400155 593165 712 Jednostki leksykalne 259 271206 978218 611 Synsety196 920117 659125 500
12
Wnioski Prowadzone rozszerzenie pozwala uzupełnić braki w pokryciu leksykalnym WordNetu princetońskiego Zaktualizować jego zasób leksykalny o współczesne, nowe słownictwo Zastąpić wiele powiązań hiponimii międzyjęzykowej bardziej precyzyjnymi i szczegółowymi powiązaniami synonimią międzyjęzykową Stworzyć bardziej równoległy, w związku z czym bardziej przydatny zasób dwujęzyczny Utworzony dwujęzyczny zasób będzie stanowił 'bramę' do wielojęzycznych zasobów CLARIN EU
13
Plany na przyszłość Implementacja nowej strategii rozszerzania zwiększenie integracji z OpenMultiLingual WordNet or integracja z Global WordNet Grid - światową platformą połączonych leksykalno-semantycznych zasobów językowych
14
Propozycja nowej strategii rozszerzania opartej o korpusy Wykorzystanie list frekwencyjnych z korpusów: British National Corpus Wacky corpus Corpus of Contemporary American English American National Corpus English Wikipedia Kryterium dodania nowej jednostki (synsetu) Obecność w 5 różnych tekstach
15
Zalety i wady nowej strategii Zalety: Dobór słownictwa niezależny od zawartości Słowosieci W całości oparty o anglojęzyczne korpusy Wady: Konieczność wprowadzania nowych synsetów na różnych poziomach sieci hiperonimicznej Ryzyko zmiany oryginalnej struktury WordNetu princetońskiego
16
Zastosowania Cross-lingual (Międzyjęzykowe): Wyszukiwanie semantyczne Semantyczna indeksacja tekstów, Klasyfikacja tekstów, Statystyczna analiza semantyczna korpusów w różnych językach Wydobywanie informacji z tekstu, Tłumaczenie maszynowe Multi-lingual (Wielojęzyczne) Princeton WordNet 3.1 jest połączony z ponad 60 językami świata
17
Bibliografia Fellbaum, Ch. (ed). (1998). WordNet: An Electronic Lexical Database. MIT Press: Cambridge, Massachusets. Kędzia, P., Piasecki, M., Rudnicka, E., Przybycień, K. (2013). – AutomaticPrompt System in the Process of Mapping plWordNet on Princeton WordNet. Cognitive Studies 13: 123-141. Piasecki, M., Szpakowicz, S. and B. Broda. (2009). A WordNet from the Ground Up. Oficyna Wydawnicza Politechniki Wrocławskiej: Wrocław. Princeton WordNet http://wordnet.princeton.edu/wordnet/ Rudnicka, E., Maziarz, M., Piasecki, M., & Szpakowicz, S. (2012). 'A Strategy of Mapping Polish WordNet onto Princeton WordNet'. In Proceedings of COLING 2012. ACL. Słowosieć http://plwordnet.pwr.wroc.pl/wordnet/ Vossen, P. (ed). (2002). EuroWordNet. General Document. Amsterdam.
18
CLARIN-PL Dziękuję bardzo za uwagę
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.