Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałBogumił Małek Został zmieniony 8 lat temu
1
CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 marek.maziarz@pwr.edu.pl, maciej.piasecki@pwr.edu.pl, ewa.rudnicka@pwr.edu.pl
2
Plan prezentacji Konferencja CLARIN-PL Wrocław 25-26 IV 2016 CLARIN-PL
3
Plan prezentacji Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 1. Sieci leksykalne 2. Słowosieć 3.0 emo 3. enWordNet 1.0 4. Udostępnianie Słowosieci
4
Sieci leksykalne Konferencja CLARIN-PL Wrocław 25-26 IV 2016 CLARIN-PL
5
Sieci leksykalne WordNet Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (J. Miller, Ch. Fellbaum) badania nad językiem dzieci wielka sieć leksykalno-semantyczna języka angielskiego 4 części mowy – rzeczowniki, czasowniki, przymiotniki i przysłówki synset – zbiór prawie synonimów relacje semantyczne podstawowy zasób językowy Global Wordnet Association Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
6
Sieci leksykalne WordNet Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
7
Sieci leksykalne WordNet Liczba haseł = 156 tys. Liczba relacji = ok. 600 tys. Średnia długość ścieżki w grafie = 6,3 współczynnik klasteryzacji = 0,03-0,06 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
8
Sieci leksykalne w tys. Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 emo
9
Słowosieć 3.0 emo Konferencja CLARIN-PL Wrocław 25-26 IV 2016 CLARIN-PL
10
Słowosieć 3.0 emo Korpus Słowosieci 3.0 1,8 mld tokenów Korpus IPI PAN Teksty w domenie publicznej oraz na Creative Commons np. stenogramy sejmowe, ustawy i rozporządzenia RP, UE, portale internetowe, Wikipedia, Wikiźródła, Korpus Języka Polskiego Politechniki Wrocławskiej,... Różnorakie źródła internetowe 10/26 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
11
11/26 korpus Słowosieci 3.0 Słowosieć 3.0 emo korpus Słowosieci 4.0 Krishnamurthy (2002, za: R. Górski 2007) korpusy Cobuild W 2014 szacowaliśmy wielkość Słowosieci na 174 tys. haseł Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
12
12/26 Słowosieć 3.0 emo liczba haseł = 178 tys. liczba relacji > 600 tys. średnia długość ścieżki w grafie = 7,7 współczynnik klasteryzacji = 0,054 mały świat Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
13
13/26 Słowosieć 3.0 emo Gęstość relacji (tylko główne relacje) [relacji na jednostkę leksykalną] PWN 3.1Słowosieć 3.0 rzeczownik czasownik przymiotnik przysłówek Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 emo
14
Słowosieć 3.0 emo Struktura hasła lemat + numer znaczenia + część mowy kwalifikator rejestru (og. – rejestr ogólny, wulg. – wulgarny itp.) skrótowa definicja (tzw. glosa) przykłady użycia (108 tys.) linki do Wikipedii (54 tys.) anotacja w dziedzinie emocji (> 31 tys.) podstawowe emocje wartości uniwersalne polaryzacja nastawienia emocjonalnego (+m, +s, n, -s, -m) przykłady użycia 14/26 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
15
Słowosieć 3.0 emo: przykład Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
16
enWordNet 1.0 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
17
Statystyki relacji międzyjęzykowych Relacja/Część mowy RzeczownikPrzymiotnikPrzysłówekSuma Synonimia 36 367 4 077 448 40 893 Hiponimia 74 39429 216/9 930 781 104 391 Hiperonimia 4 121 167 51 4 339 Meronimia 6 982 - - Holonimia 3 471 - - Synonimia częściowa 4 339 1 544 4 5 887 Synonimia międzyrejestrowa 1 672 54 22 1 748 Synonimia międzyparadygmatyczna - 19 286 - Suma 127 00552 7991 302 186 997 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
18
Wnioski z rzutowania Wyraźny prymat synonimii i hiponimii nad pozostałymi relacjami międzyjęzykowymi Wyraźna, dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duża liczba synonimii międzyparadygmatycznej dla przymiotnika Nadal duża liczba niezrzutowanych synsetów WordNetu princetońskiego, szczególnie w kategorii rzeczownika Dotychczas niezrzutowana kategoria czasownika Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
19
Motywacja dla rozszerzenia WordNetu princetońskiego 3.1 Wyniki rzutowania Słowosieci na WordNet princetoński: Dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duże różnice w pokryciu leksykalnym pomiędzy dwoma wordnetami Zatrzymanie prac nad dalszym rozwojem WordNetu princetońskiego: Ostatnie większe rozszerzenie 2006 (wersja 3.0) Ostatnia mała aktualizacja 2012 (wersja 3.1) Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
20
Wnioski z rozszerzania Prowadzone rozszerzenie pozwala uzupełnić braki w pokryciu leksykalnym WordNetu princetońskiego Zaktualizować jego zasób leksykalny o współczesne, nowe słownictwo Zastąpić wiele powiązań hiponimii międzyjęzykowej bardziej precyzyjnymi i szczegółowymi powiązaniami synonimią międzyjęzykową Stworzyć bardziej równoległy, w związku z czym bardziej przydatny zasób dwujęzyczny Utworzony dwujęzyczny zasób będzie stanowił 'bramę' do wielojęzycznych zasobów CLARIN EU Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
21
Plany na przyszłość Uzupełnienie rzutowania rzeczownika, przymiotnika i przysłówka w kierunku ANG-PL Opracowanie strategii i implementacja rzutowania czasownika Implementacja nowej, opartej o korpusy strategii rozszerzania zwiększenie integracji z OpenMultiLingual WordNet oraz integracja z Global WordNet Grid - światową platformą połączonych leksykalno-semantycznych zasobów językowych Opracowanie strategii i przeprowadzenie pilotażowego rzutowania na poziomie jednostek leksykalnych w ramach nowego projektu w konkursie NCN Harmonia 7: 'Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych' Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
22
Zastosowania enWordNetu 1.0 Cross-lingual (Międzyjęzykowe): Wyszukiwanie semantyczne Semantyczna indeksacja tekstów, Klasyfikacja tekstów, Statystyczna analiza semantyczna korpusów w różnych językach Wydobywanie informacji z tekstu, Tłumaczenie maszynowe Multi-lingual (Wielojęzyczne) Princeton WordNet 3.1 jest połączony z ponad 60 językami świata Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
23
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
24
Udostępnianie Słowosieci Całość do pobrania na otwartej licencji własny format XML, UBY LMF w opracowaniu CILI LMF oraz format Lemmon Aplikacja webowa do przeglądania: http://plwordnet.pwr.edu.pl WordnetLoom Viewer aplikacja na komputer użytkownika do interaktywnego przeglądania Aplikacja mobilna (offline) dostępna z Google Play Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016
25
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 Słowosieć online Słowosieć mobilna WordnetLoom- Viewer www.clarin-pl.eu
26
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 www.plwordnet.pwr.wroc.pl/wordnet
27
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 WordnetLoom
28
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 Słowosieć mobilna 1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
29
CLARIN-PL Dziękujemy bardzo za uwagę
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.