CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Plan prezentacji Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Plan prezentacji Konferencja CLARIN-PL CLARIN-PL Wrocław IV Sieci leksykalne 2. Słowosieć 3.0 emo 3. enWordNet Udostępnianie Słowosieci
Sieci leksykalne Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Sieci leksykalne WordNet Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (J. Miller, Ch. Fellbaum) badania nad językiem dzieci wielka sieć leksykalno-semantyczna języka angielskiego 4 części mowy – rzeczowniki, czasowniki, przymiotniki i przysłówki synset – zbiór prawie synonimów relacje semantyczne podstawowy zasób językowy Global Wordnet Association Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Sieci leksykalne WordNet Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Sieci leksykalne WordNet Liczba haseł = 156 tys. Liczba relacji = ok. 600 tys. Średnia długość ścieżki w grafie = 6,3 współczynnik klasteryzacji = 0,03-0,06 Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Sieci leksykalne w tys. Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 emo
Słowosieć 3.0 emo Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Słowosieć 3.0 emo Korpus Słowosieci 3.0 1,8 mld tokenów Korpus IPI PAN Teksty w domenie publicznej oraz na Creative Commons np. stenogramy sejmowe, ustawy i rozporządzenia RP, UE, portale internetowe, Wikipedia, Wikiźródła, Korpus Języka Polskiego Politechniki Wrocławskiej,... Różnorakie źródła internetowe 10/26 Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
11/26 korpus Słowosieci 3.0 Słowosieć 3.0 emo korpus Słowosieci 4.0 Krishnamurthy (2002, za: R. Górski 2007) korpusy Cobuild W 2014 szacowaliśmy wielkość Słowosieci na 174 tys. haseł Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
12/26 Słowosieć 3.0 emo liczba haseł = 178 tys. liczba relacji > 600 tys. średnia długość ścieżki w grafie = 7,7 współczynnik klasteryzacji = 0,054 mały świat Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
13/26 Słowosieć 3.0 emo Gęstość relacji (tylko główne relacje) [relacji na jednostkę leksykalną] PWN 3.1Słowosieć 3.0 rzeczownik czasownik przymiotnik przysłówek Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 emo
Słowosieć 3.0 emo Struktura hasła lemat + numer znaczenia + część mowy kwalifikator rejestru (og. – rejestr ogólny, wulg. – wulgarny itp.) skrótowa definicja (tzw. glosa) przykłady użycia (108 tys.) linki do Wikipedii (54 tys.) anotacja w dziedzinie emocji (> 31 tys.) podstawowe emocje wartości uniwersalne polaryzacja nastawienia emocjonalnego (+m, +s, n, -s, -m) przykłady użycia 14/26 Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Słowosieć 3.0 emo: przykład Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
enWordNet 1.0 Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Statystyki relacji międzyjęzykowych Relacja/Część mowy RzeczownikPrzymiotnikPrzysłówekSuma Synonimia Hiponimia / Hiperonimia Meronimia Holonimia Synonimia częściowa Synonimia międzyrejestrowa Synonimia międzyparadygmatyczna Suma Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Wnioski z rzutowania Wyraźny prymat synonimii i hiponimii nad pozostałymi relacjami międzyjęzykowymi Wyraźna, dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duża liczba synonimii międzyparadygmatycznej dla przymiotnika Nadal duża liczba niezrzutowanych synsetów WordNetu princetońskiego, szczególnie w kategorii rzeczownika Dotychczas niezrzutowana kategoria czasownika Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Motywacja dla rozszerzenia WordNetu princetońskiego 3.1 Wyniki rzutowania Słowosieci na WordNet princetoński: Dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duże różnice w pokryciu leksykalnym pomiędzy dwoma wordnetami Zatrzymanie prac nad dalszym rozwojem WordNetu princetońskiego: Ostatnie większe rozszerzenie 2006 (wersja 3.0) Ostatnia mała aktualizacja 2012 (wersja 3.1) Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Wnioski z rozszerzania Prowadzone rozszerzenie pozwala uzupełnić braki w pokryciu leksykalnym WordNetu princetońskiego Zaktualizować jego zasób leksykalny o współczesne, nowe słownictwo Zastąpić wiele powiązań hiponimii międzyjęzykowej bardziej precyzyjnymi i szczegółowymi powiązaniami synonimią międzyjęzykową Stworzyć bardziej równoległy, w związku z czym bardziej przydatny zasób dwujęzyczny Utworzony dwujęzyczny zasób będzie stanowił 'bramę' do wielojęzycznych zasobów CLARIN EU Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Plany na przyszłość Uzupełnienie rzutowania rzeczownika, przymiotnika i przysłówka w kierunku ANG-PL Opracowanie strategii i implementacja rzutowania czasownika Implementacja nowej, opartej o korpusy strategii rozszerzania zwiększenie integracji z OpenMultiLingual WordNet oraz integracja z Global WordNet Grid - światową platformą połączonych leksykalno-semantycznych zasobów językowych Opracowanie strategii i przeprowadzenie pilotażowego rzutowania na poziomie jednostek leksykalnych w ramach nowego projektu w konkursie NCN Harmonia 7: 'Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych' Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Zastosowania enWordNetu 1.0 Cross-lingual (Międzyjęzykowe): Wyszukiwanie semantyczne Semantyczna indeksacja tekstów, Klasyfikacja tekstów, Statystyczna analiza semantyczna korpusów w różnych językach Wydobywanie informacji z tekstu, Tłumaczenie maszynowe Multi-lingual (Wielojęzyczne) Princeton WordNet 3.1 jest połączony z ponad 60 językami świata Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Udostępnianie Słowosieci Całość do pobrania na otwartej licencji własny format XML, UBY LMF w opracowaniu CILI LMF oraz format Lemmon Aplikacja webowa do przeglądania: WordnetLoom Viewer aplikacja na komputer użytkownika do interaktywnego przeglądania Aplikacja mobilna (offline) dostępna z Google Play Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 Słowosieć online Słowosieć mobilna WordnetLoom- Viewer
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 WordnetLoom
Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 Słowosieć mobilna 1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9
CLARIN-PL Dziękujemy bardzo za uwagę