CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 {maciej.piasecki,
Słowosieć Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Relacyjna semantyka leksykalna System semantyczny języka a sieć relacji John Lyons (1963), Structural semantics -znaczenie wyrazu = zbiór jego relacji znaczeniowych -główne relacje znaczeniowe (sense relations): synonimia, antonimia, hiponimia, meronimia (relacje paradygmatyczne) Igor Mel’čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60. -model „sens ↔ tekst” -funkcje leksykalne paradygmatyczne i syntagmatyczne (Mel’čuk 1996), -neostrukturalizm Alan Cruse, Gregory Murphy (Uniwersytet w Manchester), lata 80. Wordnet – leksykalna sieć semantyczna – kompromis pomiędzy siłą ekspresji i wielkością Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Relacyjna semantyka leksykalna System semantyczny języka a sieć relacji John Lyons (1963), Structural semantics -znaczenie wyrazu = zbiór jego relacji znaczeniowych -główne relacje znaczeniowe (sense relations): synonimia, antonimia, hiponimia, meronimia (relacje paradygmatyczne) Igor Mel’čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60. -model „sens ↔ tekst” -funkcje leksykalne paradygmatyczne i syntagmatyczne (Mel’čuk 1996), -neostrukturalizm Alan Cruse, Gregory Murphy (Uniwersytet w Manchester), lata 80. Wordnet – leksykalna sieć semantyczna – kompromis pomiędzy siłą ekspresji i wielkością Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Rozbudowana sieć relacji Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Słowosieć (plWordNet) Geneza szereg projektów cel: bardzo obszerny opis systemu relacji leksykalno-semantycznych Relacje leksykalno-semantyczne, ok. 40 głównych typów rzeczownikczasownikprzymiotnik hiponimia meronimia antonimia mieszkaniec role semantyczne … hiponimia kauzacja procesywność zawieranie roli aspektowość … hiponimia wartość cechy gradacyjność charakteryzowanie symilatywność … Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Rys historyczny Narodziny: październik 2005 Miejsce: niezmiennie Politechnika Wrocławska Słowosieć (1.0), kwiecień 2009 27 tys. jednostek leksykalnych ( synsetów) rzeczowniki, czasowniki, przymiotniki, dane Słowosieć 2.0, luty 2013 106 tys. lematów, 158 tys. Jednostek leksykalnych, otwarta licencja od wersji 1.5 (listopad 2011) obszerny opis polskiego systemu leksykalnego rzutowanie na Princeton WordNet 3.1 dla około 40 tys. synsetów Słowosieć 2.3 największy wordnet świata anotacja w dziedzinie emocji i nastawienia Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Synset –zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, … –jednostki zawarte w synsecie są uznawane za synonimy –jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} hiperonim {miłość 1, umiłowanie 1, kochanie 1} Relacje konstytutywne –podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Relacje leksykalno-semantyczne Relacje synsetów (pomiędzy zbiorami synonimów) wynikają z relacji leksykalno-semantycznych, w większości są to relacje konstytutywne, strukturalne, np. hiper/hiponimia, typ/egzemplarz, charakteryzujące, np. mero/holonimia. Relacje jednostek leksykalnych relacje o charakterze derywacyjnym: np. rola – agens: rozpruwacz 1 (os) rozpruwać 1 (dtk), np. zawieranie roli – narzędzie: sztyletować 1 (wal) sztylet 1 (wytw); pozostałe relacje: antonimia: miłość 1 (czuj) ↔ nienawiść 1 (czuj), konwersja: mąż 2 (os) ↔ żona 1 (os). Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Relacje synsetów relacje pomiędzy zbiorami synonimów Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Hiponimia testy podstawieniowe tygrys 1 (zw) « Panthera tigris » kot 1 (zw) « każdy ssak z rodziny kotowatych » Relacje synsetów Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Hiponimia testy podstawieniowe tygrys 1 (zw) « Panthera tigris » kot 1 (zw) « każdy ssak z rodziny kotowatych » Relacje synsetów Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Hiponimia testy podstawieniowe tygrys 1 (zw) « Panthera tigris » kot 1 (zw) « każdy ssak z rodziny kotowatych » Relacje synsetów Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. TAK Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. TAK Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. TAK Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Hiponimia Relacje synsetów « każdy ssak z rodziny kotowatych » « Panthera tigris » « Panthera leo » « Panthera onca » « Acinonyx jubatus » Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Hiponimia Relacje synsetów Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Hiponimia Relacje synsetów tygrys 1 (zw) «Panthera tigris » kot 1 (zw) « każdy ssak z rodziny kotowatych » drapieżnik 1 (zw) mięsożerca 1 (zw) istota żywa 1 (zw) organizm 1 (rz) Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Meronimia relacja część – całość druga w kolejności, 15% instancji relacji Relacje synsetów Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Meronimia test podstawieniowy Relacje synsetów holonim (całość) meronim (część) Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Meronimia test podstawieniowy Relacje synsetów holonim (całość) meronim (część) Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. TAK Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Meronimia relacja część – całość Relacje synsetów holonim (całość) meronimy (części) Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Relacje jednostek leksykalnych AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje się sztyletem 1 (wytw)» Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Glosy Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys. tygrys 1 (zw) og. « Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych – wielkością ustępuje jedynie niektórym niedźwiedziom » rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów, masakruje różne części ciała» Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Przykłady użycia dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) tygrys 1 (zw) og. «Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych – wielkością ustępuje jedynie niektórym niedźwiedziom» „Umiejętność chowania pazurów umożliwia tygrysowi bardzo ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy.” (źródło: Wikipedia) Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Przykłady użycia dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) rozpruwacz 1 (os) pot. „ Siergiej Rakowski - rozpruwacz z Bałaszychy Urodził się w Moskwie w 1963 roku. Zaczął mordować w wieku 25 lat. Był bardzo brutalny. Zazwyczaj dusił swoje ofiary gołymi rękoma lub linką. Potem gwałcił zwłoki.” (źródło: wp.pl) Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Rejestr jednostki leksykalnej Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. – nienormatywne daw. – dawne reg. – regionalne środ. – środowiskowe specj. – specjalistyczne urz. – urzędowe książk. – książkowe wulg. – wulgarne posp. – pospolite pot. – potoczne og. – rejestr ogólny Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Dziedziny Słowosieci skróty w nawiasach: tygrys 1 (zw) zw = zwierzęta fluita 1 (wytw) wytw = wytwory (artefakty) rozpruwacz 1 (os) os = osoby, ludzie sztyletować 1 (wal) wal = walka i rywalizacja rozpruwać 1 (dtk) dtk = kontakt fizyczny zamek 1 (msc) msc = miejsce nienawiść 1 (czuj) czuj = uczucia, emocje mają techniczny charakter pomagają w orientowaniu się w sieci Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Proces budowy Słowosieć Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia narzędzia komputerowe słowniki, encyklopedie, leksykony… zespół Słowosieciwytyczne zdefiniować jednostkę przypisać relacje = podpiąć konkordancer automatyczne przykłady użycia Tkacz Wordnetu funkcja podobieństwa znaczeniowego +kwalifikator +definicję +przykład użycia Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Rejestr jednostki leksykalnej Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL drzewo decyzyjne procedura postępowania
haseł synsetów jednostek relacji> Słowosieć w liczbach Liczba haseł (lematów) w Słowosieci i w WordNecie Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Słowosieć w liczbach Słowosieć a słowniki polszczyzny współczesnej Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL
Dziękujemy bardzo za uwagę