Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.

Podobne prezentacje


Prezentacja na temat: "CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19."— Zapis prezentacji:

1 CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 {maciej.piasecki, marek.maziarz}@pwr.edu.pl 2015-04-27

2 Słowosieć Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

3 Relacyjna semantyka leksykalna  System semantyczny języka a sieć relacji  John Lyons (1963), Structural semantics -znaczenie wyrazu = zbiór jego relacji znaczeniowych -główne relacje znaczeniowe (sense relations): synonimia, antonimia, hiponimia, meronimia (relacje paradygmatyczne)  Igor Mel’čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60. -model „sens ↔ tekst” -funkcje leksykalne paradygmatyczne i syntagmatyczne (Mel’čuk 1996), -neostrukturalizm  Alan Cruse, Gregory Murphy (Uniwersytet w Manchester), lata 80.  Wordnet – leksykalna sieć semantyczna – kompromis pomiędzy siłą ekspresji i wielkością Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

4 Relacyjna semantyka leksykalna  System semantyczny języka a sieć relacji  John Lyons (1963), Structural semantics -znaczenie wyrazu = zbiór jego relacji znaczeniowych -główne relacje znaczeniowe (sense relations): synonimia, antonimia, hiponimia, meronimia (relacje paradygmatyczne)  Igor Mel’čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60. -model „sens ↔ tekst” -funkcje leksykalne paradygmatyczne i syntagmatyczne (Mel’čuk 1996), -neostrukturalizm  Alan Cruse, Gregory Murphy (Uniwersytet w Manchester), lata 80.  Wordnet – leksykalna sieć semantyczna – kompromis pomiędzy siłą ekspresji i wielkością Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

5 Rozbudowana sieć relacji Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

6 Słowosieć (plWordNet)  Geneza  szereg projektów  cel: bardzo obszerny opis systemu relacji leksykalno-semantycznych  Relacje leksykalno-semantyczne, ok. 40 głównych typów rzeczownikczasownikprzymiotnik hiponimia meronimia antonimia mieszkaniec role semantyczne … hiponimia kauzacja procesywność zawieranie roli aspektowość … hiponimia wartość cechy gradacyjność charakteryzowanie symilatywność … Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

7 Rys historyczny  Narodziny: październik 2005  Miejsce: niezmiennie Politechnika Wrocławska  Słowosieć (1.0), kwiecień 2009  27 tys. jednostek leksykalnych (17 700 synsetów)  rzeczowniki, czasowniki, przymiotniki, dane  Słowosieć 2.0, luty 2013  106 tys. lematów, 158 tys. Jednostek leksykalnych,  otwarta licencja od wersji 1.5 (listopad 2011)  obszerny opis polskiego systemu leksykalnego  rzutowanie na Princeton WordNet 3.1 dla około 40 tys. synsetów  Słowosieć 2.3  największy wordnet świata  anotacja w dziedzinie emocji i nastawienia Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

8 Synset –zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, … –jednostki zawarte w synsecie są uznawane za synonimy –jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2}  hiperonim  {miłość 1, umiłowanie 1, kochanie 1} Relacje konstytutywne –podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

9 Relacje leksykalno-semantyczne  Relacje synsetów (pomiędzy zbiorami synonimów)  wynikają z relacji leksykalno-semantycznych,  w większości są to relacje konstytutywne,  strukturalne, np. hiper/hiponimia, typ/egzemplarz,  charakteryzujące, np. mero/holonimia.  Relacje jednostek leksykalnych  relacje o charakterze derywacyjnym:  np. rola – agens: rozpruwacz 1 (os)  rozpruwać 1 (dtk),  np. zawieranie roli – narzędzie: sztyletować 1 (wal)  sztylet 1 (wytw);  pozostałe relacje:  antonimia: miłość 1 (czuj) ↔ nienawiść 1 (czuj),  konwersja: mąż 2 (os) ↔ żona 1 (os). Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

10 Relacje synsetów  relacje pomiędzy zbiorami synonimów Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

11 Hiponimia  testy podstawieniowe  tygrys 1 (zw) « Panthera tigris »  kot 1 (zw) « każdy ssak z rodziny kotowatych » Relacje synsetów Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

12 Hiponimia  testy podstawieniowe  tygrys 1 (zw) « Panthera tigris »  kot 1 (zw) « każdy ssak z rodziny kotowatych » Relacje synsetów Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

13 Hiponimia  testy podstawieniowe  tygrys 1 (zw) « Panthera tigris »  kot 1 (zw) « każdy ssak z rodziny kotowatych » Relacje synsetów Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. TAK Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. TAK Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. TAK Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

14 Hiponimia Relacje synsetów « każdy ssak z rodziny kotowatych » « Panthera tigris » « Panthera leo » « Panthera onca » « Acinonyx jubatus » Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

15 Hiponimia Relacje synsetów Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

16 Hiponimia Relacje synsetów tygrys 1 (zw) «Panthera tigris » kot 1 (zw) « każdy ssak z rodziny kotowatych » drapieżnik 1 (zw) mięsożerca 1 (zw) istota żywa 1 (zw) organizm 1 (rz) Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

17 Meronimia  relacja część – całość  druga w kolejności, 15% instancji relacji Relacje synsetów Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

18 Meronimia  test podstawieniowy Relacje synsetów holonim (całość) meronim (część) Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

19 Meronimia  test podstawieniowy Relacje synsetów holonim (całość) meronim (część) Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. TAK Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

20 Meronimia  relacja część – całość Relacje synsetów holonim (całość) meronimy (części) Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

21 Relacje jednostek leksykalnych AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje się sztyletem 1 (wytw)» Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

22 Glosy  Glosy to skrócone definicje.  W Słowosieci jest ich ponad 90 tys. tygrys 1 (zw) og. « Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych – wielkością ustępuje jedynie niektórym niedźwiedziom » rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów, masakruje różne części ciała» Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

23 Przykłady użycia  dokumentacja korpusowa lub ilustracja znaczenia  preparowane lub ze źródeł o otwartej licencji  ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) tygrys 1 (zw) og. «Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych – wielkością ustępuje jedynie niektórym niedźwiedziom» „Umiejętność chowania pazurów umożliwia tygrysowi bardzo ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy.” (źródło: Wikipedia) Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

24 Przykłady użycia  dokumentacja korpusowa lub ilustracja znaczenia  preparowane lub ze źródeł o otwartej licencji  ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) rozpruwacz 1 (os) pot. „ Siergiej Rakowski - rozpruwacz z Bałaszychy Urodził się w Moskwie w 1963 roku. Zaczął mordować w wieku 25 lat. Był bardzo brutalny. Zazwyczaj dusił swoje ofiary gołymi rękoma lub linką. Potem gwałcił zwłoki.” (źródło: wp.pl) Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

25 Rejestr jednostki leksykalnej  Rejestr = zakres stosowalności jednostki leksykalnej.  11 rejestrów Słowosieci:  nienorm. – nienormatywne  daw. – dawne  reg. – regionalne  środ. – środowiskowe  specj. – specjalistyczne  urz. – urzędowe  książk. – książkowe  wulg. – wulgarne  posp. – pospolite  pot. – potoczne  og. – rejestr ogólny Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

26 Dziedziny Słowosieci  skróty w nawiasach:  tygrys 1 (zw)  zw = zwierzęta  fluita 1 (wytw)  wytw = wytwory (artefakty)  rozpruwacz 1 (os)  os = osoby, ludzie  sztyletować 1 (wal)  wal = walka i rywalizacja  rozpruwać 1 (dtk)  dtk = kontakt fizyczny  zamek 1 (msc)  msc = miejsce  nienawiść 1 (czuj)  czuj = uczucia, emocje  mają techniczny charakter  pomagają w orientowaniu się w sieci Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

27 Proces budowy Słowosieć Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia narzędzia komputerowe słowniki, encyklopedie, leksykony… zespół Słowosieciwytyczne zdefiniować jednostkę przypisać relacje = podpiąć konkordancer automatyczne przykłady użycia Tkacz Wordnetu funkcja podobieństwa znaczeniowego +kwalifikator +definicję +przykład użycia Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

28 Rejestr jednostki leksykalnej Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL  drzewo decyzyjne  procedura postępowania

29 haseł178 000156 000 synsetów197 000118 000 jednostek259 000207 000 relacji> 600 000 Słowosieć w liczbach Liczba haseł (lematów) w Słowosieci i w WordNecie Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

30 Słowosieć w liczbach Słowosieć a słowniki polszczyzny współczesnej Premiera Słowosieci 3.0 Wrocław 26 IV 2016 CLARIN-PL

31 Dziękujemy bardzo za uwagę www.clarin-pl.eu


Pobierz ppt "CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19."

Podobne prezentacje


Reklamy Google