CLARIN-PL Rzutowanie Słowosieci na angielski Princeton Wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.

Slides:



Advertisements
Podobne prezentacje
Platformy e-learningowe Krzysztof Andrelczyk IS, WIMiIP, III rok
Advertisements

Katarzyna Szypuła-Sajon
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Związki w UML.
Życiorys mgr inż. Krzysztof Bruniecki Katedra Systemów Geoinformatycznych WETI PG Urodzony: r. Wykształcenie: studia na kierunku.
Literatura podstawowa
Formalizacja i uwiarygodnianie Iteracyjny proces syntezy modeli
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
JAK PRACOWAĆ Z TEKSTEM LITERACKIM ?
Krajowy Punkt Kontaktowy 6.PR 1 Andrzej Sławiński NEST Analiza wyników konkursu z 14 maja 2003.
JĘZYK POLSKI KLASY IV - VI
Co UML może zrobić dla Twojego projektu?
Komputeryzacja praktyki
Dokumentowanie wymagań w języku XML
Pamięć semantyczna Część pamięci długotrwałej, w której przechowuje się podstawowe znaczenie słów i pojęć.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Inteligentne Systemy Informacyjne
mgr inż. Magdalena Plewa Katedra Systemów Multimedialnych WETI PG
Życiorys mgr inż. Krystyna Dziubich Katedra Architektury Systemów Komputerowych WETI PG Urodzona: r. Wykształcenie: studia uzupełniające.
mgr inż. Adam Łukasz Kaczmarek Katedra Inżynierii Wiedzy, WETI PG
Życiorys mgr inż. Julian Szymański Katedra Architektury Systemów Komputerowych WETI PG Urodzony: r. Wykształcenie: studia na wydziale.
Rola ewaluacji w polityce społecznej
Resource Description Framework
Wstęp do programowania obiektowego
Budowa algorytmów Algorytm: skończony ciąg operacji wraz z ściśle sprecyzowanym porządkowaniem ich wykonywania, które po realizacji dają rozwiązanie dowolnego.
1 PRZYGOTOWANIA DO 7. PROGRAMU RAMOWEGO UE REGIONY WIEDZY I INNOWACJI RESEARCH POTENTIAL = CENTERS OF EXCELLENCE ANDRZEJ SIEMASZKO KRAJOWY PUNKT KONTAKTOWY.
Wanda Klenczon Biblioteka Narodowa
Czytanie ze zrozumieniem
XML – eXtensible Markup Language
Moduł: Informatyka w Zarządzaniu
WordNet WordNet to duża leksykalna baza języka angielskiego. Grupuje ona rzeczowniki, czasowniki, przymiotniki i przysłówki w zestawy kognitywnych (poznawczych)
Wybrane zagadnienia relacyjnych baz danych
Programowanie obiektowe 2013/2014
Autor: Joanna Barańska Promotor: dr inż. Paweł Figat Konsultant:
NIEODMIENNE CZĘŚCI MOWY
ZWIĄZKI MIĘDZY KLASAMI KLASY ABSTRAKCYJNE OGRANICZENIA INTERFEJSY SZABLONY safa Michał Telus.
Modelowanie obiektowe Diagramy klas
Mary Snell-Hornby Autor prezentacji: Joanna Król
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford English Dictionary online Mówi: czym jest Oxford English Dictionary.
Interakcja człowiek – komputer Podstawy metod obiektowych mgr inż. Marek Malinowski Zakład Matematyki i Fizyki Wydz. BMiP PW Płock.
Service Oriented Architecture
OBECNE SYSTEMY, INFRASTRUKTURA I ROZWIĄZANIA PORADNICTWA KARIERY DLA POLAKÓW W WIELKIEJ BRYTANII JULIA BRADY MAŁGORZATA BRADY.
Programowanie strukturalne i obiektowe C++
Zarządzanie ryzykiem w projekcie
Typy danych, klucz podstawowy, klucz obcy
ZINTEGROWANE SYSTEMY ZARZĄDZANIA
Maria Góreczna Innowacje w budownictwie Poznań, 22 stycznia 2008 r.
Wdrażanie SYSTEMU Jacek WĘGLARCZYK.
Platforma .Net.
Systemy zarządzania przepływem pracy i systemy zarządzania procesami biznesowymi Karolina Muszyńska.
Podział sieci komputerowych
ASP.NET Dostęp do bazy danych z poziomu kodu Elżbieta Mrówka-Matejewska.
Modelowanie Danych (ERD) – część 1 (Wspomaganie Modelowania danych)
Analiza Sieci Społecznych
Systemy procesów cyklicznych Prof. Zbigniew Banaszak Zakład Informatyki Gospodarczej Wydział Zarządzania PW.
CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
PRZEKŁADOZNAWSTWO 1) Początki okresu językoznawczego
CLARIN-PL enWordNet - rozszerzony angielski wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej,
CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska.
Opis przymiotnika i przysłówka w Słowosieci Marek Maziarz *, Maciej Piasecki*, Stanisław Szpakowicz #, Justyna Wieczorek *, Michał Kaliński * * Katedra.
Číslo přílohy: VY_32_INOVACE_ O7_Cz ęści mowy Autor: Škola: Mgr.Beta Tomanek Základní 3kola a Mateřská škola s polským jaz. vyuč. Předmět: Polský jazyk.
CLARIN-PL System do wydobywania z korpusów kolokacji i konstruowania słowników frazeologicznych i słowników terminów Marek Maziarz, Maciej Piasecki, Michał.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
BVMS 5.5 Blok3 – Moduł 2: Dodawanie zasobu VRM do BVMS BVMS
T. 14 Platforma systemowa dla informatycznych narzedzi reengineeringu.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Podejście narzędziowe (tools approch) w naukach
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Zapis prezentacji:

CLARIN-PL Rzutowanie Słowosieci na angielski Princeton Wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

Plan Czym jest rzutowanie? Strategia powiązania zasobów i jej etapy System relacji międzyjęzykowych Procedura rzutowania Wyniki Wnioski Plany

Czym jest rzutowanie? Rzutowanie (ang. mapping, dosł. 'odwzorowanie'): powiązanie dwóch sieci na podstawie podobieństw w strukturze poprzez łączenie odpowiadających sobie fragmentów grafów Rzutowanie wordnetów: Tworzenie powiązań pomiędzy synsetami na podstawie podobieństwa ich znaczeń oraz miejsca w strukturze macierzystej sieci Powiązanie przy użyciu zestawu relacji międzyjęzykowych i zgodnie z procedurą rzutowania Stosowane metody: Transfer (półautomatycznie, w pełni automatycznie) Merge (półautomatycznie, ręcznie) (cf. GermaNet, Hamp & Feldweg 1997; EuroWordnet, Vossen 2002; Open MultiLingual Wordnet, Bond et al 2014)

Rzutowanie Słowosieci na WordNet princetoński Powiązania tworzone ręcznie, ale wspomagane przez system automatycznych podpowiedzi (cf. Kędzia et al. 2013, Rudnicka et al. 2015) Kierunek rzutowania: Słowosieć > Princeton WordNet od najniższych poziomów sieci stopniowo obejmując coraz wyższe (ang. bottom-up) Kolejność rzutowania kategorii gramatycznych: Rzeczownik Przymiotnik Przysłówek Czasownik (w planach) Kolejność rzutowania dziedzin semantycznych: Od konkretnych do abstrakcyjnych

Relacje międzyjęzykowe Zbiór relacji międzyjęzykowych inspirowany relacjami międzyjęzykowymi z EuroWordNetu (ang. Equivalence Relations, Vossen 2002) Opracowano definicje, testy i hierarchię wprowadzania (cf. Rudnicka et al. 2012) Relacje: Synonimia (rozumiana jako ekwiwalencja) Hiponimia i hiperonimia Meronimia i holonimia Synonimia częściowa Synonimia międzyrejestrowa Synonimia międzyparadygmatyczna.

Synonimia Synonimia - oznacza dużą odpowiedniość znaczeń i struktur; traktowana jako podstawowa i priorytetowa relacja; może być tylko jedna dla jednego synsetu Synonimia częściowa - stosowana w przypadku częściowej odpowiedniości znaczeń i/lub struktur Synonimia międzyrejestrowa - dla odpowiedników znaczeniowych różniących się rejestrami stylistycznymi

Synonimia częściowa Przykład

Relacje międzyjęzykowe Hiponimia i hiperonimia zdefiniowane są w ramach zawierania się denotacji zbiorów: hiponim odnosi się do obiektu, który zawiera się w zbiorze denotatów hiperonimu Meronimia międzyjęzykowa – oznacza część większej całości Holonimia międzyjęzykowa – oznacza całość składającą się z mniejszych części

Hyponimia i meronimia

Synonimia międzyparadygmatyczna (2) Warsztaty CLARIN- PL Warszawa IV 2015 CLARIN-PL jest przymiotnikiem w języku polskim, jest rzeczownikiem w języku angielskim, N jest rzeczownikiem w języku polskim i łączy relacja międzyjęzykowej synonimii międzyparadygmatycznej typu "przypominający" jeśli: określa właściwość fizyczną łączy relacja synonimii międzyparadygmatycznej lub derywacyjności z N N i łączy relacja międzyjęzykowa

Synonimia międzyparadygmatyczna (3) Warsztaty CLARIN- PL Warszawa IV 2015 CLARIN-PL jest przymiotnikiem w języku polskim, jest rzeczownikiem w języku angielskim, N jest rzeczownikiem w języku polskim i łączy relacja międzyjęzykowej synonimii międzyparadygmatycznej typu "odnoszący się do" jeśli: określa właściwości, które nie są jego cechami fizycznymi lub nie określają materiału, z którego jest wykonany łączy relacja synonimii międzyparadygmatycznej lub derywacyjności z N N i łączy relacja międzyjęzykowa

Procedura rzutowania (1) Rozpoznanie znaczenia synsetu źródłowego: - miejsce w strukturze sieci - wszystkie istniejące relacje z naciskiem na hiperonim(y) i hiponimy; - definicje, komentarze; - porównanie pozostałych synsetów zawierających dany lemat) Przykład: {zagranica 1, obczyzna 1, obce terytorium 1}: - jest hiponimem {obszar 1, terytorium 1, obręb 1, strefa 1, zona 1, rejon 3} komentarz: 'ograniczona część przestrzeni, zwykle dużych rozmiarów, określona powierzchnia czegoś (np. obszar państwa, obszary niezalesione) - jest meronimem {świat 3, nieznane 1} komentarz: 'iść w świat' - jest w relacji fazynimii z {granica państwa 1}

Procedura rzutowania (2) Poszukiwanie synsetu docelowego: wytypowanie kandydatów na synset docelowy przy wykorzystaniu intuicji, podpowiedzi automatycznych oraz słowników {foreign country 1} 'any state of which one is not a citizen' – 'każde państwo którego nie jest się obywatelem' jest hiponimem {state 1, nation 1, country 1, land 9, commonwealth 2, res publica 1, body politic 1} - 'a politically organized body of people under a single government' – polityczna organizacja grupy ludzi skupiona pod jednym rządem'

Procedura rzutowania (3) weryfikacja kandydatów na synset docelowy: porównanie struktur hipero i hiponimicznych (i innych jeśli istnieją) z synsetem źródłowym sprawdzenie istniejących i/lub potencjalnych relacji międzyjęzykowych; definicje, komentarze; słowniki np. {state 1,..} jest międzyjęzykowym hiponimem {państwo 1, kraj 1} - 'zorganizowana politycznie społeczność, zamieszkująca określone terytorium, z niepodległą formą rządów'

Procedura rzutowania (3) Wytypowanie synsetu docelowego oraz relacji międzyjęzykowej: {foreign country 1} Synonimia – nie (inne znaczenie, struktury i relacje) Hiponimia – nie (znaczenie, struktury i relacje nie kwalifikują jako rodzaj) Meronimia – tak (znaczenie, struktury i relacje kwalifikują jako część) Połączenie synsetu źródłowego z synsetem docelowym

Warsztaty CLARIN- PL Warszawa IV 2015 CLARIN-PL

Statystyki relacji międzyjęzykowych Relacja/Część mowy RzeczownikPrzymiotnikPrzysłówekSuma Synonimia Hiponimia / Hiperonimia Meronimia Holonimia Synonimia częściowa Synonimia międzyrejestrowa Synonimia międzyparadygmatycz na Total

Jeszcze niezrzutowane Niezrzutowane synsety Słowosieci: - Rzeczowniki: Przymiotniki: Przysłówki: Czasowniki: Total: Niezrzutowane synsety Princeton WordNet: - Rzeczowniki: Przymiotniki: Przysłówki Czasowniki: Total:

Wnioski Wyraźny prymat synonimii i hiponimii nad pozostałymi relacjami międzyjęzykowymi Wyraźna, dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duża liczba synonimii międzyparadygmatycznej dla przymiotnika Nadal duża liczba niezrzutowanych synsetów WordNetu princetońskiego, szczególnie w kategorii rzeczownika Dotychczas niezrzutowana kategoria czasownika

Plany na przyszłość Uzupełnienie rzutowania rzeczownika, przymiotnika i przysłówka, głównie w kierunku ANG-PL Opracowanie strategii i implementacja rzutowania czasownika zwiększenie integracji z OpenMultiLingual WordNet oraz integracja z Global WordNet Grid - światową platformą połączonych leksykalno-semantycznych zasobów językowych Opracowanie strategii i przeprowadzenie pilotażowego rzutowania na poziomie jednostek leksykalnych w ramach nowego projektu w konkursie NCN Harmonia 7: 'Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych'

Bibliografia Bond, F., Fellbaum, Ch., Hsieh, S., Huang, Ch., Pease, A. and P. Vossen (2014). A Multilingual Lexico-Semantic Database and Ontology. In Towards the Multilingual Semantic Web Paul Buitelaar and Philipp Cimiano (eds), Springer pp. 243–258. (Publisher's page: Fellbaum, Ch. (ed). (1998). WordNet: An Electronic Lexical Database. MIT Press: Cambridge, Massachusets. Hamp, B. & Feldweg, H. (1997). GermaNet - a Lexical Semantic Net for German in Proceedings of ACL workshop Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications, Madrid. Kędzia, P., Piasecki, M., Rudnicka, E., Przybycień, K. (2013). Automatic Prompt System in the Process of Mapping plWordNet on Princeton WordNet. Cognitive Studies 13: Piasecki, M., Szpakowicz, S. and B. Broda. (2009). A WordNet from the Ground Up. Oficyna Wydawnicza Politechniki Wrocławskiej: Wrocław. Princeton WordNet Rudnicka, E., Maziarz, M., Piasecki, M., & Szpakowicz, S. (2012). 'A Strategy of Mapping Polish WordNet onto Princeton WordNet'. In Proceedings of COLING ACL. Rudnicka, E., Witkowski, W. & Kaliński, M. (2015). Towards the Methodology for Extending Princeton WordNet. Cognitive Studies 15. Słowosieć Vossen, P. (ed). (2002). EuroWordNet. General Document. Amsterdam.

CLARIN-PL Dziękuję bardzo za uwagę