CLARIN-PL enWordNet - rozszerzony angielski wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

Slides:



Advertisements
Podobne prezentacje
Platformy e-learningowe Krzysztof Andrelczyk IS, WIMiIP, III rok
Advertisements

Wprowadzenie do narzędzi CAT
1 ICT in the assessment of speaking and writing Autorka: Małgorzata Rzeźnik Automatyczne ocenianie umiejętności pisania i mówienia.
Rafał Hryniów Tomasz Pieciukiewicz
Obiektowe metody projektowania systemów Design Patterns STRATEGY.
Dynamiczna alokacja zadań w sieciach MESH
Wyszukiwanie w bazie CINAHL
„BSD alternatywa dla Linuksa”
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
Zasoby internetowe Oxford University Press Poniższa prezentacja krótko opisuje Oxford Music Online Mówi o tym, czym jest Oxford Music Online do czego.
ENGLISH AROUND THE WORLD
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Pamięć semantyczna Część pamięci długotrwałej, w której przechowuje się podstawowe znaczenie słów i pojęć.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
WIKIPEDIA czyli synergia wiedzy. Czym WIKIPEDIA nie jest ? recenzowanym wydawnictwem firmą zamkniętą całością
Koordynatorzy: Krzysztof BIKONIS Marek MOSZYŃSKI
Życiorys mgr inż. Julian Szymański Katedra Architektury Systemów Komputerowych WETI PG Urodzony: r. Wykształcenie: studia na wydziale.
Języki programowania obiektowego
Rynek tłumaczeń i lokalizacji w Polsce, Wrocław, marca, 2009 Najbliższa przyszłość branży tłumaczeniowej - wprowadzenie do dyskusji Magda Dziadosz,
Współpraca tłumacza z BT przed zdobyciem i po zdobyciu certyfikatu normy PN:EN Autor: Magdalena Gałczyńska Firma: BTInfo Biuro Tłumaczeń Informatycznych.
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak Michał Kucal
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak Michał Kucal
C.d. wstępu do tematyki RUP
1 PRZYGOTOWANIA DO 7. PROGRAMU RAMOWEGO UE REGIONY WIEDZY I INNOWACJI RESEARCH POTENTIAL = CENTERS OF EXCELLENCE ANDRZEJ SIEMASZKO KRAJOWY PUNKT KONTAKTOWY.
Łukasz Sobczak. 1)Co to jest Office 2010 Web Apps 2)SharePoint 2010 a narzędzia pakietu office 3)Integracja Office Web Apps z SharePoint )Problemy.
Certyfikacja Kompetencji Informatycznych w standardzie ECCC
Records Management with SharePoint 2010
Tworzenie nowych kont lokalnych i domenowych, oraz zarządzanie nimi
Instrukcja USOSweb Wersja: Opracował: Sebastian Sieńko Moduł sprawdzianów.
Wanda Klenczon Biblioteka Narodowa
Metody wprowadzania tekstu (wybrane zagadnienia).
Modelowanie populacji i przepływu opinii pomiędzy aktorami sztucznej inteligencji za pomocą sieci społecznej Wojciech Toman.
XML – eXtensible Markup Language
WordNet WordNet to duża leksykalna baza języka angielskiego. Grupuje ona rzeczowniki, czasowniki, przymiotniki i przysłówki w zestawy kognitywnych (poznawczych)
Wybrane zagadnienia relacyjnych baz danych
SZKOŁA Z KLASĄ 2.0 English SOS.
Wyrównywanie szans edukacyjnych Zespół Szkół nr 2 w Tychach.
ZWIĄZKI MIĘDZY KLASAMI KLASY ABSTRAKCYJNE OGRANICZENIA INTERFEJSY SZABLONY safa Michał Telus.
Program Operacyjny KAPITAŁ LUDZKI Priorytet IV Szkolnictwo Wyższe i Nauka Dział Rozwoju Kadry Naukowej Narodowe Centrum Badań i Rozwoju.
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford English Dictionary online Mówi: czym jest Oxford English Dictionary.
Znaki specjalne Co i jak + brak przykładów.  Aby wstawić symbol lub znak specjalny należy na karcie Wstawianie w grupie Symbole kliknąć na przycisk Symbol.
Walidacja danych alina suchomska.
POUFNE. Dystrybucja wyłącznie do partnerów objętych umową o zachowaniu poufności. Firma Microsoft nie udziela żadnych gwarancji, wyraźnych ani domniemanych.
© 2012 Microsoft Corporation. Wszelkie prawa zastrzeżone. Dodawanie kontaktu Lista Kontakty upraszcza komunikację i umożliwia sprawdzenie statusu obecności.
Systemy zarządzania przepływem pracy i systemy zarządzania procesami biznesowymi Karolina Muszyńska.
Przewodnik Wprowadzenie do
EBSCOhost Mobile Przewodnik
ASP.NET Dostęp do bazy danych z poziomu kodu Elżbieta Mrówka-Matejewska.
CLARIN-PL Rzutowanie Słowosieci na angielski Princeton Wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.
CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.
Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej,
CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska.
Przewodnik
Opis przymiotnika i przysłówka w Słowosieci Marek Maziarz *, Maciej Piasecki*, Stanisław Szpakowicz #, Justyna Wieczorek *, Michał Kaliński * * Katedra.
Przewodnik Wyszukiwarka naukowa EBSCO Discovery Service (EDS)
CLARIN-PL System do wydobywania z korpusów kolokacji i konstruowania słowników frazeologicznych i słowników terminów Marek Maziarz, Maciej Piasecki, Michał.
DynaMed Plus Przewodnik
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Bibliografia jako narzędzie wprowadzenie do warsztatów
T 10. Metodologia Rapid Re - wprowadzenie
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Wstęp do Informatyki - Wykład 14
KOMUNIKACJA WEWNĘTRZNA W FIRMIE Łatwizna czy wyzwanie?
NEMERLE Michał Maliszewski.
Logo afiliacji autora Tytuł referatu (minimalna wysokość czcionki 36pkt) Imię, nazwisko i afiliacja autora/ów (minimalna wysokość czcionki 25pkt) Wprowadzenie.
Próbny Egzamin Ósmoklasisty
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Najważniejsze informacje dotyczące programu Sway.
System opisu pluralistycznych podejść do języków i kultur (FREPA)
Zapis prezentacji:

CLARIN-PL enWordNet - rozszerzony angielski wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

Plan Motywacja Metodologia rozszerzania Procedura rozszerzania Wyniki Wnioski Dalsze plany

Motywacja Wyniki rzutowania Słowosieci na WordNet princetoński: Dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duże różnice w pokryciu leksykalnym pomiędzy dwoma wordnetami Zatrzymanie prac nad dalszym rozwojem WordNetu princetońskiego: Ostatnie większe rozszerzenie 2006 (wersja 3.0) Ostatnia mała aktualizacja 2012 (wersja 3.1)

Metodologia Wykorzystanie podzbioru relacji hiponimii międzyjęzykowej jako wskaźników potencjalnych 'białych plam' w WordNecie princetońskim Automatyczne tłumaczenie lematów jednostek leksykalnych z wybranych synsetów Słowosieci przez słownik kaskadowy firmy TiP Uzyskane tłumaczenia przefiltrowane przez zbiór lematów WordNetu princetońskiego: Lista lematów Słowosieci z ekwiwalentami nieobecnymi w WordNecie princetońskim (Lista 1) Lista lematów Słowosieci z ekwiwalentami obecnymi w WordNecie princetońskim (Lista 3) Lista lematów Słowosieci bez ekwiwalentów (Lista 2)

Procedura rozszerzania (1) Leksykograf otrzymuje komplet list z wybranej dziedziny semantycznej Opracowuje je w kolejności 1,2,3 Dla Listy 1 przeprowadza weryfikację ekwiwalentów w: Słownikach dwujęzycznych Korpusach Innych godnych zaufaniach źródłach leksykograficznych i encyklopedycznych Wybiera właściwy ekwiwalent, tworzy nową jednostkę i synset Łączy hiponimią z właściwym synsetem angielskim Łączy synonimią międzyjęzykową z polskim synsetem będącym jego bezpośrednim odpowiednikiem semantycznym

Procedura rozszerzania (2) Dla Listy 2: sprawdza czy istnieją ekwiwalenty w dostępnych źródłach i dalej postępuje jak w przypadku Listy 1 (chyba że nie udaje się znaleźć bezpośredniego odpowiednika) Dla Listy 3: przeprowadza weryfikację istniejących rzutowań, poprawia ewentualne błędy Dla każdego nowego synsetu dodaje: glosę (często korzystając z Wikipedii) przykład użycia (z korpusu lub innych godnych zaufania źródeł dostępnych na otwartej licencji)

Przykład rozszerzonego drzewa hiperonimicznego (1)

Skład synsetu, glosa i przykład użycia {tablet computer 1, tablet 5} ##D: A tablet computer is a mobile computer with a touchscreen display, circuitry and battery in a single unit. [##W: Apple is often credited for defining a new class of consumer device with the iPad, which shaped the commercial market for tablets in the following years, and was the most successful tablet at the time of its release.] {##L:

Wady i zalety zastosowanej metody rozszerzania Zalety: Precyzyjnie zdefiniowany zestaw słownictwa do rozszerzania Nowe synsety łatwo i bezpiecznie umieszczone w strukturze relacji WordNetu princetońskiego Wady: 'polskocentryczność' – pewne ryzyko

Wyniki DziedzinaLiczba nowych synsetów Wytwory Substancje Myślenie 877 Porozumiewanie się 681 Cechy 567 Grupy 406 Ilości 245 Posiadanie 197 Czas 117 Inne Total 7 841

Porównanie wielkości wordnetów LiczbaSłowosieć 3.0PWN 3.1enWN 1.0 Lematy Jednostki leksykalne Synsety

Wnioski Prowadzone rozszerzenie pozwala uzupełnić braki w pokryciu leksykalnym WordNetu princetońskiego Zaktualizować jego zasób leksykalny o współczesne, nowe słownictwo Zastąpić wiele powiązań hiponimii międzyjęzykowej bardziej precyzyjnymi i szczegółowymi powiązaniami synonimią międzyjęzykową Stworzyć bardziej równoległy, w związku z czym bardziej przydatny zasób dwujęzyczny Utworzony dwujęzyczny zasób będzie stanowił 'bramę' do wielojęzycznych zasobów CLARIN EU

Plany na przyszłość Implementacja nowej strategii rozszerzania zwiększenie integracji z OpenMultiLingual WordNet or integracja z Global WordNet Grid - światową platformą połączonych leksykalno-semantycznych zasobów językowych

Propozycja nowej strategii rozszerzania opartej o korpusy Wykorzystanie list frekwencyjnych z korpusów: British National Corpus Wacky corpus Corpus of Contemporary American English American National Corpus English Wikipedia Kryterium dodania nowej jednostki (synsetu) Obecność w 5 różnych tekstach

Zalety i wady nowej strategii Zalety: Dobór słownictwa niezależny od zawartości Słowosieci W całości oparty o anglojęzyczne korpusy Wady: Konieczność wprowadzania nowych synsetów na różnych poziomach sieci hiperonimicznej Ryzyko zmiany oryginalnej struktury WordNetu princetońskiego

Zastosowania Cross-lingual (Międzyjęzykowe): Wyszukiwanie semantyczne Semantyczna indeksacja tekstów, Klasyfikacja tekstów, Statystyczna analiza semantyczna korpusów w różnych językach Wydobywanie informacji z tekstu, Tłumaczenie maszynowe Multi-lingual (Wielojęzyczne) Princeton WordNet 3.1 jest połączony z ponad 60 językami świata

Bibliografia Fellbaum, Ch. (ed). (1998). WordNet: An Electronic Lexical Database. MIT Press: Cambridge, Massachusets. Kędzia, P., Piasecki, M., Rudnicka, E., Przybycień, K. (2013). – AutomaticPrompt System in the Process of Mapping plWordNet on Princeton WordNet. Cognitive Studies 13: Piasecki, M., Szpakowicz, S. and B. Broda. (2009). A WordNet from the Ground Up. Oficyna Wydawnicza Politechniki Wrocławskiej: Wrocław. Princeton WordNet Rudnicka, E., Maziarz, M., Piasecki, M., & Szpakowicz, S. (2012). 'A Strategy of Mapping Polish WordNet onto Princeton WordNet'. In Proceedings of COLING ACL. Słowosieć Vossen, P. (ed). (2002). EuroWordNet. General Document. Amsterdam.

CLARIN-PL Dziękuję bardzo za uwagę