CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska.

Slides:



Advertisements
Podobne prezentacje
WordNet WordNet to duża leksykalna baza języka angielskiego. Grupuje ona rzeczowniki, czasowniki, przymiotniki i przysłówki w zestawy kognitywnych (poznawczych)
Advertisements

Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
1 FRAZEOTRANSLACJA ORAZ JEJ ZNACZENIE W KSZTAŁCENIU I DOSKONALENIU TŁUMACZY MONIKA SUŁKOWSKA Instytut Języków Romańskich i Translatoryki Uniwersytet Śląski,
© IEn Gdańsk 2011 Technika fazorów synchronicznych Łukasz Kajda Instytut Energetyki Oddział Gdańsk Zakład OGA Gdańsk r.
Zasada i organizacja statystyki publicznej „Cz ł owiek – najlepsza inwestycja”
1 Relacje między jednostkami języka Monika Sułkowska.
Blok I: PODSTAWY TECHNIKI Lekcja 7: Charakterystyka pojęć: energia, praca, moc, sprawność, wydajność maszyn (1 godz.) 1. Energia mechaniczna 2. Praca 3.
1 Kobiety na rynku pracy. 2 Współczynnik aktywności zawodowej kobiet i mężczyzn w wieku w Polsce i w UE w 2013 roku.
Modele biznesowe. Podręcznik Model biznesowy to w pewnym sensie szkic strategii, która ma zostać wdrożona w ramach struktur, procesów i systemów organizacji.
PASZPORT JĘZYKOWY DOKUMENTY EUROPASS. 4 X EUROPASS Europass Europass jest inicjatywą Komisji Europejskiej umożliwiającą każdemu obywatelowi Unii lepszą.
CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska.
Plan Czym się zajmiemy: 1.Bilans przepływów międzygałęziowych 2.Model Leontiefa.
CLARIN-PL Rzutowanie Słowosieci na angielski Princeton Wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.
Zarządzanie Zmianą Sesja 3 Radzenie sobie z ludzkimi aspektami zmiany: opór.
E- learning czyli nauka przez internet. E-learning E-learning łączy w sobie nauczanie na odległość oraz elastyczność czasową, bywa też łączony z tradycyjnym.
XIV Liceum Ogólnokształcące w Gdyni. Ta klasa jest dla Ciebie jeśli: lubisz posługiwać się językiem angielskim, chcesz poszerzać swoje umiejętności językowe,
Mirek Ostrowski, Radio Wrocław SA Radio hybrydowe wprowadzenie.
CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.
© 2015 Copyright by Maciej Bednarek & Digitalsphere Fotografika. Wszelkie prawa zastrzeżone.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Warstwa biznesowaWarstwa techniczna ??? To przejście jest połączone z innym procesem To przejście wywołuje samowyzwalacz To przejście jest warunkowe.
Bariery w rozwoju edukacyjnym ucznia Wicemarszałek Województwa Małopolskiego Leszek Zegzda Kraków, 13 czerwca 2008 r.
CLARIN-PL Opis znaczeń leksykalnych Słowosieci za pomocą skojarzonych z nimi podstawowych uczuć, wartości podstawowych oraz polaryzacji nastawienia emocjonalnego.
Liceum Ogólnokształcące im. M.Kopernika w Tarnobrzegu Per aspera ad astra - „Przez trudy do gwiazd” (Wszechstronnie, twórczo, przyjaźnie ku przyszłości.
Literary Reference Center Przewodnik
Zastosowania Słowosieci i systemu zasobów leksykalnych
CLARIN-PL enWordNet - rozszerzony angielski wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
MULTIMEDIALNY SCENARIUSZ ZAJĘĆ. Edukacja: Poziom: Temat: Czas realizacji: polonistyczna klasa II ortograficzny miszmasz 1 godz. lekcyjna.
Prawo telekomunikacyjne Ewa Galewska CBKE. Sektor telekomunikacyjny Monopole naturalne Operatorzy zasiedziali Brak równowagi pomiędzy podmiotami Wysokie.
Wyniki badania - Infolinia jako kanał komunikacji z klientem Aby zobaczyć prezentację badania należy wybrać przycisk F5. Poruszanie się pomiędzy.
Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej Prof. dr hab. inż. Henryk Rybiński, dr inż. Jakub Koperwas, dr inż.
Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej,
Kontrakty terminowe na indeks mWIG40 Prezentacja dla inwestorów Giełda Papierów Wartościowych w Warszawie S.A. Dział Notowań GPW kwiecień 2005.
Projekt edukacyjny „Szkoła z klasą 2.0” „Angielski wokół nas” Wyszukano dont-cry/
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
Źródła informacji. Społeczeństwo informacyjne społeczeństwo charakteryzujące się przygotowaniem i zdolnością do użytkowania systemów informatycznych,
Model warstwowy OSI Model OSI (Open Systems Interconnection) opisuje sposób przepływu informacji między aplikacjami programowymi w jednej stacji sieciowej.
Marta Gardzińska 1MGBWykonała: Marta Gardzińska 1MGB.
WYKŁAD 6 Regionalizacja 1. Regionalizm a regionalizacja 2 Proces wyodrębniania regionów nazywany jest regionalizacją, w odróżnieniu od regionalizmu, który.
2016. Najczęściej popełniane błędy podczas e-Naboru Wybranie jedynie jednego oddziału w danej szkole – w przypadku gdy zabraknie punktów aby system przydzielił.
Praca dyplomowa inżynierska Temat: Informatyczny system edukacyjny do przedmiotu „Podstawy Kryptologii” Dyplomant: Ewelina Bogusz Promotor: prof. zw.,
Punkt Informacyjny Funduszy Europejskich w Lesznie Planujesz rozpoczęcie lub rozwój działalności? Chcesz być konkurencyjny na rynku? Masz innowacyjny pomysł.
15 MINUT JAZDY SAMOCHODEM czy dystans do biblioteki publicznej jest jeszcze istotny? GRZEGORZ CZAPNIK.
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
W społeczności ludzkiej i zwierzęcej funkcjonują rozmaite systemy znaków, za pomocą których jednostka nawiązuje więź z gromadą i przekazuje jej informacje.
Na podstawie ogólnopolskiego projektu Polskiego Związku Szachowego „Edukacja przez szachy w szkole” realizator - Dolnośląski Związek Szachowy
Zofia Rudnik-Karwatowa, Paweł Kowalski, Jakub Banasiak (Instytut Slawistyki PAN) Bibliograficzna baza iSybislaw – nowe narzędzie w światowej slawistyce.
Realizacja działań w sferze nauki w ramach PO KL PRIORYTET IV – komponent centralny Działania w ramach Priorytetu IV koncentrują się na podwyższaniu.
Opis przymiotnika i przysłówka w Słowosieci Marek Maziarz *, Maciej Piasecki*, Stanisław Szpakowicz #, Justyna Wieczorek *, Michał Kaliński * * Katedra.
Prezentację przygotował:
 Języka Niemieckiego  Języka Francuskiego  Języka Angielskiego  Języka Włoskiego  Języka Hiszpańskiego.
Konsekwencje wprowadzonych zmian Edukacja przedszkolna Teresa Ogrodzińska Fundacja Rozwoju Dzieci im. J. A. Komeńskiego.
Marek Kozłowski Przyszłość PBN. Wprowadzenie Usługi Web Servicowe – Własne – Integracja z Thomson Reuters Nadawanie ról w pełni automatycznie (brak papieru)
Symbol a alegoria.
Z Zapraszamy. Drzwi Otwarte 19 marca 2016 roku (sobota), godz – kwietnia 2016 roku (piątek), godz – Pomorska 105,
DZIEŃ BEZPIECZNEGO INTERNETU. S PIS TREŚCI 1. INTERNET INTERNET 2. DZIEŃ BEZPIECZNEGO INTERNETUDZIEŃ BEZPIECZNEGO INTERNETU 3.RAZEM TWORZYMY LEPSZY INTERNETRAZEM.
EContentplus – szansa dla archiwów, muzeów i bibliotek Anna Bramska Krajowy Punkt Kontaktowy eContentplus Chalin, 5 września 2006.
ZAIMKI Co to są zaimki? Jakie są ich rodzaje? Jak ich używać?
Urządzenia i technologie mobilne. Tablet Mobilny komputer większy niż telefon komórkowy, którego główną właściwością jest posiadanie dużego ekranu z zastosowaną.
Dlaczego warto uczyć się języka angielskiego?
Wyjazd do niemiec, 2016r..
Karnoprawna ochrona tajemnicy zawodowej dotyczącej działalności funduszy emerytalnych II Międzynarodowa Konferencja Naukowa pt. ZABEZPIECZENIE EMERYTALNE.
PAMIĘĆ I UWAGA. Dlaczego w szkole tak trudno cokolwiek zapamiętać?
Dlaczego warto czytać?.
ZAJĘCIA DODATKOWE Z JĘZYKA ANGIELSKIEGO W KLASIE 1 I 2
Zapis prezentacji:

CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

Plan prezentacji Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Plan prezentacji Konferencja CLARIN-PL CLARIN-PL Wrocław IV Sieci leksykalne 2. Słowosieć 3.0 emo 3. enWordNet Udostępnianie Słowosieci

Sieci leksykalne Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Sieci leksykalne WordNet Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (J. Miller, Ch. Fellbaum) badania nad językiem dzieci wielka sieć leksykalno-semantyczna języka angielskiego 4 części mowy – rzeczowniki, czasowniki, przymiotniki i przysłówki synset – zbiór prawie synonimów relacje semantyczne podstawowy zasób językowy Global Wordnet Association Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Sieci leksykalne WordNet Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Sieci leksykalne WordNet Liczba haseł = 156 tys. Liczba relacji = ok. 600 tys. Średnia długość ścieżki w grafie = 6,3 współczynnik klasteryzacji = 0,03-0,06 Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Sieci leksykalne w tys. Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 emo

Słowosieć 3.0 emo Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Słowosieć 3.0 emo Korpus Słowosieci 3.0 1,8 mld tokenów Korpus IPI PAN Teksty w domenie publicznej oraz na Creative Commons np. stenogramy sejmowe, ustawy i rozporządzenia RP, UE, portale internetowe, Wikipedia, Wikiźródła, Korpus Języka Polskiego Politechniki Wrocławskiej,... Różnorakie źródła internetowe 10/26 Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

11/26 korpus Słowosieci 3.0 Słowosieć 3.0 emo korpus Słowosieci 4.0 Krishnamurthy (2002, za: R. Górski 2007) korpusy Cobuild W 2014 szacowaliśmy wielkość Słowosieci na 174 tys. haseł Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

12/26 Słowosieć 3.0 emo liczba haseł = 178 tys. liczba relacji > 600 tys. średnia długość ścieżki w grafie = 7,7 współczynnik klasteryzacji = 0,054 mały świat Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

13/26 Słowosieć 3.0 emo Gęstość relacji (tylko główne relacje) [relacji na jednostkę leksykalną] PWN 3.1Słowosieć 3.0 rzeczownik czasownik przymiotnik przysłówek Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 emo

Słowosieć 3.0 emo Struktura hasła lemat + numer znaczenia + część mowy kwalifikator rejestru (og. – rejestr ogólny, wulg. – wulgarny itp.) skrótowa definicja (tzw. glosa) przykłady użycia (108 tys.) linki do Wikipedii (54 tys.) anotacja w dziedzinie emocji (> 31 tys.) podstawowe emocje wartości uniwersalne polaryzacja nastawienia emocjonalnego (+m, +s, n, -s, -m) przykłady użycia 14/26 Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Słowosieć 3.0 emo: przykład Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

enWordNet 1.0 Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Statystyki relacji międzyjęzykowych Relacja/Część mowy RzeczownikPrzymiotnikPrzysłówekSuma Synonimia Hiponimia / Hiperonimia Meronimia Holonimia Synonimia częściowa Synonimia międzyrejestrowa Synonimia międzyparadygmatyczna Suma Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Wnioski z rzutowania Wyraźny prymat synonimii i hiponimii nad pozostałymi relacjami międzyjęzykowymi Wyraźna, dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duża liczba synonimii międzyparadygmatycznej dla przymiotnika Nadal duża liczba niezrzutowanych synsetów WordNetu princetońskiego, szczególnie w kategorii rzeczownika Dotychczas niezrzutowana kategoria czasownika Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Motywacja dla rozszerzenia WordNetu princetońskiego 3.1 Wyniki rzutowania Słowosieci na WordNet princetoński: Dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duże różnice w pokryciu leksykalnym pomiędzy dwoma wordnetami Zatrzymanie prac nad dalszym rozwojem WordNetu princetońskiego: Ostatnie większe rozszerzenie 2006 (wersja 3.0) Ostatnia mała aktualizacja 2012 (wersja 3.1) Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Wnioski z rozszerzania Prowadzone rozszerzenie pozwala uzupełnić braki w pokryciu leksykalnym WordNetu princetońskiego Zaktualizować jego zasób leksykalny o współczesne, nowe słownictwo Zastąpić wiele powiązań hiponimii międzyjęzykowej bardziej precyzyjnymi i szczegółowymi powiązaniami synonimią międzyjęzykową Stworzyć bardziej równoległy, w związku z czym bardziej przydatny zasób dwujęzyczny Utworzony dwujęzyczny zasób będzie stanowił 'bramę' do wielojęzycznych zasobów CLARIN EU Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Plany na przyszłość Uzupełnienie rzutowania rzeczownika, przymiotnika i przysłówka w kierunku ANG-PL Opracowanie strategii i implementacja rzutowania czasownika Implementacja nowej, opartej o korpusy strategii rozszerzania zwiększenie integracji z OpenMultiLingual WordNet oraz integracja z Global WordNet Grid - światową platformą połączonych leksykalno-semantycznych zasobów językowych Opracowanie strategii i przeprowadzenie pilotażowego rzutowania na poziomie jednostek leksykalnych w ramach nowego projektu w konkursie NCN Harmonia 7: 'Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych' Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Zastosowania enWordNetu 1.0 Cross-lingual (Międzyjęzykowe): Wyszukiwanie semantyczne Semantyczna indeksacja tekstów, Klasyfikacja tekstów, Statystyczna analiza semantyczna korpusów w różnych językach Wydobywanie informacji z tekstu, Tłumaczenie maszynowe Multi-lingual (Wielojęzyczne) Princeton WordNet 3.1 jest połączony z ponad 60 językami świata Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Udostępnianie Słowosieci Całość do pobrania na otwartej licencji własny format XML, UBY LMF w opracowaniu CILI LMF oraz format Lemmon Aplikacja webowa do przeglądania: WordnetLoom Viewer aplikacja na komputer użytkownika do interaktywnego przeglądania Aplikacja mobilna (offline) dostępna z Google Play Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016

Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 Słowosieć online Słowosieć mobilna WordnetLoom- Viewer

Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV

Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 WordnetLoom

Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław IV 2016 Słowosieć mobilna 1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

CLARIN-PL Dziękujemy bardzo za uwagę