CLARIN-PL System do wydobywania z korpusów kolokacji i konstruowania słowników frazeologicznych i słowników terminów Marek Maziarz, Maciej Piasecki, Michał.

Slides:



Advertisements
Podobne prezentacje
Ocena wartości diagnostycznej testu – obliczanie czułości, swoistości, wartości predykcyjnych testu. Krzywe ROC. Anna Sepioło gr. B III OAM.
Advertisements

Typy strukturalne Typ tablicowy.
Badania operacyjne. Wykład 1
Skalowalny algorytm estymacji ruchu dla systemów rozproszonych
Sztuczne sieci neuronowe
Regresja w EXCELU.
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Propozycja metodyki nauczania inżynierii oprogramowania
ABC nauczyciela przygotowującego uczniów do konkursu polonistycznego
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Wprowadzenie do budowy usług informacyjnych
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Microsoft WinFS – nowy system plików, zasada działania. Wojtek Galek.
Wykład 7 Wojciech Pieprzyca
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Ukryte indeksowanie semantyczne SVD Struktury danych
Wyższa Szkoła Informatyki i Zarządzania
Additive Models, Trees, and Related Methods
wykonał Jarosław Orski promotor pracy: mgr Szymon Smaga
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Niezawodność i diagnostyka systemów cyfrowych
PRACA DYPLOMOWA MAGISTERSKA Kraków 2006
VI KONFERENCJA EWALUACYJNA
Digitalizacja obiektów muzealnych
Komputerowe wspomaganie medycznej diagnostyki obrazowej
SANKOM Sp. z o.o Warszawa ul. Popularna 14/3 Program Audytor SDG w wersji 1.0 przeznaczony jest do szybkiego doboru grzejników w budynkach mieszkalnych.
Model I/O bazujący na HSWN Problem uczenia sieci HSWN
Pamięć deklaratywna: semantyczna i epizodyczna
Elżbieta Fiedziukiewicz
Rozwiązanie zadań do zaliczenia I0G1S4 // indeks
Wybrane zagadnienia relacyjnych baz danych
Encyklopedie i słowniki w bibliotece szkolnej
Podstawy statystyki, cz. II
ZWIĄZKI MIĘDZY KLASAMI KLASY ABSTRAKCYJNE OGRANICZENIA INTERFEJSY SZABLONY safa Michał Telus.
Programy wspomagające projektowanie instalacji sanitarnych
INFORMACJA MARKETINGOWA
MS Excel - wspomaganie decyzji
w ekonomii, finansach i towaroznawstwie
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Podstawy programowania
Do technik tych zalicza się: * sztuczne sieci neuronowe
METODY PODEJMOWANIA DECYZJI
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.
Dane – informacje - wiadomości Kodowanie danych i problem nadmiarowości.
Wybrane zagadnienia inteligencji obliczeniowej Zakład Układów i Systemów Nieliniowych I-12 oraz Katedra Mikroelektroniki i Technik Informatycznych proponują.
Przewodnik Wprowadzenie do
Przewodnik Bazy CINAHL Wyszukiwanie podstawowe
1 FRAZEOTRANSLACJA ORAZ JEJ ZNACZENIE W KSZTAŁCENIU I DOSKONALENIU TŁUMACZY MONIKA SUŁKOWSKA Instytut Języków Romańskich i Translatoryki Uniwersytet Śląski,
CLARIN-PL Rzutowanie Słowosieci na angielski Princeton Wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.
CLARIN-PL enWordNet - rozszerzony angielski wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej,
CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska.
Temat: Tworzenie bazy danych
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Opis przymiotnika i przysłówka w Słowosieci Marek Maziarz *, Maciej Piasecki*, Stanisław Szpakowicz #, Justyna Wieczorek *, Michał Kaliński * * Katedra.
Wizualizacja algorytmu grupowania k-średnich Maciej Łakomy Promotor: Dr hab. prof. WWSI Michał Grabowski.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Systemy neuronowo – rozmyte
Statystyka matematyczna
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
IV Konferencja Naukowo-Techniczna "Nowoczesne technologie w projektowaniu, budowie.
Tematy prac magisterskich
Próbny Egzamin Ósmoklasisty
Zapis prezentacji:

CLARIN-PL System do wydobywania z korpusów kolokacji i konstruowania słowników frazeologicznych i słowników terminów Marek Maziarz, Maciej Piasecki, Michał Wendelberger, Agnieszka Dziob Politechnika Wrocławska Katedra Inteligencji Obliczeniowej grupa naukowa G4.19

Plan prezentacji Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Plan prezentacji 1.Wstęp: Leksykalność połączeń wyrazowych 2.Wydobywanie kolokacji 3.Kolokacje i jednostki leksykalne w aplikacji MeWeX 4.Słownik wielowyrazowych jednostek leksykalnych CLARIN-u 5.Podsumowanie Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Leksykalność połączeń wyrazowych Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Cel Słownik wielowyrazowych jednostek leksykalnych Definicja Czym jest wielowyrazowa jednostka leksykalna? Metoda Dwie drogi – Zachód to kolokacje, Wschód - kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, a później oceniamy stopień ich leksykalizacji za pomocą kryteriów lingwistycznych. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Leksykalność połączeń wyrazowych

Niektóre połączenia wyrazowe są odtwarzane z pamięci jak pojedyncze wyrazy, inne są składane na bieżąco w trakcie tworzenia tekstu. białe wino żółta kartka karta płatnicza rączy jeleń fretka Janka czerwony autobus stojący za rogiem Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Leksykalność połączeń wyrazowych

Definicja Wielowyrazowa jednostka leksykalna (WJL) = takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 Nie jest to definicja operacyjna Dobra jakość słownika, ale niska zgodność Potrzebne są pozaintuicyjne kryteria Leksykalność połączeń wyrazowych Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Kryteria  dziesiątki różnych kryteriów (Zgusta 1971),  nie są niezależne od siebie,  nie tworzą spójnego systemu klasyfikacji,  są argumentami post hoc – gdy decyzja już została podjęta. System zbudowany na niekompozycyjności  jedyno kryterium (zamiast systemu kryteriów),  zależy od definicji niekompozycyjności,  decyzja podejmowana jest na podstawie analizy semantycznej,  założenie a priori: leksykalność = niekompozycyjność. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Leksykalność połączeń wyrazowych

WJL – kryteria System zbudowany na wielu kryteriach Brak założenia a priori: leksykalność = niekompozycyjność. Próba Mueldner-Nieckowski, Frazeologia poszerzona „kwestionariusz jednostki”, przypisywanie punktów, kryteria, m.in. występowanie w słownikach, Nieckowski dodaje od czasu do czasu dodatkowe punkty (intuicja). Pytania Dlaczego taki, a nie inny układ pytań w kwestionariuszu? Jak uniknąć intuicji? Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

WJL – kryteria Nasza propozycja rozwiązania Zapytajmy ludzi, jaka jest ich intuicja co do leksykalności danego połączenia wyrazowego (definicja intuicyjna, „mentalny leksykon”). Poprośmy, żeby sprawdzili tę jednostkę wieloma różnymi kryteriami. Resztę zostawmy sztucznej inteligencji, niech połączy kryteria w jeden spójny system. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

WJL – system kryteriów System zbudowany na wielu kryteriach TERMIN?   TERMINY PARAFRAZA?   JEDNOSTKI NIEKOMPO- ZYCYJNE SEPAROWALNOŚĆ?  SZYK USTALONY? ZESTAWIENIA    nie-WJL N+Adj?  nie-WJL  Połączenie XYZ ZESTAWIENIA Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

WJL – kryteria Procedura Zaledwie kilka kryteriów. Wysoka jakość (precyzja > 80%) Wysoka zgodność oceniających (kappa > 0,6) Wystarczy jeden oceniający. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Definicja intuicyjna („mentalny leksykon”) Lingwiści uczą się procedury

Wydobywanie kolokacji Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Więcej o miarach Funkcje statystyczne: – Pointwise Mutual Dependency, – Mutual Dependency, – Frequency Biased MD, – Mutual Expectation, – Unigram Subtuples... Testy statystyczne: – X 2 Persona, – Loglikelihood, – TScore, – ZScore... Miary szyku: – W Order... Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Więcej o miarach cz. 2 Miary kontekstowe: – więcej informacji, wykorzystywane jest też otoczenie – funkcje wykorzystujące także kontekst oprócz danych statystycznych dotyczących częstości. Miary złożone wektorowe: – kombinacje miar - f(M 1, …, M n ) – dobór miar, sposób łączenia rankingów, metody przepunktowywania (np. maszynowe uczenie się), – miara wektorowa: f(M 1, …, M n ) = w 1 R 1 + …+ w n R n – dostrajana algorytmem genetycznym – możliwość stosowania innych miar wektorowych lub klasyfikatorów jako składowych. Metody maszynowego uczenia: – dobór cech – wyniki miar, – sposób przygotowania cech do klasyfikacji. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Filtrowanie danych Filtry statystyczne: – częstości, – bardziej skomplikowane filtry (entropia, wariancja, …) – jeśli zachowane są konteksty. Filtry językowe: – trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, – oparte o części mowy (typy strukturalne), – np. operatory języka ograniczeń WCCL. Funkcje dyspersji: – względna prostota zastosowania, – wymaga zbioru korpusów. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Operator języka WCCL Grupa operatorów Rozmiar operatora Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Funkcje dyspersji Zadania: – zmiana rozkładu danych statystycznych, – wstępne wyznaczenie potencjalnie interesujących kolokacji, – element filtrowania, Przykład popularnej funkcji: TF-IDF. F w korpusie 1F w korpusie 2F w korpusie 3SumaNowa częstość , , ,97 Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Zestawienie przykładowych wyników ekstrakcji kolokacji Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Kolokacje i jednostki leksykalne w aplikacji MeWeX Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

MeWeX Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

MeWeX Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Przykładowe wyniki Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Przykładowe wyniki Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Przykładowe wyniki Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

MeWeX – jednostki leksykalne Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

MeWeX – jednostki leksykalne Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

MeWeX – jednostki leksykalne W aplikacji możemy przejść przez drzewo decyzyjne. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Typ strukturalny decyzja „urobek” MeWeX – jednostki leksykalne Możemy też przeglądać nasze słowniki kolokacji. Typ strukturalny decyzja „urobek” (nie-WJL) (WJL) Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Słownik wielowyrazowych jednostek leksykalnych Clarinu Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Struktura hasła lemat typ strukturalny ścieżka w drzewie decyzyjnym (termin? niekompozycyjne? itd.) opis semantyczny (w Słowosieci) Statystyki 54 tys. haseł, prawie 1/3 Słowosieci większość rzeczowników większość bigramów większość w typie N+Adj (rzeczownik + przymiotnik w postpozycji) Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Słownik wielowyrazowych jednostek leksykalnych Clarinu

Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowyBigramy a trigramy

Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Słownik wielowyrazowych jednostek leksykalnych Clarinu Bigramy rzeczownikowe według typu strukturalnego karta debetowa bać się matka Polka żółta kartka mała czarna

Podsumowanie Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Podsumowanie – dwie drogi Językoznawstwo korpusowe i frazeologia Punkt wyjścia: korpus i kolokacje Cel: jednostki leksykalne frazeologizmy terminy zestawienia Środek: aplikacja MeWeX Wynik: słownik wielowyrazowców Clarinu Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL

Dziękujemy bardzo za uwagę

CLARIN-PL Contonni T1 (Paradowski, 2015) Contonni T2 (Paradowski, 2015) Sorgenfrei (Paradowski, 2015) Dice (Pečina, 2010) Jaccard (Pečina, 2010) Unigram Subtuples (Pečina, 2010) Frequency Biased Mutual Dependency (Pečina, 2010) Mutual Expection (Pečina, 2010) W Specific Correlation (Hoang et al., 2009b) T-Score (Pečina, 2010) Z-Score (Pečina, 2010) Pearson’s Chi 2 (Pečina, 2010) Loglikelihood (Pečina, 2010) Pojedyncze miary powiązania

CLARIN-PL Specific Exponential Correlation (Buczyński, 2004) W Specific Exponential Correlation Pojedyncze miary powiązania

CLARIN-PL Pojedyncze miary powiązania

CLARIN-PL Optymalizacja Przeprowadzona na Korpusie IPI PAN Parametry miary złożonej Mutual Expectation: −0.21 T-Score: 0.97 Loglikelihood: 0.68 Jaccard: −0.57 Sorgenfrei: 0.39 Unigram Subtuples: 0.46 SEC(E = 2.8): 0.77 WSEC(E = 1.1): −0.65 W Order: 0.04 W Term Frequency Order: 0.52, Contonni T1: 0.63 Contonni T2: −0.58

CLARIN-PL Rezultaty