CLARIN-PL System do wydobywania z korpusów kolokacji i konstruowania słowników frazeologicznych i słowników terminów Marek Maziarz, Maciej Piasecki, Michał Wendelberger, Agnieszka Dziob Politechnika Wrocławska Katedra Inteligencji Obliczeniowej grupa naukowa G4.19
Plan prezentacji Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Plan prezentacji 1.Wstęp: Leksykalność połączeń wyrazowych 2.Wydobywanie kolokacji 3.Kolokacje i jednostki leksykalne w aplikacji MeWeX 4.Słownik wielowyrazowych jednostek leksykalnych CLARIN-u 5.Podsumowanie Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Leksykalność połączeń wyrazowych Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Cel Słownik wielowyrazowych jednostek leksykalnych Definicja Czym jest wielowyrazowa jednostka leksykalna? Metoda Dwie drogi – Zachód to kolokacje, Wschód - kryteria Wychodzimy od kolokacji, które wydobywamy w sposób automatyczny, a później oceniamy stopień ich leksykalizacji za pomocą kryteriów lingwistycznych. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Leksykalność połączeń wyrazowych
Niektóre połączenia wyrazowe są odtwarzane z pamięci jak pojedyncze wyrazy, inne są składane na bieżąco w trakcie tworzenia tekstu. białe wino żółta kartka karta płatnicza rączy jeleń fretka Janka czerwony autobus stojący za rogiem Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Leksykalność połączeń wyrazowych
Definicja Wielowyrazowa jednostka leksykalna (WJL) = takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 Nie jest to definicja operacyjna Dobra jakość słownika, ale niska zgodność Potrzebne są pozaintuicyjne kryteria Leksykalność połączeń wyrazowych Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Kryteria dziesiątki różnych kryteriów (Zgusta 1971), nie są niezależne od siebie, nie tworzą spójnego systemu klasyfikacji, są argumentami post hoc – gdy decyzja już została podjęta. System zbudowany na niekompozycyjności jedyno kryterium (zamiast systemu kryteriów), zależy od definicji niekompozycyjności, decyzja podejmowana jest na podstawie analizy semantycznej, założenie a priori: leksykalność = niekompozycyjność. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Leksykalność połączeń wyrazowych
WJL – kryteria System zbudowany na wielu kryteriach Brak założenia a priori: leksykalność = niekompozycyjność. Próba Mueldner-Nieckowski, Frazeologia poszerzona „kwestionariusz jednostki”, przypisywanie punktów, kryteria, m.in. występowanie w słownikach, Nieckowski dodaje od czasu do czasu dodatkowe punkty (intuicja). Pytania Dlaczego taki, a nie inny układ pytań w kwestionariuszu? Jak uniknąć intuicji? Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
WJL – kryteria Nasza propozycja rozwiązania Zapytajmy ludzi, jaka jest ich intuicja co do leksykalności danego połączenia wyrazowego (definicja intuicyjna, „mentalny leksykon”). Poprośmy, żeby sprawdzili tę jednostkę wieloma różnymi kryteriami. Resztę zostawmy sztucznej inteligencji, niech połączy kryteria w jeden spójny system. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
WJL – system kryteriów System zbudowany na wielu kryteriach TERMIN? TERMINY PARAFRAZA? JEDNOSTKI NIEKOMPO- ZYCYJNE SEPAROWALNOŚĆ? SZYK USTALONY? ZESTAWIENIA nie-WJL N+Adj? nie-WJL Połączenie XYZ ZESTAWIENIA Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
WJL – kryteria Procedura Zaledwie kilka kryteriów. Wysoka jakość (precyzja > 80%) Wysoka zgodność oceniających (kappa > 0,6) Wystarczy jeden oceniający. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Definicja intuicyjna („mentalny leksykon”) Lingwiści uczą się procedury
Wydobywanie kolokacji Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Więcej o miarach Funkcje statystyczne: – Pointwise Mutual Dependency, – Mutual Dependency, – Frequency Biased MD, – Mutual Expectation, – Unigram Subtuples... Testy statystyczne: – X 2 Persona, – Loglikelihood, – TScore, – ZScore... Miary szyku: – W Order... Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Więcej o miarach cz. 2 Miary kontekstowe: – więcej informacji, wykorzystywane jest też otoczenie – funkcje wykorzystujące także kontekst oprócz danych statystycznych dotyczących częstości. Miary złożone wektorowe: – kombinacje miar - f(M 1, …, M n ) – dobór miar, sposób łączenia rankingów, metody przepunktowywania (np. maszynowe uczenie się), – miara wektorowa: f(M 1, …, M n ) = w 1 R 1 + …+ w n R n – dostrajana algorytmem genetycznym – możliwość stosowania innych miar wektorowych lub klasyfikatorów jako składowych. Metody maszynowego uczenia: – dobór cech – wyniki miar, – sposób przygotowania cech do klasyfikacji. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Filtrowanie danych Filtry statystyczne: – częstości, – bardziej skomplikowane filtry (entropia, wariancja, …) – jeśli zachowane są konteksty. Filtry językowe: – trudniejsze, wiedza dziedzinowa, mniejsza ogólność międzyjęzykowa, – oparte o części mowy (typy strukturalne), – np. operatory języka ograniczeń WCCL. Funkcje dyspersji: – względna prostota zastosowania, – wymaga zbioru korpusów. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Operator języka WCCL Grupa operatorów Rozmiar operatora Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Funkcje dyspersji Zadania: – zmiana rozkładu danych statystycznych, – wstępne wyznaczenie potencjalnie interesujących kolokacji, – element filtrowania, Przykład popularnej funkcji: TF-IDF. F w korpusie 1F w korpusie 2F w korpusie 3SumaNowa częstość , , ,97 Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Zestawienie przykładowych wyników ekstrakcji kolokacji Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Kolokacje i jednostki leksykalne w aplikacji MeWeX Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
MeWeX Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
MeWeX Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Przykładowe wyniki Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Przykładowe wyniki Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Przykładowe wyniki Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
MeWeX – jednostki leksykalne Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
MeWeX – jednostki leksykalne Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
MeWeX – jednostki leksykalne W aplikacji możemy przejść przez drzewo decyzyjne. Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Typ strukturalny decyzja „urobek” MeWeX – jednostki leksykalne Możemy też przeglądać nasze słowniki kolokacji. Typ strukturalny decyzja „urobek” (nie-WJL) (WJL) Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Słownik wielowyrazowych jednostek leksykalnych Clarinu Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Struktura hasła lemat typ strukturalny ścieżka w drzewie decyzyjnym (termin? niekompozycyjne? itd.) opis semantyczny (w Słowosieci) Statystyki 54 tys. haseł, prawie 1/3 Słowosieci większość rzeczowników większość bigramów większość w typie N+Adj (rzeczownik + przymiotnik w postpozycji) Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Słownik wielowyrazowych jednostek leksykalnych Clarinu
Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Słownik wielowyrazowych jednostek leksykalnych Clarinu WJL z podziałem na część mowyBigramy a trigramy
Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL Słownik wielowyrazowych jednostek leksykalnych Clarinu Bigramy rzeczownikowe według typu strukturalnego karta debetowa bać się matka Polka żółta kartka mała czarna
Podsumowanie Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Podsumowanie – dwie drogi Językoznawstwo korpusowe i frazeologia Punkt wyjścia: korpus i kolokacje Cel: jednostki leksykalne frazeologizmy terminy zestawienia Środek: aplikacja MeWeX Wynik: słownik wielowyrazowców Clarinu Konferencja CLARIN-PL Wrocław IV 2016 CLARIN-PL
Dziękujemy bardzo za uwagę
CLARIN-PL Contonni T1 (Paradowski, 2015) Contonni T2 (Paradowski, 2015) Sorgenfrei (Paradowski, 2015) Dice (Pečina, 2010) Jaccard (Pečina, 2010) Unigram Subtuples (Pečina, 2010) Frequency Biased Mutual Dependency (Pečina, 2010) Mutual Expection (Pečina, 2010) W Specific Correlation (Hoang et al., 2009b) T-Score (Pečina, 2010) Z-Score (Pečina, 2010) Pearson’s Chi 2 (Pečina, 2010) Loglikelihood (Pečina, 2010) Pojedyncze miary powiązania
CLARIN-PL Specific Exponential Correlation (Buczyński, 2004) W Specific Exponential Correlation Pojedyncze miary powiązania
CLARIN-PL Pojedyncze miary powiązania
CLARIN-PL Optymalizacja Przeprowadzona na Korpusie IPI PAN Parametry miary złożonej Mutual Expectation: −0.21 T-Score: 0.97 Loglikelihood: 0.68 Jaccard: −0.57 Sorgenfrei: 0.39 Unigram Subtuples: 0.46 SEC(E = 2.8): 0.77 WSEC(E = 1.1): −0.65 W Order: 0.04 W Term Frequency Order: 0.52, Contonni T1: 0.63 Contonni T2: −0.58
CLARIN-PL Rezultaty