CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 IJP PAN / UP Kraków
Stylometria ▪Stylometria: porównanie drobnych cech językowych w korpusie tekstów, którego celem jest wyłonienie podobieństw i różnic pomiędzy tekstami ▪Poszczególne własności języka nie pozwalają na skuteczne porównanie tekstów, ale w większej liczbie owe drobne różnice zaczynają być znaczące ▪Typowe zastosowania: ▪atrybucja autorska (potwierdzenie, ustalenie autorstwa, wykrycie autorów), ▪analiza stylu, ▪cech autora i wybranych cech kontekstu powstania utworu Infrastruktura badawcza Wrocław CLARIN-PL
System do stylometrii i klasyfikacji Idea: połączenie w ramach jednej aplikacji webowej narzędzi do analizy tekstu, analizy stylometrycznej oraz klasyfikacji zapewnienie bogatego zestawu cech dla języka polskiego zmniejszenie barier technologicznej i wiedzy dla użytkowników Założenia: cechy opisujące tekst mogą dotyczyć dowolnego poziomu analizy języka ograniczeniem są dostępne narzędzia dla języka polskiego analizowane mogą być zarówno dokumenty jak i fragmenty tekstu tryby: grupowania i klasyfikacji Infrastruktura badawcza Wrocław CLARIN-PL
Schemat systemu 1.Załadowanie korpusu opis nazwami meta-danymi na różnych poziomach 2.Wybór cech opisowych 3.Określenie parametrów przetwarzania grupowanie lub klasyfikacja przetwarzanie cech, np. transformacja 4.Wstępne przetwarzanie automatyczne uruchomienie sekwencji narzędzi językowych 5.Obliczenie wartości cech zliczenie statystyk wystąpienia 5.Filtrowanie i/lub transformacja cech, np. odsianie zbyt rzadkich/częstych cech wyliczenie miar istotności na podstawie częstości 6.Zasadnicze przetwarzanie albo grupowanie albo klasyfikacja 8.Identyfikacja cech charakterystycznych grupa vs pozostałe 9.Prezentacja wyników dane liczbowe wizualizacje Infrastruktura badawcza Wrocław CLARIN-PL
Schemat systemu Przykładowy przebieg przetwarzania równoległego zbioru dokumentów Infrastruktura badawcza Wrocław CLARIN-PL
Cechy dla języka polskiego Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 program do rozpoznawania nazw własnych - Liner2 program do ujednoznaczniania sensów słów - WoSeDon Infrastruktura badawcza Wrocław CLARIN-PL
Cechy morfologiczne Długość: dokumentu, akapitu, zdania Formy wyrazowe Znaki interpunkcyjne Pseudo-sufiksy – ostatnie kilka liter Dowolne tokeny wyrazowe Lematy – podstawowe formy morfologiczne wyznaczane z pomocą tagera morfosyntaktycznego Sekwencje n elementowe wyrazowych tokenów lematów dwuelementowe – tzw. bigramy trzyelementowe – tzw. trigramy Infrastruktura badawcza Wrocław CLARIN-PL
Cechy morfosyntaktyczne Części mowy wyznaczane na podstawie rozpoznania klas gramtycznych Klasy gramatyczne zgodnie z definicją w Narodowym Korpusie Języka Polskiego klas gramatycznych, np. pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja) wyznaczane przez tager morfosyntaktyczny Połączenie klas i wartości kategorii gramatycznych np. czasowniki w osobie 1 lub 2 Sekwencje klas gramatycznych – przybliżają do pewnego stopnia konstrukcje składniowe Infrastruktura badawcza Wrocław CLARIN-PL
Cechy semantyczne Znaczenia leksykalne (sensy słów) wyznaczane względem Słowosieci identyfikatory wyznaczonych synsetów Uogólnione znaczenia leksykalne hiperonimy wyznaczonych synsetów poziom hiperonimu decyduje o stopniu uogólnienia Pojęcia ze sformalizowanej ontologii SUMO – Suggested Upper Merged Ontology Dziedziny tematycznie ze zbioru WordNet Domains pola tematyczne wyznaczone w sposób automatyczny Infrastruktura badawcza Wrocław CLARIN-PL
Transformacja i filtrowanie – przykład Różne metody oceny istotności cechy dla dokumentu/próbki Łączenie cech różnego typu np. częstości lematów i klas gramatycznych Przykład procesu przetwarzania – miara tf.idf 1.obliczenie częstości występowania lematów 2.odrzucenie cech-lematów występujących rzadziej niż n=10 3.normalizacja częstości lematu a, tf(a) = częstość(a) maksymalną częstości w danym dokumencie 4.ważenie idf(a)= ln( liczba dokumentów dokumenty(a) ) 5.wyliczenie wagi dla lematu: tf(a) * idf(a) Infrastruktura badawcza Wrocław CLARIN-PL
WebSty – system do stylometrii Infrastruktura badawcza Wrocław CLARIN-PL
WebSty – system do stylometrii Infrastruktura badawcza Wrocław CLARIN-PL
WebSty – system do stylometrii Infrastruktura badawcza Wrocław CLARIN-PL
WebSty – system do stylometrii Infrastruktura badawcza Wrocław CLARIN-PL
Zasadnicze przetwarzanie: Stylo ▪System opracowany przez Macieja Edera (Uniwersytet Pedagogiczny w Krakowie, Instytut Języka Polskiego PAN) ▪Biblioteka (zestaw funkcji) dla środowiska R ▪Darmowa i na licncji open-source (GPL) ▪Zaopatrzona w interfejs graficzny ▪Wyposażona w szereg metod nadzorowanych i nienadzorowanych ▪Prosta w obsłudze, ale nie banalnie prosta Infrastruktura badawcza Wrocław CLARIN-PL
Stylo GUI (Maciej Eder) Infrastruktura badawcza Wrocław CLARIN-PL
Grupowanie oparte na Cluto System oparty na Cluto uniwersalny system do grupowania obiektów reprezentowanych jako wektory liczbowe często używany do grupowania tekstów Metody grupowania aglomeracyjna (hierarchiczna) budowana jest hierarchia co raz większych grup poczynając od dwuelementowych płaska zbiór jest dzielony na n grup, gdzie n jest zadane z góry aglomeracyjno-płaska najpierw wyznaczany jest podział na n grup później grupy te łączone są w hierarchię Infrastruktura badawcza Wrocław CLARIN-PL
System oparty na Cluto Miary podobieństwa kosinusowa – kosinus kąta pomiędzy wektorami cech zależy od stosunku wartości cech, a nie ich bezwzględnych wartości schemat tf.idf do transformacji cech oparta na współczynniku korelacji euklidesowa – odległość pomiędzy wektorami cech Jaccarda – stosunek wspólnej części cech do sumy Dalsze możliwości rozszerzania opisu tekstu szerszy zbiór nazw własnych relacje leksykalno-syntaktyczne, np. modyfikowany_przez(mądry) struktury leksykalno-składniowe lub leksykalno-semantyczne Infrastruktura badawcza Wrocław CLARIN-PL
Przykład: analiza stylu blogów Cechy: 212 częstych lematów, wybrane znaki interpunkcyjne Grupowanie Cluto: entropia 0,467 i czystość 58% Projekt: studia nad stylem blogów (Maryl, Niewiadomski i Kidawa, 2016) zob. Referat Maryl, Piasecki i Młynarczyk na Digital Humanities 2016 Infrastruktura badawcza Wrocław CLARIN-PL
Przykład: analiza stylu blogów Analiza gramatyczna: cechy leksykalne plus klasy gramatyczne i bigramy klas Grupowanie Cluto: entropia 0,438 i czystość 60,4% Projekt: studia nad stylem blogów (Maryl, Niewiadomski i Kidawa, 2016) zob. Referat Maryl, Piasecki i Młynarczyk na Digital Humanities 2016 Infrastruktura badawcza Wrocław CLARIN-PL
Klasyfikacja semantyczna Cel klasyfikacji: przypisanie do dokumentów tekstowych lub fragmentów tekstów klas semantycznych (tagowanie, kodowanie) klasy są zdefiniowane przez użytkownika np. funkcja społeczna, ekonomiczna, styl naukowy, list pożegnalny, archeologia, Rodzaje systemów klasyfikacji nienadzorowane: klasy są zdefiniowane opisowo program klasyfikatora jest konstruowany i dostrajany na podstawie dużej ilości danych nadzorowane klasy są zadana w postaci ręcznie anotowanych dokumentów lub fragmentów tekstu Infrastruktura badawcza Wrocław CLARIN-PL
Proces budowy klasyfikatora 1.Identyfikacja źródeł 2.Pozyskanie korpusu tekstów 3.Wstępne przetwarzanie korpusu 4.Ręczna anotacja podkorpusu treningowo-testowego 5.Automatyczna anotacja korpusu 6.Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6 Infrastruktura badawcza Wrocław CLARIN-PL
Przykład: klasyfikacja listów pożegnalnych Zadanie: Klasy: prawdziwe listy pożegnalne, sfałszowane listy pożegnalne, teksty inne Dane oparte na Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 2013) prawdziwe (autentyczne) listy pożegnalne 334 sfałszowane listy (eksperyment, ochotnicy) listów z forów internetowych tekstów z Wikipedii Informatywne cechy: lematy, znaki interpunkcyjne, wielka litera, klasy gramatyczne, czasowniki 1 i 2 osoby, bigramy, klasy nazw własnych, znaczenia (Słowosieć) i uogólnienia znaczeń Infrastruktura badawcza Wrocław CLARIN-PL
Przykład wyniku: klasyfikacja listów pożegnalnych System Cindirella Cechy: wielka litera, znaki interpunkcyjne, klasy gramatyczne (wg NKJP), bigramy (dwójki) klas gramatycznych, czasownik w 1 i 2 osobie, klasy nazw własnych, uogólnione znaczenia, dziedziny, pojęcia SUMO Dokładność (ogólna): 93,78% Kompletność (prawdziwych): 88,36% Dokładność dla prawdziwych: 88,56% Dokładność odrzucania: 95,70% Infrastruktura badawcza Wrocław CLARIN-PL
Przykład cech istotnych: klasyfikacja listów pożegnalnych 1.Bigram: interp_pusty 2.Klasa gram.: interp 3.Bigram: subst_interp 4.Czasownik 1 i 2 5.Bigram: adj_interp 6.Klasa gram.: subst 7.Znak interp.: przecinek 8.Klasa gram.:ppron12_count 9.Dziedzina: rel (przym. relacyjne) 10.Bigram: subst_adj 11.Klasa gram.: impt 12.Klasa gram.: noun 13.Znak interp.: myślnik 14.Bigram: interp_interp 15.Bigram: interp_adj 16.Klasa gram.: adj 17.Wielka litera 18.Dziedzina: zwz (związki) 19.Bigram: subst_subst 20.Klasa gram.: ger 21.Bigram: subst_ppas 22.Dziedzina: zdarz (zdarzenia) 23.Znak interp.: znak zapytania 24.Uog. znaczenie:grupa-4(grp) zbiór- 1(grp) 25.Bigram: adj_subst 26.Klasa nazwy: kraje 27.Bigram.: praet_aglt 28.Bigram: subst_pusty 29.Bigram: prep_subst 30.Uog. znaczenie: wykonywanie_czynności_religijnyc h_bądź_magicznych-1(czy) Infrastruktura badawcza Wrocław CLARIN-PL
Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 30) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość- 1(cech) przymiot-1(cech) cecha- 1(cech) własność-2(cech) atrybut-1(cech) 41) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM- 1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy) Infrastruktura badawcza Wrocław CLARIN-PL
Przykład: kategorie Wikipedii Zadanie: Dane: 67 uogólnionych kategorii z Wikipedii ręcznie wybrane nadkategorie, połączone podkategorie zróżnicowane dziedziny Cel: przypisanie klas do artykułów Najistotniejsze cechy: wielka litera, znaki interpunkcyjne, lematy, klasy gramatyczne, bigramy klas, klasy nazw własnych, znaczenia, znaczenia ogólne, pojęcia z SUMO Infrastruktura badawcza Wrocław CLARIN-PL
Przykład: kategorie Wikipedii KlasyDokładnośćŚrednia harmoniczna Dokładnoś ć wyboru Dokładność odrzucania Kompletność wyboru Albania99,20%86,21%89,29%99,49%83,33% Astronautyka98,70%81,16%84,85%99,17%77,78% Ekologia roślin99,10%84,75%80,65%99,69%89,29% Gałęzie prawa98,10%67,80%62,50%99,28%74,07% Karkonosze99,80%95,45%100,00%99,80%91,30% Kotowate100,00% Muzyka poważna98,90%80,00%91,67%99,08%70,97% Piłka nożna99,70%95,89%94,59%99,90%97,22% Propaganda polityczna97,90%65,57%64,52%98,97%66,67% Sporty siłowe99,80%96,77%93,75%100,00% Infrastruktura badawcza Wrocław CLARIN-PL
WebSty: wydobywanie cech Cel Wydobycie cech charakterystycznych dla danej grupy lub dokumentu (planowane) porównywanie korpusów Schematy przetwarzania Grupa vs pozostałe grupy razem Rozkład cech względem grup Metody Systemy: Weka i scipy Np. Infrastruktura badawcza Wrocław CLARIN-PL
WebSty: interfejs do cech Infrastruktura badawcza Wrocław CLARIN-PL
Przykład cech Infrastruktura badawcza Wrocław CLARIN-PL Kraszewski_syn_jazdona_1880 Kraszewski_krakow-za-loktka_1880 Kraszewski_pogrobek_1880 Kraszewski_kunigas_1882 Kraszewski_boleszczyce_1877 Kraszewski_stara-basn-tom-III_1876 Kraszewski_bracia- zmartwychwstancy_1876 Kraszewski_banita_1885 Kraszewski_strzemienczyk_1883 Kraszewski_stara-basn-tom-I_1876 Kraszewski_bialy-ksiaze_1882 Kraszewski_jelita_1881 Kraszewski_caprea-i-roma_1860 Kraszewski_stara-basn-tom-II_1876 Stryjkowski_stryjkowski_kronika-polska- litewska-zmudzka-i-wszystkiej-rusi_1846 bigrams:inf_imps bigrams:inf_praet bigrams:ppron3_pcon bigrams:ppas_pcon bigrams:imps_interp bigrams:ppron3_pant bigrams:pant_interp lex_classes:imps_count bigrams:subst_pant bigrams:interj_inf base:wszyscy bigrams:siebie_pcon base:on base:choć base:gdy bigrams:praet_pant bigrams:ppron3_imps bigrams:adj_pant bigrams:pant_pact … Przetwarzanie: WebSty, korpusie 1000 klasycznych dzieł, cechy leksykalne, interpunkcja, bigramy; ważenie PMI, selekcja Mann-Whitney
CLARIN-PL Dziękuję bardzo za uwagę