System do klasyfikacji tekstu i analizy stylometrycznej

System do klasyfikacji tekstu i analizy stylometrycznej
Maciej Eder, Maciej Piasecki IJP PAN / UP Kraków Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

Warsztaty CLARIN-PL Warszawa 13-15 IV 2015
Stylometria stylometria: porównanie drobnych cech językowych w korpusie testków, którego celem jest wyłonienie podobieństw i różnic pomiędzy tekstami poszczególne własności języka nie pozwalają na skuteczne porównanie tektsów, ale w większej liczbie owe drobne różnice zaczynają być znaczące największe nadzieje stylometria wiąże z atrybucją autorską

Atrybucja autorska Jeśli mamy: tekst o nieznanym autorstwie
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Atrybucja autorska Jeśli mamy: tekst o nieznanym autorstwie korpus porównawczy zawierający teksty znanych autorów to czy można wśród nich odnaleźć “najbliższego sąsiada”, czyli tekst najbardziej podobny spośród dostępnych w korpusie? Gdzie można szukać stylistycznego “odcisku palca”: słowa synsemantyczne, najczęstsze słowa, pary słów, częste sekwencje literowe...

Mierzalne cechy stylu Idea stylistycznego odcisku palca
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Mierzalne cechy stylu Idea stylistycznego odcisku palca cechy języka niedostrzegalne gołym okiem poza kontrolą autora (nieświadome) odporne na imitację, parodię itp. chętnie wybierany znacznik: częstości najczęstszych słów inne cechy: np. n-gramy klas gramatycznych Czy styl jest jednoznacznie zależny od autora? (por. kod DNA, odcisk palca, wzór na źrenicy, ...)

Różne znaczniki stylu (cechy)
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Różne znaczniki stylu (cechy) ‘Dawnymi czasy Niechcicowie żyli mniej więcej tak, jak żyją wszyscy po dworach na wsi.’ formy gramatyczne: ‘dawnymi’ ‘czasy’ ‘niechcicowie’ ‘żyli’ ‘mniej’ ... bi-gramy form gramatycznych: ‘dawnymi czasy’ ‘czasy niechcicowie’ ‘niechcicowie żyli’ ... lemmaty: ‘dawny’ ‘czas’ ‘niechcic’ ‘żyć’ ‘mniej’ ‘więcej’... tri-gramy klas gramatycznych: ‘ADJ NN Pers’ ‘NN Pers VB’ ‘Pers VB ADV’ ... … i wiele, wiele innych możliwych cech

Różne znaczniki stylu (cechy)
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Różne znaczniki stylu (cechy) ‘It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife.’ (J. Austen, Pride and Prejudice) “the” = 4.25% “in” = 3.45% “of” = 1.81% . . .

Metody wielowymiarowe
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Metody wielowymiarowe

Kim jest Gall Anonim? CLARIN-PL
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Kim jest Gall Anonim?

Nie tylko atrybucja... CLARIN-PL
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Nie tylko atrybucja...

Zmiana w języku (100 MFW) CLARIN-PL
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Zmiana w języku (100 MFW)

Zmiana w języku (2-gramy POS)
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Zmiana w języku (2-gramy POS)

Zmiana w języku (5000 MFW) CLARIN-PL
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Zmiana w języku (5000 MFW)

Analiza sekwencyjna CLARIN-PL
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Analiza sekwencyjna

Biblia królowej Zofii (ok. 1455 r.)
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Biblia królowej Zofii (ok r.)

Patrologia Latina (5,281 tekstów)
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Patrologia Latina (5,281 tekstów)

Wyzwania Mierzenie relacji tekstowych w dużych korpusach
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Wyzwania Mierzenie relacji tekstowych w dużych korpusach Wyciąganie znaczników stylu, które nie polegają na zwykłym pocięciu tekstu na szeregi n liter: Przetwarzanie Języka Naturalnego (NLP): konieczność użycia dodatkowych narzędzi

Cyklotron (1937 r.) CLARIN-PL
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Cyklotron (1937 r.)

Wielki Zderzacz Hadronów
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Wielki Zderzacz Hadronów

System do stylometrii i klasyfikacji
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL System do stylometrii i klasyfikacji Idea: połączenie w ramach jednej aplikacji webowej systemu Stylo do stylometrii i narzędzi do analizy tekstu oraz klasyfikacji zapewnienie bogatego zestawu cech dla języka polskiego uwolnienie użytkownika z potrzeby instalowania Założenia: opisujące tekst mogą dotyczyć dowolnego poziomu analizy języka ograniczeniem są dostępne narzędzia dla języka polskiego analizowane mogą być zarówno dokumenty jak i fragmenty tekstu tryby: grupowania i klasyfikacji

Schemat systemu Załadowanie korpusu Wybór cech opisowych
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Schemat systemu Załadowanie korpusu opis nazwami meta-danymi na różnych poziomach Wybór cech opisowych Określenie parametrów przetwarzania grupowanie lub klasyfikacja przetwarzanie cech, np. transformacja Wstępne przetwarzanie automatyczne uruchomienie sekwencji narzędzi językowych Obliczenie wartości cech zliczenie statystyk wystąpienia Filtrowanie i/lub transformacja cech np. odsianie zbyt rzadkich/częstych cech wyliczenie miar istotności na podstawie częstości Zasadnicze przetwarzanie albo grupowanie albo klasyfikacja Prezentacja wyników wizualizacje dane liczbowe

Warsztaty CLARIN-PL Warszawa 13-15 IV 2015
Schemat systemu Przykładowy przebieg przetwarzania równoległego zbioru dokumentów

Cechy dla języka polskiego
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Cechy dla języka polskiego Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 program do rozpoznawania nazw własnych - Liner2 program do ujednoznaczniania sensów słów - WoSeDon

Cechy morfologiczne Długość: dokumentu, akapitu, zdania Formy wyrazowe
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Cechy morfologiczne Długość: dokumentu, akapitu, zdania Formy wyrazowe Znaki interpunkcyjne Pseudo-sufiksy – ostatnie kilka liter Dowolne tokeny wyrazowe Lematy – podstawowe formy morfologiczne wyznaczane z pomocą tagera morfosyntaktycznego Sekwencje n elementowe wyrazowych tokenów lematów dwuelementowe – tzw. bigramy trzyelementowe – tzw. trigramy

Cechy morfosyntaktyczne
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Cechy morfosyntaktyczne Części mowy wyznaczane na podstawie rozpoznania klas gramtycznych Klasy gramatyczne zgodnie z definicją w Narodowym Korpusie Języka Polskiego klas gramatycznych, np. pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja) wyznaczane przez tager morfosyntaktyczny Połączenie klas i wartości kategorii gramatycznych np. czasowniki w osobie 1 lub 2 Sekwencje klas gramatycznych – przybliżają do pewnego stopnia konstrukcje składniowe

Cechy semantyczne Znaczenia leksykalne (sensy słów)
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Cechy semantyczne Znaczenia leksykalne (sensy słów) wyznaczane względem Słowosieci identyfikatory wyznaczonych synsetów Uogólnione znaczenia leksykalne hiperonimy wyznaczonych synsetów poziom hiperonimu decyduje o stopniu uogólnienia Pojęcia ze sformalizowanej ontologii SUMO – Suggested Upper Merged Ontology Dziedziny tematycznie ze zbioru WordNet Domains pola tematyczne wyznaczone w sposób automatyczny

Transformacja i filtrowanie – przykład
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Transformacja i filtrowanie – przykład Łączenie cech różnego typu np. częstości lematów i klas gramatycznych Przykład procesu przetwarzania nazwa: tf.idf – transformacja ukierunkowana na opis semantyczny obliczenie częstości występowania lematów odrzucenie cech-lematów występujących rzadziej niż n=10 normalizacja częstości lematu a, tf(a) = częstość(a) maksymalną częstości w danym dokumencie ważenie idf(a)= ln( liczba dokumentów dokumenty(a) ) wyliczenie wagi dla lematu: tf(a) * idf(a)

Stylo biblioteka (zestaw funkcji) dla środowiska R
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Stylo biblioteka (zestaw funkcji) dla środowiska R darmowa i na licncji open-source (GPL) zaopatrzona w interfejs graficzny wyposażona w szereg metod nadzorowanych i nienadzorowanych prosta w obsłudze, ale nie banalnie prosta

domyślne GUI w stylo CLARIN-PL
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL domyślne GUI w stylo

Wystarczy kilka(naście) tekstów
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Wystarczy kilka(naście) tekstów

Stylo jako serwis on-line
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Stylo jako serwis on-line

Grupowanie oparte na Cluto
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Grupowanie oparte na Cluto System oparty na Cluto uniwersalny system do grupowania obiektów reprezentowanych jako wektory liczbowe często używany do grupowania tekstów Metody grupowania aglomeracyjna (hierarchiczna) budowana jest hierarchia co raz większych grup poczynając od dwuelementowych płaska zbiór jest dzielony na n grup, gdzie n jest zadane z góry aglomeracyjno-płaska najpierw wyznaczany jest podział na n grup później grupy te łączone są w hierarchię

System oparty na Cluto Dalsze możliwości rozszerzania opisu tekstu
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL System oparty na Cluto Miary podobieństwa kosinusowa – kosinus kąta pomiędzy wektorami cech zależy od stosunku wartości cech, a nie ich bezwzględnych wartości schemat tf.idf do transformacji cech oparta na współczynniku korelacji euklidesowa – odległość pomiędzy wektorami cech Jaccarda – stosunek wspólnej części cech do sumy Dalsze możliwości rozszerzania opisu tekstu szerszy zbiór nazw własnych relacje leksykalno-syntaktyczne, np. modyfikowany_przez(mądry) struktury leksykalno-składniowe lub leksykalno-semantyczne

Klasyfikacja semantyczna
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Klasyfikacja semantyczna //typowy schemat //proces od danych do klasyfikatora //wykorzystanie i ograniczenia //przykłady: GetClass i Cindirela (listy pożegnalne)

Klasyfikacja semantyczna
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Klasyfikacja semantyczna Cel klasyfikacji: przypisanie do dokumentów tekstowych lub fragmentów tekstów klas semantycznych klasy są zdefiniowane przez użytkownika Rodzaje systemów klasyfikacji nienadzorowane: klasy są zdefiniowane opisowo program klasyfikatora jest konstruowany i dostrajany na podstawie dużej ilości danych nadzorowane klasy są zadana w postaci ręcznie anotowanych dokumentów lub fragmentów tekstu

Proces budowy klasyfikatora
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Proces budowy klasyfikatora Identyfikacja źródeł Pozyskanie korpusu tekstów Wstępne przetwarzanie korpusu Ręczna anotacja podkorpusu treningowo-testowego Automatyczna anotacja korpusu Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6

Przykład: Cindirela – klasyfikacja listów pożegnalnych
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Przykład: Cindirela – klasyfikacja listów pożegnalnych Identyfikacja źródeł Cel: rozróżnianie pomiędzy prawdziwymi listami pożegnalnymi i listami napisanymi jako próba oszustwa określenie cech lingwistycznych listów prawdziwych rozpoznawanie tekstów jako wykazujących cechy listu pożegnalnego 2) Pozyskanie korpusu tekstów Polski Korpus Listów Pożegnalnych (Zaśko-Zielińska,2013) około 1000 listów prawdziwych i 320 listów sfałszowanych lub udawanych Teksty zebrane z internetu: dowolne oraz takie, które mają charakter listu, ale nie są listami pożegnalnymi

Przykład: Cindirela – klasyfikacja listów pożegnalnych
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Przykład: Cindirela – klasyfikacja listów pożegnalnych 3) Wstępne przetwarzanie korpusu Wykorzystanie wyników ręcznej transkrypcji i korekty tekstów (inaczej byłoby zbyt łatwo) Tager morfo-syntaktyczny – WCRFT Rozpoznawanie nazw własnych – Liner2 Ujednoznacznienie sensów słów i rzutowanie na ontologię – WoSeDon 4) Ręczna anotacja podkorpusu treningowo-testowego dwie klasy: prawdziwe listy pożegnalne teksty, które nie są prawdziwymi listami pożegnalnymi

Cindirela – wyniki eksperymentu 1 (klasyfikator SVM(RBF))
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Cindirela – wyniki eksperymentu 1 (klasyfikator SVM(RBF)) Cechy: TP: 982 interp_per_sentence, interp_signs, FN: 272 FP: 168 avg_num, avg_verbs, avg_nouns avg_adjps avg_adverbs avg_interps TN: 3218 Accuracy: (TP+TN) / (TP+TN+FP+FN) = 90,52% avg_tok_count proper_nam_person_last proper_nam_person_first proper_nam_roads proper_nam_country proper_nam_city Precision: TP / (TP+FP) = 85,39% TN / (TN+FN) = 92,21% Sensitivity: TP / (TP+FN) = 78,31% big_letter Specificity: TN / (TN+FP) = 95,04% verb_per ppron12_per base Rezultat

Cindirela – wyniki eksperymentu 1
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Cindirela – wyniki eksperymentu 1 Rozkład decyzji pomiędzy klasami Wikipedia Forumowisko – psychologia 'false': 997, 'true': 1 'false': 601, Blog czytamwwannie 'true': 15 Forumowisko – inne 'false': 42, 'true': 2 'false': 1026, sfałszowane listy 'true': 11 'false': 219, Bryk 'true': 118 'false': 333, prawdziwe listy 'true': 21 'true': 982, 'false': 272

Cindirela – wyniki eksperymentu 2:
Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Cindirela – wyniki eksperymentu 2: Dodatkowe cechy: hypernym5:CZASOWNIK_-_STAN_NDK_oznaczający_stan_emocjonalny-1(cst) synsety i hiperonimy ze Słowosieci hypernym5:czuć-2(cczuj) odczuwać-1(cczuj) Poprawa dokładności rozpoznania Przykład cech znaczących avg_num verb_per hypernym5:mój-1(jak) ppron12_per synset:mój-1(jak) avg_verbs hypernym5:być-3(cst) interp_signs:dash avg_interps big_letter synset:kochanie-2(os) interp_signs:fullstop synset:kochanie-1(czy) obdarzanie_uczuciem-1(czy) darzenie_uczuciem-2(czy) darzenie_miłością-1(czy) obdarzanie_miłością-1(czy) interp_signs:comma avg_nouns interp_signs:question_mark avg_adverbs

Dziękuję bardzo za uwagę

System do klasyfikacji tekstu i analizy stylometrycznej

Podobne prezentacje

Prezentacja na temat: "System do klasyfikacji tekstu i analizy stylometrycznej"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

System do klasyfikacji tekstu i analizy stylometrycznej

Podobne prezentacje

Prezentacja na temat: "System do klasyfikacji tekstu i analizy stylometrycznej"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres