CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska.

CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl IJP PAN / UP Kraków maciejeder@gmail.com 2016-04-26

Stylometria ▪Stylometria: porównanie drobnych cech językowych w korpusie tekstów, którego celem jest wyłonienie podobieństw i różnic pomiędzy tekstami ▪Poszczególne własności języka nie pozwalają na skuteczne porównanie tekstów, ale w większej liczbie owe drobne różnice zaczynają być znaczące ▪Typowe zastosowania: ▪atrybucja autorska (potwierdzenie, ustalenie autorstwa, wykrycie autorów), ▪analiza stylu, ▪cech autora i wybranych cech kontekstu powstania utworu Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

System do stylometrii i klasyfikacji  Idea:  połączenie w ramach jednej aplikacji webowej narzędzi do analizy tekstu, analizy stylometrycznej oraz klasyfikacji  zapewnienie bogatego zestawu cech dla języka polskiego  zmniejszenie barier technologicznej i wiedzy dla użytkowników  Założenia:  cechy opisujące tekst mogą dotyczyć dowolnego poziomu analizy języka  ograniczeniem są dostępne narzędzia dla języka polskiego  analizowane mogą być zarówno dokumenty jak i fragmenty tekstu  tryby: grupowania i klasyfikacji Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Schemat systemu 1.Załadowanie korpusu  opis nazwami  meta-danymi na różnych poziomach 2.Wybór cech opisowych 3.Określenie parametrów przetwarzania  grupowanie lub klasyfikacja  przetwarzanie cech, np. transformacja 4.Wstępne przetwarzanie  automatyczne uruchomienie sekwencji narzędzi językowych 5.Obliczenie wartości cech  zliczenie statystyk wystąpienia 5.Filtrowanie i/lub transformacja cech, np.  odsianie zbyt rzadkich/częstych cech  wyliczenie miar istotności na podstawie częstości 6.Zasadnicze przetwarzanie  albo grupowanie  albo klasyfikacja 8.Identyfikacja cech charakterystycznych  grupa vs pozostałe 9.Prezentacja wyników  dane liczbowe  wizualizacje Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Schemat systemu  Przykładowy przebieg przetwarzania równoległego zbioru dokumentów Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Cechy dla języka polskiego  Poziomy analizy języka  Morfologiczny  Morfo-syntaktyczny  Semantyki leksykalnej  Wykorzystywane narzędzia językowe  program do segmentacji tekstu i analizy morfologicznej - MACA  tager morfosyntaktyczny - WCFRT2  program do rozpoznawania nazw własnych - Liner2  program do ujednoznaczniania sensów słów - WoSeDon Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Cechy morfologiczne  Długość: dokumentu, akapitu, zdania  Formy wyrazowe  Znaki interpunkcyjne  Pseudo-sufiksy – ostatnie kilka liter  Dowolne tokeny wyrazowe  Lematy – podstawowe formy morfologiczne  wyznaczane z pomocą tagera morfosyntaktycznego  Sekwencje  n elementowe  wyrazowych tokenów  lematów  dwuelementowe – tzw. bigramy  trzyelementowe – tzw. trigramy Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Cechy morfosyntaktyczne  Części mowy  wyznaczane na podstawie rozpoznania klas gramtycznych  Klasy gramatyczne  zgodnie z definicją w Narodowym Korpusie Języka Polskiego  klas gramatycznych, np.  pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja)  wyznaczane przez tager morfosyntaktyczny  Połączenie klas i wartości kategorii gramatycznych  np. czasowniki w osobie 1 lub 2  Sekwencje  klas gramatycznych – przybliżają do pewnego stopnia konstrukcje składniowe Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Cechy semantyczne  Znaczenia leksykalne (sensy słów)  wyznaczane względem Słowosieci  identyfikatory wyznaczonych synsetów  Uogólnione znaczenia leksykalne  hiperonimy wyznaczonych synsetów  poziom hiperonimu decyduje o stopniu uogólnienia  Pojęcia ze sformalizowanej ontologii  SUMO – Suggested Upper Merged Ontology  Dziedziny tematycznie  ze zbioru WordNet Domains  pola tematyczne wyznaczone w sposób automatyczny Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Transformacja i filtrowanie – przykład  Różne metody oceny istotności cechy dla dokumentu/próbki  Łączenie cech różnego typu  np. częstości lematów i klas gramatycznych  Przykład procesu przetwarzania – miara tf.idf 1.obliczenie częstości występowania lematów 2.odrzucenie cech-lematów występujących rzadziej niż n=10 3.normalizacja częstości lematu a, tf(a) = częstość(a) maksymalną częstości w danym dokumencie 4.ważenie idf(a)= ln( liczba dokumentów dokumenty(a) ) 5.wyliczenie wagi dla lematu: tf(a) * idf(a) Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

WebSty – system do stylometrii Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Zasadnicze przetwarzanie: Stylo ▪System opracowany przez Macieja Edera (Uniwersytet Pedagogiczny w Krakowie, Instytut Języka Polskiego PAN) ▪Biblioteka (zestaw funkcji) dla środowiska R ▪Darmowa i na licncji open-source (GPL) ▪Zaopatrzona w interfejs graficzny ▪Wyposażona w szereg metod nadzorowanych i nienadzorowanych ▪Prosta w obsłudze, ale nie banalnie prosta Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Stylo GUI (Maciej Eder) Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Grupowanie oparte na Cluto  System oparty na Cluto  uniwersalny system do grupowania obiektów reprezentowanych jako wektory liczbowe  często używany do grupowania tekstów  Metody grupowania  aglomeracyjna (hierarchiczna)  budowana jest hierarchia co raz większych grup  poczynając od dwuelementowych  płaska  zbiór jest dzielony na n grup, gdzie n jest zadane z góry  aglomeracyjno-płaska  najpierw wyznaczany jest podział na n grup  później grupy te łączone są w hierarchię Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

System oparty na Cluto  Miary podobieństwa  kosinusowa – kosinus kąta pomiędzy wektorami cech  zależy od stosunku wartości cech, a nie ich bezwzględnych wartości  schemat tf.idf do transformacji cech  oparta na współczynniku korelacji  euklidesowa – odległość pomiędzy wektorami cech  Jaccarda – stosunek wspólnej części cech do sumy  Dalsze możliwości rozszerzania opisu tekstu  szerszy zbiór nazw własnych  relacje leksykalno-syntaktyczne, np. modyfikowany_przez(mądry)  struktury leksykalno-składniowe lub leksykalno-semantyczne Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład: analiza stylu blogów  Cechy: 212 częstych lematów, wybrane znaki interpunkcyjne  Grupowanie Cluto: entropia 0,467 i czystość 58%  Projekt: studia nad stylem blogów (Maryl, Niewiadomski i Kidawa, 2016)  zob. Referat Maryl, Piasecki i Młynarczyk na Digital Humanities 2016 Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład: analiza stylu blogów  Analiza gramatyczna: cechy leksykalne plus klasy gramatyczne i bigramy klas  Grupowanie Cluto: entropia 0,438 i czystość 60,4%  Projekt: studia nad stylem blogów (Maryl, Niewiadomski i Kidawa, 2016)  zob. Referat Maryl, Piasecki i Młynarczyk na Digital Humanities 2016 Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Klasyfikacja semantyczna  Cel klasyfikacji:  przypisanie do dokumentów tekstowych lub fragmentów tekstów klas semantycznych (tagowanie, kodowanie)  klasy są zdefiniowane przez użytkownika  np. funkcja społeczna, ekonomiczna, styl naukowy, list pożegnalny, archeologia,  Rodzaje systemów klasyfikacji  nienadzorowane:  klasy są zdefiniowane opisowo  program klasyfikatora jest konstruowany i dostrajany na podstawie dużej ilości danych  nadzorowane  klasy są zadana w postaci ręcznie anotowanych dokumentów lub fragmentów tekstu Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Proces budowy klasyfikatora 1.Identyfikacja źródeł 2.Pozyskanie korpusu tekstów 3.Wstępne przetwarzanie korpusu 4.Ręczna anotacja podkorpusu treningowo-testowego 5.Automatyczna anotacja korpusu 6.Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6 Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład: klasyfikacja listów pożegnalnych  Zadanie:  Klasy: prawdziwe listy pożegnalne, sfałszowane listy pożegnalne, teksty inne  Dane oparte na Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 2013)  1 224 prawdziwe (autentyczne) listy pożegnalne  334 sfałszowane listy (eksperyment, ochotnicy)  2 200 listów z forów internetowych + 1000 tekstów z Wikipedii  Informatywne cechy: lematy, znaki interpunkcyjne, wielka litera, klasy gramatyczne, czasowniki 1 i 2 osoby, bigramy, klasy nazw własnych, znaczenia (Słowosieć) i uogólnienia znaczeń Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład wyniku: klasyfikacja listów pożegnalnych  System Cindirella  Cechy:  wielka litera, znaki interpunkcyjne, klasy gramatyczne (wg NKJP), bigramy (dwójki) klas gramatycznych, czasownik w 1 i 2 osobie, klasy nazw własnych, uogólnione znaczenia, dziedziny, pojęcia SUMO  Dokładność (ogólna): 93,78%  Kompletność (prawdziwych): 88,36%  Dokładność dla prawdziwych: 88,56%  Dokładność odrzucania: 95,70% Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład cech istotnych: klasyfikacja listów pożegnalnych 1.Bigram: interp_pusty 2.Klasa gram.: interp 3.Bigram: subst_interp 4.Czasownik 1 i 2 5.Bigram: adj_interp 6.Klasa gram.: subst 7.Znak interp.: przecinek 8.Klasa gram.:ppron12_count 9.Dziedzina: rel (przym. relacyjne) 10.Bigram: subst_adj 11.Klasa gram.: impt 12.Klasa gram.: noun 13.Znak interp.: myślnik 14.Bigram: interp_interp 15.Bigram: interp_adj 16.Klasa gram.: adj 17.Wielka litera 18.Dziedzina: zwz (związki) 19.Bigram: subst_subst 20.Klasa gram.: ger 21.Bigram: subst_ppas 22.Dziedzina: zdarz (zdarzenia) 23.Znak interp.: znak zapytania 24.Uog. znaczenie:grupa-4(grp) zbiór- 1(grp) 25.Bigram: adj_subst 26.Klasa nazwy: kraje 27.Bigram.: praet_aglt 28.Bigram: subst_pusty 29.Bigram: prep_subst 30.Uog. znaczenie: wykonywanie_czynności_religijnyc h_bądź_magicznych-1(czy) Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 30) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość- 1(cech) przymiot-1(cech) cecha- 1(cech) własność-2(cech) atrybut-1(cech) 41) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM- 1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy) Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład: kategorie Wikipedii  Zadanie:  Dane:  67 uogólnionych kategorii z Wikipedii  ręcznie wybrane nadkategorie, połączone podkategorie  https://clarin-pl.eu/dspace/handle/11321/222 https://clarin-pl.eu/dspace/handle/11321/217  zróżnicowane dziedziny  Cel: przypisanie klas do artykułów  Najistotniejsze cechy: wielka litera, znaki interpunkcyjne, lematy, klasy gramatyczne, bigramy klas, klasy nazw własnych, znaczenia, znaczenia ogólne, pojęcia z SUMO Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład: kategorie Wikipedii KlasyDokładnośćŚrednia harmoniczna Dokładnoś ć wyboru Dokładność odrzucania Kompletność wyboru Albania99,20%86,21%89,29%99,49%83,33% Astronautyka98,70%81,16%84,85%99,17%77,78% Ekologia roślin99,10%84,75%80,65%99,69%89,29% Gałęzie prawa98,10%67,80%62,50%99,28%74,07% Karkonosze99,80%95,45%100,00%99,80%91,30% Kotowate100,00% Muzyka poważna98,90%80,00%91,67%99,08%70,97% Piłka nożna99,70%95,89%94,59%99,90%97,22% Propaganda polityczna97,90%65,57%64,52%98,97%66,67% Sporty siłowe99,80%96,77%93,75%100,00% Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

WebSty: wydobywanie cech  Cel  Wydobycie cech charakterystycznych dla danej grupy lub dokumentu  (planowane) porównywanie korpusów  Schematy przetwarzania  Grupa vs pozostałe grupy razem  Rozkład cech względem grup  Metody  Systemy: Weka i scipy  Np. Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

WebSty: interfejs do cech Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL

Przykład cech Infrastruktura badawcza Wrocław 2016-04-26 CLARIN-PL Kraszewski_syn_jazdona_1880 Kraszewski_krakow-za-loktka_1880 Kraszewski_pogrobek_1880 Kraszewski_kunigas_1882 Kraszewski_boleszczyce_1877 Kraszewski_stara-basn-tom-III_1876 Kraszewski_bracia- zmartwychwstancy_1876 Kraszewski_banita_1885 Kraszewski_strzemienczyk_1883 Kraszewski_stara-basn-tom-I_1876 Kraszewski_bialy-ksiaze_1882 Kraszewski_jelita_1881 Kraszewski_caprea-i-roma_1860 Kraszewski_stara-basn-tom-II_1876 Stryjkowski_stryjkowski_kronika-polska- litewska-zmudzka-i-wszystkiej-rusi_1846 bigrams:inf_imps bigrams:inf_praet bigrams:ppron3_pcon bigrams:ppas_pcon bigrams:imps_interp bigrams:ppron3_pant bigrams:pant_interp lex_classes:imps_count bigrams:subst_pant bigrams:interj_inf base:wszyscy bigrams:siebie_pcon base:on base:choć base:gdy bigrams:praet_pant bigrams:ppron3_imps bigrams:adj_pant bigrams:pant_pact … Przetwarzanie: WebSty, korpusie 1000 klasycznych dzieł, cechy leksykalne, interpunkcja, bigramy; ważenie PMI, selekcja Mann-Whitney

CLARIN-PL Dziękuję bardzo za uwagę http://ws.clarin-pl.eu/demo/stylo2.html

CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska.

Podobne prezentacje

Prezentacja na temat: "CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska."— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska.

Podobne prezentacje

Prezentacja na temat: "CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska."— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres