System do klasyfikacji tekstu i analizy stylometrycznej

Slides:



Advertisements
Podobne prezentacje
Maciej Piasecki Politechnika Wrocławska Instytut Informatyki
Advertisements

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Klasyfikacja danych Metoda hierarchiczne
Wykonawca główny: Włoska Agencja Narodowa Wykonawcy współuczestniczący: Austriacka Agencja Narodowa Grecka Agencja Narodowa Polska Agencja Narodowa Idea.
Zrównoleglanie programu sekwencyjnego
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,
11 RDF Wertykalne zastosowania XML-a. 22 RDF - Wprowadzenie Problemy Sieć jest nieczytelna dla programów komputerowych. Sieć zawiera zbyt wiele informacji.
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Materiały do zajęć z przedmiotu: Narzędzia i języki programowania Programowanie w języku PASCAL Część 7: Procedury i funkcje © Jan Kaczmarek.
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Dokumentowanie wymagań w języku XML
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Zastosowanie programu SYBYL do wygładzania przybliżonych modeli białkowych SEKWENCJA AMINOKWASOWA MODELOWANIE METODĄ DYNAMIKI MONTE CARLO NA TRÓJWYMIAROWEJ.
Proste bazy danych w Excelu
Algorytm Rochio’a.
Pamięć semantyczna Część pamięci długotrwałej, w której przechowuje się podstawowe znaczenie słów i pojęć.
Inteligentne Systemy Informacyjne
Rozpoznawanie obrazów
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Grupowanie Wprowadzanie Definicja problemu
Wykład 2 struktura programu elementy języka typy zmienne
Korelacje, regresja liniowa
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
POJĘCIE ALGORYTMU Pojęcie algorytmu Etapy rozwiązywania zadań
VI KONFERENCJA EWALUACYJNA
Aplikacja do analizy polimorfizmów SNP wykorzystywanych w genomice klinicznej Szymon Stawicki.
Wanda Klenczon Biblioteka Narodowa
ANNA BANIEWSKA SYLWIA FILUŚ
XML – eXtensible Markup Language
WordNet WordNet to duża leksykalna baza języka angielskiego. Grupuje ona rzeczowniki, czasowniki, przymiotniki i przysłówki w zestawy kognitywnych (poznawczych)
Wybrane zagadnienia relacyjnych baz danych
ZWIĄZKI MIĘDZY KLASAMI KLASY ABSTRAKCYJNE OGRANICZENIA INTERFEJSY SZABLONY safa Michał Telus.
Wprowadzenie do HTML Informatyka Cele lekcji: Wiadomości:
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Podstawy programowania
Seminarium licencjackie Beata Kapuścińska
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
URZĄDZENIA TECHNIKI KOMPUTEROWEJ
Grafika i komunikacja człowieka z komputerem
Znaki specjalne Co i jak + brak przykładów.  Aby wstawić symbol lub znak specjalny należy na karcie Wstawianie w grupie Symbole kliknąć na przycisk Symbol.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Modelowanie Kognitywne
STATYSTYKA Pochodzenie nazwy:
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki,
Formatowanie dokumentów
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska.
CLARIN-PL Rzutowanie Słowosieci na angielski Princeton Wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.
CLARIN-PL enWordNet - rozszerzony angielski wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Projektowanie kwestionariusza
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Opis przymiotnika i przysłówka w Słowosieci Marek Maziarz *, Maciej Piasecki*, Stanisław Szpakowicz #, Justyna Wieczorek *, Michał Kaliński * * Katedra.
CLARIN-PL System do wydobywania z korpusów kolokacji i konstruowania słowników frazeologicznych i słowników terminów Marek Maziarz, Maciej Piasecki, Michał.
Koło Naukowe Metod Ilościowych
METROLOGIA Podstawy rachunku błędów i niepewności wyniku pomiaru
Wybór nazwy lub słów kluczowych dla interesującego nas szeregu czasowego. Opcjonalnie – ustawienie innych dostępnych atrybutów szukania.
Co do tej pory robiliśmy:
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Selekcja danych Korelacja.
POJĘCIE ALGORYTMU Wstęp do informatyki Pojęcie algorytmu
Zapis prezentacji:

System do klasyfikacji tekstu i analizy stylometrycznej Maciej Eder, Maciej Piasecki IJP PAN / UP Kraków Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciejeder@gmail.com maciej.piasecki@pwr.edu.pl 2015-04-15

Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Stylometria stylometria: porównanie drobnych cech językowych w korpusie testków, którego celem jest wyłonienie podobieństw i różnic pomiędzy tekstami poszczególne własności języka nie pozwalają na skuteczne porównanie tektsów, ale w większej liczbie owe drobne różnice zaczynają być znaczące największe nadzieje stylometria wiąże z atrybucją autorską

Atrybucja autorska Jeśli mamy: tekst o nieznanym autorstwie Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Atrybucja autorska Jeśli mamy: tekst o nieznanym autorstwie korpus porównawczy zawierający teksty znanych autorów to czy można wśród nich odnaleźć “najbliższego sąsiada”, czyli tekst najbardziej podobny spośród dostępnych w korpusie? Gdzie można szukać stylistycznego “odcisku palca”: słowa synsemantyczne, najczęstsze słowa, pary słów, częste sekwencje literowe...

Mierzalne cechy stylu Idea stylistycznego odcisku palca Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Mierzalne cechy stylu Idea stylistycznego odcisku palca cechy języka niedostrzegalne gołym okiem poza kontrolą autora (nieświadome) odporne na imitację, parodię itp. chętnie wybierany znacznik: częstości najczęstszych słów inne cechy: np. n-gramy klas gramatycznych Czy styl jest jednoznacznie zależny od autora? (por. kod DNA, odcisk palca, wzór na źrenicy, ...)

Różne znaczniki stylu (cechy) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Różne znaczniki stylu (cechy) ‘Dawnymi czasy Niechcicowie żyli mniej więcej tak, jak żyją wszyscy po dworach na wsi.’ formy gramatyczne: ‘dawnymi’ ‘czasy’ ‘niechcicowie’ ‘żyli’ ‘mniej’ ... bi-gramy form gramatycznych: ‘dawnymi czasy’ ‘czasy niechcicowie’ ‘niechcicowie żyli’ ... lemmaty: ‘dawny’ ‘czas’ ‘niechcic’ ‘żyć’ ‘mniej’ ‘więcej’... tri-gramy klas gramatycznych: ‘ADJ NN Pers’ ‘NN Pers VB’ ‘Pers VB ADV’ ... … i wiele, wiele innych możliwych cech

Różne znaczniki stylu (cechy) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Różne znaczniki stylu (cechy) ‘It is a truth universally acknowledged, that a single man in possession of a good fortune, must be in want of a wife.’ (J. Austen, Pride and Prejudice) “the” = 4.25% “in” = 3.45% “of” = 1.81% . . .

Metody wielowymiarowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Metody wielowymiarowe

Kim jest Gall Anonim? CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Kim jest Gall Anonim?

Kim jest Gall Anonim? CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Kim jest Gall Anonim?

Nie tylko atrybucja... CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Nie tylko atrybucja...

Zmiana w języku (100 MFW) CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Zmiana w języku (100 MFW)

Zmiana w języku (2-gramy POS) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Zmiana w języku (2-gramy POS)

Zmiana w języku (5000 MFW) CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Zmiana w języku (5000 MFW)

Analiza sekwencyjna CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Analiza sekwencyjna

Biblia królowej Zofii (ok. 1455 r.) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Biblia królowej Zofii (ok. 1455 r.)

Patrologia Latina (5,281 tekstów) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Patrologia Latina (5,281 tekstów)

Wyzwania Mierzenie relacji tekstowych w dużych korpusach Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Wyzwania Mierzenie relacji tekstowych w dużych korpusach Wyciąganie znaczników stylu, które nie polegają na zwykłym pocięciu tekstu na szeregi n liter: Przetwarzanie Języka Naturalnego (NLP): konieczność użycia dodatkowych narzędzi

Cyklotron (1937 r.) CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Cyklotron (1937 r.)

Wielki Zderzacz Hadronów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Wielki Zderzacz Hadronów

System do stylometrii i klasyfikacji Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL System do stylometrii i klasyfikacji Idea: połączenie w ramach jednej aplikacji webowej systemu Stylo do stylometrii i narzędzi do analizy tekstu oraz klasyfikacji zapewnienie bogatego zestawu cech dla języka polskiego uwolnienie użytkownika z potrzeby instalowania Założenia: opisujące tekst mogą dotyczyć dowolnego poziomu analizy języka ograniczeniem są dostępne narzędzia dla języka polskiego analizowane mogą być zarówno dokumenty jak i fragmenty tekstu tryby: grupowania i klasyfikacji

Schemat systemu Załadowanie korpusu Wybór cech opisowych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Schemat systemu Załadowanie korpusu opis nazwami meta-danymi na różnych poziomach Wybór cech opisowych Określenie parametrów przetwarzania grupowanie lub klasyfikacja przetwarzanie cech, np. transformacja Wstępne przetwarzanie automatyczne uruchomienie sekwencji narzędzi językowych Obliczenie wartości cech zliczenie statystyk wystąpienia Filtrowanie i/lub transformacja cech np. odsianie zbyt rzadkich/częstych cech wyliczenie miar istotności na podstawie częstości Zasadnicze przetwarzanie albo grupowanie albo klasyfikacja Prezentacja wyników wizualizacje dane liczbowe

Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Schemat systemu Przykładowy przebieg przetwarzania równoległego zbioru dokumentów

Cechy dla języka polskiego Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Cechy dla języka polskiego Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 program do rozpoznawania nazw własnych - Liner2 program do ujednoznaczniania sensów słów - WoSeDon

Cechy morfologiczne Długość: dokumentu, akapitu, zdania Formy wyrazowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Cechy morfologiczne Długość: dokumentu, akapitu, zdania Formy wyrazowe Znaki interpunkcyjne Pseudo-sufiksy – ostatnie kilka liter Dowolne tokeny wyrazowe Lematy – podstawowe formy morfologiczne wyznaczane z pomocą tagera morfosyntaktycznego Sekwencje n elementowe wyrazowych tokenów lematów dwuelementowe – tzw. bigramy trzyelementowe – tzw. trigramy

Cechy morfosyntaktyczne Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Cechy morfosyntaktyczne Części mowy wyznaczane na podstawie rozpoznania klas gramtycznych Klasy gramatyczne zgodnie z definicją w Narodowym Korpusie Języka Polskiego klas gramatycznych, np. pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja) wyznaczane przez tager morfosyntaktyczny Połączenie klas i wartości kategorii gramatycznych np. czasowniki w osobie 1 lub 2 Sekwencje klas gramatycznych – przybliżają do pewnego stopnia konstrukcje składniowe

Cechy semantyczne Znaczenia leksykalne (sensy słów) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Cechy semantyczne Znaczenia leksykalne (sensy słów) wyznaczane względem Słowosieci identyfikatory wyznaczonych synsetów Uogólnione znaczenia leksykalne hiperonimy wyznaczonych synsetów poziom hiperonimu decyduje o stopniu uogólnienia Pojęcia ze sformalizowanej ontologii SUMO – Suggested Upper Merged Ontology Dziedziny tematycznie ze zbioru WordNet Domains pola tematyczne wyznaczone w sposób automatyczny

Transformacja i filtrowanie – przykład Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Transformacja i filtrowanie – przykład Łączenie cech różnego typu np. częstości lematów i klas gramatycznych Przykład procesu przetwarzania nazwa: tf.idf – transformacja ukierunkowana na opis semantyczny obliczenie częstości występowania lematów odrzucenie cech-lematów występujących rzadziej niż n=10 normalizacja częstości lematu a, tf(a) = częstość(a) maksymalną częstości w danym dokumencie ważenie idf(a)= ln( liczba dokumentów dokumenty(a) ) wyliczenie wagi dla lematu: tf(a) * idf(a)

Stylo biblioteka (zestaw funkcji) dla środowiska R Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Stylo biblioteka (zestaw funkcji) dla środowiska R darmowa i na licncji open-source (GPL) zaopatrzona w interfejs graficzny wyposażona w szereg metod nadzorowanych i nienadzorowanych prosta w obsłudze, ale nie banalnie prosta

domyślne GUI w stylo CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL domyślne GUI w stylo

Wystarczy kilka(naście) tekstów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Wystarczy kilka(naście) tekstów

Stylo jako serwis on-line Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Stylo jako serwis on-line

Grupowanie oparte na Cluto Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Grupowanie oparte na Cluto System oparty na Cluto uniwersalny system do grupowania obiektów reprezentowanych jako wektory liczbowe często używany do grupowania tekstów Metody grupowania aglomeracyjna (hierarchiczna) budowana jest hierarchia co raz większych grup poczynając od dwuelementowych płaska zbiór jest dzielony na n grup, gdzie n jest zadane z góry aglomeracyjno-płaska najpierw wyznaczany jest podział na n grup później grupy te łączone są w hierarchię

System oparty na Cluto Dalsze możliwości rozszerzania opisu tekstu Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL System oparty na Cluto Miary podobieństwa kosinusowa – kosinus kąta pomiędzy wektorami cech zależy od stosunku wartości cech, a nie ich bezwzględnych wartości schemat tf.idf do transformacji cech oparta na współczynniku korelacji euklidesowa – odległość pomiędzy wektorami cech Jaccarda – stosunek wspólnej części cech do sumy Dalsze możliwości rozszerzania opisu tekstu szerszy zbiór nazw własnych relacje leksykalno-syntaktyczne, np. modyfikowany_przez(mądry) struktury leksykalno-składniowe lub leksykalno-semantyczne

Klasyfikacja semantyczna Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Klasyfikacja semantyczna //typowy schemat //proces od danych do klasyfikatora //wykorzystanie i ograniczenia //przykłady: GetClass i Cindirela (listy pożegnalne)

Klasyfikacja semantyczna Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Klasyfikacja semantyczna Cel klasyfikacji: przypisanie do dokumentów tekstowych lub fragmentów tekstów klas semantycznych klasy są zdefiniowane przez użytkownika Rodzaje systemów klasyfikacji nienadzorowane: klasy są zdefiniowane opisowo program klasyfikatora jest konstruowany i dostrajany na podstawie dużej ilości danych nadzorowane klasy są zadana w postaci ręcznie anotowanych dokumentów lub fragmentów tekstu

Proces budowy klasyfikatora Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Proces budowy klasyfikatora Identyfikacja źródeł Pozyskanie korpusu tekstów Wstępne przetwarzanie korpusu Ręczna anotacja podkorpusu treningowo-testowego Automatyczna anotacja korpusu Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6

Przykład: Cindirela – klasyfikacja listów pożegnalnych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Przykład: Cindirela – klasyfikacja listów pożegnalnych Identyfikacja źródeł Cel: rozróżnianie pomiędzy prawdziwymi listami pożegnalnymi i listami napisanymi jako próba oszustwa określenie cech lingwistycznych listów prawdziwych rozpoznawanie tekstów jako wykazujących cechy listu pożegnalnego 2) Pozyskanie korpusu tekstów Polski Korpus Listów Pożegnalnych (Zaśko-Zielińska,2013) około 1000 listów prawdziwych i 320 listów sfałszowanych lub udawanych Teksty zebrane z internetu: dowolne oraz takie, które mają charakter listu, ale nie są listami pożegnalnymi

Przykład: Cindirela – klasyfikacja listów pożegnalnych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Przykład: Cindirela – klasyfikacja listów pożegnalnych 3) Wstępne przetwarzanie korpusu Wykorzystanie wyników ręcznej transkrypcji i korekty tekstów (inaczej byłoby zbyt łatwo) Tager morfo-syntaktyczny – WCRFT Rozpoznawanie nazw własnych – Liner2 Ujednoznacznienie sensów słów i rzutowanie na ontologię – WoSeDon 4) Ręczna anotacja podkorpusu treningowo-testowego dwie klasy: prawdziwe listy pożegnalne teksty, które nie są prawdziwymi listami pożegnalnymi

Cindirela – wyniki eksperymentu 1 (klasyfikator SVM(RBF)) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Cindirela – wyniki eksperymentu 1 (klasyfikator SVM(RBF)) Cechy: TP: 982 interp_per_sentence, interp_signs, FN: 272 FP: 168 avg_num, avg_verbs, avg_nouns avg_adjps avg_adverbs avg_interps TN: 3218   Accuracy: (TP+TN) / (TP+TN+FP+FN) = 90,52% avg_tok_count proper_nam_person_last proper_nam_person_first proper_nam_roads proper_nam_country proper_nam_city Precision: TP / (TP+FP) = 85,39% TN / (TN+FN) = 92,21% Sensitivity: TP / (TP+FN) = 78,31% big_letter Specificity: TN / (TN+FP) = 95,04% verb_per ppron12_per base Rezultat

Cindirela – wyniki eksperymentu 1 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Cindirela – wyniki eksperymentu 1 Rozkład decyzji pomiędzy klasami Wikipedia Forumowisko – psychologia 'false': 997, 'true': 1 'false': 601, Blog czytamwwannie 'true': 15 Forumowisko – inne 'false': 42, 'true': 2 'false': 1026, sfałszowane listy 'true': 11 'false': 219, Bryk 'true': 118 'false': 333, prawdziwe listy 'true': 21 'true': 982, 'false': 272

Cindirela – wyniki eksperymentu 2: Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Cindirela – wyniki eksperymentu 2: Dodatkowe cechy: hypernym5:CZASOWNIK_-_STAN_NDK_oznaczający_stan_emocjonalny-1(cst) synsety i hiperonimy ze Słowosieci hypernym5:czuć-2(cczuj) odczuwać-1(cczuj) Poprawa dokładności rozpoznania Przykład cech znaczących avg_num verb_per hypernym5:mój-1(jak) ppron12_per synset:mój-1(jak) avg_verbs hypernym5:być-3(cst) interp_signs:dash avg_interps big_letter synset:kochanie-2(os) interp_signs:fullstop synset:kochanie-1(czy) obdarzanie_uczuciem-1(czy) darzenie_uczuciem-2(czy) darzenie_miłością-1(czy) obdarzanie_miłością-1(czy) interp_signs:comma avg_nouns interp_signs:question_mark avg_adverbs

Dziękuję bardzo za uwagę