CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska.

Slides:



Advertisements
Podobne prezentacje
System do klasyfikacji tekstu i analizy stylometrycznej
Advertisements

Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
© IEn Gdańsk 2011 Wpływ dużej generacji wiatrowej w Niemczech na pracę PSE Zachód Robert Jankowski Andrzej Kąkol Bogdan Sobczak Instytut Energetyki Oddział.
1 FRAZEOTRANSLACJA ORAZ JEJ ZNACZENIE W KSZTAŁCENIU I DOSKONALENIU TŁUMACZY MONIKA SUŁKOWSKA Instytut Języków Romańskich i Translatoryki Uniwersytet Śląski,
Blok I: PODSTAWY TECHNIKI Lekcja 7: Charakterystyka pojęć: energia, praca, moc, sprawność, wydajność maszyn (1 godz.) 1. Energia mechaniczna 2. Praca 3.
Ekonometria WYKŁAD 10 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Plan Czym się zajmiemy: 1.Bilans przepływów międzygałęziowych 2.Model Leontiefa.
Nauczanie na odległość Dr inż. Marlena Plebańska.
Postanowienie Śląskiego Kuratora Oświaty w Katowicach z dnia 29 stycznia 2016 r. w sprawie terminów składania dokumentów i terminów rekrutacji uczniów.
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
Praca naukowa finansowana ze środków na naukę w latach jako projekt badawczy zamawiany Problemy opieki nad osobami niesamodzielnymi w świetle.
Teoria gry organizacyjnej Każdy człowiek wciąż jest uczestnikiem wielu różnych gier. Teoria gier zajmuje się wyborami podejmowanymi przez ludzi w warunkach.
MATLOS „JAK TEORIA MA SIĘ DO PRAKTYKI?”. Cel projektu: Sprawdzamy, jaka jest zależność między prawdopodobieństwem a częstością zdarzenia.
CLARIN-PL Słowosieć 3.0 i proces jej budowy Marek Maziarz Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19.
Umowy Partnerskie w projektach zbiór najważniejszych składników Uwaga! Poniżej znajdują się jedynie praktyczne wskazówki dotyczące tworzenia umów. Dokładne.
Rozliczanie kosztów działalności pomocniczej
Zasady tworzenia prezentacji multimedialnych I. Główne zasady: prezentacja multimedialna powinna być ilustracją (uzupełnieniem) treści prezentowanych.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
31 maja 2016r. 1 Regionalne badanie nastrojów społecznych wokół UEFA EURO 2012™ Prezentacja wyników badania z mieszkańcami Gdańska, Poznania,
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Mikroekonomia dr hab. Maciej Jasiński, prof. WSB Wicekanclerz, pokój 134A Semestr zimowy: 15 godzin wykładu Semestr letni: 15.
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
Zastosowania Słowosieci i systemu zasobów leksykalnych
Katowicki Holding Węglowy S.A. Opracowanie technologii zgazowania węgla dla wysokoefektywnej produkcji paliw i energii elektrycznej 1.
Autor: Kierunek: Promotor: Wykorzystanie GIS do wyznaczenia tras bezpiecznego przewozu transportu przez miasto Małgorzata Kość geodezja i kartografia dr.
Wypadkowa sił.. Bardzo często się zdarza, że na ciało działa kilka sił. Okazuje się, że można działanie tych sił zastąpić jedną, o odpowiedniej wartości.
Prawo telekomunikacyjne Ewa Galewska CBKE. Sektor telekomunikacyjny Monopole naturalne Operatorzy zasiedziali Brak równowagi pomiędzy podmiotami Wysokie.
Wyniki badania - Infolinia jako kanał komunikacji z klientem Aby zobaczyć prezentację badania należy wybrać przycisk F5. Poruszanie się pomiędzy.
… przemy ś lenia pedagogiczne. „Najważniejszym okresem w życiu nie są lata studiowania na wyższej uczelni, ale te najwcześniejsze, czyli okres od narodzenia.
Coaching w poradnictwie zawodowym i edukacji. PLAN Definicja, proces - zmiana Możliwość wykorzystania coachingu w poradnictwie zawodowym i edukacji Model.
Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej,
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Równowaga rynkowa w doskonałej konkurencji w krótkim okresie czasu Równowaga rynkowa to jest stan, kiedy przy danej cenie podaż jest równa popytowi. p.
CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ANALIZA DANYCH DO OPRACOWANIA MAP TEMATYCZNYCH HALINA KLIMCZAK INSTYTUT GEODEZJI I GEOINFORMATYKI UNIWERSYTET PRZYRODNICZY WE WROCŁAWIU.
Fizyczne metody określania ilości pierwiastków i związków chemicznych. Łukasz Ważny.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
WYNIKI ANKIETY INTERNETOWEJ Opracowanie wyników: Dr Jarosław Załęcki Mgr Maciej Brosz „Współtwórz swoje miasto. Wysokościowce w Gdańsku”
Opodatkowanie spółek Podziały Spółek. Podziały spółek Rodzaje podziałów wg KSH Przewidziane są cztery sposoby podziału: 1) podział przez przejęcie, który.
Wykład 1.  w zn. wąskim – nauki prawne  w zn. szerokim – wszelkie „znawstwo prawa”, obejmujące obok prawoznawstwa w zn. wąskim także praktyczne umiejętności.
RAPORT Z BADAŃ opartych na analizie wyników testów kompetencyjnych przeprowadzonych wśród uczestników szkoleń w związku z realizacją.
Ocena poziomu kompetencji i umiejętności administracji publicznej w zakresie zarządzania rozwojem i kreowania innowacji Urząd Marszałkowski Województwa.
Finansowanie wybranych działań w parkach narodowych przy udziale środków funduszu leśnego - zakres merytoryczny Warszawa, 06 kwietnia 2016 r.
Skuteczności i koszty windykacji polubownej Wyniki badań zrealizowanych w ramach grantu Narodowego Centrum Nauki „Ocena poziomu rzeczywistej.
WYKŁAD 6 Regionalizacja 1. Regionalizm a regionalizacja 2 Proces wyodrębniania regionów nazywany jest regionalizacją, w odróżnieniu od regionalizmu, który.
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Wytyczne do opracowania wojewódzkich, powiatowych i gminnych programów ochrony środowiska Aleksandra Malarz dyrektor Departamentu Strategii i Komunikacji.
Raport Electus S.A. Zapotrzebowanie szpitali publicznych na środki finansowe w odniesieniu do zadłużenia sektora ochrony zdrowia Olsztyn, r.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
# Analiza cech taksacyjnych drzewostanów przy wykorzystaniu technologii LIDAR 1 15 Sep 2010 Analiza cech taksacyjnych drzewostanów przy wykorzystaniu technologii.
Definiowanie i planowanie zadań typu P 1.  Planowanie zadań typu P  Zadania typu P to zadania unikalne służące zwykle dokonaniu jednorazowej, konkretnej.
Zaufanie społeczne Polaków Twierdzenie: Większość ludzi ma dobre intencje.
1 Definiowanie i planowanie zadań budżetowych typu B.
Jak tworzymy katalog alfabetyczny? Oprac.Regina Lewańska.
Projektowanie prezentacji multimedialnych Piotr Rakowski Gliwice 2006.
System operacyjny Renata P. System operacyjny - jest to zbiór nadrzędnych i niezbędnych programów umożliwiających pracę na komputerze. Jest on pośrednikiem.
Okrąg i koło Rafał Świdziński.
terminologia, skale pomiarowe, przykłady
Git - system kontroli wersji
Języki programowania.
Program na dziś Wprowadzenie Logika prezentacji i artykułu
Zapis prezentacji:

CLARIN-PL Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 IJP PAN / UP Kraków

Stylometria ▪Stylometria: porównanie drobnych cech językowych w korpusie tekstów, którego celem jest wyłonienie podobieństw i różnic pomiędzy tekstami ▪Poszczególne własności języka nie pozwalają na skuteczne porównanie tekstów, ale w większej liczbie owe drobne różnice zaczynają być znaczące ▪Typowe zastosowania: ▪atrybucja autorska (potwierdzenie, ustalenie autorstwa, wykrycie autorów), ▪analiza stylu, ▪cech autora i wybranych cech kontekstu powstania utworu Infrastruktura badawcza Wrocław CLARIN-PL

System do stylometrii i klasyfikacji  Idea:  połączenie w ramach jednej aplikacji webowej narzędzi do analizy tekstu, analizy stylometrycznej oraz klasyfikacji  zapewnienie bogatego zestawu cech dla języka polskiego  zmniejszenie barier technologicznej i wiedzy dla użytkowników  Założenia:  cechy opisujące tekst mogą dotyczyć dowolnego poziomu analizy języka  ograniczeniem są dostępne narzędzia dla języka polskiego  analizowane mogą być zarówno dokumenty jak i fragmenty tekstu  tryby: grupowania i klasyfikacji Infrastruktura badawcza Wrocław CLARIN-PL

Schemat systemu 1.Załadowanie korpusu  opis nazwami  meta-danymi na różnych poziomach 2.Wybór cech opisowych 3.Określenie parametrów przetwarzania  grupowanie lub klasyfikacja  przetwarzanie cech, np. transformacja 4.Wstępne przetwarzanie  automatyczne uruchomienie sekwencji narzędzi językowych 5.Obliczenie wartości cech  zliczenie statystyk wystąpienia 5.Filtrowanie i/lub transformacja cech, np.  odsianie zbyt rzadkich/częstych cech  wyliczenie miar istotności na podstawie częstości 6.Zasadnicze przetwarzanie  albo grupowanie  albo klasyfikacja 8.Identyfikacja cech charakterystycznych  grupa vs pozostałe 9.Prezentacja wyników  dane liczbowe  wizualizacje Infrastruktura badawcza Wrocław CLARIN-PL

Schemat systemu  Przykładowy przebieg przetwarzania równoległego zbioru dokumentów Infrastruktura badawcza Wrocław CLARIN-PL

Cechy dla języka polskiego  Poziomy analizy języka  Morfologiczny  Morfo-syntaktyczny  Semantyki leksykalnej  Wykorzystywane narzędzia językowe  program do segmentacji tekstu i analizy morfologicznej - MACA  tager morfosyntaktyczny - WCFRT2  program do rozpoznawania nazw własnych - Liner2  program do ujednoznaczniania sensów słów - WoSeDon Infrastruktura badawcza Wrocław CLARIN-PL

Cechy morfologiczne  Długość: dokumentu, akapitu, zdania  Formy wyrazowe  Znaki interpunkcyjne  Pseudo-sufiksy – ostatnie kilka liter  Dowolne tokeny wyrazowe  Lematy – podstawowe formy morfologiczne  wyznaczane z pomocą tagera morfosyntaktycznego  Sekwencje  n elementowe  wyrazowych tokenów  lematów  dwuelementowe – tzw. bigramy  trzyelementowe – tzw. trigramy Infrastruktura badawcza Wrocław CLARIN-PL

Cechy morfosyntaktyczne  Części mowy  wyznaczane na podstawie rozpoznania klas gramtycznych  Klasy gramatyczne  zgodnie z definicją w Narodowym Korpusie Języka Polskiego  klas gramatycznych, np.  pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja)  wyznaczane przez tager morfosyntaktyczny  Połączenie klas i wartości kategorii gramatycznych  np. czasowniki w osobie 1 lub 2  Sekwencje  klas gramatycznych – przybliżają do pewnego stopnia konstrukcje składniowe Infrastruktura badawcza Wrocław CLARIN-PL

Cechy semantyczne  Znaczenia leksykalne (sensy słów)  wyznaczane względem Słowosieci  identyfikatory wyznaczonych synsetów  Uogólnione znaczenia leksykalne  hiperonimy wyznaczonych synsetów  poziom hiperonimu decyduje o stopniu uogólnienia  Pojęcia ze sformalizowanej ontologii  SUMO – Suggested Upper Merged Ontology  Dziedziny tematycznie  ze zbioru WordNet Domains  pola tematyczne wyznaczone w sposób automatyczny Infrastruktura badawcza Wrocław CLARIN-PL

Transformacja i filtrowanie – przykład  Różne metody oceny istotności cechy dla dokumentu/próbki  Łączenie cech różnego typu  np. częstości lematów i klas gramatycznych  Przykład procesu przetwarzania – miara tf.idf 1.obliczenie częstości występowania lematów 2.odrzucenie cech-lematów występujących rzadziej niż n=10 3.normalizacja częstości lematu a, tf(a) = częstość(a) maksymalną częstości w danym dokumencie 4.ważenie idf(a)= ln( liczba dokumentów dokumenty(a) ) 5.wyliczenie wagi dla lematu: tf(a) * idf(a) Infrastruktura badawcza Wrocław CLARIN-PL

WebSty – system do stylometrii Infrastruktura badawcza Wrocław CLARIN-PL

WebSty – system do stylometrii Infrastruktura badawcza Wrocław CLARIN-PL

WebSty – system do stylometrii Infrastruktura badawcza Wrocław CLARIN-PL

WebSty – system do stylometrii Infrastruktura badawcza Wrocław CLARIN-PL

Zasadnicze przetwarzanie: Stylo ▪System opracowany przez Macieja Edera (Uniwersytet Pedagogiczny w Krakowie, Instytut Języka Polskiego PAN) ▪Biblioteka (zestaw funkcji) dla środowiska R ▪Darmowa i na licncji open-source (GPL) ▪Zaopatrzona w interfejs graficzny ▪Wyposażona w szereg metod nadzorowanych i nienadzorowanych ▪Prosta w obsłudze, ale nie banalnie prosta Infrastruktura badawcza Wrocław CLARIN-PL

Stylo GUI (Maciej Eder) Infrastruktura badawcza Wrocław CLARIN-PL

Grupowanie oparte na Cluto  System oparty na Cluto  uniwersalny system do grupowania obiektów reprezentowanych jako wektory liczbowe  często używany do grupowania tekstów  Metody grupowania  aglomeracyjna (hierarchiczna)  budowana jest hierarchia co raz większych grup  poczynając od dwuelementowych  płaska  zbiór jest dzielony na n grup, gdzie n jest zadane z góry  aglomeracyjno-płaska  najpierw wyznaczany jest podział na n grup  później grupy te łączone są w hierarchię Infrastruktura badawcza Wrocław CLARIN-PL

System oparty na Cluto  Miary podobieństwa  kosinusowa – kosinus kąta pomiędzy wektorami cech  zależy od stosunku wartości cech, a nie ich bezwzględnych wartości  schemat tf.idf do transformacji cech  oparta na współczynniku korelacji  euklidesowa – odległość pomiędzy wektorami cech  Jaccarda – stosunek wspólnej części cech do sumy  Dalsze możliwości rozszerzania opisu tekstu  szerszy zbiór nazw własnych  relacje leksykalno-syntaktyczne, np. modyfikowany_przez(mądry)  struktury leksykalno-składniowe lub leksykalno-semantyczne Infrastruktura badawcza Wrocław CLARIN-PL

Przykład: analiza stylu blogów  Cechy: 212 częstych lematów, wybrane znaki interpunkcyjne  Grupowanie Cluto: entropia 0,467 i czystość 58%  Projekt: studia nad stylem blogów (Maryl, Niewiadomski i Kidawa, 2016)  zob. Referat Maryl, Piasecki i Młynarczyk na Digital Humanities 2016 Infrastruktura badawcza Wrocław CLARIN-PL

Przykład: analiza stylu blogów  Analiza gramatyczna: cechy leksykalne plus klasy gramatyczne i bigramy klas  Grupowanie Cluto: entropia 0,438 i czystość 60,4%  Projekt: studia nad stylem blogów (Maryl, Niewiadomski i Kidawa, 2016)  zob. Referat Maryl, Piasecki i Młynarczyk na Digital Humanities 2016 Infrastruktura badawcza Wrocław CLARIN-PL

Klasyfikacja semantyczna  Cel klasyfikacji:  przypisanie do dokumentów tekstowych lub fragmentów tekstów klas semantycznych (tagowanie, kodowanie)  klasy są zdefiniowane przez użytkownika  np. funkcja społeczna, ekonomiczna, styl naukowy, list pożegnalny, archeologia,  Rodzaje systemów klasyfikacji  nienadzorowane:  klasy są zdefiniowane opisowo  program klasyfikatora jest konstruowany i dostrajany na podstawie dużej ilości danych  nadzorowane  klasy są zadana w postaci ręcznie anotowanych dokumentów lub fragmentów tekstu Infrastruktura badawcza Wrocław CLARIN-PL

Proces budowy klasyfikatora 1.Identyfikacja źródeł 2.Pozyskanie korpusu tekstów 3.Wstępne przetwarzanie korpusu 4.Ręczna anotacja podkorpusu treningowo-testowego 5.Automatyczna anotacja korpusu 6.Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6 Infrastruktura badawcza Wrocław CLARIN-PL

Przykład: klasyfikacja listów pożegnalnych  Zadanie:  Klasy: prawdziwe listy pożegnalne, sfałszowane listy pożegnalne, teksty inne  Dane oparte na Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 2013)  prawdziwe (autentyczne) listy pożegnalne  334 sfałszowane listy (eksperyment, ochotnicy)  listów z forów internetowych tekstów z Wikipedii  Informatywne cechy: lematy, znaki interpunkcyjne, wielka litera, klasy gramatyczne, czasowniki 1 i 2 osoby, bigramy, klasy nazw własnych, znaczenia (Słowosieć) i uogólnienia znaczeń Infrastruktura badawcza Wrocław CLARIN-PL

Przykład wyniku: klasyfikacja listów pożegnalnych  System Cindirella  Cechy:  wielka litera, znaki interpunkcyjne, klasy gramatyczne (wg NKJP), bigramy (dwójki) klas gramatycznych, czasownik w 1 i 2 osobie, klasy nazw własnych, uogólnione znaczenia, dziedziny, pojęcia SUMO  Dokładność (ogólna): 93,78%  Kompletność (prawdziwych): 88,36%  Dokładność dla prawdziwych: 88,56%  Dokładność odrzucania: 95,70% Infrastruktura badawcza Wrocław CLARIN-PL

Przykład cech istotnych: klasyfikacja listów pożegnalnych 1.Bigram: interp_pusty 2.Klasa gram.: interp 3.Bigram: subst_interp 4.Czasownik 1 i 2 5.Bigram: adj_interp 6.Klasa gram.: subst 7.Znak interp.: przecinek 8.Klasa gram.:ppron12_count 9.Dziedzina: rel (przym. relacyjne) 10.Bigram: subst_adj 11.Klasa gram.: impt 12.Klasa gram.: noun 13.Znak interp.: myślnik 14.Bigram: interp_interp 15.Bigram: interp_adj 16.Klasa gram.: adj 17.Wielka litera 18.Dziedzina: zwz (związki) 19.Bigram: subst_subst 20.Klasa gram.: ger 21.Bigram: subst_ppas 22.Dziedzina: zdarz (zdarzenia) 23.Znak interp.: znak zapytania 24.Uog. znaczenie:grupa-4(grp) zbiór- 1(grp) 25.Bigram: adj_subst 26.Klasa nazwy: kraje 27.Bigram.: praet_aglt 28.Bigram: subst_pusty 29.Bigram: prep_subst 30.Uog. znaczenie: wykonywanie_czynności_religijnyc h_bądź_magicznych-1(czy) Infrastruktura badawcza Wrocław CLARIN-PL

Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 30) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość- 1(cech) przymiot-1(cech) cecha- 1(cech) własność-2(cech) atrybut-1(cech) 41) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM- 1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy) Infrastruktura badawcza Wrocław CLARIN-PL

Przykład: kategorie Wikipedii  Zadanie:  Dane:  67 uogólnionych kategorii z Wikipedii  ręcznie wybrane nadkategorie, połączone podkategorie   zróżnicowane dziedziny  Cel: przypisanie klas do artykułów  Najistotniejsze cechy: wielka litera, znaki interpunkcyjne, lematy, klasy gramatyczne, bigramy klas, klasy nazw własnych, znaczenia, znaczenia ogólne, pojęcia z SUMO Infrastruktura badawcza Wrocław CLARIN-PL

Przykład: kategorie Wikipedii KlasyDokładnośćŚrednia harmoniczna Dokładnoś ć wyboru Dokładność odrzucania Kompletność wyboru Albania99,20%86,21%89,29%99,49%83,33% Astronautyka98,70%81,16%84,85%99,17%77,78% Ekologia roślin99,10%84,75%80,65%99,69%89,29% Gałęzie prawa98,10%67,80%62,50%99,28%74,07% Karkonosze99,80%95,45%100,00%99,80%91,30% Kotowate100,00% Muzyka poważna98,90%80,00%91,67%99,08%70,97% Piłka nożna99,70%95,89%94,59%99,90%97,22% Propaganda polityczna97,90%65,57%64,52%98,97%66,67% Sporty siłowe99,80%96,77%93,75%100,00% Infrastruktura badawcza Wrocław CLARIN-PL

WebSty: wydobywanie cech  Cel  Wydobycie cech charakterystycznych dla danej grupy lub dokumentu  (planowane) porównywanie korpusów  Schematy przetwarzania  Grupa vs pozostałe grupy razem  Rozkład cech względem grup  Metody  Systemy: Weka i scipy  Np. Infrastruktura badawcza Wrocław CLARIN-PL

WebSty: interfejs do cech Infrastruktura badawcza Wrocław CLARIN-PL

Przykład cech Infrastruktura badawcza Wrocław CLARIN-PL Kraszewski_syn_jazdona_1880 Kraszewski_krakow-za-loktka_1880 Kraszewski_pogrobek_1880 Kraszewski_kunigas_1882 Kraszewski_boleszczyce_1877 Kraszewski_stara-basn-tom-III_1876 Kraszewski_bracia- zmartwychwstancy_1876 Kraszewski_banita_1885 Kraszewski_strzemienczyk_1883 Kraszewski_stara-basn-tom-I_1876 Kraszewski_bialy-ksiaze_1882 Kraszewski_jelita_1881 Kraszewski_caprea-i-roma_1860 Kraszewski_stara-basn-tom-II_1876 Stryjkowski_stryjkowski_kronika-polska- litewska-zmudzka-i-wszystkiej-rusi_1846 bigrams:inf_imps bigrams:inf_praet bigrams:ppron3_pcon bigrams:ppas_pcon bigrams:imps_interp bigrams:ppron3_pant bigrams:pant_interp lex_classes:imps_count bigrams:subst_pant bigrams:interj_inf base:wszyscy bigrams:siebie_pcon base:on base:choć base:gdy bigrams:praet_pant bigrams:ppron3_imps bigrams:adj_pant bigrams:pant_pact … Przetwarzanie: WebSty, korpusie 1000 klasycznych dzieł, cechy leksykalne, interpunkcja, bigramy; ważenie PMI, selekcja Mann-Whitney

CLARIN-PL Dziękuję bardzo za uwagę