Marek Gajęcki (mag@agh.edu.pl) Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki (mag@agh.edu.pl)

Slides:



Advertisements
Podobne prezentacje
Opinie Polaków na temat usług szpitalnych
Advertisements

Klasyfikacja roczna w roku szkolnym 2012/2013
Znaki informacyjne.
Wolność oddechu 1 Badanie skuteczności programu edukacyjnego p.t. Wolność Oddechu.
Wprowadzenie do informatyki Wykład 6
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Analiza wyników konkursów przedmiotowych
Liczby pierwsze.
Domy Na Wodzie - metoda na wlasne M
ZNACZENIE ZDROWIA PSYCHICZNEGO DLA EFEKTYWNOŚCI PRACOWNIKA
 DOBRE, TAŃSZE, DOSTĘPNE.
klasa3a3b3c3d ang 3d fr.3e3f3k3m3s Zad 13,462,752,623,573,822,762,722,623,322,76 Zad 22,611,51,550,851,761,51,091,062,251,33.
Podatki i opłaty lokalne w 2010 roku
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
NOWE TECHNOLOGIE NA USŁUGACH EDUKACJI Publiczna Szkoła Podstawowa nr 3 w Grodkowie Zajęcia w ramach projektu NTUE.
UŁAMKI DZIESIĘTNE porównywanie, dodawanie i odejmowanie.
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
PREPARATYWNA CHROMATOGRAFIA CIECZOWA.
Prezentacja poziomu rozwoju gmin, które nie korzystały z FS w 2006 roku. Eugeniusz Sobczak Politechnika Warszawska KNS i A Wykorzystanie Funduszy.
E-learning czy kontakt bezpośredni w szkoleniu nowych użytkowników bibliotek uczelni niepaństwowych? EFEKTYWNOŚĆ OBU FORM SZKOLENIA BIBLIOTECZNEGO W ŚWIETLE.
Klasyfikacja systemów
Wiedza i opinie Polaków na temat wyborów do Parlamentu Europejskiego
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- V Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Klamki do drzwi Klamki okienne i inne akcesoria
Opracował: Zespół Humanistyczny. Klasa Średnia ww - wielokrotnego wyboru (na 20 p) Średnia KO - krótkie odpowiedzi (na 10 p) Średnia za zaproszenie (na.
Pytania konkursowe.
Matura 2005 Wyniki Jarosław Drzeżdżon Matura 2005 V LO w Gdańsku
Efektywność zdawania egzaminu zawodowego w ZSP w Bytowie w roku szkolnym 2008/2009.
WYNIKI SPRAWDZIANU SZÓSTOKLASISTY 2010 DLA SZKOŁY.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Agnieszka Jankowicz-Szymańska1, Wiesław Wojtanowski1,2
Raport z badań termowizyjnych – RECTICEL Rys. 1a. Rozdzielnia RS14 Temperatura maksymalna 35,27 o C Rys. 1b. Rozdzielnia RS14 (wizyjny) 3.
Anna Nowak Przedszkole publiczne im. Kubusia puchatka w zabełkowie
INTERWENCJE JEDNOSTEK OCHRONY P.POŻAROWEJ W 2011r.
1/34 HISTORIA BUDOWY /34 3/34 6 MAJA 2011.
Podsumowanie sezonu Wyniki współzawodnictwa sportu dzieci i młodzieży za 2012: W ramach współzawodnictwa MSiT sekcja uzyskała 45 pkt (43%), z pośród.
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
VI przegląd plastyczny z rysunku, malarstwa i rzeźby
EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.
Ze szczególnym uwzględnieniem stosowanych ćwiczeń specjalnych OPRACOWAŁ Z.LIPIŃSKI.
A-priori Partition Mateusz Mor, Kasper Rzepecki, Daniel Mendalka, Michał Samsonowski.
MATURA 2007 raport ZESPÓŁ SZKÓŁ I PLACÓWEK KSZTAŁCENIA ZAWODOWEGO.
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Analiza matury 2013 Opracowała Bernardeta Wójtowicz.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Spływ należności w Branży Elektrycznej
Wstępna analiza egzaminu gimnazjalnego.
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
W2 Modelowanie fenomenologiczne I
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Komenda Powiatowa Policji
EGZAMIN GIMNAZJALNY Charakterystyka wyników osiągniętych przez uczniów.
Testogranie TESTOGRANIE Bogdana Berezy.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VI Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
© GfK 2014 | GfK Health | Leki homeopatzcyne widziane okiem lekarzy 1 LEKI HOMEOPATYCZNE WIDZIANE OKIEM LEKARZY Czerwiec 2014.
Nowy Jork Londyn Mleko, (1l) 0,81£ 0,94 £ Bochenek świeżego chleba (500g) 1,78 £ 0,96 £ Ryż (biały), (1kg) 2,01 £ 1,51 £ Jajka(12) 1,86 £ 2,27 £ Lokalny.
Dr hab. Renata Babińska- Górecka
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Współrzędnościowe maszyny pomiarowe
ANKIETA ZOSTAŁA PRZEPROWADZONA WŚRÓD UCZNIÓW GIMNAZJUM ZPO W BORONOWIE.
Elementy geometryczne i relacje
Strategia pomiaru.
LO ŁobżenicaWojewództwoPowiat pilski 2011r.75,81%75,29%65,1% 2012r.92,98%80,19%72,26% 2013r.89,29%80,49%74,37% 2014r.76,47%69,89%63,58% ZDAWALNOŚĆ.
Jaki jest statystyczny wrześnianin?
Zapis prezentacji:

Marek Gajęcki (mag@agh.edu.pl) Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki (mag@agh.edu.pl) Katedra Informatyki AGH Kraków

Plan wystąpienia Uzasadnienie potrzeby badań Słownik semantyczny Klasy semantyczne Związek przymiotnika z rzeczownikiem Klasyfikacja rzeczowników Problemy Korpus tekstów Grupowanie rzeczowników Przykładowe wyniki Wnioski

Słownik semantyczny Słownik zawierający opisy semantyczne słów i porządkujący słowa poprzez ich znaczenia. Przykłady: WordNet : English EuroWordNet : Dutch, Italian, Spanish, German, French, Czech, Estonian

Formy i znaczenia

Słownik semantyczny Przykładowe relacje pomiędzy rzeczownikami relacja przykład synonim przyjaciel - kolega hiperonim roślina -> drzewo hiponim drzewo -> roślina meronim gałąź -> drzewo holonim drzewo -> gałąź antonim dobro - zło

Relacje w słowniku semantycznym

„okręt” w słowniku semantycznym

Lista dla wyrazu „okręt” modernizacja 12 523 2.2 rakieta 12 537 2.2 nurek 11 41 41.4 kontradmirał 11 18 61.1 przedział 11 177 6.2 * sokół 11 31 35.4 pocisk 10 338 2.9 właz 9 11 81.8 lotnictwo 8 268 2.9 kapitan 8 283 2.8 * przemyt 8 177 4.5 ocean 8 171 4.6 napęd 7 34 20.5 flotylla 7 27 25.9 tankowiec 7 94 7.4 jednostka 7 1439 2.4 pokład 7 402 11.1 * dok 6 12 50.0 duma 6 269 2.6 lotniskowiec 6 16 37.5 marynarka 76 292 26.0 morze 69 994 7.9 załoga 57 960 5.9 * marynarz 51 188 27.1 katastrofa 49 881 5.5 * flota 41 148 27.7 wrak 39 94 41.4 * ciało 38 663 5.7 zatonięcie 26 52 50.0 * zatoka 23 407 5.6 rejon 22 904 2.4 dowództwo 19 342 5.5 eksplozja 17 303 5.6 bandera 17 53 32.0 reaktor 16 171 9.3 torpeda 16 34 55.8 dowódca 16 773 2.0 * śmigłowiec 16 238 6.7 fregata 14 34 41.1 reagowanie 12 124 9.6

Lista dla wyrazu „okręt” cd. awaria 6 183 3.2 * akwen 6 18 33.3 przewóz 6 54 11.1 ratownik 6 155 3.8 porucznik 5 53 9.4 błyskawica 5 9 55.5 bombowiec 5 27 18.5 prośba 5 227 2.2 mewa 5 17 29.4 czołg 5 138 3.6 wiceadmirał 5 14 35.7 odpady 5 179 2.7 lato 5 518 2.3 kadłub 5 46 10.8 * kolizja 5 87 5.7 szczątki 5 199 2.5 wyprawa 5 230 2.1 głębokość 4 65 6.1 komandos 4 46 8.6 milczenie 4 56 7.1 burta 4 16 25.0 * ambasada 4 159 2.5 kontyngent 4 182 2.1 panama 4 9 44.4 wycięcie 4 20 20.0 wodnik 4 5 80.0 cieśnina 4 21 19.0 imigrant 4 170 2.3 dowodzenie 4 91 4.3 * głowica 4 74 5.4 rozkaz 4 131 3.0 krążownik 4 12 33.3

Grupy semantyczne w WordNet

Związek przymiotnika z rzeczownikiem Po kamiennych schodach płynął cały potok, przemywał kamienną podłogę i wypływał niżej, od strony stawu. Można się jedynie przyzwyczaić do ponurego, wiecznego szumu wody, do niespokojnych snów. Tylko sen jest prawdziwy. Wydało jej się, że znowu słyszy ten ciepły, pełen miłości głos w lewym uchu. Odwróciła się do niego i zobaczyła wpatrzone w siebie ciekawie oczy.

Przymiotniki określające rzeczownik # Wyraz: student id tf df tf/df tf*idf 1035041 77 9900 0.77 54.15 letni 1112020 17 195 8.71 40.95 zaoczny 1067386 16 419 3.81 33.22 poszukujący 1115191 17 2251 0.75 22.89 zdolny 1003373 14 1251 1.11 22.42 badany 1032266 75 27787 0.26 19.13 krakowski 1059329 18 4410 0.40 18.98 pewien 1060055 14 2419 0.57 18.41 pilny 1097512 8 342 2.33 17.31 upieczony 1098808 9 601 1.49 17.28 utalentowany 1038923 10 972 1.02 17.11 mieszkający 1061395 8 458 1.74 16.30 początkujący 1008585 12 2204 0.54 16.26 chudy 1111760 8 471 1.69 16.20 zamordowany 1095844 7 260 2.69 15.98 uczący 1096582 12 2470 0.48 15.67 ukraiński 1004958 16 5499 0.29 15.33 biedny 1071017 12 2667 0.44 15.27 przeciętny .....

Macierz związków

Zestaw uczący uczucie: chęć, emocja, lęk, miłość, nadzieja, nienawiść, pewność, piękno, podziw, przyjaźń, radość, rezygnacja, strach, zło, złość lokacja, miejsce: bank, budynek, dom, granica, klub, kraj, miasto, miejsce, ośrodek, pokój, szkoła, teatr, teren, ulica substancja: asfalt, azot, ciecz, drewno, gaz, kryształ, marmur, marmur, materiał, metal, minerał, płyn, substancja, tlen, tworzywo

Związek przymiotników z grupami semantycznymi

Związek przymiotników z grupami semantycznymi

Związek przymiotników z grupami semantycznymi

Podział rzeczowników na grupy semantyczne

Problemy Skuteczność wybierania par; Wielkość korpusu; Reprezentatywność korpusu; Wyrazy wieloznaczne (rakieta, pilot, ...); Formy wieloznaczne (bazie, linie, ...); Wyrazy wieloczłonowe (panna młoda, biały kruk, ...);

Korpus tekstów DZIENNIK INTERNETOWY POLSKIEJ AGENCJI PRASOWEJ - WYDANIE E-MAIL Z powodu pomyłki celowniczego fregaty rosyjskiej Floty Pacyfiku ranne zostało cielę pasące się w pobliżu jednego z osiedli w Kraju Nadmorskim - podała agencja Interfax. Książę Harry, młodszy syn brytyjskiego następcy tronu księcia Karola, obchodził w piątek 16. urodziny. Spędził je, zdając egzaminy w college'u w Eaton - poinformował rzecznik rodziny królewskiej. Jako 143. w kolejności ekipa, polska reprezentacja wkroczyła na stadion olimpijski w Sydney podczas uroczystości otwarcia igrzysk. Ceremonia rozpoczęła się o godz. 19.00 czasu miejscowego, ale sportowcy rozpoczęli defiladę ponad półtorej godziny później, po zakończeniu programu artystycznego. Polacy zaprezentowali się w ciemnych, wieczorowych strojach. Zebrali sporo braw.

Liczba rzeczowników w korpusie DZIENNIK INTERNETOWY POLSKIEJ AGENCJI PRASOWEJ - WYDANIE E-MAIL rozmiar korpusu - 70 MB liczba jednostek tekstu - ponad 9.5 mln słownik fleksyjny rozpoznaje 7.8 mln (80%) 54638 wyrazów (22914 rzeczowników)

Liczba rzeczowników

Wieloznaczność form

Wieloznaczność form

Wyniki kategoryzacji # AC-kat wersja 1.4 # Icon Version 9.4.2, April 24, 2003 # ILP wersja 0.9.4 Jul 19 2003 # Rzeczownik : lis # Długość listy = 51 0.10668 zwierzę,fauna 0.06264 obiekt_naturalny 0.04060 kształt 0.03607 ciało,tłów 0.02826 przedmiot,artefakt 0.02694 zjawisko_naturalne

Grupowanie rzeczowników CLUTO - Clustering Toolkit Release 2.1 Autor: George Karypis, University of Minnesota Dostępność: http://www.cs.umn.edu/˜karypis Systemy operacyjne: Linux, Solaris, Windows Cechy: samodzielny program lub biblioteka funkcji języka C szerokie możliwości wyboru: metody grupowania, funkcji podobieństwa, funkcji kryterialnej

Przymiotniki określające rzeczownik # Wyraz: student id tf df tf/df tf*idf 1035041 77 9900 0.77 54.15 letni 1112020 17 195 8.71 40.95 zaoczny 1067386 16 419 3.81 33.22 poszukujący 1115191 17 2251 0.75 22.89 zdolny 1003373 14 1251 1.11 22.42 badany 1032266 75 27787 0.26 19.13 krakowski 1059329 18 4410 0.40 18.98 pewien 1060055 14 2419 0.57 18.41 pilny 1097512 8 342 2.33 17.31 upieczony 1098808 9 601 1.49 17.28 utalentowany 1038923 10 972 1.02 17.11 mieszkający 1061395 8 458 1.74 16.30 początkujący 1008585 12 2204 0.54 16.26 chudy 1111760 8 471 1.69 16.20 zamordowany 1095844 7 260 2.69 15.98 uczący 1096582 12 2470 0.48 15.67 ukraiński 1004958 16 5499 0.29 15.33 biedny 1071017 12 2667 0.44 15.27 przeciętny .....

Wyniki grupowania Grupa 1 but czapka dywan garnitur jedwab kaftan kapelusz kombinezon koperta kostium koszula kurtka materia mundur nić odzież paczka papier piłka płaszcz płótno poduszka powłoka rękaw spodnie spódnica strój suknia sukienka szata szmata sznur tkanina tunika ubiór ubranie warstwa zasłona zielone zwój Grupa 2 brzeg dno dolina droga gleba góra granica grunt grzbiet horyzont kąt koniec kraina krajobraz ląd łańcuch łąka morze miejsce obszar ocean odcinek okolica pole pasmo pagórek pejzaż plaża podłoże przestrzeń przewód pustkowie pustynia rejon równina skała staw stok szczyt szlak ścieżka teren trakt wybrzeże wyspa wzgórze zbocze ziemia Grupa 3 adwokat aktor artysta autor badacz członek dowódca dziennikarz generał gość gracz inżynier kapitan kierowca kupiec lekarz malarz minister morderca muzyk napastnik nauczyciel naukowiec niewolnik obywatel oficer pielęgniarka pilot pisarz poseł poeta policjant polityk polski prawnik prezydent profesor przedstawiciel przestępca robotnik rolnik rząd sędzia specjalista strażnik student szef szpieg turysta twórca uczony uczestnik wódz więzień władca właściciel zabójca zawodnik żołnierz

Przykłady on-line http://wierzba.ki.agh.edu.pl/~mag/

Wnioski Przedstawione wyniki pozwalają przypuszczać, że bardziej zaawansowane algorytmy pozwolą poklasyfikować rzeczowniki, co stanowi krok do klasyfikacji rzeczowników występujących na liście skojarzeniowej tak, aby powstała struktura reprezentująca wiedzę. Zwiększając rozmiar korpusu można poprawić jakość otrzymanych wyników. Problemy, które należy rozwiązać to: poprawa skuteczności wyłapywania par wieloznaczność wyrazów i form segmentacja tekstu uwzględniająca wyrażenie wielosegmentowe