Marek Gajęcki (mag@agh.edu.pl) Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki (mag@agh.edu.pl) Katedra Informatyki AGH Kraków
Plan wystąpienia Uzasadnienie potrzeby badań Słownik semantyczny Klasy semantyczne Związek przymiotnika z rzeczownikiem Klasyfikacja rzeczowników Problemy Korpus tekstów Grupowanie rzeczowników Przykładowe wyniki Wnioski
Słownik semantyczny Słownik zawierający opisy semantyczne słów i porządkujący słowa poprzez ich znaczenia. Przykłady: WordNet : English EuroWordNet : Dutch, Italian, Spanish, German, French, Czech, Estonian
Formy i znaczenia
Słownik semantyczny Przykładowe relacje pomiędzy rzeczownikami relacja przykład synonim przyjaciel - kolega hiperonim roślina -> drzewo hiponim drzewo -> roślina meronim gałąź -> drzewo holonim drzewo -> gałąź antonim dobro - zło
Relacje w słowniku semantycznym
„okręt” w słowniku semantycznym
Lista dla wyrazu „okręt” modernizacja 12 523 2.2 rakieta 12 537 2.2 nurek 11 41 41.4 kontradmirał 11 18 61.1 przedział 11 177 6.2 * sokół 11 31 35.4 pocisk 10 338 2.9 właz 9 11 81.8 lotnictwo 8 268 2.9 kapitan 8 283 2.8 * przemyt 8 177 4.5 ocean 8 171 4.6 napęd 7 34 20.5 flotylla 7 27 25.9 tankowiec 7 94 7.4 jednostka 7 1439 2.4 pokład 7 402 11.1 * dok 6 12 50.0 duma 6 269 2.6 lotniskowiec 6 16 37.5 marynarka 76 292 26.0 morze 69 994 7.9 załoga 57 960 5.9 * marynarz 51 188 27.1 katastrofa 49 881 5.5 * flota 41 148 27.7 wrak 39 94 41.4 * ciało 38 663 5.7 zatonięcie 26 52 50.0 * zatoka 23 407 5.6 rejon 22 904 2.4 dowództwo 19 342 5.5 eksplozja 17 303 5.6 bandera 17 53 32.0 reaktor 16 171 9.3 torpeda 16 34 55.8 dowódca 16 773 2.0 * śmigłowiec 16 238 6.7 fregata 14 34 41.1 reagowanie 12 124 9.6
Lista dla wyrazu „okręt” cd. awaria 6 183 3.2 * akwen 6 18 33.3 przewóz 6 54 11.1 ratownik 6 155 3.8 porucznik 5 53 9.4 błyskawica 5 9 55.5 bombowiec 5 27 18.5 prośba 5 227 2.2 mewa 5 17 29.4 czołg 5 138 3.6 wiceadmirał 5 14 35.7 odpady 5 179 2.7 lato 5 518 2.3 kadłub 5 46 10.8 * kolizja 5 87 5.7 szczątki 5 199 2.5 wyprawa 5 230 2.1 głębokość 4 65 6.1 komandos 4 46 8.6 milczenie 4 56 7.1 burta 4 16 25.0 * ambasada 4 159 2.5 kontyngent 4 182 2.1 panama 4 9 44.4 wycięcie 4 20 20.0 wodnik 4 5 80.0 cieśnina 4 21 19.0 imigrant 4 170 2.3 dowodzenie 4 91 4.3 * głowica 4 74 5.4 rozkaz 4 131 3.0 krążownik 4 12 33.3
Grupy semantyczne w WordNet
Związek przymiotnika z rzeczownikiem Po kamiennych schodach płynął cały potok, przemywał kamienną podłogę i wypływał niżej, od strony stawu. Można się jedynie przyzwyczaić do ponurego, wiecznego szumu wody, do niespokojnych snów. Tylko sen jest prawdziwy. Wydało jej się, że znowu słyszy ten ciepły, pełen miłości głos w lewym uchu. Odwróciła się do niego i zobaczyła wpatrzone w siebie ciekawie oczy.
Przymiotniki określające rzeczownik # Wyraz: student id tf df tf/df tf*idf 1035041 77 9900 0.77 54.15 letni 1112020 17 195 8.71 40.95 zaoczny 1067386 16 419 3.81 33.22 poszukujący 1115191 17 2251 0.75 22.89 zdolny 1003373 14 1251 1.11 22.42 badany 1032266 75 27787 0.26 19.13 krakowski 1059329 18 4410 0.40 18.98 pewien 1060055 14 2419 0.57 18.41 pilny 1097512 8 342 2.33 17.31 upieczony 1098808 9 601 1.49 17.28 utalentowany 1038923 10 972 1.02 17.11 mieszkający 1061395 8 458 1.74 16.30 początkujący 1008585 12 2204 0.54 16.26 chudy 1111760 8 471 1.69 16.20 zamordowany 1095844 7 260 2.69 15.98 uczący 1096582 12 2470 0.48 15.67 ukraiński 1004958 16 5499 0.29 15.33 biedny 1071017 12 2667 0.44 15.27 przeciętny .....
Macierz związków
Zestaw uczący uczucie: chęć, emocja, lęk, miłość, nadzieja, nienawiść, pewność, piękno, podziw, przyjaźń, radość, rezygnacja, strach, zło, złość lokacja, miejsce: bank, budynek, dom, granica, klub, kraj, miasto, miejsce, ośrodek, pokój, szkoła, teatr, teren, ulica substancja: asfalt, azot, ciecz, drewno, gaz, kryształ, marmur, marmur, materiał, metal, minerał, płyn, substancja, tlen, tworzywo
Związek przymiotników z grupami semantycznymi
Związek przymiotników z grupami semantycznymi
Związek przymiotników z grupami semantycznymi
Podział rzeczowników na grupy semantyczne
Problemy Skuteczność wybierania par; Wielkość korpusu; Reprezentatywność korpusu; Wyrazy wieloznaczne (rakieta, pilot, ...); Formy wieloznaczne (bazie, linie, ...); Wyrazy wieloczłonowe (panna młoda, biały kruk, ...);
Korpus tekstów DZIENNIK INTERNETOWY POLSKIEJ AGENCJI PRASOWEJ - WYDANIE E-MAIL Z powodu pomyłki celowniczego fregaty rosyjskiej Floty Pacyfiku ranne zostało cielę pasące się w pobliżu jednego z osiedli w Kraju Nadmorskim - podała agencja Interfax. Książę Harry, młodszy syn brytyjskiego następcy tronu księcia Karola, obchodził w piątek 16. urodziny. Spędził je, zdając egzaminy w college'u w Eaton - poinformował rzecznik rodziny królewskiej. Jako 143. w kolejności ekipa, polska reprezentacja wkroczyła na stadion olimpijski w Sydney podczas uroczystości otwarcia igrzysk. Ceremonia rozpoczęła się o godz. 19.00 czasu miejscowego, ale sportowcy rozpoczęli defiladę ponad półtorej godziny później, po zakończeniu programu artystycznego. Polacy zaprezentowali się w ciemnych, wieczorowych strojach. Zebrali sporo braw.
Liczba rzeczowników w korpusie DZIENNIK INTERNETOWY POLSKIEJ AGENCJI PRASOWEJ - WYDANIE E-MAIL rozmiar korpusu - 70 MB liczba jednostek tekstu - ponad 9.5 mln słownik fleksyjny rozpoznaje 7.8 mln (80%) 54638 wyrazów (22914 rzeczowników)
Liczba rzeczowników
Wieloznaczność form
Wieloznaczność form
Wyniki kategoryzacji # AC-kat wersja 1.4 # Icon Version 9.4.2, April 24, 2003 # ILP wersja 0.9.4 Jul 19 2003 # Rzeczownik : lis # Długość listy = 51 0.10668 zwierzę,fauna 0.06264 obiekt_naturalny 0.04060 kształt 0.03607 ciało,tłów 0.02826 przedmiot,artefakt 0.02694 zjawisko_naturalne
Grupowanie rzeczowników CLUTO - Clustering Toolkit Release 2.1 Autor: George Karypis, University of Minnesota Dostępność: http://www.cs.umn.edu/˜karypis Systemy operacyjne: Linux, Solaris, Windows Cechy: samodzielny program lub biblioteka funkcji języka C szerokie możliwości wyboru: metody grupowania, funkcji podobieństwa, funkcji kryterialnej
Przymiotniki określające rzeczownik # Wyraz: student id tf df tf/df tf*idf 1035041 77 9900 0.77 54.15 letni 1112020 17 195 8.71 40.95 zaoczny 1067386 16 419 3.81 33.22 poszukujący 1115191 17 2251 0.75 22.89 zdolny 1003373 14 1251 1.11 22.42 badany 1032266 75 27787 0.26 19.13 krakowski 1059329 18 4410 0.40 18.98 pewien 1060055 14 2419 0.57 18.41 pilny 1097512 8 342 2.33 17.31 upieczony 1098808 9 601 1.49 17.28 utalentowany 1038923 10 972 1.02 17.11 mieszkający 1061395 8 458 1.74 16.30 początkujący 1008585 12 2204 0.54 16.26 chudy 1111760 8 471 1.69 16.20 zamordowany 1095844 7 260 2.69 15.98 uczący 1096582 12 2470 0.48 15.67 ukraiński 1004958 16 5499 0.29 15.33 biedny 1071017 12 2667 0.44 15.27 przeciętny .....
Wyniki grupowania Grupa 1 but czapka dywan garnitur jedwab kaftan kapelusz kombinezon koperta kostium koszula kurtka materia mundur nić odzież paczka papier piłka płaszcz płótno poduszka powłoka rękaw spodnie spódnica strój suknia sukienka szata szmata sznur tkanina tunika ubiór ubranie warstwa zasłona zielone zwój Grupa 2 brzeg dno dolina droga gleba góra granica grunt grzbiet horyzont kąt koniec kraina krajobraz ląd łańcuch łąka morze miejsce obszar ocean odcinek okolica pole pasmo pagórek pejzaż plaża podłoże przestrzeń przewód pustkowie pustynia rejon równina skała staw stok szczyt szlak ścieżka teren trakt wybrzeże wyspa wzgórze zbocze ziemia Grupa 3 adwokat aktor artysta autor badacz członek dowódca dziennikarz generał gość gracz inżynier kapitan kierowca kupiec lekarz malarz minister morderca muzyk napastnik nauczyciel naukowiec niewolnik obywatel oficer pielęgniarka pilot pisarz poseł poeta policjant polityk polski prawnik prezydent profesor przedstawiciel przestępca robotnik rolnik rząd sędzia specjalista strażnik student szef szpieg turysta twórca uczony uczestnik wódz więzień władca właściciel zabójca zawodnik żołnierz
Przykłady on-line http://wierzba.ki.agh.edu.pl/~mag/
Wnioski Przedstawione wyniki pozwalają przypuszczać, że bardziej zaawansowane algorytmy pozwolą poklasyfikować rzeczowniki, co stanowi krok do klasyfikacji rzeczowników występujących na liście skojarzeniowej tak, aby powstała struktura reprezentująca wiedzę. Zwiększając rozmiar korpusu można poprawić jakość otrzymanych wyników. Problemy, które należy rozwiązać to: poprawa skuteczności wyłapywania par wieloznaczność wyrazów i form segmentacja tekstu uwzględniająca wyrażenie wielosegmentowe