Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki Katedra Informatyki AGH Kraków.

Podobne prezentacje


Prezentacja na temat: "Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki Katedra Informatyki AGH Kraków."— Zapis prezentacji:

1 Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki Katedra Informatyki AGH Kraków

2 Plan wystąpienia Uzasadnienie potrzeby badań Słownik semantyczny Klasy semantyczne Związek przymiotnika z rzeczownikiem Klasyfikacja rzeczowników Problemy Korpus tekstów Grupowanie rzeczowników Przykładowe wyniki Wnioski

3 Słownik semantyczny Słownik zawierający opisy semantyczne słów i porządkujący słowa poprzez ich znaczenia. Przykłady: WordNet : English EuroWordNet : Dutch, Italian, Spanish, German, French, Czech, Estonian

4 Formy i znaczenia

5 Słownik semantyczny Przykładowe relacje pomiędzy rzeczownikami relacjaprzykład synonimprzyjaciel - kolega hiperonimroślina -> drzewo hiponimdrzewo -> roślina meronimgałąź -> drzewo holonimdrzewo -> gałąź antonimdobro - zło

6 Relacje w słowniku semantycznym

7 okręt w słowniku semantycznym

8 Lista dla wyrazu okręt marynarka morze załoga * marynarz katastrofa * flota wrak * ciało zatonięcie * zatoka rejon dowództwo eksplozja bandera reaktor torpeda dowódca * śmigłowiec fregata reagowanie modernizacja rakieta nurek kontradmirał przedział * sokół pocisk właz lotnictwo kapitan * przemyt ocean napęd flotylla tankowiec jednostka pokład * dok duma lotniskowiec

9 Lista dla wyrazu okręt cd. awaria * akwen przewóz ratownik porucznik błyskawica bombowiec prośba mewa czołg wiceadmirał odpady lato kadłub * kolizja szczątki wyprawa głębokość komandos milczenie burta * ambasada kontyngent panama wycięcie wodnik cieśnina imigrant dowodzenie * głowica rozkaz krążownik

10 Grupy semantyczne w WordNet

11 Związek przymiotnika z rzeczownikiem Po kamiennych schodach płynął cały potok, przemywał kamienną podłogę i wypływał niżej, od strony stawu. Można się jedynie przyzwyczaić do ponurego, wiecznego szumu wody, do niespokojnych snów. Tylko sen jest prawdziwy. Wydało jej się, że znowu słyszy ten ciepły, pełen miłości głos w lewym uchu. Odwróciła się do niego i zobaczyła wpatrzone w siebie ciekawie oczy.

12 Przymiotniki określające rzeczownik # Wyraz: student id tf df tf/df tf*idf letni zaoczny poszukujący zdolny badany krakowski pewien pilny upieczony utalentowany mieszkający początkujący chudy zamordowany uczący ukraiński biedny przeciętny.....

13 Macierz związków

14 Zestaw uczący uczucie: chęć, emocja, lęk, miłość, nadzieja, nienawiść, pewność, piękno, podziw, przyjaźń, radość, rezygnacja, strach, zło, złość lokacja, miejsce: bank, budynek, dom, granica, klub, kraj, miasto, miejsce, ośrodek, pokój, szkoła, teatr, teren, ulica substancja: asfalt, azot, ciecz, drewno, gaz, kryształ, marmur, marmur, materiał, metal, minerał, płyn, substancja, tlen, tworzywo

15 Związek przymiotników z grupami semantycznymi

16

17

18 Podział rzeczowników na grupy semantyczne

19 Problemy Skuteczność wybierania par; Wielkość korpusu; Reprezentatywność korpusu; Wyrazy wieloznaczne (rakieta, pilot,...); Formy wieloznaczne (bazie, linie,...); Wyrazy wieloczłonowe (panna młoda, biały kruk,...);

20 Korpus tekstów Z powodu pomyłki celowniczego fregaty rosyjskiej Floty Pacyfiku ranne zostało cielę pasące się w pobliżu jednego z osiedli w Kraju Nadmorskim - podała agencja Interfax. Książę Harry, młodszy syn brytyjskiego następcy tronu księcia Karola, obchodził w piątek 16. urodziny. Spędził je, zdając egzaminy w college'u w Eaton - poinformował rzecznik rodziny królewskiej. Jako 143. w kolejności ekipa, polska reprezentacja wkroczyła na stadion olimpijski w Sydney podczas uroczystości otwarcia igrzysk. Ceremonia rozpoczęła się o godz czasu miejscowego, ale sportowcy rozpoczęli defiladę ponad półtorej godziny później, po zakończeniu programu artystycznego. Polacy zaprezentowali się w ciemnych, wieczorowych strojach. Zebrali sporo braw. DZIENNIK INTERNETOWY POLSKIEJ AGENCJI PRASOWEJ - WYDANIE

21 Liczba rzeczowników w korpusie DZIENNIK INTERNETOWY POLSKIEJ AGENCJI PRASOWEJ - WYDANIE rozmiar korpusu - 70 MB liczba jednostek tekstu - ponad 9.5 mln słownik fleksyjny rozpoznaje 7.8 mln (80%) wyrazów (22914 rzeczowników)

22 Liczba rzeczowników

23 Wieloznaczność form

24

25 Wyniki kategoryzacji # AC-kat wersja 1.4 # Icon Version 9.4.2, April 24, 2003 # ILP wersja Jul # Rzeczownik : lis # Długość listy = zwierzę,fauna obiekt_naturalny kształt ciało,tłów przedmiot,artefakt zjawisko_naturalne

26 Grupowanie rzeczowników CLUTO - Clustering Toolkit Release 2.1 Autor: George Karypis, University of Minnesota Dostępność: Systemy operacyjne: Linux, Solaris, Windows Cechy: samodzielny program lub biblioteka funkcji języka C szerokie możliwości wyboru: metody grupowania, funkcji podobieństwa, funkcji kryterialnej

27 Przymiotniki określające rzeczownik # Wyraz: student id tf df tf/df tf*idf letni zaoczny poszukujący zdolny badany krakowski pewien pilny upieczony utalentowany mieszkający początkujący chudy zamordowany uczący ukraiński biedny przeciętny.....

28 Wyniki grupowania Grupa 1 but czapka dywan garnitur jedwab kaftan kapelusz kombinezon koperta kostium koszula kurtka materia mundur nić odzież paczka papier piłka płaszcz płótno poduszka powłoka rękaw spodnie spódnica strój suknia sukienka szata szmata sznur tkanina tunika ubiór ubranie warstwa zasłona zielone zwój Grupa 2 brzeg dno dolina droga gleba góra granica grunt grzbiet horyzont kąt koniec kraina krajobraz ląd łańcuch łąka morze miejsce obszar ocean odcinek okolica pole pasmo pagórek pejzaż plaża podłoże przestrzeń przewód pustkowie pustynia rejon równina skała staw stok szczyt szlak ścieżka teren trakt wybrzeże wyspa wzgórze zbocze ziemia Grupa 3 adwokat aktor artysta autor badacz członek dowódca dziennikarz generał gość gracz inżynier kapitan kierowca kupiec lekarz malarz minister morderca muzyk napastnik nauczyciel naukowiec niewolnik obywatel oficer pielęgniarka pilot pisarz poseł poeta policjant polityk polski prawnik prezydent profesor przedstawiciel przestępca robotnik rolnik rząd sędzia specjalista strażnik student szef szpieg turysta twórca uczony uczestnik wódz więzień władca właściciel zabójca zawodnik żołnierz

29 Przykłady on-line

30 Wnioski zPrzedstawione wyniki pozwalają przypuszczać, że bardziej zaawansowane algorytmy pozwolą poklasyfikować rzeczowniki, co stanowi krok do klasyfikacji rzeczowników występujących na liście skojarzeniowej tak, aby powstała struktura reprezentująca wiedzę. zZwiększając rozmiar korpusu można poprawić jakość otrzymanych wyników. zProblemy, które należy rozwiązać to: ypoprawa skuteczności wyłapywania par ywieloznaczność wyrazów i form ysegmentacja tekstu uwzględniająca wyrażenie wielosegmentowe


Pobierz ppt "Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki Katedra Informatyki AGH Kraków."

Podobne prezentacje


Reklamy Google