Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Marek Gajęcki (mag@agh.edu.pl) Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki (mag@agh.edu.pl)

Podobne prezentacje


Prezentacja na temat: "Marek Gajęcki (mag@agh.edu.pl) Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki (mag@agh.edu.pl)"— Zapis prezentacji:

1 Marek Gajęcki (mag@agh.edu.pl)
Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki Katedra Informatyki AGH Kraków

2 Plan wystąpienia Uzasadnienie potrzeby badań Słownik semantyczny
Klasy semantyczne Związek przymiotnika z rzeczownikiem Klasyfikacja rzeczowników Problemy Korpus tekstów Grupowanie rzeczowników Przykładowe wyniki Wnioski

3 Słownik semantyczny Słownik zawierający opisy semantyczne słów i porządkujący słowa poprzez ich znaczenia. Przykłady: WordNet : English EuroWordNet : Dutch, Italian, Spanish, German, French, Czech, Estonian

4 Formy i znaczenia

5 Słownik semantyczny Przykładowe relacje pomiędzy rzeczownikami
relacja przykład synonim przyjaciel - kolega hiperonim roślina -> drzewo hiponim drzewo -> roślina meronim gałąź -> drzewo holonim drzewo -> gałąź antonim dobro - zło

6 Relacje w słowniku semantycznym

7 „okręt” w słowniku semantycznym

8 Lista dla wyrazu „okręt”
modernizacja rakieta nurek kontradmirał przedział * sokół pocisk właz lotnictwo kapitan * przemyt ocean napęd flotylla tankowiec jednostka pokład * dok duma lotniskowiec marynarka morze załoga * marynarz katastrofa * flota wrak * ciało zatonięcie * zatoka rejon dowództwo eksplozja bandera reaktor torpeda dowódca * śmigłowiec fregata reagowanie

9 Lista dla wyrazu „okręt” cd.
awaria * akwen przewóz ratownik porucznik błyskawica bombowiec prośba mewa czołg wiceadmirał odpady lato kadłub * kolizja szczątki wyprawa głębokość komandos milczenie burta * ambasada kontyngent panama wycięcie wodnik cieśnina imigrant dowodzenie * głowica rozkaz krążownik

10 Grupy semantyczne w WordNet

11 Związek przymiotnika z rzeczownikiem
Po kamiennych schodach płynął cały potok, przemywał kamienną podłogę i wypływał niżej, od strony stawu. Można się jedynie przyzwyczaić do ponurego, wiecznego szumu wody, do niespokojnych snów. Tylko sen jest prawdziwy. Wydało jej się, że znowu słyszy ten ciepły, pełen miłości głos w lewym uchu. Odwróciła się do niego i zobaczyła wpatrzone w siebie ciekawie oczy.

12 Przymiotniki określające rzeczownik
# Wyraz: student id tf df tf/df tf*idf letni zaoczny poszukujący zdolny badany krakowski pewien pilny upieczony utalentowany mieszkający początkujący chudy zamordowany uczący ukraiński biedny przeciętny .....

13 Macierz związków

14 Zestaw uczący uczucie:
chęć, emocja, lęk, miłość, nadzieja, nienawiść, pewność, piękno, podziw, przyjaźń, radość, rezygnacja, strach, zło, złość lokacja, miejsce: bank, budynek, dom, granica, klub, kraj, miasto, miejsce, ośrodek, pokój, szkoła, teatr, teren, ulica substancja: asfalt, azot, ciecz, drewno, gaz, kryształ, marmur, marmur, materiał, metal, minerał, płyn, substancja, tlen, tworzywo

15 Związek przymiotników z grupami semantycznymi

16 Związek przymiotników z grupami semantycznymi

17 Związek przymiotników z grupami semantycznymi

18 Podział rzeczowników na grupy semantyczne

19 Problemy Skuteczność wybierania par; Wielkość korpusu;
Reprezentatywność korpusu; Wyrazy wieloznaczne (rakieta, pilot, ...); Formy wieloznaczne (bazie, linie, ...); Wyrazy wieloczłonowe (panna młoda, biały kruk, ...);

20 Korpus tekstów DZIENNIK INTERNETOWY POLSKIEJ AGENCJI PRASOWEJ - WYDANIE Z powodu pomyłki celowniczego fregaty rosyjskiej Floty Pacyfiku ranne zostało cielę pasące się w pobliżu jednego z osiedli w Kraju Nadmorskim - podała agencja Interfax. Książę Harry, młodszy syn brytyjskiego następcy tronu księcia Karola, obchodził w piątek 16. urodziny. Spędził je, zdając egzaminy w college'u w Eaton - poinformował rzecznik rodziny królewskiej. Jako 143. w kolejności ekipa, polska reprezentacja wkroczyła na stadion olimpijski w Sydney podczas uroczystości otwarcia igrzysk. Ceremonia rozpoczęła się o godz czasu miejscowego, ale sportowcy rozpoczęli defiladę ponad półtorej godziny później, po zakończeniu programu artystycznego. Polacy zaprezentowali się w ciemnych, wieczorowych strojach. Zebrali sporo braw.

21 Liczba rzeczowników w korpusie
DZIENNIK INTERNETOWY POLSKIEJ AGENCJI PRASOWEJ - WYDANIE rozmiar korpusu - 70 MB liczba jednostek tekstu - ponad 9.5 mln słownik fleksyjny rozpoznaje 7.8 mln (80%) 54638 wyrazów (22914 rzeczowników)

22 Liczba rzeczowników

23 Wieloznaczność form

24 Wieloznaczność form

25 Wyniki kategoryzacji # AC-kat wersja 1.4
# Icon Version 9.4.2, April 24, 2003 # ILP wersja Jul # Rzeczownik : lis # Długość listy = 51 zwierzę,fauna obiekt_naturalny kształt ciało,tłów przedmiot,artefakt zjawisko_naturalne

26 Grupowanie rzeczowników
CLUTO - Clustering Toolkit Release 2.1 Autor: George Karypis, University of Minnesota Dostępność: Systemy operacyjne: Linux, Solaris, Windows Cechy: samodzielny program lub biblioteka funkcji języka C szerokie możliwości wyboru: metody grupowania, funkcji podobieństwa, funkcji kryterialnej

27 Przymiotniki określające rzeczownik
# Wyraz: student id tf df tf/df tf*idf letni zaoczny poszukujący zdolny badany krakowski pewien pilny upieczony utalentowany mieszkający początkujący chudy zamordowany uczący ukraiński biedny przeciętny .....

28 Wyniki grupowania Grupa 1 but czapka dywan garnitur jedwab kaftan kapelusz kombinezon koperta kostium koszula kurtka materia mundur nić odzież paczka papier piłka płaszcz płótno poduszka powłoka rękaw spodnie spódnica strój suknia sukienka szata szmata sznur tkanina tunika ubiór ubranie warstwa zasłona zielone zwój Grupa 2 brzeg dno dolina droga gleba góra granica grunt grzbiet horyzont kąt koniec kraina krajobraz ląd łańcuch łąka morze miejsce obszar ocean odcinek okolica pole pasmo pagórek pejzaż plaża podłoże przestrzeń przewód pustkowie pustynia rejon równina skała staw stok szczyt szlak ścieżka teren trakt wybrzeże wyspa wzgórze zbocze ziemia Grupa 3 adwokat aktor artysta autor badacz członek dowódca dziennikarz generał gość gracz inżynier kapitan kierowca kupiec lekarz malarz minister morderca muzyk napastnik nauczyciel naukowiec niewolnik obywatel oficer pielęgniarka pilot pisarz poseł poeta policjant polityk polski prawnik prezydent profesor przedstawiciel przestępca robotnik rolnik rząd sędzia specjalista strażnik student szef szpieg turysta twórca uczony uczestnik wódz więzień władca właściciel zabójca zawodnik żołnierz

29 Przykłady on-line

30 Wnioski Przedstawione wyniki pozwalają przypuszczać, że bardziej zaawansowane algorytmy pozwolą poklasyfikować rzeczowniki, co stanowi krok do klasyfikacji rzeczowników występujących na liście skojarzeniowej tak, aby powstała struktura reprezentująca wiedzę. Zwiększając rozmiar korpusu można poprawić jakość otrzymanych wyników. Problemy, które należy rozwiązać to: poprawa skuteczności wyłapywania par wieloznaczność wyrazów i form segmentacja tekstu uwzględniająca wyrażenie wielosegmentowe


Pobierz ppt "Marek Gajęcki (mag@agh.edu.pl) Automatyczna klasyfikacja rzeczowników do grup semantycznych na podstawie korpusu tekstów Marek Gajęcki (mag@agh.edu.pl)"

Podobne prezentacje


Reklamy Google