Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Uniwersytet Jagielloński
Automatyczne pozyskiwanie relacji semantycznych z tekstu Wiktor Dernowicz Uniwersytet Jagielloński Kraków
2
Motywacje PJN to w dużej mierze przetwarzanie znaczeń
Obecnie nie istnieje jeszcze słownik semantyczny języka polskiego, który by to umożliwiał Stąd duża potrzeba stworzenia takie słownika Tworzenie takiego słownika jest czasochłonne i drogie Częściowa automatyzacja tego procesu jest kluczowa
3
Przedstawię próbę rozwiązanie tego problemu
4
Czym jest słownik semantyczny
Słownik semantyczny definiuje znaczenia poprzez relacje semantyczne takie jak: synonimity, similarity, is a kind of itd. Poniżej jest częściowy opis pojęcia pies: SYNONIMY: Canis familiaris SIMILAR TO: wilk IS A KIND OF: ssak CONSISTS OF: ogon, pazur, sierść
5
Pytanie na które szukam odpowiedzi
Czy możliwe jest automatyczne pozyskiwanie relacji semantycznych z korpusu tekstów Jeśli „tak”, jakiej jakości wyników powinienem oczekiwać Czy może mieć to znaczący wkład w proces tworzenia słownika semantycznego
6
Eksperyment Zbudowałem pewien system, dałem mu do poczytania trochę książek oraz gazet i jeszcze pozwoliłem trochę poserfować po internecie Następnie zadałem mu pytanie dotyczące relacji semantyczne część-całość: „Jakie są części ciała kota, pataka, słonia, krowy, jeża itd.?” I zobaczyłem jaki był rezultat.
7
Metoda podstawowa Wejście: Informacja o świecie – korpus tekstów
Przykład czego ja szukam – cztery predefiniowane nazwy zwierząt: pies, koń, ryba i pająk oraz listy części ich części ciała. To jest podane jako wzór Nazwy innych zwierząt, dla któych chcę, aby system znalazł nazwych ich części ciała – kot, ptak, słoń, krowa, jeż Dwie wartości liczbowe (progi)
8
Metoda podstawowa Wyjście: kot oko OK. ogon ucho jeż kolec ptak
gniazdo pazur słoń noga krowa róg dziób skrzydło głowa dom problem
9
Jak ten system działa? pies – oko ta para jest wzięta z wzorca danego na wejściu Gdzie ten pies ma oczy? – znalezione zdanie X ma Y – wyodrębniona fraza pies – ogon Pies powitał go machnięciem ogona. X powitał go machnięciem Y
10
Ocena fraz Mój pies ma problem.
pies – problem takiej pary nie ma we wzorcu, stąd minus (-) Taki koń ma skórę różowawą. koń – skóra taka para faktycznie znajduje się we wzorcu, stąd plus (+) Ta fraza otrzymała: 30 plusów 164 minusy Czyli jest 15,4% plusów – a to jest więcej niż pierwszy próg (5%) Jest 16 różnych plusów, 16 różnych par takich jak koń-skóra, a to jest więcej niż drugi próg (2 dwie różne poprawne pary) Stąd fraza ta jest zaakceptowana
11
Ocena fraz X przywitał go machnięciem Y
Powyższa fraza otrzymała 1 plus i 0 minusów. Jest 100% plusów, ale tylko 1 różny plus – a to jest poniżej drugiego progu (2), dlatego system „mówi”, że ta fraza nie jest dobra i pomija ją.
12
Cześć zaakceptowanych fraz
Fraza Minusy Plusy Różne plusy X z Y 449 40 15 Y u X 104 27 18 X po Y 103 34 14 X ma Y 164 30 16 Y tych X 166 9 Y ma X 53 11 5 X bez Y 72 17 X za Y 97 7
13
Uzyskane rezultaty Zwierzę Odnaleziona część ciała
Odnaleziona przez N różnych fraz kot oko 6 OK. ogon 5 ucho jeż kolec 4 ptak gniazdo pazur słoń noga 3 krowa róg dziób skrzydło głowa dom problem
14
Teraz i w przyszłości Odnalazłem system WEKA z nowej Zelandii, który implementuje wiele algorytmów „Machine Learning”, jest on dostępny, darmowy i działa. Chciałbym zastosować część z tych algorytmów. Chciałbym się dowiedzieć jakie są obecne osiągnięcia „Machine Learning” i być może zastosować dostępne rozwiązania. Mam także swoje własne pomysły na to by usprawnić ten podstawowy algorytm.
15
Dziękuję bardzo za państwa uwagę!
Będę zobowiązany za wszelkie uwagi.
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.