Uniwersytet Jagielloński Automatyczne pozyskiwanie relacji semantycznych z tekstu Wiktor Dernowicz Uniwersytet Jagielloński Kraków
Motywacje PJN to w dużej mierze przetwarzanie znaczeń Obecnie nie istnieje jeszcze słownik semantyczny języka polskiego, który by to umożliwiał Stąd duża potrzeba stworzenia takie słownika Tworzenie takiego słownika jest czasochłonne i drogie Częściowa automatyzacja tego procesu jest kluczowa
Przedstawię próbę rozwiązanie tego problemu
Czym jest słownik semantyczny Słownik semantyczny definiuje znaczenia poprzez relacje semantyczne takie jak: synonimity, similarity, is a kind of itd. Poniżej jest częściowy opis pojęcia pies: SYNONIMY: Canis familiaris SIMILAR TO: wilk IS A KIND OF: ssak CONSISTS OF: ogon, pazur, sierść
Pytanie na które szukam odpowiedzi Czy możliwe jest automatyczne pozyskiwanie relacji semantycznych z korpusu tekstów Jeśli „tak”, jakiej jakości wyników powinienem oczekiwać Czy może mieć to znaczący wkład w proces tworzenia słownika semantycznego
Eksperyment Zbudowałem pewien system, dałem mu do poczytania trochę książek oraz gazet i jeszcze pozwoliłem trochę poserfować po internecie Następnie zadałem mu pytanie dotyczące relacji semantyczne część-całość: „Jakie są części ciała kota, pataka, słonia, krowy, jeża itd.?” I zobaczyłem jaki był rezultat.
Metoda podstawowa Wejście: Informacja o świecie – korpus tekstów Przykład czego ja szukam – cztery predefiniowane nazwy zwierząt: pies, koń, ryba i pająk oraz listy części ich części ciała. To jest podane jako wzór Nazwy innych zwierząt, dla któych chcę, aby system znalazł nazwych ich części ciała – kot, ptak, słoń, krowa, jeż Dwie wartości liczbowe (progi)
Metoda podstawowa Wyjście: kot oko OK. ogon ucho jeż kolec ptak gniazdo pazur słoń noga krowa róg dziób skrzydło głowa dom problem
Jak ten system działa? pies – oko ta para jest wzięta z wzorca danego na wejściu Gdzie ten pies ma oczy? – znalezione zdanie X ma Y – wyodrębniona fraza pies – ogon Pies powitał go machnięciem ogona. X powitał go machnięciem Y
Ocena fraz Mój pies ma problem. pies – problem takiej pary nie ma we wzorcu, stąd minus (-) Taki koń ma skórę różowawą. koń – skóra taka para faktycznie znajduje się we wzorcu, stąd plus (+) Ta fraza otrzymała: 30 plusów 164 minusy Czyli jest 15,4% plusów – a to jest więcej niż pierwszy próg (5%) Jest 16 różnych plusów, 16 różnych par takich jak koń-skóra, a to jest więcej niż drugi próg (2 dwie różne poprawne pary) Stąd fraza ta jest zaakceptowana
Ocena fraz X przywitał go machnięciem Y Powyższa fraza otrzymała 1 plus i 0 minusów. Jest 100% plusów, ale tylko 1 różny plus – a to jest poniżej drugiego progu (2), dlatego system „mówi”, że ta fraza nie jest dobra i pomija ją.
Cześć zaakceptowanych fraz Fraza Minusy Plusy Różne plusy X z Y 449 40 15 Y u X 104 27 18 X po Y 103 34 14 X ma Y 164 30 16 Y tych X 166 9 Y ma X 53 11 5 X bez Y 72 17 X za Y 97 7
Uzyskane rezultaty Zwierzę Odnaleziona część ciała Odnaleziona przez N różnych fraz kot oko 6 OK. ogon 5 ucho jeż kolec 4 ptak gniazdo pazur słoń noga 3 krowa róg dziób skrzydło głowa dom problem
Teraz i w przyszłości Odnalazłem system WEKA z nowej Zelandii, który implementuje wiele algorytmów „Machine Learning”, jest on dostępny, darmowy i działa. Chciałbym zastosować część z tych algorytmów. Chciałbym się dowiedzieć jakie są obecne osiągnięcia „Machine Learning” i być może zastosować dostępne rozwiązania. Mam także swoje własne pomysły na to by usprawnić ten podstawowy algorytm.
Dziękuję bardzo za państwa uwagę! Będę zobowiązany za wszelkie uwagi.