Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Automatyczna analiza i synteza derywacyjna tekstu polskiego seminarium Przetwarzanie języka naturalnego IPI PAN, 25.10.02 Joanna Rabiega-Wiśniewska Zakład.

Podobne prezentacje


Prezentacja na temat: "Automatyczna analiza i synteza derywacyjna tekstu polskiego seminarium Przetwarzanie języka naturalnego IPI PAN, 25.10.02 Joanna Rabiega-Wiśniewska Zakład."— Zapis prezentacji:

1 Automatyczna analiza i synteza derywacyjna tekstu polskiego seminarium Przetwarzanie języka naturalnego IPI PAN, Joanna Rabiega-Wiśniewska Zakład Językoznawstwa Komputerowego Uniwersytet Warszawski

2 Plan referatu Przedstawię… …źródła mojego zainteresowania derywacją; …cel, który sobie wyznaczyłam; …zastosowania automatycznej derywacji; …problemy związane z zastosowaniami; … podstawy formalnego opisu polskiego słowotwórstwa; …problemy związane z opisem; … pomysł na implementację; …oraz podsumowanie.

3 Dlaczego słowotwórstwo? IV Konferencja Formal Description of Slavic Languages w Poczdamie, listopad konwersatorium Językoznawstwo komputerowe w praktyce (2001/2002): praca Doroty Kalinowskiej Quasi- słowotwórstwo. brak opracowań formalnych.

4 Cele stworzenie formalnego i praktycznego opisu polskiego słowotwórstwa. zaprojektowanie narzędzia (narzędzi) do pełnej analizy oraz syntezy morfologicznej. przebudowa słownika gramatycznego programu AMOR – powiązanie ze sobą leksemów w rodziny derywacyjne.

5 Zastosowania (1) automatyczna analiza słowotwórcza: –podanie podstawy słowotwórczej derywatu; –podanie znaczenia (kategorie słowotwórcze). automatyczna synteza słowotwórcza: –tworzenie derywatów od zadanej podstawy; (formalnie lub pojęciowo).

6 Zastosowania (2) Poziomy wykorzystania analizy i syntezy słowotwórczej: użytkownik programów przetwarzających teksty (np. wyszukiwarki); językoznawca; leksykograf.

7 Zastosowania (3) Automatyczna analiza derywacyjna: słowniki komputerowe (odesłanie użytkownika do znanego hasła oraz stawianie hipotez co do znaczeń derywatów). nieliterackość literackość literacki pseudoromański romański

8 Zastosowania (4) Automatyczna analiza derywacyjna: przeszukiwanie korpusów tekstów; sprawdzanie produktywności reguł tworzenia nowych derywatów; leksykografia.

9 Zastosowania (5) Analiza i synteza derywacyjna: sprawdzanie pisowni: –analiza: nieznane słowo może pochodzić od innego, znanego słownikowi; –synteza: dodawanie grup derywatów. dwu-, trzy-, piętnasto- dwusilnikowy, trzywieżowy, piętnastopokojowy

10 Zastosowania (6) Automatyczna synteza derywacyjna: wyszukiwanie w zbiorach tekstów: –konieczna analiza fleksyjna. ząbkować : ząbkowanie, nieząbkujący, ale raczej nie – ząbkowany

11 Problemy z zastosowaniami tworzenie mało prawdopodobnych derywatów: –kontrola pisowni: siedmioświatowy, siedmiostołowy. błędne rozpoznawanie pewnych leksemów jako derywatów innych: –analiza derywacyjna: kartka karta; –wyszukiwanie: lity litość.

12 Rozwiązania uznawanie za derywaty słów spoza słownika: –blacik blat, korelujący korelować; –a nie: macka maca. zdefiniowanie klas (listy podstaw, opis semantyczny, itp.) chociażby przez znaczniki: –rzeczowniki oznaczające istoty młode (lwię, kocię, słonię) tworzone są tylko od rzeczowników oznaczających istoty dorosłe.

13 Tradycyjny opis słowotwórczy (1) między gramatyką a słownikiem: –klasy derywacyjne zawierają leksemy tworzone różnymi formantami (spawacz, malarz, grafik); –formanty cechuje wieloznaczność (marynarka, wiertarka, bibliotekarka); –nieprzewidywalna liczba derywatów (kartoflisko, rtęciówka).

14 Tradycyjny opis słowotwórczy (2) klasyfikacja semantyczna: –nazwy wykonawców czynności, narzędzi, miejsc, itd.; –analiza budowy istniejących (potwierdzonych) leksemów. niedoceniana rola fleksji; brak systematycznego opisu wykładników formalnych; brak opisu potencji; nacisk na czucie użytkownika.

15 Propozycja opisu formalnego podział materiału na grupy za względu na regularność derywacji; opis klas; budowa reguł derywacyjnych: –włączenie informacji fleksyjnej; –wewnętrzne reguły fonetyczne. wykorzystanie słownika gramatycznego programu AMOR.

16 Materiał empiryczny (1) Derywacja regularna (I): derywaty imienne odczasownikowe: –odsłowniki (smażenie); –imiesłowy przymiotnikowe (smażący, smażony); –imiesłowy przysłówkowe (smażąc, usmażywszy).

17 Materiał empiryczny (2) Derywacja regularna (I): derywaty odprzymiotnikowe: –nazwy cech (wesołość, finitywność); –zdrobnienia (głupawy); –stopień wyższy i najwyższy.

18 Materiał empiryczny (3) Derywacja regularna (I): formacje powstałe przez przyłączanie określonych cząstek: –nie-+ odsłownik (niewerbalizowanie); –nie-+ przymiotnik (niemieszkalny); –liczebnik + lecie (pięciolecie); –liczebnik + letni (sześćdziesięcioletni).

19 Materiał empiryczny (4) Derywacja średnio regularna (II): nazwy żeńskie (krupierka, listonoszka); zdrobnienia przymiotników (czerwoniutki); zdrobnienia rzeczowników (stolik, sówka); nazwy miejsc (kawiarnia); nazwy mieszkańców (Warszawianin).

20 Materiał empiryczny (5) Derywacja średnio regularna (II): liczebnik + przymiotnik (piętnastoodcinkowy, trzystufuntowy); przedrostki anty-, para-, kontr-, arcy-, mini- (antyhiszpański, arcygłupi).

21 Materiał empiryczny (6) Derywacja mało regularna (III): derywaty mało seryjne (kreskówka); podgrupy kategorii semantycznych (koszulówka); grupy zróżnicowane wewnętrznie (filmować, żelować).

22 Problemy z danymi (1) ograniczenia semantyczne podstawy: –nazwy żeńskie (marynarka, szoferka, magisterka); –zdrobnienia przymiotników (gorącutki, pradawniutki); –zdrobnienia rzeczowników (inteligencyjka). uznanie leksemu za derywat: –matka mata, maska masa. znaczenie derywatu: –czterowykwintny?, siedmiogrząski?

23 Problemy z danymi (2) nadmiarowość: –antyzajęczy?, kontrkrzesło?, minikrowa? granica między fleksją i derywacją (I); równokształtność derywatu z istniejącym leksemem.

24 Przykłady reguł (1) 1. nazwa żeńska (pokrewieństwo) od rzeczownika męskoosobowego: F(Dop.l.p.mos) –a +owa F(Mian.l.p.ż.) majster majstrowa, policjant policjantowa 2. nazwa cechy: F(Mian.l.p.m.) [-i]/[y] +ość F(Mian. l.p.ż.) niepośledni niepośledniość, hermetyczny hermetyczność

25 Przykłady reguł (2) 3. odsłowniki: F(IV 3.l.p.m.) –ł +nie F(I Mian.l.p.n.) malować malowanie destylować destylowanie 4. liczebniki z cząstką -stolecie: F(Mian.l.p.m.) –sty +stolecie F(I Mian.l.p.n.) dwudziesty dwudziestolecie

26 Implementacja Funkcje programu Słowotwórca (autor Michał Rudolf) : odcinanie prefiksów; odcinanie sufiksów; odcinanie zakończeń; dodawanie zakończeń; zastępowanie tekstu; sprawdzanie charakterystyki gramatycznej; sprawdzanie charakterystyki fleksyjnej; sprawdzanie grupy odmiany; sprawdzanie zakończeń.

27 Podsumowanie Zalety: rozszerzenie funkcji istniejących już narzędzi przetwarzania tekstu polskiego; możliwość wyjścia poza słownik; możliwość sprawdzania poprawności budowy nowych jednostek znalezionych w korpusie; dostęp do grup leksemów w słowniku.

28 Dziękuję.


Pobierz ppt "Automatyczna analiza i synteza derywacyjna tekstu polskiego seminarium Przetwarzanie języka naturalnego IPI PAN, 25.10.02 Joanna Rabiega-Wiśniewska Zakład."

Podobne prezentacje


Reklamy Google