Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałJacenty Zadora Został zmieniony 10 lat temu
1
Automatyczna analiza i synteza derywacyjna tekstu polskiego
Joanna Rabiega-Wiśniewska Zakład Językoznawstwa Komputerowego Uniwersytet Warszawski seminarium Przetwarzanie języka naturalnego IPI PAN,
2
Plan referatu Przedstawię… …źródła mojego zainteresowania derywacją;
…cel, który sobie wyznaczyłam; …zastosowania automatycznej derywacji; …problemy związane z zastosowaniami; … podstawy formalnego opisu polskiego słowotwórstwa; …problemy związane z opisem; … pomysł na implementację; …oraz podsumowanie.
3
Dlaczego słowotwórstwo?
IV Konferencja „Formal Description of Slavic Languages” w Poczdamie, listopad 2001. konwersatorium „Językoznawstwo komputerowe w praktyce” (2001/2002): praca Doroty Kalinowskiej „Quasi-słowotwórstwo”. brak opracowań formalnych.
4
Cele stworzenie formalnego i praktycznego opisu polskiego słowotwórstwa. zaprojektowanie narzędzia (narzędzi) do pełnej analizy oraz syntezy morfologicznej. przebudowa słownika gramatycznego programu AMOR – powiązanie ze sobą leksemów w rodziny derywacyjne.
5
Zastosowania (1) automatyczna analiza słowotwórcza:
podanie podstawy słowotwórczej derywatu; podanie znaczenia (kategorie słowotwórcze). automatyczna synteza słowotwórcza: tworzenie derywatów od zadanej podstawy; (formalnie lub pojęciowo).
6
Zastosowania (2) Poziomy wykorzystania analizy i syntezy słowotwórczej: użytkownik programów przetwarzających teksty (np. wyszukiwarki); językoznawca; leksykograf.
7
Zastosowania (3) Automatyczna analiza derywacyjna:
słowniki komputerowe (odesłanie użytkownika do znanego hasła oraz stawianie hipotez co do znaczeń derywatów). nieliterackość literackość literacki pseudoromański romański
8
Zastosowania (4) Automatyczna analiza derywacyjna:
przeszukiwanie korpusów tekstów; sprawdzanie produktywności reguł tworzenia nowych derywatów; leksykografia.
9
Zastosowania (5) Analiza i synteza derywacyjna: sprawdzanie pisowni:
analiza: nieznane słowo może pochodzić od innego, znanego słownikowi; synteza: dodawanie grup derywatów. dwu-, trzy-, piętnasto- dwusilnikowy, trzywieżowy, piętnastopokojowy
10
Zastosowania (6) Automatyczna synteza derywacyjna:
wyszukiwanie w zbiorach tekstów: konieczna analiza fleksyjna. ząbkować : ząbkowanie, nieząbkujący, ale raczej nie – ząbkowany
11
Problemy z zastosowaniami
tworzenie mało prawdopodobnych derywatów: kontrola pisowni: siedmioświatowy, siedmiostołowy. błędne rozpoznawanie pewnych leksemów jako derywatów innych: analiza derywacyjna: kartka karta; wyszukiwanie: lity litość.
12
Rozwiązania uznawanie za derywaty słów spoza słownika:
blacik blat, korelujący korelować; a nie: macka maca. zdefiniowanie klas (listy podstaw, opis semantyczny, itp.) chociażby przez znaczniki: rzeczowniki oznaczające „istoty młode” (lwię, kocię, słonię) tworzone są tylko od rzeczowników oznaczających „istoty dorosłe”.
13
Tradycyjny opis słowotwórczy (1)
między gramatyką a słownikiem: klasy derywacyjne zawierają leksemy tworzone różnymi formantami (spawacz, malarz, grafik); formanty cechuje wieloznaczność (marynarka, wiertarka, bibliotekarka); nieprzewidywalna liczba derywatów (kartoflisko, rtęciówka).
14
Tradycyjny opis słowotwórczy (2)
klasyfikacja semantyczna: nazwy wykonawców czynności, narzędzi, miejsc, itd.; analiza budowy istniejących (potwierdzonych) leksemów. niedoceniana rola fleksji; brak systematycznego opisu wykładników formalnych; brak opisu potencji; nacisk na „czucie” użytkownika.
15
Propozycja opisu formalnego
podział materiału na grupy za względu na regularność derywacji; opis klas; budowa reguł derywacyjnych: włączenie informacji fleksyjnej; wewnętrzne reguły fonetyczne. wykorzystanie słownika gramatycznego programu AMOR.
16
Materiał empiryczny (1)
Derywacja regularna (I): derywaty imienne odczasownikowe: odsłowniki (smażenie); imiesłowy przymiotnikowe (smażący, smażony); imiesłowy przysłówkowe (smażąc, usmażywszy).
17
Materiał empiryczny (2)
Derywacja regularna (I): derywaty odprzymiotnikowe: nazwy cech (wesołość, finitywność); zdrobnienia (głupawy); stopień wyższy i najwyższy.
18
Materiał empiryczny (3)
Derywacja regularna (I): formacje powstałe przez przyłączanie określonych cząstek: ‘nie-’+ odsłownik (niewerbalizowanie); ‘nie-’+ przymiotnik (niemieszkalny); liczebnik + ‘lecie’ (pięciolecie); liczebnik + ‘letni’ (sześćdziesięcioletni).
19
Materiał empiryczny (4)
Derywacja średnio regularna (II): nazwy żeńskie (krupierka, listonoszka); zdrobnienia przymiotników (czerwoniutki); zdrobnienia rzeczowników (stolik, sówka); nazwy miejsc (kawiarnia); nazwy mieszkańców (Warszawianin).
20
Materiał empiryczny (5)
Derywacja średnio regularna (II): liczebnik + przymiotnik (piętnastoodcinkowy, trzystufuntowy); przedrostki ‘anty-’, ‘para-’, ‘kontr-’, ‘arcy-’, ‘mini-’ (antyhiszpański, arcygłupi).
21
Materiał empiryczny (6)
Derywacja mało regularna (III): derywaty mało seryjne (kreskówka); podgrupy kategorii semantycznych (koszulówka); grupy zróżnicowane wewnętrznie (filmować, żelować).
22
Problemy z danymi (1) ograniczenia semantyczne podstawy:
nazwy żeńskie (marynarka, szoferka, magisterka); zdrobnienia przymiotników (gorącutki, pradawniutki); zdrobnienia rzeczowników (inteligencyjka). uznanie leksemu za derywat: matka mata, maska masa. znaczenie derywatu: czterowykwintny?, siedmiogrząski?
23
Problemy z danymi (2) nadmiarowość:
antyzajęczy?, kontrkrzesło?, minikrowa? granica między fleksją i derywacją (I); równokształtność derywatu z istniejącym leksemem.
24
Przykłady reguł (1) 1. nazwa żeńska (‘pokrewieństwo’) od rzeczownika męskoosobowego: F(Dop.l.p.mos) –a +owa F(Mian.l.p.ż.) majster majstrowa, policjant policjantowa 2. nazwa cechy: F(Mian.l.p.m.) [-i]/[y] +ość F(Mian. l.p.ż.) niepośledni niepośledniość, hermetyczny hermetyczność
25
Przykłady reguł (2) 3. odsłowniki:
F(IV 3.l.p.m.) –ł +nie F(I Mian.l.p.n.) malować malowanie destylować destylowanie 4. liczebniki z cząstką ‘-stolecie’: F(Mian.l.p.m.) –sty +stolecie F(I Mian.l.p.n.) dwudziesty dwudziestolecie
26
Implementacja Funkcje programu Słowotwórca (autor Michał Rudolf):
odcinanie prefiksów; odcinanie sufiksów; odcinanie zakończeń; dodawanie zakończeń; zastępowanie tekstu; sprawdzanie charakterystyki gramatycznej; sprawdzanie charakterystyki fleksyjnej; sprawdzanie grupy odmiany; sprawdzanie zakończeń .
27
Podsumowanie Zalety: rozszerzenie funkcji istniejących już narzędzi przetwarzania tekstu polskiego; możliwość wyjścia poza słownik; możliwość sprawdzania poprawności budowy nowych jednostek znalezionych w korpusie; dostęp do grup leksemów w słowniku.
28
Dziękuję.
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.