Automatyczna analiza i synteza derywacyjna tekstu polskiego

Slides:



Advertisements
Podobne prezentacje
Nowa” Matura 2015 Języki obce
Advertisements

Data Mining w e-commerce
Rola komputera w przetwarzaniu informacji.
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
PROF. DR HAB. WIESŁAWA PRZYBYLSKA-KAPUŚCIŃSKA
® System do analizy tekstów ortograficznych Cezary Dołęga,
(na podstawie badań ankietowych)
ABC nauczyciela przygotowującego uczniów do konkursu polonistycznego
KODEKS 2.0.
Pamięć semantyczna Część pamięci długotrwałej, w której przechowuje się podstawowe znaczenie słów i pojęć.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Inwestycja w kadry 3 Praca zaliczająca moduł Dr G.Maniak.
Wyższa Szkoła Informatyki i Zarządzania
Wstęp do programowania obiektowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Uniwersytet Jagielloński
Dorota Tylek ŚRODKI POETYCKIE Jak rozpoznawać?.
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
SŁOWNIKI.
II Spotkanie Polskiej Grupy Użytkowników VTLS Virtua 16 – 17 czerwca 2008, Biblioteka Uniwersytecka w Warszawie Magdalena Rowińska Centrum NUKAT
Promotor: prof. zw. dr hab. inż. Jacek Mościński
Systemy zarządzania treścią Wykład 1
Wypożyczalnia NARZĘDZI
Technologia informacyjna
Metodyka nauczania języka polskiego Wykład 2 Proces planowania w edukacji polonistycznej Dr Krzysztof Koc.
SŁOWOTWÓRSTWO PREZENTACJA WYKONAŁA ANNA NOWAKOWSKA.
ENCYKLOPEDIE I SŁOWNIKI
Instrukcja USOS Rejestracja na zajęcia obieralne wersja by Marek Opacki.
Wanda Klenczon Biblioteka Narodowa
Kategorie słowotwórcze rzeczowników odprzymiotnikowych
Podstawowe informacje o maturze dla gimnazjalistów.
11. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
Język francuski na świecie
IBUK Libra WIRTUALNA CZYTELNIA
Podstawy programowania
Korespondencja seryjna
Testowanie hipotez statystycznych
Nowe trudności i nowe wyzwania dla bibliotek Jacek Przygodzki Politechnika Warszawska Wydział Mechaniczny Energetyki i Lotnictwa Instytut Techniki Cieplnej.
Emilia Korycińska klasa 5a
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Pojęcie sterowania przepływem produkcji
to nauka zajmująca się budową wyrazów, wyjaśniająca ich tworzenie
7. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Andrzej Majkowski 1 informatyka +. 2 Telefon komórkowy „uczy się”. Metoda słownikowa T9 Paweł Perekietka.
Modelowanie Kognitywne
Komputerowe malowanki
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Czy katalogowanie ma przyszłość? Dwugłos względnie uporządkowany Jadwiga Woźniak-Kasperek Małgorzata Kisilowska Instytut Informacji Naukowej i Studiów.
9. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
SŁOWOTWÓRSTWO Vademecum świadomego użytkownika
 Praktyczne sposoby wpisywania adresu:  pomijanie autouzupełnianie  próba samodzielnego tworzenia poprzez sprawdzanie podstawowych kombinacji.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
1 © copyright by Piotr Bigosiński DOKUMENTACJA SYSTEMU HACCP. USTANOWIENIE, PROWADZENIE I UTRZYMANIE DOKUMENTACJI. Piotr Bigosiński 1 czerwiec 2004 r.
Przewodnik Bazy CINAHL Wyszukiwanie podstawowe
Jak korzystać z internetu? Porady Młodych Dziennikarzy.
Krystyna Kleszczowa Uniwersytet Śląski w Katowicach, Polska Internet jako narzędzie w ocenie stabilności neologizmów. Na przykładzie polskich przymiotników.
EGZAMIN MATURALNY Z JĘZYKA NIEMIECKIEGO Matura ustna.
Co powinniśmy wiedzieć o liczebniku?
Przewodnik
Opis przymiotnika i przysłówka w Słowosieci Marek Maziarz *, Maciej Piasecki*, Stanisław Szpakowicz #, Justyna Wieczorek *, Michał Kaliński * * Katedra.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Wyszukiwanie partnerów do projektów międzynarodowych Możliwość wspólnej pracy nad wnioskiem i współpracy projektowej w ramach tzw. Collaborative.
T. 18. E Proces DGA - Działania (operatorka).
Ewa Niemiec Logika dla Prawników Ewa Niemiec
Hipertekst HTML WWW.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
IBUK Libra WIRTUALNA CZYTELNIA
Platforma LearningApps
Zapis prezentacji:

Automatyczna analiza i synteza derywacyjna tekstu polskiego Joanna Rabiega-Wiśniewska Zakład Językoznawstwa Komputerowego Uniwersytet Warszawski jrw@mercury.ci.uw.edu.pl seminarium Przetwarzanie języka naturalnego IPI PAN, 25.10.02

Plan referatu Przedstawię… …źródła mojego zainteresowania derywacją; …cel, który sobie wyznaczyłam; …zastosowania automatycznej derywacji; …problemy związane z zastosowaniami; … podstawy formalnego opisu polskiego słowotwórstwa; …problemy związane z opisem; … pomysł na implementację; …oraz podsumowanie.

Dlaczego słowotwórstwo? IV Konferencja „Formal Description of Slavic Languages” w Poczdamie, listopad 2001. konwersatorium „Językoznawstwo komputerowe w praktyce” (2001/2002): praca Doroty Kalinowskiej „Quasi-słowotwórstwo”. brak opracowań formalnych.

Cele stworzenie formalnego i praktycznego opisu polskiego słowotwórstwa. zaprojektowanie narzędzia (narzędzi) do pełnej analizy oraz syntezy morfologicznej. przebudowa słownika gramatycznego programu AMOR – powiązanie ze sobą leksemów w rodziny derywacyjne.

Zastosowania (1) automatyczna analiza słowotwórcza: podanie podstawy słowotwórczej derywatu; podanie znaczenia (kategorie słowotwórcze). automatyczna synteza słowotwórcza: tworzenie derywatów od zadanej podstawy; (formalnie lub pojęciowo).

Zastosowania (2) Poziomy wykorzystania analizy i syntezy słowotwórczej: użytkownik programów przetwarzających teksty (np. wyszukiwarki); językoznawca; leksykograf.

Zastosowania (3) Automatyczna analiza derywacyjna: słowniki komputerowe (odesłanie użytkownika do znanego hasła oraz stawianie hipotez co do znaczeń derywatów). nieliterackość  literackość  literacki pseudoromański  romański

Zastosowania (4) Automatyczna analiza derywacyjna: przeszukiwanie korpusów tekstów; sprawdzanie produktywności reguł tworzenia nowych derywatów; leksykografia.

Zastosowania (5) Analiza i synteza derywacyjna: sprawdzanie pisowni: analiza: nieznane słowo może pochodzić od innego, znanego słownikowi; synteza: dodawanie grup derywatów. dwu-, trzy-, piętnasto- dwusilnikowy, trzywieżowy, piętnastopokojowy

Zastosowania (6) Automatyczna synteza derywacyjna: wyszukiwanie w zbiorach tekstów: konieczna analiza fleksyjna. ząbkować : ząbkowanie, nieząbkujący, ale raczej nie – ząbkowany

Problemy z zastosowaniami tworzenie mało prawdopodobnych derywatów: kontrola pisowni: siedmioświatowy, siedmiostołowy. błędne rozpoznawanie pewnych leksemów jako derywatów innych: analiza derywacyjna: kartka  karta; wyszukiwanie: lity  litość.

Rozwiązania uznawanie za derywaty słów spoza słownika: blacik  blat, korelujący  korelować; a nie: macka  maca. zdefiniowanie klas (listy podstaw, opis semantyczny, itp.) chociażby przez znaczniki: rzeczowniki oznaczające „istoty młode” (lwię, kocię, słonię) tworzone są tylko od rzeczowników oznaczających „istoty dorosłe”.

Tradycyjny opis słowotwórczy (1) między gramatyką a słownikiem: klasy derywacyjne zawierają leksemy tworzone różnymi formantami (spawacz, malarz, grafik); formanty cechuje wieloznaczność (marynarka, wiertarka, bibliotekarka); nieprzewidywalna liczba derywatów (kartoflisko, rtęciówka).

Tradycyjny opis słowotwórczy (2) klasyfikacja semantyczna: nazwy wykonawców czynności, narzędzi, miejsc, itd.; analiza budowy istniejących (potwierdzonych) leksemów. niedoceniana rola fleksji; brak systematycznego opisu wykładników formalnych; brak opisu potencji; nacisk na „czucie” użytkownika.

Propozycja opisu formalnego podział materiału na grupy za względu na regularność derywacji; opis klas; budowa reguł derywacyjnych: włączenie informacji fleksyjnej; wewnętrzne reguły fonetyczne. wykorzystanie słownika gramatycznego programu AMOR.

Materiał empiryczny (1) Derywacja regularna (I): derywaty imienne odczasownikowe: odsłowniki (smażenie); imiesłowy przymiotnikowe (smażący, smażony); imiesłowy przysłówkowe (smażąc, usmażywszy).

Materiał empiryczny (2) Derywacja regularna (I): derywaty odprzymiotnikowe: nazwy cech (wesołość, finitywność); zdrobnienia (głupawy); stopień wyższy i najwyższy.

Materiał empiryczny (3) Derywacja regularna (I): formacje powstałe przez przyłączanie określonych cząstek: ‘nie-’+ odsłownik (niewerbalizowanie); ‘nie-’+ przymiotnik (niemieszkalny); liczebnik + ‘lecie’ (pięciolecie); liczebnik + ‘letni’ (sześćdziesięcioletni).

Materiał empiryczny (4) Derywacja średnio regularna (II): nazwy żeńskie (krupierka, listonoszka); zdrobnienia przymiotników (czerwoniutki); zdrobnienia rzeczowników (stolik, sówka); nazwy miejsc (kawiarnia); nazwy mieszkańców (Warszawianin).

Materiał empiryczny (5) Derywacja średnio regularna (II): liczebnik + przymiotnik (piętnastoodcinkowy, trzystufuntowy); przedrostki ‘anty-’, ‘para-’, ‘kontr-’, ‘arcy-’, ‘mini-’ (antyhiszpański, arcygłupi).

Materiał empiryczny (6) Derywacja mało regularna (III): derywaty mało seryjne (kreskówka); podgrupy kategorii semantycznych (koszulówka); grupy zróżnicowane wewnętrznie (filmować, żelować).

Problemy z danymi (1) ograniczenia semantyczne podstawy: nazwy żeńskie (marynarka, szoferka, magisterka); zdrobnienia przymiotników (gorącutki, pradawniutki); zdrobnienia rzeczowników (inteligencyjka). uznanie leksemu za derywat: matka  mata, maska  masa. znaczenie derywatu: czterowykwintny?, siedmiogrząski?

Problemy z danymi (2) nadmiarowość: antyzajęczy?, kontrkrzesło?, minikrowa? granica między fleksją i derywacją (I); równokształtność derywatu z istniejącym leksemem.

Przykłady reguł (1) 1. nazwa żeńska (‘pokrewieństwo’) od rzeczownika męskoosobowego: F(Dop.l.p.mos) –a +owa F(Mian.l.p.ż.) majster  majstrowa, policjant  policjantowa 2. nazwa cechy: F(Mian.l.p.m.) [-i]/[y] +ość F(Mian. l.p.ż.) niepośledni  niepośledniość, hermetyczny  hermetyczność

Przykłady reguł (2) 3. odsłowniki: F(IV 3.l.p.m.) –ł +nie F(I Mian.l.p.n.) malować  malowanie destylować  destylowanie 4. liczebniki z cząstką ‘-stolecie’: F(Mian.l.p.m.) –sty +stolecie F(I Mian.l.p.n.) dwudziesty  dwudziestolecie

Implementacja Funkcje programu Słowotwórca (autor Michał Rudolf): odcinanie prefiksów; odcinanie sufiksów; odcinanie zakończeń; dodawanie zakończeń; zastępowanie tekstu; sprawdzanie charakterystyki gramatycznej; sprawdzanie charakterystyki fleksyjnej; sprawdzanie grupy odmiany; sprawdzanie zakończeń .

Podsumowanie Zalety: rozszerzenie funkcji istniejących już narzędzi przetwarzania tekstu polskiego; możliwość wyjścia poza słownik; możliwość sprawdzania poprawności budowy nowych jednostek znalezionych w korpusie; dostęp do grup leksemów w słowniku.

Dziękuję.