Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

Slides:



Advertisements
Podobne prezentacje
WYNIKI EGZAMINU GIMNAZJALNEGO Z JĘZYKA NOWOŻYTNEGO ROK SZKOLNY 2009/2010.
Advertisements

Lingwistyka Matematyczna
Czy uważasz, że na I roku studiów licencjackich powinna być obowiązkowa indywidualna lektura grecka w oryginale?
Obserwowalność System ciągły System dyskretny
WYKŁAD 6 ATOM WODORU W MECHANICE KWANTOWEJ (równanie Schrődingera dla atomu wodoru, separacja zmiennych, stan podstawowy 1s, stany wzbudzone 2s i 2p,
Ludwik Antal - Numeryczna analiza pól elektromagnetycznych –W10
Liczby pierwsze.
Jaki personel zatrudniamy a jaki byśmy chcieli?
1 mgr inż. Sylwester Laskowski Opiekun Naukowy: prof. dr hab. inż. Andrzej P. Wierzbicki.
PROGRAM OPERACYJNY KAPITAŁ LUDZKI Priorytet III, Działanie 3.2
Materiały pochodzą z Platformy Edukacyjnej Portalu
11 RDF Wertykalne zastosowania XML-a. 22 RDF - Wprowadzenie Problemy Sieć jest nieczytelna dla programów komputerowych. Sieć zawiera zbyt wiele informacji.
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
Metoda pierwszeństwa operatorów
® System do analizy tekstów ortograficznych Cezary Dołęga,
(na podstawie badań ankietowych)
JĘZYK POLSKI KLASY IV - VI
UŁAMKI DZIESIĘTNE porównywanie, dodawanie i odejmowanie.
Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006
PREPARATYWNA CHROMATOGRAFIA CIECZOWA.
Zastosowanie pamięci semantycznej we wspomaganiu decyzji medycznych
Jest to wyrażenie jednoznacznie stwierdzające, na gruncie danego języka, iż tak a tak jest albo że tak a tak nie jest. Zazwyczaj określa się, iż takim.
CZASOWNIK- odmienna część mowy. Jego odmiana nazywa się KONIUGACJĄ
E-learning czy kontakt bezpośredni w szkoleniu nowych użytkowników bibliotek uczelni niepaństwowych? EFEKTYWNOŚĆ OBU FORM SZKOLENIA BIBLIOTECZNEGO W ŚWIETLE.
Rok: 2007/2008 Autor: Zuzia Didyk i Justyna Wajda
Pytania konkursowe.
LICZEBNIK: Odmienna część mowy Oznacza ilość, liczbę, kolejność
Odmienne i nieodmienne części mowy
O relacjach i algorytmach
CZĘŚCI MOWY Lekcja gramatyki Szymon Szymura Klasa VI a klik.
o granicy funkcji przy obliczaniu granic Twierdzenia
Wyrażenia algebraiczne
IV OTWARTE MISTRZOSTWA OPOLA W PROGRAMOWANIU ZESPOŁOWYM
Powtórka z polskiego dla klas 5-6
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.
Języki i automaty część 3.
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
XML – eXtensible Markup Language
Statystyka ©M.
11. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
Stabilność Stabilność to jedno z najważniejszych pojęć dynamiki systemów i teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym.
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
EcoCondens Kompakt BBK 7-22 E.
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
Obliczalność czyli co da się policzyć i jak Model obliczeń sieci liczące dr Kamila Barylska.
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Gramatyki Lindenmayera
Systemy dynamiczne 2014/2015Obserwowalno ść i odtwarzalno ść  Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Obserwowalność.
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
GRAMATYKA ŁATWA I PRZYJEMNA.
Modelowanie Kognitywne
Elementy geometryczne i relacje
Strategia pomiaru.
Języki formalne Copyright, 2006 © Jerzy R. Nawrocki Wprowadzenie do informatyki Wykład.
ANALIZA SKŁADNIOWA.
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Systemy wspomagające dowodzenie twierdzeń
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Wstęp do programowania Wykład 9
Części mowy Edyta Sawicka.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
CZASOWNIK- odmienna część mowy. Jego odmiana nazywa się KONIUGACJĄ
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
KANCLERZ PRZYMIOTNIK Wykonali:
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Zapis prezentacji:

Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006 W2: Gramatyki Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

Plan W1: Lingwistyka W2: Gramatyki W3: Gramatyki, Statystyka W4: Zastosowania 25.03.2006 2 z 52

Ciąg przekształceń NLP wypowiedź synteza mowy tekst w języku naturalnym reprezentacja semantyczna (np. logiczna) reakcja (wykonanie operacji, sformułowanie odpowiedzi) 25.03.2006 3 z 52

Aspekty informatyczne Modele formalne Modele dedukcyjne Algorytmy genetyczne Algorytmy miękkich obliczeń Algorytmy statystyczne Złożone struktury danych i algorytmy ich przetwarzania Bazy danych i bazy wiedzy Ontologie 25.03.2006 4 z 52

Wiedza o języku a realizacja wyznaczonego celu Zrozumienie polecenia analiza językowa (identyfikacja słów, ich form, związków między nimi) odniesienie do rzeczywistości Wybór odpowiedzi ew. odrzucenie polecenia mimo możliwości wykonania go Sformułowanie odpowiedzi wybór słów, ich form, porządku pragmatyka: uprzejma odmowa, podziękowanie odniesienie do poprzedniej części dialogu (np. ten, to, on) 25.03.2006 5 z 52

Wiedza o języku naturalnym Fonologia: dźwięki należące do języka Fonetyka: dźwięki Morfologia: struktura/formy wyrazów fleksja słowotwórstwo Leksyka: opisuje słowa, zbiory słów Leksykografia – zasady zapisu, struktura słowa Leksykologia – zewnętrzne znaczenie słowa Ortografia: zasady pisowni Składnia: zależności strukturalne między słowami (budowa fraz) Semantyka: znaczenie Pragmatyka: relacja do świata, zastosowania Zależności międzyzdaniowe (discourse) 25.03.2006 6 z 52

Problemy  niejednoznaczność Wiele zadań NLP można scharakteryzować jako rozstrzyganie wieloznaczności, np: kategoria składniowa Jan pali. (czasownik) Jan nie zobaczył pali. (rzeczownik) znaczenie (i kategoria składniowa) Piła! – okrzyk radości ma widok zgubionej piły, niezbyt pochlebna ocena nauczyciela, wyraz zdegustowania nadużyciem alkoholu Uszył jej buty. „nawiasowanie” negacji Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię) wiązane zaimków Jan kazał Piotrowi wyczyścić swoje buty. Źrórło przykładów: wykład A. Mykowieckiej, IPI PAN 25.03.2006 7 z 52

Niejednoznaczności - dwie drogi Przetwarzanie informacji poszczególnych rodzajów: ściśle powiązane: informacje przekazywane między poziomami, wybierane najskuteczniejsze kryteria ujednoznacznienia słabo powiązane: opieranie decyzji na wiedzy jednego typu (ew. kilku wybranych) bez odwoływania się do innego rodzaju informacji (założenie, że i tak niewiele pomogą) 25.03.2006 8 z 52

Gramatyki formalne, metody statystyczne klasyczne opisy teoretyczne poszczególnych poziomów języka, przekształcanie na zapis formalny ( np. rozbiór syntaktyczny zgodny z jakąś teorią, formuła logiczna) zalety: metody pewne, ścisłe, wada: pokrywają niewielki podzbiór wypowiedzi w języku naturalnym metody statystyczne – wnioskowanie o zależnościach występujących w języku naturalnym na podstawie dużych zbiorów danych metody przybliżone, ale praktycznie użyteczne metody statystyczne wspomagane ustaleniami uzyskanymi drogą teoretyczną metody formalne wspomagane metodami statystycznymi 25.03.2006 9 z 52

Formalny opis języka Alfabet - dowolny zbiór symboli (V). Słowo - skończony (także pusty-) ciąg symboli należących do alfabetu Słownik - zbiór wszystkich słów nad alfabetem V, (V*). Język L to dowolny podzbiór zbioru słów V* nad alfabetem V. Gramatyka <V,T,S,P > V- alfabet, T- podzbiór V, symbole terminalne, S - element V-T, P - zbiór produkcji Język to zbiór słów generowanych przez gramatykę 25.03.2006 10 z 52

Hierarchia gramatyk/języków (Chomsky, 1959) regularna (regular) X  α Y gdzie X,Y są symbolami nieterminalnym, α ciągiem terminali; Y może być pominięte bezkontekstowa (Context-free) X  γ, X -symbol nieterminalny, γ ciąg dowolnych symboli kontekstowa (Context-sensitive) αXβ  αγβ, X - symbol nieterminany, α, β, γ ciągi symboli terminalych i nieterminalnych, γ nie może być pusty rekurencyjnie przeliczalna (Turing Equivalent, Type 0) α  β; α, β ciągi symboli terminalych i nieterminalnych 25.03.2006 11 z 52

Do jakiej klasy należą języki naturalne? Długa dyskusja o tym, do której kategorii należą poszczególne języki naturalne Wiele „dowodów” na to, że angielski jest językiem kontekstowym Obecny stan wiedzy: składnia i morfologia angielskiego jest bezkontekstowa szwajcarski dialekt niemieckiego ma składnię kontekstową morfologia języka Bambara (Mali) kontekstowa 25.03.2006 12 z 52

Gramatyki formalne c.d. Teoria gramatyk – lata 50-te, dyscyplina matematyczna Konstruowanie i badanie gramatyk formalnych Gramatyki formalne – pewne abstrakcje, które występują jako modele konkretnych systemów reguł gramatycznych Powiązanie z teorią algorytmów i teorią automatów Pojęcia i metody zinterpretowane w sposób specyficzny, rozwijane w innych, nowych kierunkach Wygodny metajęzyk Bardzo rozległa dziedzina 25.03.2006 13 z 52

Gramatyki formalne c.d. Wykorzystanie do opisu różnych poziomów JN Fonologiczny Jak buduje się morfy z fonem Morfologiczny Jaka jest struktura wyrazów (w jaki sposób morfy składają się na leksemy) Syntaktyczny Jaka jest struktura zdania (jak wyrazy składają się na zdanie) Semantyczny Jak znaczenia słów składają się na znaczenie zdania Jak struktura semantyczna zdania określa treść 25.03.2006 14 z 52

Gramatyki formalne c.d. Uogólniając: gramatyka jest algorytmem, który pozwala „określić” język (1) Jest możliwość wybrać taki reżym pracy algorytmu, który dla każdego ciągu danego języka pozwala otrzymać (generować) ten ciąg, przy tym żaden ciąg nienależący do języka nie będzie generowany (2) Istnieje możliwość „przeliczenia” języka (generowanie ciągów po kolei tak długo, że będzie w stanie wygenerować dowolny ciąg) (3) Istnieje możliwość otrzymania odpowiedzi na pytanie o przynależności dowolnego ciągu z odpowiedniego słownika do danego języka Zwykle korzystają z podejścia (1) – modeluje sytuację – jak skonstruować zdanie zawierające pewną treść Model generuje nie zdania z zadanym sensem, a wszystkie możliwe „prawidłowe” zdania, pojęcie sensu tu nie istnieje, ale Pozwala zrozumieć, jak sens przekształca się w tekst (tym samym tekst – w sens) 25.03.2006 15 z 52

Słowa (pisownia, wymowa, morfologia) typy słów słowa funkcyjne: i, że ... słowa „leksykalne”: koń, szukać ... idiomy: ciemno choć oko wykol, drzeć koty frazy o znaczeniu nie będącym funkcją znaczeń składników: biały kruk, skrzynia biegów powiązania z innymi słowami szukać czego? książka o czym? z czego? słownik: zbiór informacji o słowach i charakterystycznych dla nich związkach z innymi słowami 25.03.2006 16 z 52

Słowa – kategorie gramatyczne Słowa należące do danego języka naturalnego dzielą się na wiele (ok. kilkunastu) kategorii składniowych Najważniejsze kategorie składniowe to: czasowniki (śpi, daje, ...) Verbs rzeczowniki (przypadek, dom, szczęście, ...) Nouns przymiotniki (wesoły, ...) Adjectives przysłówki (wesoło, ...) Adverbs przyimki (na, pod, ...) Prepositions liczebniki (dwa, sto pięć, ...) Numerals spójniki podrzędne (który, ponieważ, ...) spójniki współrzędne (i, lub, oraz, ...) ... Conjunctions 25.03.2006 17 z 52

Słowa – cechy gramatyczne (1) Słowa mogą mieć wiele form różniących się wartościami cech gramatycznych: czasowniki (liczba, osoba, czas) [number, person, time] rzeczowniki (przypadek, liczba) [case, number] przymiotniki (przypadek, rodzaj, liczba, stopień) [case, gender, number, degree] przysłówki (stopień) [degree] Słowa mogą też mieć własne (niezmienne) wartości cech: rzeczowniki: rodzaj czasowniki: tryb, aspekt 25.03.2006 18 z 52

Słowa – cechy gramatyczne (2) liczba [number] singular (pojedyncza), plural (mnoga); przypadek [case] nominative (mianownik), genetive (dopełniacz), dative (celownik), accusative (biernik), instrumental (narzędnik), locative (miejscownik), vocative (wołacz); osoba [person] 1st (os. 1), 2nd (os. 2), 3rd (os.3) stopień [degree] positive (równy), comparative (wyższy), superlative (najwyższy) aspekt [aspect] imperfect (niedokonany), perfect (dokonany) negacja [negation] affirmative (twierdzenie), negative (zaprzeczenie) czas [time] present (teraźniejszy), past (przeszły), future (przyszły) ... 25.03.2006 19 z 52

Słowa – cechy gramatyczne (3) rodzaj [gender] propozycja „szkolna” męski (masc), żeński(fem), nijaki (neut), męskoosobowy (hum-masc), niemęskoosobowy (nonhum-masc) rodzaj [gender] propozycja „formalna” hum-masc m1 (facet, lekarze) anim-masc m2 (kot, robaki) inanim-masc m3 (stół, ołówki) fem f (kobieta, żyrafa, książki) neut-hum n1 (dziecko, dzieci) neut-nonhum n2 (okno, futra) 25.03.2006 20 z 52

Rozpoznawanie mowy (1) Wymagania: Niezależność od mówcy Różne tony, dialekty itp. Mowa spontaniczna Ciągłość – rozpoznawanie granic słów bez dodatkowych pauz, rozpoznawanie granic zdań Niezależność od dziedziny (od treści wypowiedzi) – słowniki Uczenie się nowych słów – słowniki Niezawodność (odporność na błędy przy rozpoznaniu) 25.03.2006 21 z 52

Rozpoznawanie mowy (2) Pytanie: Odpowiedź: Wiedza gramatyczna Wiedza o dziedzinie (kontekście) Jak najlepiej łączyć? Odpowiedź: W ramach teorii języka, która bazuje na Funkcjonalności Matematycznym uzasadnieniu efektywności Algorytmizacji 25.03.2006 22 z 52

Problemy fonetyki i fonologii (1) Problemy rozpoznawania dźwięków Różne „a” itp. w tym samym języku Różne brzmienie w różnych językach Problem pauz Problem szumu Gromadzenie baz danych nagrań Gromadzenie baz danych – słowników fonetycznych Formalizmy HMM – ukryte modele Markowa Sieci neuronowe N-gramy 25.03.2006 23 z 52

Problemy fonetyki i fonologii (2) Podstawowy element sieci Markowa są tzw. polifony – odpowiedniki fonemów (z uwzględnieniem ich sąsiedztwa) Wynik rozpoznawania – pewna liczba mniej lub bardziej prawdopodobnych ciągów słów Jak podzielić ten ciąg na zdania? Problem nie jest rozwiązany nawet teoretycznie Wykorzystanie „huśtawki” wysokości tonów wypowiedzi (prozodia) Wykorzystanie analizy składniowej jako instrumentu wyszukiwania centrum predykatywnych: Ciąg słów przetwarzany na postać tekstową Analiza morfologiczna i składniowa (ew. semantyczna) Odnalezienie kontekstów centrum predykatywnych 25.03.2006 24 z 52

Problemy fonetyki i fonologii (3) Błędy rozpoznawania Pominięcie wyrazu Niedokładne rozpoznanie końcówki Wstawianie dodatkowych krótkich wyrazów (np. przyimków) Słowniki Porównywanie z hasłami słownika Nie ma możliwości rozpoznania nieistniejącego w słowniku słowa „Próg prawdopodobieństwa” rozpoznanego słowa do zawartego w słowniku Informowanie o wykryciu niezgodnego słowa Podanie słowa najbardziej zbliżonego do hasła słownikowego Pominięcie wątpliwego słowa 25.03.2006 25 z 52

Problem generowania mowy Generowanie słowa Generowanie wypowiedzi Intonacja Akcent logiczny Pauzy między słowami Jako ciekawostka – wykorzystanie francuskiej bazy danych nagrań do syntezy polskiej mowy Niespodziewane zastosowanie: do nauczania dzieci niesłyszących mówienia (przez porównanie obrazków wzorcowego wykresu (z BD nagrań) i aktualnego) 25.03.2006 26 z 52

Rozpoznawanie wypowiedzi w języku migowym Te same problemy, w tym aspekty fonetyczne Różnica: rozpoznać /generować trzeba nie dźwięki, a gesty Problemy dodatkowe: przetwarzanie 3D2Dsymulacja 3D To samo: język warg (czytanie z ust) 25.03.2006 27 z 52

Morfologia i lematyzacja Lematyzacja: wskazanie formy podstawowej analizowanego słowa Analiza morfologiczna: przypisanie wyrazom odpowiednich kategorii gramatycznych Cześć mowy Rodzaj Liczba Przypadek Tryb Osoba itd. Synteza (generowanie) morfologiczne: generowanie form wyrazów wg polecenia – zbioru cech (kategorii) gramatycznych 25.03.2006 28 z 52

Morfologia Wiedza o strukturze słowa – szczególnie dla języków fleksyjnych Bazy danych Gromadzenie dużych zbiorów Weryfikacja Dostęp, Szybkie przeszukiwanie itd. Teoretycznie problem jest rozwiązany Praktycznych wcieleń (doskonałych) niewiele Obejmowanie języka w całości Bezbłędne działanie Analiza wg analogii dla słów brakujących w słowniku Wysoka wydajność 25.03.2006 29 z 52

Morfologia: analiza i generowanie Wszystkie słowoformy w bazie danych W bazie danych – rdzenie i końcówki W bazie danych – formy podstawowe i końcówki Różne gramatyki, w tym bazujące na regułach, teorii automatów, statystyczne itp. Problemy ogólne Algorytmy poszukiwania odpowiedniej formy Złożoność algorytmów Objętość baz danych Szybkość działania Niezawodność itd. 25.03.2006 30 z 52

Morfologia: anotowanie informacjami składniowymi Przypisywanie słowom nazwy kategorii składniowej i wartości cech morfologicznych, np. piła: V, os.3, l. poj., r.ż, cz. przeszły N, l.poj., r. ż., mian. Zastosowania: zamiana tekstu na mowę, wyszukiwanie informacji, analiza składniowa, tłumaczenie. Dane: zbiór tagów (indeksów, etykiet) (tagset) słownik zawierający słowa wraz z ich tagami (lub bez tagów – zależy od podejścia) tekst do analizy 25.03.2006 31 z 52

Tagset Spis wszystkich możliwych kombinacji cech gramatycznych dla danego języka T  C1×C2 ×... × Cn zwykle ciąg liter i cyfr: system skrótów: NNS (gen. noun, plural) system pozycyjny: pozycja i odpowiada Ci: AAMP3----2A---- gen. Adj., Masc., Pl., 3rd case (dative), comparative (2nd degree of comparison), Affirmative (no negation) tense, person, variant, etc.: N/A (oznaczone ‘-’) 25.03.2006 32 z 52

Problemy Tagi podlegają standardowemu prawu dystrybucji: większość słów ma tylko jedną kategorię składniową z pozostałej część większość słów ma dwie kategorie … Oczywiście, najczęściej pojawiające się słowa często mają więcej niż jeden tag, np. lub (czasownik i spójnik), mam (czasownik i rzeczownik) itd. ! Stosunkowo łatwo przypisać tagi poszczególnym słowom, ale nie tak łatwo przypisać tagi słowom w tekście tzn. problemem jest stwierdzenie, które z jednakowo wyglądających słów zostało użyte w danym miejscu tekstu 25.03.2006 33 z 52

Morfologia: wynik analizy (Morf) .+ Jan jan 1 111141 48:1:1 szedł iść 4 12311 48:5:1 czytając czytać c3 --- 48:11:1 książkę książka 241 48:20:1 .& . ZPK EFR 48:27:1 49:1:1 zasnął zasnąć 49:5:1 przeczytawszy przeczytać c2 49:12:1 49:26:1 49:33:1 25.03.2006 34 z 52

Problem niejednoznaczności .+li Jeżeli jeż 1 112142172 53:65:0 *@li jeżeli 8 - ** 8a .+ powtarzamy powtarzać 4 11120 54:1:0 to ten 21 311341512542 54:12:0 *@ 61 -11-41 .* , ZPK EFR 54:14:0 czego co 6 -21 54:16:0 *+ się 65 54:22:0 nauczyliśmy nauczyć 12124 54:26:0 *+śmy 12324 *+liśmy 11310 .@ i 31 54:38:0 81 jeszcze a3 54:40:0 pamiętamy pamiętać 54:48:0 54:57:0 25.03.2006 35 z 52

Składnia (syntaktyka) (1) Analiza składniowa: określenie struktury zdania i jego części składowych Teoretyczne zasady składni języka – dla każdego języka z osobna Topologia zdania Problemy klasyfikacji wyrazów W gramatyce tradycyjnej W lingwistyce komputerowej Funkcje gramatyczne Tradycyjne Nietradycyjne 25.03.2006 36 z 52

Składnia (syntaktyka) (2) Wiedza o sposobie łączenia słów we frazy, a fraz w zdania Potrzeba informacji składniowych: analiza i korekta gramatyczna analiza pytań do baz danych wyszukiwanie informacji generowanie wypowiedzi w języku naturalnym tłumaczenie Opisy formalne języka polskiego: S. Szpakowicz, Formalny opis składniowy zdań polskich, Wyd. UW, 1986 M. Świdziński, Formalna gramatyka języka polskiego, Wyd. UW, 1992 25.03.2006 37 z 52

Gramatyki formalne, kryterium Kryterium główne: adekwatność i algorytmizacja podejścia, co jest ważne dla implementacji W jakim celu jest opracowywana analiza (jaka faza analizy tekstu jest następna, np. semantyka, transfer itp.) Jak formalizm radzi sobie z opisem gramatycznych zjawisk Dopełnienia dalsze i bliższe Szyk zdania Anafory Elipsy itp. Ścisła zależność między strukturami składniowymi i strukturami morfologicznymi Szczególnie – dla języków fleksyjnych 25.03.2006 38 z 52

Gramatyki składni Niech x – niepusty łańcuch (słowo) w słowniku V, i niech π jest zbiorem wszystkich symboli x. Binarna relacja  na π, dla której graf <π, > jest drzewem, będziemy nazywać relacją zależności składniowej dla x. Samo drzewo <π, > nazywa się drzewem zależności dla x. Niech π – niepusty łańcuch (słowo) w słowniku V. Zbiór C odcinków łańcucha π nazywa się systemem składników bezpośrednich (drzewem struktury frazowej), jeżeli: Do C należy odcinek składający się ze wszystkich elementów π, w tym do C należą wszystkie pojedyncze elementy π Dowolne dwa odcinki C lub nie mają wspólnych elementów, lub jeden z nich zawiera inny 25.03.2006 39 z 52

Frazy Frazy (phrases) to ciągi słów/fraz proste / zdaniowe (zdania, składające się z fraz, także są frazami) podział w zależności od typu elementu głównego (podkreślony): rzeczownikowe : ciekawa książka o malarstwie przymiotnikowe: zupełnie nowa przysłówkowe: bardzo dobrze przyimkowe: w piątym rzędzie czasownikowe: złapać zająca liczebnikowe: drugi raz 25.03.2006 40 z 52

Frazy rzeczownikowe, NP dom najstarszy dom w okolicy dom, którego dach pomalowany był na niebiesko największa ulewa od czasu, kiedy jego dziadek, zmuszony przez rodzinę żony, przeprowadził się do tego miasteczka kobieta, dziecko i pies ani wznoszenie błagalnych okrzyków ani bicie głową w mur 25.03.2006 41 z 52

Frazy przyimkowe, PP w domu z szybkim napastnikiem należącym do drużyny przeciwnej do punktu, z którego już nie mógł się wycofać do smutku i żalu lub do czarnej rozpaczy w góry lub nad morze 25.03.2006 42 z 52

Frazy liczebnikowe, NumP trzynaście dwadzieścia tysięcy czterysta trzy i pół godziny pierwsi dwaj chłopcy albo pięciu albo tylko dwóch liczebniki porządkowe (pierwszy, trzysta trzeci ) są zwykle traktowane jako przymiotniki 25.03.2006 43 z 52

Frazy przymiotnikowe, AdjP biały najbardziej zmęczony z całej drużyny większy i bielszy niż przed rokiem zarówno pewny i głęboko przeświadczony o swej racji i w istocie najbardziej zacięty z nas wszystkich, jak też zaciekle walczący o swoje prawa 25.03.2006 44 z 52

Frazy przysłówkowe, AdvP szybko szybciej niż ktokolwiek mógł przypuszczać wczoraj lub jeszcze dawniej zarówno niewygodnie, jak też z całą pewnością ładniej, a także bardziej elegancko 25.03.2006 45 z 52

Frazy czasownikowe, VP kupił obraz wierzę, że o tym nie zapomnisz wczoraj bez żadnego namawiania przewiózł fotel samochodem z mieszkania ciotki do pracowni za 200 zł kupił używany samochód, naprawił go i sprzedał za dwukrotnie wyższą cenę 25.03.2006 46 z 52

Podstawowe problemy składniowe Uzgodnienia (~równość cech) Podmiot – orzeczenie: (rodzaj, liczba, osoba) Piotr idzie *idą ale: Piotr i Maria idą. Idzie / idą Piotr i Maria. Pięciu chłopców przyszło. Dwaj chłopcy przyszli. Rzeczownik – przymiotnik: (przypadek, rodzaj, liczba) białym krukiem (*kruka) itd. 25.03.2006 47 z 52

Problemy składniowe, cd. Negacja Jan chciał kupić książkę. Jan nie chciał kupić książki / *książkę. Jan nikogo nie oszukał. *Jan nikogo oszukał. Koordynacja (struktury współrzędne) frazy tego samego typu: koń i osioł; mały i zadziorny frazy różnego typu: ufnie i bez strachu Frazy „niepełne”: złapał i ze złością odrzucił piłkę 25.03.2006 48 z 52

Kolejne problemy Szyk (ew. „przesunięcia”) Zależności odległe Do niego Jan szedł po raz drugi. I looked up his grade. I looked his grade up. Zależności odległe Kogo chciałabyś, aby Piotr zaprosił? To ten, którego musiałbyś poprosić o zgodę Nieciągłość fraz Smutny czekał go koniec. Elipsy (brak wymaganych słów bądź fraz) dialogi: Kogo widzisz? - Piotra [widzę]. koordynacja różnego typu składników czy elipsa? Pittsburgh prowadzi 4:0 ale Detroit [prowadzi] tylko 3:1. pro-drop (pominięcie zaimkowego podmiotu) (to dość proste do analizy) [Ja] zdałam egzamin. 25.03.2006 49 z 52

Drzewo struktury frazowej ((DaimlerChrysler’s shares)NP (rose (three eights)NUMP (to 22)PP-NUM )VP )S 25.03.2006 50 z 52

Daimler Chrysler’s shares rose three eights to 22 Drzewo zależności Daimler Chrysler’s shares rose three eights to 22 25.03.2006 51 z 52

Koniec 25.03.2006 52 z 52