Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

W2: Gramatyki Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006.

Podobne prezentacje


Prezentacja na temat: "W2: Gramatyki Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006."— Zapis prezentacji:

1 W2: Gramatyki Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

2 z 52 Plan W1: Lingwistyka W2: Gramatyki W3: Gramatyki, Statystyka W4: Zastosowania

3 z 52 Ciąg przekształceń NLP wypowiedź synteza mowy tekst w języku naturalnym reprezentacja semantyczna (np. logiczna) reakcja (wykonanie operacji, sformułowanie odpowiedzi)

4 z 52 Aspekty informatyczne Modele formalne Modele dedukcyjne Algorytmy genetyczne Algorytmy miękkich obliczeń Algorytmy statystyczne Złożone struktury danych i algorytmy ich przetwarzania Bazy danych i bazy wiedzy Ontologie

5 z 52 Zrozumienie polecenia analiza językowa (identyfikacja słów, ich form, związków między nimi) odniesienie do rzeczywistości Wiedza o języku a realizacja wyznaczonego celu Wybór odpowiedzi ew. odrzucenie polecenia mimo możliwości wykonania go Sformułowanie odpowiedzi wybór słów, ich form, porządku pragmatyka: uprzejma odmowa, podziękowanie odniesienie do poprzedniej części dialogu (np. ten, to, on)

6 z 52 Wiedza o języku naturalnym Fonologia: dźwięki należące do języka Fonetyka: dźwięki Morfologia: struktura/formy wyrazów –fleksja –słowotwórstwo Leksyka: opisuje słowa, zbiory słów –Leksykografia – zasady zapisu, struktura słowa –Leksykologia – zewnętrzne znaczenie słowa Ortografia: zasady pisowni Składnia: zależności strukturalne między słowami (budowa fraz) Semantyka: znaczenie Pragmatyka: relacja do świata, zastosowania Zależności międzyzdaniowe (discourse)

7 z 52 Problemy niejednoznaczność Wiele zadań NLP można scharakteryzować jako rozstrzyganie wieloznaczności, np: –kategoria składniowa Jan pali. (czasownik) Jan nie zobaczył pali. (rzeczownik) –znaczenie (i kategoria składniowa) Piła! – okrzyk radości ma widok zgubionej piły, –niezbyt pochlebna ocena nauczyciela, –wyraz zdegustowania nadużyciem alkoholu Uszył jej buty. –nawiasowanie negacji Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię) –wiązane zaimków Jan kazał Piotrowi wyczyścić swoje buty. Źrórło przykładów: wykład A. Mykowieckiej, IPI PAN

8 z 52 Niejednoznaczności - dwie drogi Przetwarzanie informacji poszczególnych rodzajów: ściśle powiązane: –informacje przekazywane między poziomami, wybierane najskuteczniejsze kryteria ujednoznacznienia słabo powiązane: –opieranie decyzji na wiedzy jednego typu (ew. kilku wybranych) bez odwoływania się do innego rodzaju informacji (założenie, że i tak niewiele pomogą)

9 z 52 Gramatyki formalne, metody statystyczne klasyczne opisy teoretyczne poszczególnych poziomów języka, przekształcanie na zapis formalny ( np. rozbiór syntaktyczny zgodny z jakąś teorią, formuła logiczna) –zalety: metody pewne, ścisłe, –wada: pokrywają niewielki podzbiór wypowiedzi w języku naturalnym metody statystyczne – wnioskowanie o zależnościach występujących w języku naturalnym na podstawie dużych zbiorów danych –metody przybliżone, ale praktycznie użyteczne metody statystyczne wspomagane ustaleniami uzyskanymi drogą teoretyczną metody formalne wspomagane metodami statystycznymi

10 z 52 Formalny opis języka Alfabet - dowolny zbiór symboli (V). Słowo - skończony (także pusty- ) ciąg symboli należących do alfabetu Słownik- zbiór wszystkich słów nad alfabetem V, (V*). Język L to dowolny podzbiór zbioru słów V* nad alfabetem V. Gramatyka –V- alfabet, –T- podzbiór V, symbole terminalne, –S - element V-T, –P - zbiór produkcji Język to zbiór słów generowanych przez gramatykę

11 z 52 Hierarchia gramatyk/języków (Chomsky, 1959) regularna (regular) X α Y gdzie X,Y są symbolami nieterminalnym, α ciągiem terminali; Y może być pominięte bezkontekstowa (Context-free) X γ, X -symbol nieterminalny, γ ciąg dowolnych symboli kontekstowa(Context-sensitive) αXβ αγβ, X - symbol nieterminany, α, β, γ ciągi symboli terminalych i nieterminalnych, γ nie może być pusty rekurencyjnie przeliczalna (Turing Equivalent, Type 0) α β; α, β ciągi symboli terminalych i nieterminalnych

12 z 52 Do jakiej klasy należą języki naturalne? Długa dyskusja o tym, do której kategorii należą poszczególne języki naturalne Wiele dowodów na to, że angielski jest językiem kontekstowym Obecny stan wiedzy: –składnia i morfologia angielskiego jest bezkontekstowa –szwajcarski dialekt niemieckiego ma składnię kontekstową –morfologia języka Bambara (Mali) kontekstowa

13 z 52 Gramatyki formalne c.d. Teoria gramatyk – lata 50-te, dyscyplina matematyczna –Konstruowanie i badanie gramatyk formalnych Gramatyki formalne – pewne abstrakcje, które występują jako modele konkretnych systemów reguł gramatycznych Powiązanie z teorią algorytmów i teorią automatów Pojęcia i metody zinterpretowane w sposób specyficzny, rozwijane w innych, nowych kierunkach –Wygodny metajęzyk –Bardzo rozległa dziedzina

14 z 52 Gramatyki formalne c.d. Wykorzystanie do opisu różnych poziomów JN –Fonologiczny Jak buduje się morfy z fonem –Morfologiczny Jaka jest struktura wyrazów (w jaki sposób morfy składają się na leksemy) –Syntaktyczny Jaka jest struktura zdania (jak wyrazy składają się na zdanie) –Semantyczny Jak znaczenia słów składają się na znaczenie zdania Jak struktura semantyczna zdania określa treść

15 z 52 Gramatyki formalne c.d. Uogólniając: gramatyka jest algorytmem, który pozwala określić język (1) Jest możliwość wybrać taki reżym pracy algorytmu, który dla każdego ciągu danego języka pozwala otrzymać (generować) ten ciąg, przy tym żaden ciąg nienależący do języka nie będzie generowany (2) Istnieje możliwość przeliczenia języka (generowanie ciągów po kolei tak długo, że będzie w stanie wygenerować dowolny ciąg) (3) Istnieje możliwość otrzymania odpowiedzi na pytanie o przynależności dowolnego ciągu z odpowiedniego słownika do danego języka Zwykle korzystają z podejścia (1) – modeluje sytuację – jak skonstruować zdanie zawierające pewną treść –Model generuje nie zdania z zadanym sensem, a wszystkie możliwe prawidłowe zdania, pojęcie sensu tu nie istnieje, ale –Pozwala zrozumieć, jak sens przekształca się w tekst (tym samym tekst – w sens)

16 z 52 Słowa (pisownia, wymowa, morfologia) typy słów –słowa funkcyjne: i, że... –słowa leksykalne: koń, szukać... –idiomy: ciemno choć oko wykol, drzeć koty frazy o znaczeniu nie będącym funkcją znaczeń składników: –biały kruk, skrzynia biegów powiązania z innymi słowami –szukać czego? –książka o czym? z czego? słownik: zbiór informacji o słowach i charakterystycznych dla nich związkach z innymi słowami

17 z 52 Słowa – kategorie gramatyczne Słowa należące do danego języka naturalnego dzielą się na wiele (ok. kilkunastu) kategorii składniowych Najważniejsze kategorie składniowe to: –czasowniki (śpi, daje,...) Verbs –rzeczowniki (przypadek, dom, szczęście,...) Nouns –przymiotniki (wesoły,...) Adjectives –przysłówki (wesoło,...) Adverbs –przyimki (na, pod,...) Prepositions –liczebniki (dwa, sto pięć,...) Numerals –spójniki podrzędne (który, ponieważ,...) –spójniki współrzędne (i, lub, oraz,...)... Conjunctions

18 z 52 Słowa – cechy gramatyczne (1) Słowa mogą mieć wiele form różniących się wartościami cech gramatycznych: –czasowniki (liczba, osoba, czas) [number, person, time] –rzeczowniki (przypadek, liczba) [case, number] –przymiotniki (przypadek, rodzaj, liczba, stopień) [case, gender, number, degree ] –przysłówki (stopień) [degree] Słowa mogą też mieć własne (niezmienne) wartości cech: –rzeczowniki: rodzaj –czasowniki: tryb, aspekt

19 z 52 Słowa – cechy gramatyczne (2) liczba [number] singular (pojedyncza), plural (mnoga); przypadek [case] nominative (mianownik), genetive (dopełniacz), dative (celownik), accusative (biernik), instrumental (narzędnik), locative (miejscownik), vocative (wołacz); osoba [person] 1st (os. 1), 2nd (os. 2), 3rd (os.3) stopień [degree] positive (równy), comparative (wyższy), superlative (najwyższy) aspekt [aspect] imperfect (niedokonany), perfect (dokonany) negacja [negation] affirmative (twierdzenie), negative (zaprzeczenie) czas [time]present (teraźniejszy), past (przeszły), future (przyszły)...

20 z 52 Słowa – cechy gramatyczne (3) rodzaj [gender] propozycja szkolna męski (masc), żeński(fem), nijaki (neut), męskoosobowy (hum-masc), niemęskoosobowy (nonhum-masc) rodzaj [gender] propozycja formalna hum-mascm1(facet, lekarze) anim-mascm2(kot, robaki) inanim-mascm3(stół, ołówki) femf(kobieta, żyrafa, książki) neut-humn1(dziecko, dzieci) neut-nonhumn2(okno, futra)

21 z 52 Rozpoznawanie mowy (1) Wymagania: –Niezależność od mówcy Różne tony, dialekty itp. Mowa spontaniczna –Ciągłość – rozpoznawanie granic słów bez dodatkowych pauz, rozpoznawanie granic zdań –Niezależność od dziedziny (od treści wypowiedzi) – słowniki –Uczenie się nowych słów – słowniki –Niezawodność (odporność na błędy przy rozpoznaniu)

22 z 52 Rozpoznawanie mowy (2) Pytanie: –Wiedza gramatyczna –Wiedza o dziedzinie (kontekście) –Jak najlepiej łączyć? Odpowiedź: –W ramach teorii języka, która bazuje na Funkcjonalności Matematycznym uzasadnieniu efektywności Algorytmizacji

23 z 52 Problemy fonetyki i fonologii (1) Problemy rozpoznawania dźwięków –Różne a itp. w tym samym języku –Różne brzmienie w różnych językach –Problem pauz –Problem szumu –Gromadzenie baz danych nagrań –Gromadzenie baz danych – słowników fonetycznych Formalizmy –HMM – ukryte modele Markowa –Sieci neuronowe –N-gramy

24 z 52 Problemy fonetyki i fonologii (2) Podstawowy element sieci Markowa są tzw. polifony – odpowiedniki fonemów (z uwzględnieniem ich sąsiedztwa) Wynik rozpoznawania – pewna liczba mniej lub bardziej prawdopodobnych ciągów słów Jak podzielić ten ciąg na zdania? Problem nie jest rozwiązany nawet teoretycznie –Wykorzystanie huśtawki wysokości tonów wypowiedzi (prozodia) –Wykorzystanie analizy składniowej jako instrumentu wyszukiwania centrum predykatywnych: Ciąg słów przetwarzany na postać tekstową Analiza morfologiczna i składniowa (ew. semantyczna) Odnalezienie kontekstów centrum predykatywnych

25 z 52 Problemy fonetyki i fonologii (3) Błędy rozpoznawania –Pominięcie wyrazu –Niedokładne rozpoznanie końcówki –Wstawianie dodatkowych krótkich wyrazów (np. przyimków) Słowniki –Porównywanie z hasłami słownika Nie ma możliwości rozpoznania nieistniejącego w słowniku słowa Próg prawdopodobieństwa rozpoznanego słowa do zawartego w słowniku –Informowanie o wykryciu niezgodnego słowa –Podanie słowa najbardziej zbliżonego do hasła słownikowego –Pominięcie wątpliwego słowa

26 z 52 Problem generowania mowy Generowanie słowa Generowanie wypowiedzi Intonacja Akcent logiczny Pauzy między słowami Jako ciekawostka – wykorzystanie francuskiej bazy danych nagrań do syntezy polskiej mowy Niespodziewane zastosowanie: do nauczania dzieci niesłyszących mówienia (przez porównanie obrazków wzorcowego wykresu (z BD nagrań) i aktualnego)

27 z 52 Rozpoznawanie wypowiedzi w języku migowym Te same problemy, w tym aspekty fonetyczne Różnica: rozpoznać /generować trzeba nie dźwięki, a gesty Problemy dodatkowe: przetwarzanie 3D 2D symulacja 3D To samo: język warg (czytanie z ust)

28 z 52 Morfologia i lematyzacja Lematyzacja: wskazanie formy podstawowej analizowanego słowa Analiza morfologiczna: przypisanie wyrazom odpowiednich kategorii gramatycznych –Cześć mowy –Rodzaj –Liczba –Przypadek –Tryb –Osoba itd. Synteza (generowanie) morfologiczne: generowanie form wyrazów wg polecenia – zbioru cech (kategorii) gramatycznych

29 z 52 Morfologia Wiedza o strukturze słowa – szczególnie dla języków fleksyjnych Bazy danych –Gromadzenie dużych zbiorów –Weryfikacja –Dostęp, –Szybkie przeszukiwanie itd. Teoretycznie problem jest rozwiązany Praktycznych wcieleń (doskonałych) niewiele –Obejmowanie języka w całości –Bezbłędne działanie –Analiza wg analogii dla słów brakujących w słowniku –Wysoka wydajność

30 z 52 Morfologia: analiza i generowanie Wszystkie słowoformy w bazie danych W bazie danych – rdzenie i końcówki W bazie danych – formy podstawowe i końcówki Różne gramatyki, w tym bazujące na regułach, teorii automatów, statystyczne itp. Problemy ogólne –Algorytmy poszukiwania odpowiedniej formy –Złożoność algorytmów –Objętość baz danych –Szybkość działania –Niezawodność itd.

31 z 52 Morfologia: anotowanie informacjami składniowymi Przypisywanie słowom nazwy kategorii składniowej i wartości cech morfologicznych, np. piła: V, os.3, l. poj., r.ż, cz. przeszły – N, l.poj., r. ż., mian. Zastosowania: zamiana tekstu na mowę, wyszukiwanie informacji, analiza składniowa, tłumaczenie. Dane: –zbiór tagów (indeksów, etykiet) (tagset) –słownik zawierający słowa wraz z ich tagami (lub bez tagów – zależy od podejścia) –tekst do analizy

32 z 52 Tagset Spis wszystkich możliwych kombinacji cech gramatycznych dla danego języka –T C 1 ×C 2 ×... × C n –zwykle ciąg liter i cyfr: system skrótów: NNS (gen. noun, plural) system pozycyjny: pozycja i odpowiada C i : –AAMP3----2A---- –gen. Adj., Masc., Pl., 3rd case (dative), comparative (2nd degree of comparison), Affirmative (no negation) –tense, person, variant, etc.: N/A (oznaczone -)

33 z 52 Problemy Tagi podlegają standardowemu prawu dystrybucji: –większość słów ma tylko jedną kategorię składniową –z pozostałej część większość słów ma dwie kategorie … Oczywiście, najczęściej pojawiające się słowa często mają więcej niż jeden tag, np. –lub (czasownik i spójnik), –mam (czasownik i rzeczownik) itd. ! Stosunkowo łatwo przypisać tagi poszczególnym słowom, ale nie tak łatwo przypisać tagi słowom w tekście –tzn. problemem jest stwierdzenie, które z jednakowo wyglądających słów zostało użyte w danym miejscu tekstu

34 z 52 Morfologia: wynik analizy (Morf).+Janjan :1:1.+szedłiść :5:1.+czytającczytaćc3---48:11:1.+książkęksiążka124148:20:1.&..ZPKEFR48:27:1.+Janjan :1:1.+zasnąłzasnąć :5:1.+przeczytawszyprzeczytaćc2---49:12:1.+książkęksiążka124149:26:1.&..ZPKEFR49:33:1

35 z 52 Problem niejednoznaczności.+li Jeżelijeż :65:0 **Jeżelijeżeli8a-53:65:0.+powtarzamypowtarzać :1:0.+toten :12:0 8-54:12:0 **to :12:0.*,,ZPKEFR54:14:0.+czegoco6-2154:16:0 *+czego --54:16:0.*się 65-54:22:0.+nauczyliśmynauczyć :26:0 *+śmynauczyliśmynauczyć :26:0 **ii81-54:38:0.*jeszcze a3-54:40:0.+pamiętamypamiętać :48:0.*,,ZPKEFR54:57:0

36 z 52 Składnia (syntaktyka) (1) Analiza składniowa: określenie struktury zdania i jego części składowych Teoretyczne zasady składni języka – dla każdego języka z osobna –Topologia zdania –Problemy klasyfikacji wyrazów W gramatyce tradycyjnej W lingwistyce komputerowej –Funkcje gramatyczne Tradycyjne Nietradycyjne

37 z 52 Składnia (syntaktyka) (2) Wiedza o sposobie łączenia słów we frazy, a fraz w zdania Potrzeba informacji składniowych: –analiza i korekta gramatyczna –analiza pytań do baz danych –wyszukiwanie informacji –generowanie wypowiedzi w języku naturalnym –tłumaczenie Opisy formalne języka polskiego: –S. Szpakowicz, Formalny opis składniowy zdań polskich, Wyd. UW, 1986 –M. Świdziński, Formalna gramatyka języka polskiego, Wyd. UW, 1992

38 z 52 Gramatyki formalne, kryterium Kryterium główne: adekwatność i algorytmizacja podejścia, co jest ważne dla implementacji W jakim celu jest opracowywana analiza (jaka faza analizy tekstu jest następna, np. semantyka, transfer itp.) Jak formalizm radzi sobie z opisem gramatycznych zjawisk –Dopełnienia dalsze i bliższe –Szyk zdania –Anafory –Elipsy itp. Ścisła zależność między strukturami składniowymi i strukturami morfologicznymi –Szczególnie – dla języków fleksyjnych

39 z 52 Gramatyki składni Niech x – niepusty łańcuch (słowo) w słowniku V, i niech π jest zbiorem wszystkich symboli x. Binarna relacja na π, dla której graf jest drzewem, będziemy nazywać relacją zależności składniowej dla x. Samo drzewo nazywa się drzewem zależności dla x. Niech π – niepusty łańcuch (słowo) w słowniku V. Zbiór C odcinków łańcucha π nazywa się systemem składników bezpośrednich (drzewem struktury frazowej), jeżeli: –Do C należy odcinek składający się ze wszystkich elementów π, w tym do C należą wszystkie pojedyncze elementy π –Dowolne dwa odcinki C lub nie mają wspólnych elementów, lub jeden z nich zawiera inny

40 z 52 Frazy Frazy (phrases) to ciągi słów/fraz proste / zdaniowe (zdania, składające się z fraz, także są frazami) podział w zależności od typu elementu głównego (podkreślony): –rzeczownikowe : ciekawa książka o malarstwie –przymiotnikowe: zupełnie nowa –przysłówkowe: bardzo dobrze –przyimkowe: w piątym rzędzie –czasownikowe: złapać zająca –liczebnikowe: drugi raz

41 z 52 Frazy rzeczownikowe, NP dom najstarszy dom w okolicy dom, którego dach pomalowany był na niebiesko największa ulewa od czasu, kiedy jego dziadek, zmuszony przez rodzinę żony, przeprowadził się do tego miasteczka kobieta, dziecko i pies ani wznoszenie błagalnych okrzyków ani bicie głową w mur

42 z 52 Frazy przyimkowe, PP w domu z szybkim napastnikiem należącym do drużyny przeciwnej do punktu, z którego już nie mógł się wycofać do smutku i żalu lub do czarnej rozpaczy w góry lub nad morze

43 z 52 Frazy liczebnikowe, NumP trzynaście dwadzieścia tysięcy czterysta trzy i pół godziny pierwsi dwaj chłopcy albo pięciu albo tylko dwóch liczebniki porządkowe (pierwszy, trzysta trzeci ) są zwykle traktowane jako przymiotniki

44 z 52 Frazy przymiotnikowe, AdjP biały najbardziej zmęczony z całej drużyny większy i bielszy niż przed rokiem zarówno pewny i głęboko przeświadczony o swej racji i w istocie najbardziej zacięty z nas wszystkich, jak też zaciekle walczący o swoje prawa

45 z 52 Frazy przysłówkowe, AdvP szybko szybciej niż ktokolwiek mógł przypuszczać wczoraj lub jeszcze dawniej zarówno niewygodnie, jak też z całą pewnością ładniej, a także bardziej elegancko

46 z 52 Frazy czasownikowe, VP kupił obraz wierzę, że o tym nie zapomnisz wczoraj bez żadnego namawiania przewiózł fotel samochodem z mieszkania ciotki do pracowni za 200 zł kupił używany samochód, naprawił go i sprzedał za dwukrotnie wyższą cenę

47 z 52 Podstawowe problemy składniowe Uzgodnienia (~równość cech) Podmiot – orzeczenie: (rodzaj, liczba, osoba) –Piotr idzie *idą ale: –Piotr i Maria idą. Idzie / idą Piotr i Maria. –Pięciu chłopców przyszło. Dwaj chłopcy przyszli. Rzeczownik – przymiotnik: (przypadek, rodzaj, liczba) –białym krukiem (*kruka) itd.

48 z 52 Problemy składniowe, cd. Negacja –Jan chciał kupić książkę. –Jan nie chciał kupić książki / *książkę. –Jan nikogo nie oszukał. –*Jan nikogo oszukał. Koordynacja (struktury współrzędne) –frazy tego samego typu: koń i osioł; mały i zadziorny –frazy różnego typu: ufnie i bez strachu Frazy niepełne: –złapał i ze złością odrzucił piłkę

49 z 52 Kolejne problemy Szyk (ew. przesunięcia) –Do niego Jan szedł po raz drugi. –I looked up his grade. I looked his grade up. Zależności odległe –Kogo chciałabyś, aby Piotr zaprosił? –To ten, którego musiałbyś poprosić o zgodę Nieciągłość fraz –Smutny czekał go koniec. Elipsy (brak wymaganych słów bądź fraz) –dialogi: Kogo widzisz? - Piotra [widzę]. –koordynacja różnego typu składników czy elipsa? –Pittsburgh prowadzi 4:0 ale Detroit [prowadzi] tylko 3:1. –pro-drop (pominięcie zaimkowego podmiotu) (to dość proste do analizy) –[Ja] zdałam egzamin.

50 z 52 Drzewo struktury frazowej ((DaimlerChryslers shares)NP (rose (three eights)NUMP (to 22)PP-NUM )VP )S

51 z 52 Drzewo zależności Daimler Chryslers shares rose three eights to 22

52 z 52


Pobierz ppt "W2: Gramatyki Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006."

Podobne prezentacje


Reklamy Google