Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

Podobne prezentacje


Prezentacja na temat: "Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006"— Zapis prezentacji:

1 Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006
W2: Gramatyki Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

2 Plan W1: Lingwistyka W2: Gramatyki W3: Gramatyki, Statystyka
W4: Zastosowania 2 z 52

3 Ciąg przekształceń NLP
wypowiedź synteza mowy tekst w języku naturalnym reprezentacja semantyczna (np. logiczna) reakcja (wykonanie operacji, sformułowanie odpowiedzi) 3 z 52

4 Aspekty informatyczne
Modele formalne Modele dedukcyjne Algorytmy genetyczne Algorytmy miękkich obliczeń Algorytmy statystyczne Złożone struktury danych i algorytmy ich przetwarzania Bazy danych i bazy wiedzy Ontologie 4 z 52

5 Wiedza o języku a realizacja wyznaczonego celu
Zrozumienie polecenia analiza językowa (identyfikacja słów, ich form, związków między nimi) odniesienie do rzeczywistości Wybór odpowiedzi ew. odrzucenie polecenia mimo możliwości wykonania go Sformułowanie odpowiedzi wybór słów, ich form, porządku pragmatyka: uprzejma odmowa, podziękowanie odniesienie do poprzedniej części dialogu (np. ten, to, on) 5 z 52

6 Wiedza o języku naturalnym
Fonologia: dźwięki należące do języka Fonetyka: dźwięki Morfologia: struktura/formy wyrazów fleksja słowotwórstwo Leksyka: opisuje słowa, zbiory słów Leksykografia – zasady zapisu, struktura słowa Leksykologia – zewnętrzne znaczenie słowa Ortografia: zasady pisowni Składnia: zależności strukturalne między słowami (budowa fraz) Semantyka: znaczenie Pragmatyka: relacja do świata, zastosowania Zależności międzyzdaniowe (discourse) 6 z 52

7 Problemy  niejednoznaczność
Wiele zadań NLP można scharakteryzować jako rozstrzyganie wieloznaczności, np: kategoria składniowa Jan pali. (czasownik) Jan nie zobaczył pali. (rzeczownik) znaczenie (i kategoria składniowa) Piła! – okrzyk radości ma widok zgubionej piły, niezbyt pochlebna ocena nauczyciela, wyraz zdegustowania nadużyciem alkoholu Uszył jej buty. „nawiasowanie” negacji Nie zrobisz tego? Nie (nie zrobię albo właśnie, że zrobię) wiązane zaimków Jan kazał Piotrowi wyczyścić swoje buty. Źrórło przykładów: wykład A. Mykowieckiej, IPI PAN 7 z 52

8 Niejednoznaczności - dwie drogi
Przetwarzanie informacji poszczególnych rodzajów: ściśle powiązane: informacje przekazywane między poziomami, wybierane najskuteczniejsze kryteria ujednoznacznienia słabo powiązane: opieranie decyzji na wiedzy jednego typu (ew. kilku wybranych) bez odwoływania się do innego rodzaju informacji (założenie, że i tak niewiele pomogą) 8 z 52

9 Gramatyki formalne, metody statystyczne
klasyczne opisy teoretyczne poszczególnych poziomów języka, przekształcanie na zapis formalny ( np. rozbiór syntaktyczny zgodny z jakąś teorią, formuła logiczna) zalety: metody pewne, ścisłe, wada: pokrywają niewielki podzbiór wypowiedzi w języku naturalnym metody statystyczne – wnioskowanie o zależnościach występujących w języku naturalnym na podstawie dużych zbiorów danych metody przybliżone, ale praktycznie użyteczne metody statystyczne wspomagane ustaleniami uzyskanymi drogą teoretyczną metody formalne wspomagane metodami statystycznymi 9 z 52

10 Formalny opis języka Alfabet - dowolny zbiór symboli (V).
Słowo - skończony (także pusty-) ciąg symboli należących do alfabetu Słownik - zbiór wszystkich słów nad alfabetem V, (V*). Język L to dowolny podzbiór zbioru słów V* nad alfabetem V. Gramatyka <V,T,S,P > V- alfabet, T- podzbiór V, symbole terminalne, S - element V-T, P - zbiór produkcji Język to zbiór słów generowanych przez gramatykę 10 z 52

11 Hierarchia gramatyk/języków (Chomsky, 1959)
regularna (regular) X  α Y gdzie X,Y są symbolami nieterminalnym, α ciągiem terminali; Y może być pominięte bezkontekstowa (Context-free) X  γ, X -symbol nieterminalny, γ ciąg dowolnych symboli kontekstowa (Context-sensitive) αXβ  αγβ, X - symbol nieterminany, α, β, γ ciągi symboli terminalych i nieterminalnych, γ nie może być pusty rekurencyjnie przeliczalna (Turing Equivalent, Type 0) α  β; α, β ciągi symboli terminalych i nieterminalnych 11 z 52

12 Do jakiej klasy należą języki naturalne?
Długa dyskusja o tym, do której kategorii należą poszczególne języki naturalne Wiele „dowodów” na to, że angielski jest językiem kontekstowym Obecny stan wiedzy: składnia i morfologia angielskiego jest bezkontekstowa szwajcarski dialekt niemieckiego ma składnię kontekstową morfologia języka Bambara (Mali) kontekstowa 12 z 52

13 Gramatyki formalne c.d. Teoria gramatyk – lata 50-te, dyscyplina matematyczna Konstruowanie i badanie gramatyk formalnych Gramatyki formalne – pewne abstrakcje, które występują jako modele konkretnych systemów reguł gramatycznych Powiązanie z teorią algorytmów i teorią automatów Pojęcia i metody zinterpretowane w sposób specyficzny, rozwijane w innych, nowych kierunkach Wygodny metajęzyk Bardzo rozległa dziedzina 13 z 52

14 Gramatyki formalne c.d. Wykorzystanie do opisu różnych poziomów JN
Fonologiczny Jak buduje się morfy z fonem Morfologiczny Jaka jest struktura wyrazów (w jaki sposób morfy składają się na leksemy) Syntaktyczny Jaka jest struktura zdania (jak wyrazy składają się na zdanie) Semantyczny Jak znaczenia słów składają się na znaczenie zdania Jak struktura semantyczna zdania określa treść 14 z 52

15 Gramatyki formalne c.d. Uogólniając: gramatyka jest algorytmem, który pozwala „określić” język (1) Jest możliwość wybrać taki reżym pracy algorytmu, który dla każdego ciągu danego języka pozwala otrzymać (generować) ten ciąg, przy tym żaden ciąg nienależący do języka nie będzie generowany (2) Istnieje możliwość „przeliczenia” języka (generowanie ciągów po kolei tak długo, że będzie w stanie wygenerować dowolny ciąg) (3) Istnieje możliwość otrzymania odpowiedzi na pytanie o przynależności dowolnego ciągu z odpowiedniego słownika do danego języka Zwykle korzystają z podejścia (1) – modeluje sytuację – jak skonstruować zdanie zawierające pewną treść Model generuje nie zdania z zadanym sensem, a wszystkie możliwe „prawidłowe” zdania, pojęcie sensu tu nie istnieje, ale Pozwala zrozumieć, jak sens przekształca się w tekst (tym samym tekst – w sens) 15 z 52

16 Słowa (pisownia, wymowa, morfologia)
typy słów słowa funkcyjne: i, że ... słowa „leksykalne”: koń, szukać ... idiomy: ciemno choć oko wykol, drzeć koty frazy o znaczeniu nie będącym funkcją znaczeń składników: biały kruk, skrzynia biegów powiązania z innymi słowami szukać czego? książka o czym? z czego? słownik: zbiór informacji o słowach i charakterystycznych dla nich związkach z innymi słowami 16 z 52

17 Słowa – kategorie gramatyczne
Słowa należące do danego języka naturalnego dzielą się na wiele (ok. kilkunastu) kategorii składniowych Najważniejsze kategorie składniowe to: czasowniki (śpi, daje, ...) Verbs rzeczowniki (przypadek, dom, szczęście, ...) Nouns przymiotniki (wesoły, ...) Adjectives przysłówki (wesoło, ...) Adverbs przyimki (na, pod, ...) Prepositions liczebniki (dwa, sto pięć, ...) Numerals spójniki podrzędne (który, ponieważ, ...) spójniki współrzędne (i, lub, oraz, ...) Conjunctions 17 z 52

18 Słowa – cechy gramatyczne (1)
Słowa mogą mieć wiele form różniących się wartościami cech gramatycznych: czasowniki (liczba, osoba, czas) [number, person, time] rzeczowniki (przypadek, liczba) [case, number] przymiotniki (przypadek, rodzaj, liczba, stopień) [case, gender, number, degree] przysłówki (stopień) [degree] Słowa mogą też mieć własne (niezmienne) wartości cech: rzeczowniki: rodzaj czasowniki: tryb, aspekt 18 z 52

19 Słowa – cechy gramatyczne (2)
liczba [number] singular (pojedyncza), plural (mnoga); przypadek [case] nominative (mianownik), genetive (dopełniacz), dative (celownik), accusative (biernik), instrumental (narzędnik), locative (miejscownik), vocative (wołacz); osoba [person] st (os. 1), 2nd (os. 2), 3rd (os.3) stopień [degree] positive (równy), comparative (wyższy), superlative (najwyższy) aspekt [aspect] imperfect (niedokonany), perfect (dokonany) negacja [negation] affirmative (twierdzenie), negative (zaprzeczenie) czas [time] present (teraźniejszy), past (przeszły), future (przyszły) ... 19 z 52

20 Słowa – cechy gramatyczne (3)
rodzaj [gender] propozycja „szkolna” męski (masc), żeński(fem), nijaki (neut), męskoosobowy (hum-masc), niemęskoosobowy (nonhum-masc) rodzaj [gender] propozycja „formalna” hum-masc m1 (facet, lekarze) anim-masc m2 (kot, robaki) inanim-masc m3 (stół, ołówki) fem f (kobieta, żyrafa, książki) neut-hum n1 (dziecko, dzieci) neut-nonhum n2 (okno, futra) 20 z 52

21 Rozpoznawanie mowy (1) Wymagania: Niezależność od mówcy
Różne tony, dialekty itp. Mowa spontaniczna Ciągłość – rozpoznawanie granic słów bez dodatkowych pauz, rozpoznawanie granic zdań Niezależność od dziedziny (od treści wypowiedzi) – słowniki Uczenie się nowych słów – słowniki Niezawodność (odporność na błędy przy rozpoznaniu) 21 z 52

22 Rozpoznawanie mowy (2) Pytanie: Odpowiedź: Wiedza gramatyczna
Wiedza o dziedzinie (kontekście) Jak najlepiej łączyć? Odpowiedź: W ramach teorii języka, która bazuje na Funkcjonalności Matematycznym uzasadnieniu efektywności Algorytmizacji 22 z 52

23 Problemy fonetyki i fonologii (1)
Problemy rozpoznawania dźwięków Różne „a” itp. w tym samym języku Różne brzmienie w różnych językach Problem pauz Problem szumu Gromadzenie baz danych nagrań Gromadzenie baz danych – słowników fonetycznych Formalizmy HMM – ukryte modele Markowa Sieci neuronowe N-gramy 23 z 52

24 Problemy fonetyki i fonologii (2)
Podstawowy element sieci Markowa są tzw. polifony – odpowiedniki fonemów (z uwzględnieniem ich sąsiedztwa) Wynik rozpoznawania – pewna liczba mniej lub bardziej prawdopodobnych ciągów słów Jak podzielić ten ciąg na zdania? Problem nie jest rozwiązany nawet teoretycznie Wykorzystanie „huśtawki” wysokości tonów wypowiedzi (prozodia) Wykorzystanie analizy składniowej jako instrumentu wyszukiwania centrum predykatywnych: Ciąg słów przetwarzany na postać tekstową Analiza morfologiczna i składniowa (ew. semantyczna) Odnalezienie kontekstów centrum predykatywnych 24 z 52

25 Problemy fonetyki i fonologii (3)
Błędy rozpoznawania Pominięcie wyrazu Niedokładne rozpoznanie końcówki Wstawianie dodatkowych krótkich wyrazów (np. przyimków) Słowniki Porównywanie z hasłami słownika Nie ma możliwości rozpoznania nieistniejącego w słowniku słowa „Próg prawdopodobieństwa” rozpoznanego słowa do zawartego w słowniku Informowanie o wykryciu niezgodnego słowa Podanie słowa najbardziej zbliżonego do hasła słownikowego Pominięcie wątpliwego słowa 25 z 52

26 Problem generowania mowy
Generowanie słowa Generowanie wypowiedzi Intonacja Akcent logiczny Pauzy między słowami Jako ciekawostka – wykorzystanie francuskiej bazy danych nagrań do syntezy polskiej mowy Niespodziewane zastosowanie: do nauczania dzieci niesłyszących mówienia (przez porównanie obrazków wzorcowego wykresu (z BD nagrań) i aktualnego) 26 z 52

27 Rozpoznawanie wypowiedzi w języku migowym
Te same problemy, w tym aspekty fonetyczne Różnica: rozpoznać /generować trzeba nie dźwięki, a gesty Problemy dodatkowe: przetwarzanie 3D2Dsymulacja 3D To samo: język warg (czytanie z ust) 27 z 52

28 Morfologia i lematyzacja
Lematyzacja: wskazanie formy podstawowej analizowanego słowa Analiza morfologiczna: przypisanie wyrazom odpowiednich kategorii gramatycznych Cześć mowy Rodzaj Liczba Przypadek Tryb Osoba itd. Synteza (generowanie) morfologiczne: generowanie form wyrazów wg polecenia – zbioru cech (kategorii) gramatycznych 28 z 52

29 Morfologia Wiedza o strukturze słowa – szczególnie dla języków fleksyjnych Bazy danych Gromadzenie dużych zbiorów Weryfikacja Dostęp, Szybkie przeszukiwanie itd. Teoretycznie problem jest rozwiązany Praktycznych wcieleń (doskonałych) niewiele Obejmowanie języka w całości Bezbłędne działanie Analiza wg analogii dla słów brakujących w słowniku Wysoka wydajność 29 z 52

30 Morfologia: analiza i generowanie
Wszystkie słowoformy w bazie danych W bazie danych – rdzenie i końcówki W bazie danych – formy podstawowe i końcówki Różne gramatyki, w tym bazujące na regułach, teorii automatów, statystyczne itp. Problemy ogólne Algorytmy poszukiwania odpowiedniej formy Złożoność algorytmów Objętość baz danych Szybkość działania Niezawodność itd. 30 z 52

31 Morfologia: anotowanie informacjami składniowymi
Przypisywanie słowom nazwy kategorii składniowej i wartości cech morfologicznych, np. piła: V, os.3, l. poj., r.ż, cz. przeszły N, l.poj., r. ż., mian. Zastosowania: zamiana tekstu na mowę, wyszukiwanie informacji, analiza składniowa, tłumaczenie. Dane: zbiór tagów (indeksów, etykiet) (tagset) słownik zawierający słowa wraz z ich tagami (lub bez tagów – zależy od podejścia) tekst do analizy 31 z 52

32 Tagset Spis wszystkich możliwych kombinacji cech gramatycznych dla danego języka T  C1×C2 ×... × Cn zwykle ciąg liter i cyfr: system skrótów: NNS (gen. noun, plural) system pozycyjny: pozycja i odpowiada Ci: AAMP3----2A---- gen. Adj., Masc., Pl., 3rd case (dative), comparative (2nd degree of comparison), Affirmative (no negation) tense, person, variant, etc.: N/A (oznaczone ‘-’) 32 z 52

33 Problemy Tagi podlegają standardowemu prawu dystrybucji:
większość słów ma tylko jedną kategorię składniową z pozostałej część większość słów ma dwie kategorie … Oczywiście, najczęściej pojawiające się słowa często mają więcej niż jeden tag, np. lub (czasownik i spójnik), mam (czasownik i rzeczownik) itd. ! Stosunkowo łatwo przypisać tagi poszczególnym słowom, ale nie tak łatwo przypisać tagi słowom w tekście tzn. problemem jest stwierdzenie, które z jednakowo wyglądających słów zostało użyte w danym miejscu tekstu 33 z 52

34 Morfologia: wynik analizy (Morf)
.+ Jan jan 1 111141 48:1:1 szedł iść 4 12311 48:5:1 czytając czytać c3 --- 48:11:1 książkę książka 241 48:20:1 .& . ZPK EFR 48:27:1 49:1:1 zasnął zasnąć 49:5:1 przeczytawszy przeczytać c2 49:12:1 49:26:1 49:33:1 34 z 52

35 Problem niejednoznaczności
.+li Jeżeli jeż 1 53:65:0 jeżeli 8 - ** 8a .+ powtarzamy powtarzać 4 11120 54:1:0 to ten 21 54:12:0 61 -11-41 .* , ZPK EFR 54:14:0 czego co 6 -21 54:16:0 *+ się 65 54:22:0 nauczyliśmy nauczyć 12124 54:26:0 *+śmy 12324 *+liśmy 11310 i 31 54:38:0 81 jeszcze a3 54:40:0 pamiętamy pamiętać 54:48:0 54:57:0 35 z 52

36 Składnia (syntaktyka) (1)
Analiza składniowa: określenie struktury zdania i jego części składowych Teoretyczne zasady składni języka – dla każdego języka z osobna Topologia zdania Problemy klasyfikacji wyrazów W gramatyce tradycyjnej W lingwistyce komputerowej Funkcje gramatyczne Tradycyjne Nietradycyjne 36 z 52

37 Składnia (syntaktyka) (2)
Wiedza o sposobie łączenia słów we frazy, a fraz w zdania Potrzeba informacji składniowych: analiza i korekta gramatyczna analiza pytań do baz danych wyszukiwanie informacji generowanie wypowiedzi w języku naturalnym tłumaczenie Opisy formalne języka polskiego: S. Szpakowicz, Formalny opis składniowy zdań polskich, Wyd. UW, 1986 M. Świdziński, Formalna gramatyka języka polskiego, Wyd. UW, 1992 37 z 52

38 Gramatyki formalne, kryterium
Kryterium główne: adekwatność i algorytmizacja podejścia, co jest ważne dla implementacji W jakim celu jest opracowywana analiza (jaka faza analizy tekstu jest następna, np. semantyka, transfer itp.) Jak formalizm radzi sobie z opisem gramatycznych zjawisk Dopełnienia dalsze i bliższe Szyk zdania Anafory Elipsy itp. Ścisła zależność między strukturami składniowymi i strukturami morfologicznymi Szczególnie – dla języków fleksyjnych 38 z 52

39 Gramatyki składni Niech x – niepusty łańcuch (słowo) w słowniku V, i niech π jest zbiorem wszystkich symboli x. Binarna relacja  na π, dla której graf <π, > jest drzewem, będziemy nazywać relacją zależności składniowej dla x. Samo drzewo <π, > nazywa się drzewem zależności dla x. Niech π – niepusty łańcuch (słowo) w słowniku V. Zbiór C odcinków łańcucha π nazywa się systemem składników bezpośrednich (drzewem struktury frazowej), jeżeli: Do C należy odcinek składający się ze wszystkich elementów π, w tym do C należą wszystkie pojedyncze elementy π Dowolne dwa odcinki C lub nie mają wspólnych elementów, lub jeden z nich zawiera inny 39 z 52

40 Frazy Frazy (phrases) to ciągi słów/fraz
proste / zdaniowe (zdania, składające się z fraz, także są frazami) podział w zależności od typu elementu głównego (podkreślony): rzeczownikowe : ciekawa książka o malarstwie przymiotnikowe: zupełnie nowa przysłówkowe: bardzo dobrze przyimkowe: w piątym rzędzie czasownikowe: złapać zająca liczebnikowe: drugi raz 40 z 52

41 Frazy rzeczownikowe, NP
dom najstarszy dom w okolicy dom, którego dach pomalowany był na niebiesko największa ulewa od czasu, kiedy jego dziadek, zmuszony przez rodzinę żony, przeprowadził się do tego miasteczka kobieta, dziecko i pies ani wznoszenie błagalnych okrzyków ani bicie głową w mur 41 z 52

42 Frazy przyimkowe, PP w domu
z szybkim napastnikiem należącym do drużyny przeciwnej do punktu, z którego już nie mógł się wycofać do smutku i żalu lub do czarnej rozpaczy w góry lub nad morze 42 z 52

43 Frazy liczebnikowe, NumP
trzynaście dwadzieścia tysięcy czterysta trzy i pół godziny pierwsi dwaj chłopcy albo pięciu albo tylko dwóch liczebniki porządkowe (pierwszy, trzysta trzeci ) są zwykle traktowane jako przymiotniki 43 z 52

44 Frazy przymiotnikowe, AdjP
biały najbardziej zmęczony z całej drużyny większy i bielszy niż przed rokiem zarówno pewny i głęboko przeświadczony o swej racji i w istocie najbardziej zacięty z nas wszystkich, jak też zaciekle walczący o swoje prawa 44 z 52

45 Frazy przysłówkowe, AdvP
szybko szybciej niż ktokolwiek mógł przypuszczać wczoraj lub jeszcze dawniej zarówno niewygodnie, jak też z całą pewnością ładniej, a także bardziej elegancko 45 z 52

46 Frazy czasownikowe, VP kupił obraz wierzę, że o tym nie zapomnisz
wczoraj bez żadnego namawiania przewiózł fotel samochodem z mieszkania ciotki do pracowni za 200 zł kupił używany samochód, naprawił go i sprzedał za dwukrotnie wyższą cenę 46 z 52

47 Podstawowe problemy składniowe
Uzgodnienia (~równość cech) Podmiot – orzeczenie: (rodzaj, liczba, osoba) Piotr idzie *idą ale: Piotr i Maria idą. Idzie / idą Piotr i Maria. Pięciu chłopców przyszło. Dwaj chłopcy przyszli. Rzeczownik – przymiotnik: (przypadek, rodzaj, liczba) białym krukiem (*kruka) itd. 47 z 52

48 Problemy składniowe, cd.
Negacja Jan chciał kupić książkę. Jan nie chciał kupić książki / *książkę. Jan nikogo nie oszukał. *Jan nikogo oszukał. Koordynacja (struktury współrzędne) frazy tego samego typu: koń i osioł; mały i zadziorny frazy różnego typu: ufnie i bez strachu Frazy „niepełne”: złapał i ze złością odrzucił piłkę 48 z 52

49 Kolejne problemy Szyk (ew. „przesunięcia”) Zależności odległe
Do niego Jan szedł po raz drugi. I looked up his grade. I looked his grade up. Zależności odległe Kogo chciałabyś, aby Piotr zaprosił? To ten, którego musiałbyś poprosić o zgodę Nieciągłość fraz Smutny czekał go koniec. Elipsy (brak wymaganych słów bądź fraz) dialogi: Kogo widzisz? - Piotra [widzę]. koordynacja różnego typu składników czy elipsa? Pittsburgh prowadzi 4:0 ale Detroit [prowadzi] tylko 3:1. pro-drop (pominięcie zaimkowego podmiotu) (to dość proste do analizy) [Ja] zdałam egzamin. 49 z 52

50 Drzewo struktury frazowej
((DaimlerChrysler’s shares)NP (rose (three eights)NUMP (to 22)PP-NUM )VP )S 50 z 52

51 Daimler Chrysler’s shares rose three eights to 22
Drzewo zależności Daimler Chrysler’s shares rose three eights to 22 51 z 52

52 Koniec 52 z 52


Pobierz ppt "Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006"

Podobne prezentacje


Reklamy Google