Lingwistyka komputerowa

Slides:



Advertisements
Podobne prezentacje
Lingwistyka Matematyczna
Advertisements

Lingwistyka Matematyczna
Nowa” Matura 2015 Języki obce
JĘZYK VHDL Geneza: komputerowa symulacja układu cyfrowego, Departament Obrony USA opis skomplikowanego systemu w postaci schematu jest nieczytelny, szybkie.
II Relacje i relacje równoważności
Wybrane zastosowania programowania liniowego
Mechanizm wnioskowania rozmytego
Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona
Homologia, Rozdział I „Przegląd” Homologia, Rozdział 1.
dr A Kwiatkowska Instytut Informatyki
Wprowadzenie do C++ Zajęcia 2.
Jak język angielski wpływa na współczesną polszczyznę ?
PROGRAMOWANIE STRUKTURALNE
11 RDF Wertykalne zastosowania XML-a. 22 RDF - Wprowadzenie Problemy Sieć jest nieczytelna dla programów komputerowych. Sieć zawiera zbyt wiele informacji.
Analiza Składniowa Wstępująca
Lingwistyka Matematyczna
Metoda pierwszeństwa operatorów
Opracowała: Elżbieta Fedko
P O D S T A W Y P R O G R A M O W A N I A
Języki formalne i gramatyki
Programowanie imperatywne i język C Copyright, 2004 © Jerzy R. Nawrocki Wprowadzenie.
Inteligentne Systemy Informacyjne
Wstęp do interpretacji algorytmów
ALGORYTMY Opracowała: ELŻBIETA SARKOWICZ
Bezpieczeństwo danych
Układy sekwencyjne pojęcia podstawowe.
minimalizacja automatów
POJĘCIE ALGORYTMU Pojęcie algorytmu Etapy rozwiązywania zadań
Algorytmy.
ANALIZA LEKSYKALNA. Zadaniem analizatora leksykalnego jest przetwarzanie danych pochodzących ze strumienia wejściowego a także rozpoznawanie ciągów znaków.
OTWARCIE NOWEJ SIEDZIBY INSTYTUTU PODSTAW INFORMATYKI PAN
Języki i automaty część 5.
Języki i automaty część 3.
Translatory Copyright, 2006 © Jerzy R. Nawrocki Wprowadzenie do informatyki Wykład 11.
Gramatyki i translatory
Politechniki Poznańskiej
Podstawy programowania
Algorytmika.
Obliczalność czyli co da się policzyć i jak Nieobliczalność Model obliczeń :maszyna Turinga dr Kamila Barylska.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Modelowanie Kognitywne
opracowała: Anna Mikuć
Języki formalne i gramatyki Copyright, 2005 © Jerzy R. Nawrocki Teoretyczne podstawy.
Języki formalne Copyright, 2006 © Jerzy R. Nawrocki Wprowadzenie do informatyki Wykład.
ANALIZA SKŁADNIOWA.
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.
NP-zupełność Problemy: rozwiązywalne w czasie wielomianowym - O(nk)
4 lipca 2015 godz pok września 2015 godz pok. 212.
Platforma .Net.
Podstawy programowania
Systemy wspomagające dowodzenie twierdzeń
Wstęp do interpretacji algorytmów
Wstęp do programowania Wykład 1
Wstęp do programowania Wykład 9
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
PRZEKŁADOZNAWSTWO 1) Początki okresu językoznawczego
Rodzaje illokucji: stwierdzenia (representatives, assertives) („ wiem że … i informuję cię o tym”) ekspresje (expressions) („przeżywam stan X i dlatego.
Algorytmy, sposoby ich zapisu.1 Algorytm to uporządkowany opis postępowania przy rozwiązywaniu problemu z uwzględnieniem opisu danych oraz opisu kolejnych.
Programowanie strukturalne i obiektowe Klasa I. Podstawowe pojęcia dotyczące programowania 1. Problem 2. Algorytm 3. Komputer 4. Program komputerowy 5.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Ewa Niemiec Logika dla Prawników Ewa Niemiec
Przetwarzanie języka Wprowadzenie do informatyki Jerzy Nawrocki
Projektowanie wspomagane komputerem
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Metody sztucznej inteligencji
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
POJĘCIE ALGORYTMU Wstęp do informatyki Pojęcie algorytmu
Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona
Zapis prezentacji:

Lingwistyka komputerowa Zastosowanie automatów skończonych stanów w przetwarzaniu języków naturalnych Marcin Junczys-Dowmunt

Lingwistyka komputerowa Co to jest? Lingwistyka komputerowa zajmuje się przetwarzaniem języków naturalnych przy wykorzystaniu komputerów Przedmiot badań to zarówno język pisany (teksty) jak i mowa Synteza informatycznych i językoznawczych metod oraz wiadomości

Lingwistyka komputerowa Jedna nazwa - Wiele koncepcji Dyscyplina językoznawstwa (ang. computational linguistics) Dyscyplina wykorzystująca komputery do gromadzenia i przetwarzania danych lingwistycznych Dyscyplina realizująca zjawiska językowe na komputerach (ang. natural language processing) Inżynieria lingwistyczna (ang. language technology)

Lingwistyka komputerowa Nauka interdyscyplinarna Językoznawstwo Informatyka Filozofia Sztuczna inteligencja Psychologia kognitywna Matematyka Teoria automatów Języki formalne Teoria grafów Statystyka Rachunek prawdopodobieństwa Logika matematyczna

Lingwistyka komputerowa Strona praktyczna oraz teoretyczna L.k. praktyczna Tworzenie formalizmów modelujących różne aspekty języków naturalnych Udostępnianie wiedzy o poszczególnych językach Tworzenie algorytmów i metod do przetwarzania wypowiedzi językowych Ewaluacja systemów lingwistycznych L.k. teoretyczna Badanie złożoności obliczeniowej formalizmów Badanie możliwości opisowych formalizmów Badania możliwości automatycznej nauki i kategoryzacji znaczących podzbiorów językowych

Lingwistyka komputerowa Zastosowania Ekstrakcja informacji z dużych nieuporządkowanych źródeł np. Internet, archiwa elektroniczne itp. Interfejsy językowe do systemów informatycznych np. baz danych Automatyczne rozpoznawanie mowy i tekstów Generowanie mowy i tekstów np. syntezatory mowy Tłumaczenie maszynowe Systemy dialogowe np. zamawianie biletów przez rozmowę z automatem

Historia lingwistyki komputerowej Lata 40te i 50te: Początki Koncepcja automatu (Turing 1936) Automaty skończone i zbiory regularne (Kleene 1951/1956) Modele Markova (Shannon 1948) Teoria języków formalnych (Chomsky 1956) Pojęcie entropii w teorii informacji (Shannon)

Historia lingwistyki komputerowej 1957-1970: Dwa podejścia Metody symboliczny Gramatyka generatywna Parsery syntaktyczne Stuczna inteligencja (AI) Metody statystyczne Metoda Bayes’a Optyczne rozpoznawanie liter Identyfikacja autorów tekstów

Historia lingwistyki komputerowej 1970-1983: Cztery paradygmaty Statystyczne modele (HMM do rozpoznawania mowy, synteza mowy) Logika formalna (Prolog, DCG, LFG) Rozumienie języków naturalnych (Winograd: Block World) Modelowanie dyskursu

Historia lingwistyki komputerowej 1983-1993: Odrodzenie modeli skończonych stanów i empiryzmu Morfologia i fonologia za pomocą modeli skończonych stanów (Kaplan & Kay 1981) Modele skończonych stanów składni (Church 1980) Metody stochastyczne wykraczają poza rozpoznawanie mowy (IBM)

Historia lingwistyki komputerowej 1993-1999: Połączenie sił Zastosowanie metod statystycznych w symbolicznych metodach analizy języka na wszystkich poziomach Wzrost potrzeby na systemy ekstrakcji informacji wraz z rozwojem Internetu Wzrost wydajności komputerów pozwala na komercyjne wykorzystanie wyników badań (rozpoznawanie mowy, korekcja ortografii i gramatyki)

Główny problem lingwistyki komputerowej: Wieloznaczność Wieloznaczność na wszystkich poziomach systemu językowego Fonetyka: np. Homofonia Morfologia: np. Problem analizy części mowy, homonimia Składnia: np. Problem analizy części zdania Semantyka: np. Polisemia, Idiomy Pragmatyka: np. Metafory, Ironia Trzeba często korzystać z wyższego poziomu języka w celu rozstrzygnięcia wieloznaczności

Procesy przy przetwarzaniu mowy Sygnał Wiedza syntaktyczna Przetwarzanie sygnału Analiza składniowa Akustyczne wektory Hipotezy fraz Wiedza semantyczna Ekstrakcja cech Analiza semantyczna Akustyczne cechy Hipotezy znaczeń Inwentarz jednostek Segmentacja Analiza pragmatyczna Wiedza pragmatyczna Hipotezy jednostek Słownik fonologiczny Lexical matching Zdanie i interpretacja Hipotezy słów

Gramatyki formalne Pojęcie gramatyki formalnej zostało wprowadzone przez N. Chomsky’ego Szerokie zastosowanie w językoznawstwie do określania nieskończonych podzbiorów języka naturalnego za pomocą skończonych środków Teoria g. f. rozwinęła się jako odrębna teoria matematyczna (lingwistyka matematyczna)

Według hierarchii Chomsky’ego: Gramatyki formalne Według hierarchii Chomsky’ego: Klasa 0: Gramatyki nieograniczone Klasa 1: Gramatyki kontekstowe Klasa 2: Gramatyki bezkonstekstowe Klasa 3: Gramatyki regularne (automatowe, skończenie stanowe)

Automaty skończone (FSA) Automat skończony (ang. Finite-State Automaton) to abstrakcja matematyczna, określa język formalny Składa się z skończonej ilości stanów i funkcji przejścia, która określa sposób przechodzenia od jednego stanu w inny Automat wczytuje pojedyncze symbole z taśmy wejściowej i w zależności od aktualnego stanu i wczytanego symbolu przechodzi w inny stan Automat jako akceptor – akceptuje wczytywany ciąg symboli, gdy należy do języka określonego przez dany automat, odrzuci w przypadku przeciwnym

Automaty skończone (FSA) Zapis formalny: M = ( Q, Σ, δ, q0, F ) Q - skończony zbiór stanów Σ - skończony alfabet wejściowy δ(q,a) - funkcja przejścia, gdzie q należy do Q, i gdzie a należy do Σ. Wynik δ(q,a) = q’, gdzie q’ należy do Q q0 - stan początkowy należący do Q F - zbiór stanów końcowych zawarty w Q

L(M) = { baa!, baaa!, baaaa!, baaaaa!, baaaaaa!, … } Przykład: Sheeptalk L(M) = { baa!, baaa!, baaaa!, baaaaa!, baaaaaa!, … } a b a a ! q0 q1 q2 q3 q4 Start δ a b ! q0 - q1 q2 q3 q4 q4: M = ( Q, Σ, δ, q0, F ) Σ = { a, b, ! } Q = { q0, q1, q2, q3, q4 } F = { q4 }

Przykład: Sheeptalk a b a a ! q0 q1 q2 q3 q4 Start q0 b a a a a !

Przykład: Sheeptalk a b a a ! q0 q1 q2 q3 q4 Start q1 b a a a a !

Przykład: Sheeptalk a b a a ! q0 q1 q2 q3 q4 Start q2 b a a a a !

Przykład: Sheeptalk a b a a ! q0 q1 q2 q3 q4 Start q3 b a a a a !

Przykład: Sheeptalk a b a a ! q0 q1 q2 q3 q4 Start q3 b a a a a !

Przykład: Sheeptalk a b a a ! q0 q1 q2 q3 q4 Start q3 b a a a a !

Przykład: Sheeptalk a b a a ! q0 q1 q2 q3 q4 Start q4 b a a a a !

Wady i zalety modeli skończenie stanowych Braki pod względem ekspresywności w porównaniu z językami wyższych klas Uważa się, że języki naturalne nie są regularne (ale pewne podzbiory są!) Modele skończenie stanowe nie wnoszą wiele do wiedzy o językach naturalnych Zalety: Matematycznie dogłębnie zbadane Kompaktowa reprezentacja (Minimalizacja) Dobre własności obliczeniowe (Determinizacja) Prostota konstrukcji ze względu na własności zamknięcia

Maszyny skończone w przetwarzaniu języków naturalnych Modelowanie słowników Przetwarzanie mowy Analiza morfologiczna Analiza składniowa wybranych podzbiorów języków naturalnych Modelowanie gramatyk skończenie stanowych przybliżonych do gramatyk o większych możliwościach generatywnych

FSA w morfologii/fonologii Dystrybucja Zbiór otoczeń (kontekstów) w jakich dany element językowy może występować. Istnieją znaczne ograniczenia Morfotaktyka Opis ciągów morfemów współtworzących wyraz. Rodzaj składni międzymorfemowej. Morfofonologia/Fonotaktyka Teoria alternacji morfologicznej. Teoria fonologicznej struktury morfemów.

Przykłady z Lingwistyki komputerowej Uproszczone słowotwórstwo niektórych polskich wyrazów stół -ek q0 stoł q1 q4 Start -ołowy q2 -arz stol -ka mal q3 -ar -stwo

Przykłady z Lingwistyki komputerowej Uproszczona fleksja niektórych angielskich czasowników q0 Start reg-verb-stem q1 q3 q2 irreg-verb-stem 3sg (-s) pres-part (-ing) past-part (-ed) past (-ed) irreg-past-verb-stem reg-verb-stem irreg-verb-stem irreg-past-verb-stem past past-part pres-part 3sg walk work catch speak caught spoke -ed -ing -s

Przykłady z Lingwistyki komputerowej Uproszczona fleksja niektórych niemieckich czasowników q0 Start q1 q2 wat q3 bet hast et ε en e est

Przykłady z Lingwistyki komputerowej Uproszczona morfologia niemieckich złożeń rzeczownikowych q0 Start q1 q3 q2 N I

Automaty skończone jako słowniki Wspólne przedrostki dla każdego hasła (drzewo deterministyczne, drzewo Trie) Dodatkowo wspólne przyrostki po minimalizacji drzewa Trie Jeżeli informacje dołączone do haseł zostają umieszczone w stanach końcowych, minimalizacja nie jest pełna – wspólne przyrostki przy wspólnych informacjach

Budowa słowników Drzewo deterministyczne L = { agencja, agent, agentka, bank, bat } Start

Budowa słowników Drzewo deterministyczne L = { agencja, agent, agentka, bank, bat } a g e n c j a Start 1 2 3 4 5 6 7

Budowa słowników Drzewo deterministyczne L = { agencja, agent, agentka, bank, bat } a g e n c j a Start 1 2 3 4 5 6 7 t 8

Budowa słowników Drzewo deterministyczne L = { agencja, agent, agentka, bank, bat } a g e n c j a Start 1 2 3 4 5 6 7 t 8 9 10 k a

Budowa słowników Drzewo deterministyczne L = { agencja, agent, agentka, bank, bat } a g e n c j a Start 1 2 3 4 5 6 7 t b 11 12 13 14 8 9 10 a n k k a

Budowa słowników Drzewo deterministyczne L = { agencja, agent, agentka, bank, bat } a g e n c j a Start 1 2 3 4 5 6 7 t b 11 12 13 14 8 9 10 a n k k a t 15

Budowa słowników Drzewo deterministyczne L = { agencja, agent, agentka, bank, bat } Suma liter w hasłach słownikowych: 26 a g e n c j a Start 1 2 3 4 5 6 7 t b 11 12 13 14 8 9 10 a n k k a t 15 Suma liter (przejść) w słowniku: 15

Budowa słowników Minimalizacja drzewa L = { agencja, agent, agentka, bank, bat } a g e n c j a Start 1 2 3 4 5 6 7 t b 11 12 13 14 8 9 10 a n k k a t 15

Budowa słowników Minimalizacja drzewa L = { agencja, agent, agentka, bank, bat } a g e n c j a Start 1 2 3 4 5 6 t b 7,10, 14,15 11 12 13 8 9 a n k a k t

Budowa słowników Minimalizacja drzewa L = { agencja, agent, agentka, bank, bat } Suma liter w hasłach słownikowych: 26 a g e n c j Start 1 2 3 4 5 a 6,8 t b 7,10, 14,15 11 12 13 8 a n k k t t Suma liter (przejść) w słowniku: 14

Siła automatów skończonych: Własności zamkniętości Automaty skończone są: Zamknięte ze względu na sumę Zamknięte ze względu na konkatenację Zamknięte ze względu na domknięcie Kleene’ego Zamknięte ze względu na przecięcie Zamknięte ze względu na dopełnienie

Zamkniętość ze względu na sumę q0 ε q0’ Start q0 ε

Zamkniętość ze względu na domknięcie Kleene’ego ε q0 ε ε

Zamkniętość ze względu na konkatenację q0 q0 ε ε

Zamkniętość ze względu na konkatenację q0 ε q0 ε

Przykłady z Lingwistyki komputerowej Uproszczona morfologia niemieckich złożeń rzeczownikowych q0 Start q1 q3 q2 N I

Przykład na korzystanie z własności zamkniętości 1 2 N M1 6 7 N M3 3 4 N 5 I M2

Przykład na korzystanie z własności zamkniętości ε 1 2 N 6 7 M2 N I ε 3 4 5

Przykład na korzystanie z własności zamkniętości ε 1 2 N 6 7 ε ε N I ε 3 4 5

Przykład na korzystanie z własności zamkniętości ε ε 1 2 N 6 7 ε ε ε N I ε 3 4 5

Przykład na korzystanie z własności zamkniętości 1 2 N 3 4 I

Przykład na korzystanie z własności zamkniętości 1 2 3 I N

Przykład na korzystanie z własności zamkniętości 1 2 N/N-ling M1 6 7 N M3 3 4 N/N-ling 5 I M2 8 N-ling -s-

Przykład na korzystanie z własności zamkniętości 1 4 3 I N/N-ling 5 2 N-ling -s-

Zamkniętość ze względu na przecięcie FSA M1 FSA M2 wejście FSA M3 FSA M4

Zamkniętość ze względu na przecięcie FSA M1 FSA M2 wejście FSA M3 FSA M4

Rozszerzenie koncepcji: Transduktory (FST) Transduktor to automat skończony z wyjściem (odwzorowanie ciągów symboli) Transduktor dla każdego wczytanego symbolu z taśmy wejściowego dopisuje odpowiedni symbol do taśmy wyjściowej Interpretacja jako FSA z parami symboli jako etykiety Interpretacja jako podwójny FSA (FSA wejściowy, FSA wyjściowy) Transduktor jako akceptor i analizator ciągów symboli - sprawdza przynależność słowa do języka AS wejściowego i odwzorowuje ja na słowo języka AS wyjściowego

Zapis formalny: T = ( Q, Σ1, Σ2, δ, σ, q0, F ) Transduktor (FST) Zapis formalny: T = ( Q, Σ1, Σ2, δ, σ, q0, F ) Q - skończony zbiór stanów Σ1 - skończony alfabet wejściowy Σ2 - skończony alfabet wyjściowy δ(q,a) - funkcja przejścia, gdzie q należy do Q, i gdzie a należy do Σ1. Wynik δ(q,a) = q’, gdzie q’ należy do Q σ(q,a) - funkcja wyjściowa. Wynik σ(q,a) = a’, gdzie a’ należy do Σ2 q0 - stan początkowy należący do Q F - zbiór stanów końcowych zawarty w Q

Przykład: Sheeptalk - Cowtalk Lwe(T) = { baa!, baaa!, baaaa!, baaaaa!, baaaaaa!, … } Lwy(T) = { muu!, muuu!, muuuu!, muuuuu!, muuuuuuu!, … } T(baaaa!) = muuuu! a:u b:m a:u a:u ! q0 q1 q2 q3 q4 Start δ a b ! q0 - q1 q2 q3 q4 q4: σ a b ! q0 - m q1 u q2 q3 q4: M = ( Q, Σ, δ, q0, F ) Σ1 = { a, b, ! } Σ2 = { m, u, ! } Q = { q0, q1, q2, q3, q4 } F = { q4 }

Przykład: Sheeptalk - Cowtalk a:u b:m a:u a:u ! q0 q1 q2 q3 q4 Start q0 Taśma wejściowa b a a a a ! Taśma wyjściowa

Przykład: Sheeptalk - Cowtalk a:u b:m a:u a:u ! q0 q1 q2 q3 q4 Start q1 Taśma wejściowa b a a a a ! Taśma wyjściowa m

Przykład: Sheeptalk - Cowtalk a:u b:m a:u a:u ! q0 q1 q2 q3 q4 Start q2 Taśma wejściowa b a a a a ! Taśma wyjściowa m u

Przykład: Sheeptalk - Cowtalk a:u b:m a:u a:u ! q0 q1 q2 q3 q4 Start q3 Taśma wejściowa b a a a a ! Taśma wyjściowa m u u

Przykład: Sheeptalk - Cowtalk a:u b:m a:u a:u ! q0 q1 q2 q3 q4 Start q3 Taśma wejściowa b a a a a ! Taśma wyjściowa m u u u

Przykład: Sheeptalk - Cowtalk a:u b:m a:u a:u ! q0 q1 q2 q3 q4 Start q3 Taśma wejściowa b a a a a ! Taśma wyjściowa m u u u u

Przykład: Sheeptalk - Cowtalk a:u b:m a:u a:u ! q0 q1 q2 q3 q4 Start q4 Taśma wejściowa b a a a a ! Taśma wyjściowa m u u u u !

Przykłady z Lingwistyki komputerowej Uproszczona fleksja niektórych niemieckich czasowników (Automat) q0 Start q1 q2 wat q3 bet hast et ε en e est

Przykłady z Lingwistyki komputerowej Uproszczona fleksja niektórych niemieckich czasowników (Transduktor) q0 Start q1 q2 wat:V q3 bet:V hast:V et:impf et:2pl en:1pl,3pl e:1sg,3sg est:2sg et:3sg,2pl e:1sg T(betest) = V 2sg T(hastet) = V 3sg, V 2pl T(wateten) = V impf 1pl, V impf 3pl

Transduktor jako słownik ( Transduktor subsekwencyjny ) L = { agencja:N+fem, agent:N+mas, agentka:N+fem, bank:N+mas, bat:N+mas } N+fem 1 a 2 g 3 e 4 n 5 c 6 j 7 8 t 9 k 10 11 b 12 13 14 15 N+mas N+fem N+mas N+mas

Transduktor jako słownik ( Transduktor subsekwencyjny ) L = { agencja:N+fem, agent:N+mas, agentka:N+fem, bank:N+mas, bat:N+mas } N+fem a g e n c j a 1 2 3 4 5 6 7 t b 11 12 13 14 8 9 10 a n k k a t 15 N+mas N+fem N+mas N+mas

Transduktor jako słownik ( Transduktor subsekwencyjny ) L = { agencja:N+fem, agent:N+mas, agentka:N+fem, bank:N+mas, bat:N+mas } N+fem a g e n c j a 1 2 3 4 5 6 7 t b 11 12 13 14 8 k a n k t N+mas N+mas

Własności zamkniętości Transduktorów Transduktory są: Zamknięte pod względem sumy Zamknięte pod względem konkatenacji Zamknięte pod względem domknięcia Kleene’ego Zamknięte pod względem odwracania Zamknięte pod względem złożenia Nie są zamknięte pod względem intersekcji (ale Transduktory bez przejść ε są)

Złożenie FST - Kaskady |T1|(wejście) = wynik1 |T2|(wynik1) = wynik2 wyjście |T1|(wejście) = wynik1 |T2|(wynik1) = wynik2 |T3|(wynik2) = wyjście

|T|(wejście) = |T3○T2○T1|(wejście) = wyjście Złożenie FST - Kaskady FST T FST T1 FST T2 FST T3 wejście wynik1 wynik2 wyjście ○ ○ |T|(wejście) = |T3○T2○T1|(wejście) = wyjście

|T|(wejście) = wyjście Złożenie FST - Kaskady FST T wejście wyjście |T|(wejście) = wyjście

Intersekcja FST – Reguły równoległe FST T1 FST T2 wejście wyjście FST T3 FST T4

Intersekcja FST – Reguły równoległe FST T1 FST T2 wejście wyjście FST T3 FST T4

Kilka słów o fonologii Słowo ARPAbet ambrosia lily sunflower [ae m b r ow zh ax] [l ih l iy] [s ah n f l aw axr]

Złożenie i przecięcie Transduktorów x +PL f aa s k Poziom leksykalny FST-Słownikowy o ^ x s f aa k z Poziom pośredni FST1 FSTn ortograficzne i fonetyczne reguły o e x s f aa k ix z Poziom wynikowy

Przykład na przecięcie Transduktorów x +PL f Poziom leksykalny aa s k +N +PL f FST-Słownikowy o ^ x s f Poziom pośredni aa s k ^ z f FST – Przecięcie reguł o e x s f Poziom wynikowy aa s k ix z f

Przykład na przecięcie Transduktorów x +PL f Poziom leksykalny aa s k +N +PL f FST Złożenie słownika z regułami o e x s f Poziom wynikowy aa s k ix z f

Inne koncepcje i zastosowania: Automaty i transduktory ważone Wprowadzenie metod statystycznych w symboliczne przetwarzanie mowy. Każde przejście jest dodatkowo oznaczone prawdopodobieństwem wykorzystania tego przejścia. Suma prawdopodobieństw wszystkich przejść wychodzących z jednego stanu jest równa 1.

Przykład prostego automatu ważonego ow m aa ey 0.95 0.05

Przetwarzanie języka u człowieka a modele skończenie stanowy Hipoteza minimalnej redundancji (ang. Minimum redundancy) w morfologii Problemy człowieka ze zrozumieniem zdań wielokrotnie złożonych wskazuje na skończoną pamięć. Gramatyki bezkonstekstowe ze skończonym stosem można opisać za pomocą modeli skończonych (Yngwe 1960) Rozumienie wypowiedzi językowych odbywa się u człowieka w sposób liniowy (deterministyczny), co wskazuje na pewną bliskość do modeli skończonych

Dziękuję bardzo za uwagę Wreszcie koniec! Dziękuję bardzo za uwagę