K.Marasek Multimedia Department Automatyczne tłumaczenie z mowy na mowę Krzysztof Marasek PJWSTK
K.Marasek Multimedia Department Plan prezentacji Wprowadzenie Komponenty systemu tłumaczącego Aktualne osiągnięcia PJWSTK a sprawa polska S2ST usuwa bariery
K.Marasek Multimedia Department Dlaczego automatyczne tłumaczenie z mowy na mowę? Czynniki techniczne Choć nadal dalekie od perfekcji, metody maszynowego tłumaczenia dokonały w ostatnich 5 latach wyraźnego postępu NIST MT workshops ( ) IWSLT workshops ( ) TC-STAR workshop ( ) ACL/NAACL Shared Tasks ( ) Czynniki sukcesu to: Coraz silniejsze komputery (trening na klastrach PC, dużo RAM) Rozwój metod statystycznych i bazujących na danych (data driven) Odpowiednie zasoby lingwistyczne (korpusy bilingualne) Rozwój metod oceny jakości tłumaczenia (miary błędów) Stopniowe komplikowanie zadań Zaangażowanie wielkich firm: Google, IBM, itd.. Rozwój interfejsów głosowych Rozpoznawanie mowy działa coraz lepiej Mowę syntetyczną coraz trudniej odróżnić od naturalnej Czynniki ludzkie Potrzeby komunikacyjne w kurczącym się geograficznie świecie Lazzari, 06
K.Marasek Multimedia Department Komponenty systemu tłumaczącego Intelligent Software Lab, 06 Rozpozna wanie mowy Tłumaczenie wykorzystujące modele statystyczne Synteza mowy
K.Marasek Multimedia Department Modelowanie statystyczne w ARM Najbardziej prawdopodobna sekwencja słów W dla danego sygnału akustycznego A Prawdopodobieństwo a priori sekwencji słów W Prawdopodobieństwo a priori sygnału akustycznego A Zwykle w metodzie HMM: (W –model słowa) Podejście Bayesa Prawdopodobieństwo a priori akustycznego sygnału A dla znanej sekwencji słów W Obliczane jako odległość od modeli
K.Marasek Multimedia Department Jakość rozpoznawania mowy? ASR działa najlepiej dla ściśle określonego mówcy Im mniejszy słownik tym lepiej Rozpoznawanie cyfr przez telefon – stopa błędu 0.3% Stopa błędu maleje dwukrotnie co 2 lata dla ASR o średniej wielkości słownika Stopa błędów rozpoznawania mowy spontanicznej jest co najmniej dwukrotnie większa niż dla czytania Stopa błędów jest wysoka dla konwersacji wielu mówców w trudnym akustycznie środowisku ASR da sie używać! MIT,2005 digits1k read 2k spontaneous 64 k broadcast 20k read 10k conversational
K.Marasek Multimedia Department Nasze aktualne wyniki LVCSR: rozpoznawanie mowy ciągłej, dowolny mówca, słownik 30k słów, 16 mówców, 433 zdania z bazy SpeeCon JRTk Results: SENT: %Correct=90.09 [H=391, S=43, N=434] WORD: %Corr=98.39, Acc=98.23 [H=5268, D=28, S=58, I=9, N=5354] Rozpoznawanie izolowanych fraz: słownik ok 1000 słów: WORD: %Corr=97,3% AIBOAIBO
K.Marasek Multimedia Department Synteza mowy regułowa formantowa artykulacyjna konkatenacyjna difonowa korpusowa audiowizualna
K.Marasek Multimedia Department Automatyczne tłumaczenie statystyczne Input : SMT system otrzymuje zdanie do przetłumaczenia Output : SMT system generuje zdanie które jest tłumaczeniem zdania wejściowego Language Model (model języka) jest modelem określającym prawdopodobieństwo dowolnej sekwencji słów w danym języku Translation Model (model tłumaczenia) określa prawdopodobieństwa par tłumaczeń Decoding Algorithm (dekodowanie) to algorytm przeszukiwania grafu wyznaczający optymalne przejście przez graf słów
K.Marasek Multimedia Department Jak to działa? coraz popularniejsze, coraz bardziej akceptowalne wyniki Coraz rzadziej systemy regułowe, interlingua, modelowanie Phrase based translation zamiast analizy składni, dopasowania zdań Każda fraza jest tłumaczona na frazę i wynik może mieć zmienioną kolejność Model matematyczny argmax e p(e|f) = argmax e p(f|e) p(e) model języka e i model tłumaczenia p(f|e) Podczas dekodowania sekwencja słów F jest dzielona na sekwencje I fraz f 1 I o jednakowym prawdopodobieństwie, każda z fraz f i z f 1 I jest tłumaczona na frazę e i i mogą one zostać poprzestawiane. Tłumaczenie jest modelowane jako rozkład φ(f i |e i ), przestawianie fraz jako d(start i,end i-1 ) = α |start i -end i-1 -1| z odpowiednią wartością α, wprowadza się też czynnik ω>1 aby chętniej generować krótsze zdania Zatem najlepsze tłumaczenie to e best = argmax e p(e|f) = argmax e p(f|e) p_LM(e) ω length(e), gdzie p(f|e) jest przedstawianie jako: p(f 1 I |e 1 I ) = Φ i=1 I φ(f i |e i ) d(start i,end i-1 ) 06
K.Marasek Multimedia Department Tłumaczenie fraz, czyli phrase alignment Dopasowanie na podstawie bilingualnego korpusu – modelowanie Dwukierunkowe dopasowanie słów pozwala wyznaczyć te najbardziej odpowiednie słowa Na tej podstawie próbuje się tłumaczyć frazy, np. szukamy takich fraz które są dopasowane do siebie z wykorzystaniem tylko słów z ich wnętrza (Och, 2003) 06
K.Marasek Multimedia Department Proces dekodowania
K.Marasek Multimedia Department Dekodowanie czyli tłumaczenie System wyszukuje możliwe tłumaczenia fraz Uwzględnia koszt związany z tłumaczeniem, przestawianiem fraz i modelem języka – minimalizuje koszt, czyli maksymalizuje prawdopodobieństwo Metoda wyszukiwania jest zbliżona do używanej w rozpoznawaniu mowy Można generować listę najlepszych tłumaczeń 06
K.Marasek Multimedia Department Wykorzystanie krat słów jako wejścia do tłumaczania z użyciem FST Noisy Channel Model Using an alignment model, A Instead of modeling the alignment, search for the best alignment Wykorzystanie interlingua i modeli sematycznych Wykorzystanie prozodii do wspomagania parsingu zdań Sprzężenie rozpoznawania i tłumaczenia Best English sentencelengthFrench audioTarget LMTranslation model Length of sourceAligned target wordLexical contextAcoustic context Matusov, 05
K.Marasek Multimedia Department Przykłady zastosowań
K.Marasek Multimedia Department Przygotowanie korpusu BTEC dla języka polskiego Współpraca z ATR Spoken Language Translation Research Laboratories, Kyoto, dr Eiichiro Sumita Ok zdań z rozmów japońskich turystów mówiących po angielsku („angielskie rozmówki”) Cel: Przygotowanie systemu automatycznego tłumaczenia z mowy na mowę pomiędzy polskim i angielskim dla ograniczonej domeny (rozmówki turystyczne) Przygotowanie równoległego korpusu polsko-angielskiego (dopasowanie na poziomie zdań i fraz) Nasza praca: Przetłumaczenie zdań z angielskiego na polski Sformatowanie plików zgodnie z formatem BTEC Anotacja morfo-syntaktyczna polskiego korpusu Aktualny stan zaawansowana: Przetłumaczono ok. 80% tekstów
K.Marasek Multimedia Department Dziękuje za uwagę!