K.Marasek 29.01.2007 Multimedia Department Automatyczne tłumaczenie z mowy na mowę Krzysztof Marasek PJWSTK.

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do narzędzi CAT
Advertisements

Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
Wyszukiwarki internetowe
PROGRAMOWANIE STRUKTURALNE
Wskaźniki analizy technicznej
STEROWANIE KOMPUTEREM LUDZKIM GŁOSEM
Elementarne struktury danych Piotr Prokopowicz
Sztuczna Inteligencja Analiza języka naturalnego Tłumaczenie maszynowe
Wnioskowanie Bayesowskie
® System do analizy tekstów ortograficznych Cezary Dołęga,
OPERATORY WYSZUKIWAWCZE
Co UML może zrobić dla Twojego projektu?
Statystyka w doświadczalnictwie
Promotor: prof. dr hab. Włodzisław Duch
Analiza korelacji.
1 1 / 11 Techniki lokalizacji oprogramowania – wykład 8 Wykład 8: Technologia tłumaczenia maszynowego dr inż. Agenor Hofmann-Delbor.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Wykład 4 Przedziały ufności
Życiorys mgr inż. Damian Bogdanowicz Katedra Algorytmów i Modelowania Systemów. WETI PG Urodzony: r. Wykształcenie: studium doktoranckie,
Modele (hipotezy) zagnieżdżone
Dr Anna Kwiatkowska Instytut Informatyki
Google – sposoby wyszukiwania
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
ALGORYTMY Opracowała: ELŻBIETA SARKOWICZ
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Strategia skutecznego szukania informacji w Internecie
Gra Scrabble ® na urządzenie Nokia N800 Autor: Michał Filipowicz Promotor: dr inż. Jerzy Zaczek Konsultant: mgr inż. Krzysztof Rzecki.
Układy sekwencyjne pojęcia podstawowe.
Wprowadzenie do edytorów tekstu.
METODY I FORMY PRACY w Zespole Szkół dla Dzieci Niesłyszących w Bielsku - Białej opracowała: mgr Joanna Skowron.
Autor: Justyna Radomska
Modelowanie populacji i przepływu opinii pomiędzy aktorami sztucznej inteligencji za pomocą sieci społecznej Wojciech Toman.
Systemy wejścia i wyjścia Michał Wrona. Co to jest system wejścia i wyjścia? Pobierania informacji ze źródeł danych, zdolnych przesyłać sekwencje bajtów,
XML – eXtensible Markup Language
Rynek tłumaczeń i lokalizacji w Polsce, Wrocław marca 2009r. Małgorzata Haas-Tokarska Maksymilian Nawrocki MORAVIA IT.
SZKOŁA Z KLASĄ 2.0 English SOS.
Model inteligentnego agenta wspomagającego decyzje zakupu komputerów.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Dlaczego warto uczyć małe dzieci języków obcych? Opracowała
Trening metodą Warnkego
VII EKSPLORACJA DANYCH
Projektowanie stron WWW
1 Egzamin maturalny i zawodowy w 2015 roku podstawowe informacje Egzamin maturalny i potwierdzający kwalifikacje zawodowe – technik informatyk w 2015 roku.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Wnioskowanie statystyczne
Andrzej Majkowski 1 informatyka +. 2 Telefon komórkowy „uczy się”. Metoda słownikowa T9 Paweł Perekietka.
OCL.
Filtr Kalmana (z ang. Kalman Filter w skrócie KF)
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Voice Portals – Portale Głosowe Krótkie wprowadzenie i omówienie.
Efektywność systemu Jacek Węglarczyk
Korpusy mowy i narzędzia do ich przetwarzania
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
 Mowa ciała, język ciała, komunikacja niewerbalna – zespół niewerbalnych komunikatów nadawany ch i odbieranych przez ludzi na wszystkich niewerbalnych.
Metody komunikacji ludzi
Specjalność E Multimedia Studia dzienne inżynierskie Opiekun specjalności: prof. Krzysztof Marasek.
Excel 2007 dla średniozaawansowanych Zajęcia z Prowadzący: Artur Kołos.
Przewodnik
STATYSTYKA – kurs podstawowy wykład 11
Programowanie strukturalne i obiektowe Klasa I. Podstawowe pojęcia dotyczące programowania 1. Problem 2. Algorytm 3. Komputer 4. Program komputerowy 5.
PRZEWODNIK. ODZNAKA JAKOŚCI ETWINNING Odznaka Jakości jest przyznawana najciekawszym, kreatywnym i innowacyjnym projektom eTwinning i wskazuje osiągnięcie.
Patenty azjatyckie SLAJD 1 -dlaczego nie ???.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Sztuczna Inteligencja Analiza języka naturalnego Tłumaczenie maszynowe
Wstęp do Informatyki - Wykład 14
Selekcja danych Korelacja.
IEEE SPMP Autor : Tomasz Czwarno
Zapis prezentacji:

K.Marasek Multimedia Department Automatyczne tłumaczenie z mowy na mowę Krzysztof Marasek PJWSTK

K.Marasek Multimedia Department Plan prezentacji Wprowadzenie Komponenty systemu tłumaczącego Aktualne osiągnięcia PJWSTK a sprawa polska S2ST usuwa bariery

K.Marasek Multimedia Department Dlaczego automatyczne tłumaczenie z mowy na mowę? Czynniki techniczne Choć nadal dalekie od perfekcji, metody maszynowego tłumaczenia dokonały w ostatnich 5 latach wyraźnego postępu NIST MT workshops ( ) IWSLT workshops ( ) TC-STAR workshop ( ) ACL/NAACL Shared Tasks ( ) Czynniki sukcesu to: Coraz silniejsze komputery (trening na klastrach PC, dużo RAM) Rozwój metod statystycznych i bazujących na danych (data driven) Odpowiednie zasoby lingwistyczne (korpusy bilingualne) Rozwój metod oceny jakości tłumaczenia (miary błędów) Stopniowe komplikowanie zadań Zaangażowanie wielkich firm: Google, IBM, itd.. Rozwój interfejsów głosowych Rozpoznawanie mowy działa coraz lepiej Mowę syntetyczną coraz trudniej odróżnić od naturalnej Czynniki ludzkie Potrzeby komunikacyjne w kurczącym się geograficznie świecie Lazzari, 06

K.Marasek Multimedia Department Komponenty systemu tłumaczącego Intelligent Software Lab, 06 Rozpozna wanie mowy Tłumaczenie wykorzystujące modele statystyczne Synteza mowy

K.Marasek Multimedia Department Modelowanie statystyczne w ARM Najbardziej prawdopodobna sekwencja słów W dla danego sygnału akustycznego A Prawdopodobieństwo a priori sekwencji słów W Prawdopodobieństwo a priori sygnału akustycznego A Zwykle w metodzie HMM: (W –model słowa) Podejście Bayesa Prawdopodobieństwo a priori akustycznego sygnału A dla znanej sekwencji słów W Obliczane jako odległość od modeli

K.Marasek Multimedia Department Jakość rozpoznawania mowy? ASR działa najlepiej dla ściśle określonego mówcy Im mniejszy słownik tym lepiej Rozpoznawanie cyfr przez telefon – stopa błędu 0.3% Stopa błędu maleje dwukrotnie co 2 lata dla ASR o średniej wielkości słownika Stopa błędów rozpoznawania mowy spontanicznej jest co najmniej dwukrotnie większa niż dla czytania Stopa błędów jest wysoka dla konwersacji wielu mówców w trudnym akustycznie środowisku ASR da sie używać! MIT,2005 digits1k read 2k spontaneous 64 k broadcast 20k read 10k conversational

K.Marasek Multimedia Department Nasze aktualne wyniki LVCSR: rozpoznawanie mowy ciągłej, dowolny mówca, słownik 30k słów, 16 mówców, 433 zdania z bazy SpeeCon JRTk Results: SENT: %Correct=90.09 [H=391, S=43, N=434] WORD: %Corr=98.39, Acc=98.23 [H=5268, D=28, S=58, I=9, N=5354] Rozpoznawanie izolowanych fraz: słownik ok 1000 słów: WORD: %Corr=97,3% AIBOAIBO

K.Marasek Multimedia Department Synteza mowy regułowa formantowa artykulacyjna konkatenacyjna difonowa korpusowa audiowizualna

K.Marasek Multimedia Department Automatyczne tłumaczenie statystyczne Input : SMT system otrzymuje zdanie do przetłumaczenia Output : SMT system generuje zdanie które jest tłumaczeniem zdania wejściowego Language Model (model języka) jest modelem określającym prawdopodobieństwo dowolnej sekwencji słów w danym języku Translation Model (model tłumaczenia) określa prawdopodobieństwa par tłumaczeń Decoding Algorithm (dekodowanie) to algorytm przeszukiwania grafu wyznaczający optymalne przejście przez graf słów

K.Marasek Multimedia Department Jak to działa? coraz popularniejsze, coraz bardziej akceptowalne wyniki Coraz rzadziej systemy regułowe, interlingua, modelowanie Phrase based translation zamiast analizy składni, dopasowania zdań Każda fraza jest tłumaczona na frazę i wynik może mieć zmienioną kolejność Model matematyczny argmax e p(e|f) = argmax e p(f|e) p(e) model języka e i model tłumaczenia p(f|e) Podczas dekodowania sekwencja słów F jest dzielona na sekwencje I fraz f 1 I o jednakowym prawdopodobieństwie, każda z fraz f i z f 1 I jest tłumaczona na frazę e i i mogą one zostać poprzestawiane. Tłumaczenie jest modelowane jako rozkład φ(f i |e i ), przestawianie fraz jako d(start i,end i-1 ) = α |start i -end i-1 -1| z odpowiednią wartością α, wprowadza się też czynnik ω>1 aby chętniej generować krótsze zdania Zatem najlepsze tłumaczenie to e best = argmax e p(e|f) = argmax e p(f|e) p_LM(e) ω length(e), gdzie p(f|e) jest przedstawianie jako: p(f 1 I |e 1 I ) = Φ i=1 I φ(f i |e i ) d(start i,end i-1 ) 06

K.Marasek Multimedia Department Tłumaczenie fraz, czyli phrase alignment Dopasowanie na podstawie bilingualnego korpusu – modelowanie Dwukierunkowe dopasowanie słów pozwala wyznaczyć te najbardziej odpowiednie słowa Na tej podstawie próbuje się tłumaczyć frazy, np. szukamy takich fraz które są dopasowane do siebie z wykorzystaniem tylko słów z ich wnętrza (Och, 2003) 06

K.Marasek Multimedia Department Proces dekodowania

K.Marasek Multimedia Department Dekodowanie czyli tłumaczenie System wyszukuje możliwe tłumaczenia fraz Uwzględnia koszt związany z tłumaczeniem, przestawianiem fraz i modelem języka – minimalizuje koszt, czyli maksymalizuje prawdopodobieństwo Metoda wyszukiwania jest zbliżona do używanej w rozpoznawaniu mowy Można generować listę najlepszych tłumaczeń 06

K.Marasek Multimedia Department Wykorzystanie krat słów jako wejścia do tłumaczania z użyciem FST Noisy Channel Model Using an alignment model, A Instead of modeling the alignment, search for the best alignment Wykorzystanie interlingua i modeli sematycznych Wykorzystanie prozodii do wspomagania parsingu zdań Sprzężenie rozpoznawania i tłumaczenia Best English sentencelengthFrench audioTarget LMTranslation model Length of sourceAligned target wordLexical contextAcoustic context Matusov, 05

K.Marasek Multimedia Department Przykłady zastosowań

K.Marasek Multimedia Department Przygotowanie korpusu BTEC dla języka polskiego Współpraca z ATR Spoken Language Translation Research Laboratories, Kyoto, dr Eiichiro Sumita Ok zdań z rozmów japońskich turystów mówiących po angielsku („angielskie rozmówki”) Cel: Przygotowanie systemu automatycznego tłumaczenia z mowy na mowę pomiędzy polskim i angielskim dla ograniczonej domeny (rozmówki turystyczne) Przygotowanie równoległego korpusu polsko-angielskiego (dopasowanie na poziomie zdań i fraz) Nasza praca: Przetłumaczenie zdań z angielskiego na polski Sformatowanie plików zgodnie z formatem BTEC Anotacja morfo-syntaktyczna polskiego korpusu Aktualny stan zaawansowana: Przetłumaczono ok. 80% tekstów

K.Marasek Multimedia Department Dziękuje za uwagę!