Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Tłumacze i firmy lokalizacyjne w obliczu tłumaczenia maszynowego

Podobne prezentacje


Prezentacja na temat: "Tłumacze i firmy lokalizacyjne w obliczu tłumaczenia maszynowego"— Zapis prezentacji:

1 Tłumacze i firmy lokalizacyjne w obliczu tłumaczenia maszynowego
Zbigniew Piotrowicz Moravia IT

2 Notka pokonferencyjna
Drodzy przyjaciele z konferencji Przekazuję Wam moją prezentację. Pod slajdami znajdują się komentarze; niektóre były już wcześniej, a niektóre dodałem specjalnie dla Was, aby ułatwić odczytanie i interpretację niektórych slajdów. Część danych w prezentacji to informacje ogólnodostępne, ale prosiłbym o zachowanie niektórych slajdów (oceny MT w Microsofcie oraz wyniki analityczne zastosowalności MT w Moravii) do własnych potrzeb i niepublikowanie ich dalej. Dziękuję za zrozumienie. Zbigniew Piotrowicz Tu będą nowe i stare komentarze

3 Program Czym jest tłumaczenie maszynowe (MT) Historia MT
Idea, zasady, problemy Zastosowanie w praktyce Przykłady MT a tłumacz (post-editing) Ocena MT Podsumowanie Pogrubione – ważne dla tłumaczy 3

4 Czym jest tłumaczenie maszynowe
1. Proces komputerowego tłumaczenia z języka źródłowego na język docelowy z użyciem aplikacji translacyjnych 2. Tłumaczenie będące wynikiem działania takich aplikacji Metody: Tłumaczenie bezpośrednie (zamiana słów i wyrażeń) Analiza składni Powierzchniowy transfer semantyczny (analiza składni + atrybuty dodatkowe, np. znaczeniowe, dnt) Tłumaczenie statystyczne Tłumaczenie oparte na przykładach Metody hybrydowe Famt = fully automated mt; hamt=human aided mt Różnica pomiędzy statystycznym bazującym na przykładach – statystyczny bazuje na prawdopodobieństwie wynikającym ze statystyki (występowanie wyrazów w korpusach), w przypadku tłumaczenia opartego na przykładach analizowane są gotowe fragmenty i następuje wnioskowanie tłumaczenia na podstawie korpusów Pochylone=wymagają zasobu tłumaczeń HT

5 Historia MT Wiek XVII – początki koncepcji interlingua, trudno mówić o MT ze względu na brak M Praca Johna Wilkinsa „An Essay towards Real Character and a Philosophical Language” Interlingua = sztuczny język stanowiący pomost pomiędzy dwoma językami naturalnymi. Nie mylić z np. esperanto, który jest sztucznym językiem naturalnym. W XVII wieku powstały koncepcje stworzenia notacji (najprostsza to numeryczna) opisująca wyrazy oraz konstrukcje językowe. John Wilkins – stworzenie „języka” bazującego na symbolach, który umożliwiałby przekształcanie języka źródłowego na pośredni i następnie na docelowy

6 Historia MT Georges B. Artsrouni, Francja, rok 1932 (patent w 1933)
Maszyna do zapisywania i wyszukiwania informacji; jedna z możliwości obejmowała zapisanie słownika oraz rozbudowanie go o frazy; tłumaczenie na 4 języki Piotr Trojański, ZSRR, (patent w 1933) Prace teoretyczne nad maszyną z pamięcią na szerokiej taśmie perforowanej; tekst źródłowy przed tłumaczeniem opisywany był symbolami opisującymi charakter gramatyczny poszczególnych słów oraz określeniami w esperanto Pamięć na taśmach perforowanych z papieru 6

7 Historia MT 1954 – system IBM i Uniwersystetu Georgtown (połączenie słownika z regułami gramatycznymi dotyczącymi kolejności wyrazów w zdaniu) 1964 – raport ALPAC o braku perspektyw MT (wolniejsze, gorsze i dwa razy bardziej kosztowne tłumaczenie MT od tradycyjnego) 1968 – SYSTRAN i zimna wojna Lata – kolejne systemy bazujące na regułach Koniec lat 80 – pierwsze systemy statystyczne i bazujące na przykładach (IBM Candide) Lata 90-do dziś… (MS – początek prac NLP w 1991 roku; 1999 początek prac nad MT; 2003 Translator 1, oparty na przykładach; 2009 MT->PL) Automatic Language Processing Advisory Committee, ALPAC Systran – głównie tłumaczenia techniczne z rosyjskiego, cel: ogólne zrozumienie tematyki tekstu źródłowego

8 Idea i zasady PRAWDA CZY FAŁSZ?
MT jako narzędzie do tłumaczenia tekstów, które nigdy nie byłyby standardowo tłumaczone ze względu na koszty MT jako narzędzie przyspieszające pracę tłumacza MT jako narzędzie obniżające koszty MT ma nie zmniejszyć rynku tłumaczeń, a wręcz przeciwnie Celem użycia MT jest uzyskanie jakości komunikatywnej PRAWDA CZY FAŁSZ?

9 Idea, zasady, problemy FAMT & HAMT Preedycja i postedycja
Zastosowalność (dokumentacja techniczna, literatura, marketing...) Oczekiwania jakościowe (komunikatywność vs jakość premium) Akceptacja wśród tłumaczy Szkoda, że nie udało się pokazać slajdu dodatkowego z poezją (mam go w osobnej prezentacji). Zgodnie z wszelką logiką wynikiem tłumaczenia maszynowego poezji powinien być całkowity bełkot. Jednakże, co jest bardzo dziwne, można uzyskać zaskakujące wyniki. Przykładowo wiersz przetłumaczony z angielskigo na chiński 9

10 Idea, zasady, problemy Homografy/polisemy (wyrazy pisane identycznie, ale o innym znaczeniu) np. pokój (pomieszczenie albo brak wojny); light (rzeczownik, czasownik, przymiotnik, przysłówek) Niejednoznaczności w obrębie języka i między językami: „Kill that man with the hammer”; Bear – miś (pluszowy) czy niedźwiedź Złożona struktura zdań Odmiana (końcówki, rodzaj męski/żeński) Język nieformalny, potoczny, neologizmy, figury retoryczne, idiomy (it's raining cats and dogs=Pada deszcz psów i kotów) Błędy (literówki, interpunkcja) Tagi, znaki specjalne Różnica pomiędzy homografem (wyrazy pisane identycznie, ale o innym znaczeniu) i polisemem (też wyrazy pisane identycznie, ale o innym znaczeniu) – homografy są niepowiązane, polisemy są powiązane poprzez np. pochodzenie słowa (język – część ciała oraz mowa, bo używany jest język); homograf: ranny żołnierz (od słowa rana), ranny ptaszek (od słowa ranek); C3PO zna 6 milionów form porozumiewania się, tylko Chuck Norris zna wszystkie...

11 Zastosowanie w praktyce
Tłumaczenia prywatne (często darmowe, ogólne zrozumienie tekstu, Google Translator, Microsoft Translator, Bable Fish, translatory w formie aplikacji) Tłumaczenia komercyjne, np. Chrysler obniżył koszty o 35% i zwiększył wydajność tłumaczeń dokumentacji (model HAMT); Microsoft Support (model FAMT; osobne slajdy) Tłumaczenia wewnętrzne (np. wojsko, korporacje) Ukierunkowanie: szeroko pojęte tłumaczenia techniczne (IT, motoryzacja, elektronika...) 11

12 Przykład HAMT w MS Office14 UI
Jednostki 100% Fuzzy >75% <75% Bucket 13+ Bucket 1-12 Pamięć tłumaczeń Źródło Tłumacz (żywy) Na początku silnik SMT był używany również dla buckeru 13+ (jednostki o długości większej niż 13 słów), w wyniku szczegółowych analiz zastosowalności, bucket ten został wyłączony z MT. Tłumaczenie Silnik SMT

13 Model z pracy z TM Źródło Tłumacz Pamięć HT Pamięć MT Tłumaczenie
Opcja 1 Źródło Tłumaczenie Tłumacz Opcja 2 Pamięć HT + MT Opcja 3 = brak pamięci MT, tłumaczenia w formie pretranslacji bezpośrednio w pliku

14 FAMT - ocena „resolve rate”
Istotne jest zrozumienie, że Resolve Rate NIE odpowiada na pytanie „Jaka była jakość tłumaczenia”, tylko czy „Materiał był pomocny”. Stąd ocena 25% dla materiałów pisanych bezpośrednio w języku angielskim, w przeciwnym razie ocena jakości języka angielskiego byłaby bardzo wysoka. Moim skromnym zdaniem można by oczekiwać większości ocen „bardzo dobry” dla języka angielskiego, „dobry i bardzo dobry” dla tłumaczeń HT oraz „mierny” dla tłumaczeń MT. Ale pomimo miernego języka tłumaczenia MT można znaleźć rozwiązanie swojego problemu i taki jest cel MT w tym przypadku. Wnioski ogólne: Przydatność materiałów tłumaczonych była zbliżona do przydatności materiałów w oryginale (25,5%), różnice wynosiły od -3% do +9,8%. Oczywiście tutaj rozpatrujemy tłumaczenie HT. Przydatność materiałów tłumaczonych tradycyjnie była większa od przydatności materiałów tłumaczonych maszynowo, ale w nieznacznym stopniu. Największa różnica wynosiła 10% w przypadku języka japońskiego. Materiały pomocy technicznej nie są maszynowo tłumaczone na język polski, dlatego nie ma wyników. Wyniki byłyby znacząco gorsze niż w przypadku innych języków. Innymi słowy język polski jest bardziej „odporny” na tłumaczenie maszynowe i generowałby tekst nie tyle że z błędami językowymi (co jest dopuszczalne), ale niezrozumiały – więc nieprzydatny. Wnioski biznesowe: Warto używać MT, bo pomaga w podobnym stopniu jak dużo droższe tłumaczenia HT. 2. Dla użytkownika, który nie zna angielskiego, lepszy jest dostęp do kiepsko przetłumaczonego (bo maszynowo) artykułu pomocy technicznej, niż brak jakichkolwiek materiałów w jego języku. Jeśli użytkownik jest z góry poinformowany, że ma do czynienia z tłumaczeniem maszynowym, to skupia się na szukaniu informacji, a nie na warstwie językowej, czy też na nabijaniu się z błędów. Dla dociekliwych: Zweryfikowałem wyniki dla portugalskiego w Brazylii. Dane są poprawne – taki wyszedł wynik. Jest to całkowicie możliwe w statystyce. Ciekawostka: Jeśli mamy zaokrąglone wartości do jednego miejsca po przecinku, i przyjmiemy, że wynik powinien różnić się od -5% do +1% to otrzymujemy prawodopodobieństwo 1 na 60, że wynik będzie identyczny dla MT i HT. Tak działają metody statystyczne. Trafił się taki wynik. Wystarczyło powtórzyć badanie za tydzień, a wynik by wyszedł nawet o kilka procent inny. Dla dociekliwych: Czemu dane dla portugalskiego są inne niż dla portugalskiego w brazylii, skoro to ten sam język. Na konferencji odpowiedziałem, że różnice są niewielkie, działałają prawa statystyki. Być może w innym badaniu wyniki byłyby bardziej zbliżone albo jeszcze bardziej od siebie oddalone. Istotne jest wyłącznie to (źródło: Chris Wendt, Microsoft corp.) 14

15 „Global English” Po zastosowaniu zasad Global English poprawiła się jakość tłumaczenia maszynowego. Silniki MT lepiej sobie radzą z tekstem prostym, ustandaryzowanym i możliwie bezbłędnym. 1. Standardowy styl 2. Prawidłowa interpunkcja 3. Eliminacja długich zdań 4. Poprawne użycie wielkich liter 5. Poprawna pisownia (źródło: Chris Wendt, Microsoft corp.) 15

16 Wpływ na pracę tłumacza
Po specjalnym szkoleniu z MT post-editingu Produktywność tłumaczy dzięki MT Nieprawidłowe podejście do MT nie przyspiesza pracy, a wręcz niejednokrotnie ją spowalnia. Szkolenie z posteditingu jest kluczem, ale oczywiście liczy się też nabyte doświadczenie. Nie należy oczekiwać, że już chwilę po szkoleniu wszystko się zmieni na lepsze. (źródło: Chris Wendt, Microsoft corp.) 16

17 MT a język polski O14 Pilot O14 FLK5 Level Status Descriprion
Bucket 1 Bucket 2 no or very minor changes 22% 9% some changes 28% 26% need to be completely reworked 50% 65% Bucket 3 Bucket 4 3% 1% 19% 10% 78% 89% Bucket 1: 1-6 words Bucket 2: 7-12 words 20% 25% 54% 64% Bucket 3: words Bucket 4: 19 or more words 2% 5% 93% 96% O14 Pilot Level Status Descriprion 1 Ideal Not necessarily a perfect translation, but grammatically correct, and with all information accurately transferred 2 Acceptable Not perfect (stylistically or grammatically odd), but definitely comprehensible, and with accurate transfer of all important information. 3 Possibly Acceptable Possibly comprehensible; some information transfer of all important information. Unacceptable Absolutely not comprehensible and/or no information transferred accurately. Powyżej inna metoda oceny MT przez człowieka. Istnieją też metody oceny MT poprzez porówanie MT z HT przez komputer, ale wymagane jest posiadanie zasobu tłumaczeń HT, często nawet wielu wersji HT tego samego tłumaczenia (zdanie można poprawnie napisać nawet na kilka sposobów). Ze względu na koszty jest to stosowane tylko w ograniczonych próbkach tekstu. Interpretacja: MT sprawdza się w krótkich zdaniach, do 5 słów, w zdaniach od 7-12 nie jest źle, ponad 30% zdań nadawało się do edycji. Natomiast dłuższe zdania powodowały coraz większy poziom odrzucenia tłumaczeń maszynowych. Można przyjąć, że w zdaniach dłuższych niż 13 słów (buckety 3 i 4) odrzucano ponad 90% tłumaczeń maszynowych jako nienadające się do wykorzystania. O14 FLK5 17

18 Kto zgadnie, jak to zostało przetłumaczone?
Przykład 1  Kto zgadnie, jak to zostało przetłumaczone? Rozwiązanie zagadki Google używa angielskiego jako języka pośredniczącego, a zatem: 1. Tłumaczenie z polskiego na angielski -> Doctor is gay. Po angielsku gay ma dwa znaczenia 1. wesoły, żywy, barwny oraz 2. gej. 2. Tłumaczenie z angielskiego na niemiecki -> Doktor ist Homosexuell. Statystycznie słowo gay jest kojarzone znaczeniowo z homoseksualizmem, dlatego silnik tłumaczenia maszynowego tak właśnie zareagował. Uwaga: Charakterystyczne dla tłumaczeń maszynowych jest proces „uczenia się”. Dziś z czasem serwis Google dokona tłumaczenia prawidłowo, być może ktoś wprowadzi poprawne tłumaczenie i „nauczy” system nowego zdania.

19 Przykład (długie zdania, tekst ogólny)
The forces of the Teutonic Knights were decisively defeated in the battle, but were able to defend their castles and retain most of their territories despite the long-term consequences they suffered as a result of losing the battle. The order never recovered its former power, and the financial burden of the ensuing reparations eventually caused a rebellion of cities and landed gentry. Spuśćmy zasłonę milczenia... (English Translator 3.0) Siły Krzyżaków były zdecydowanie pokonane w bitwie, ale mogły obronić ich zamki i zachować najbardziej z ich terenów pomimo długoterminowych konsekwencji, z powodu których cierpieli w efekcie z przegrywania bitwy. Porządek nigdy nie odzyskał swojej dawnej mocy, i obciążenie finansowe wywiązujących się zadośćuczynień ostatecznie spowodowało bunt miast i ziemiaństwa. (translatica.pl) Siły krzyżackie były zdecydowanie pokonany w walce, ale były zdolne do obrony swych zamków i zachować większość ich terytorium, mimo długoterminowe konsekwencje ponieśli w wyniku utraty bitwy. Aby nigdy nie odzyskał dawnej potęgi, a obciążenia finansowe wynikające z odszkodowań wynikających ostatecznie spowodowało bunt miast i ziemiańskiej. (Google Translator) Siły Teutonic Rycerzy zdecydowanego zostali pokonani w bitwie pod, ale byli w stanie bronić swoich zamków i zachowuje większość z ich terytoriów, pomimo długoterminowe skutki one poniesione w wyniku zastosowania utraty bitwy. Kolejność nigdy nie odzyskać swojego byłego energią i obciążeń finansowych z tym reparations ostatecznie spowodował powstanie miast i wyładowanych gentry. (Microsoft Translator)

20 Przykłady (IT) If you still cannot see the Tree view, it might be because another window pane is in the way. Resize the visible window pane from the left to reveal the Tree view. The Tree View button in the toolbar and in the View menu appears depressed, indicating the Tree view is active. To hide the Tree View, select View>Tree View again. Click the + or - symbols next to the folders in the Tree View to expand or collapse the tree. Jeśli nadal nie widać widoku drzewa, może to być spowodowane innym okienku jest w drodze. Resize widoczne okienku z lewej strony, aby odsłonić widok drzewa. Przycisk Widok drzewa na pasku narzędzi w menu Widok pojawia się w depresji, wskazując Widok drzewa jest aktywny. Aby ukryć widoku drzewa wybierz Widok> Widok drzewa ponownie. Kliknij przycisk + lub - symbole obok folderów w widoku drzewa, aby rozwinąć lub zwinąć drzewa. MT

21 Przykład (tekst marketingowy)
Out with the old, in with the new. Sound processes and smart technology are at the heart of any truly efficient localization effort. HT MT Się ze starym, z nowym. Sound procesów i inteligentnych technologii w sercu każdego naprawdę skuteczne wysiłki lokalizacji. Żegnamy się z przeszłością, witamy przyszłość. Niezawodne procesy i inteligentne technologie stanowią istotę w pełni efektywnych prac lokalizacyjnych.

22 Krótkie, proste zdania IT
It contains the following sections: Select Actions>Update... Use the Replace command to find and replace specific items in the translation project. Put the pointer on a column division. The Modes preference tab displays the following options: To zawiera poszły za _brak_tłum_: Wybrane Operacje > _brak_tłum_... Użyj Zastąp _brak_tłum_, by znaleźć i zastąpić sprecyzowanych _brak_tłum_ w _brak_tłum_ rzucie. Położył _brak_tłum_ na rozdzielaniu _brak_tłum_. : (English Translator 3.0; kontekst=IT) Tryby preferencja naszywka okazuje następujące opcje: (Translatica.pl) Zawiera on następujące działy: Działań Wybierz> Update ... Użyj polecenia Replace, aby znaleźć i zastąpić poszczególne pozycje w projekcie tłumaczenia. Umieść wskaźnik w sprawie podziału kolumny. Kartę preferencji tryby są wyświetlane następujące opcje: (Google Translator) Zawiera on następujące sekcje: Wybierz polecenie Operacje > Aktualizuj... Polecenie Zamień służy do znajdowania i zamieniania konkretne elementy w projekcie tłumaczenia. Umieść wskaźnik myszy na podział kolumny. Na karcie Preferencje tryby są wyświetlane następujące opcje: (Microsoft Translator)

23 MT a tłumacz (post-editing)
W dłuższej perspektywie MT jest nieuniknione w większości branż Nawet jeśli istnieją mocne argumenty przeciw MT z punktu widzenia języka, klienci i tak będą kierować się ceną, a MT obniża ich koszty pomimo dużych nakładów początkowych na technologię MT jest wyborem klientów, a nie firm lokalizacyjnych i samych tłumaczy (przynajmniej na razie) Jakość MT wzrasta wraz ze zwiększaniem się zasobów tłumaczeń – stanowi to istotny czynnik rozwojowy MT Post-editing staje się nową formą usługi świadczoną przez tłumaczy

24 Zasady posteditingu MT
Przeczytać zdanie źródłowe Zrozumieć ogólną treść zdania „Rzucić okiem” na jednostkę MT Decyzja w maks. 2 sek. później Edycja Odrzucenie

25 Złote zasady Czy bardziej pracochłonne jest tłumaczenie czy edycja MT?
Nawet jeśli zdanie nie jest idealne, użyj go jeśli jest zrozumiałe. Terminologia powinna być poprawna, nie trać czasu na sprawdzanie jej za każdym razem. Jeśli tłumaczenie zawiera dużo tagów, skopiuj źródło i poprzeklejaj fragmenty tekstu. W przypadku dłuższych zdań – oceń 5 pierwszych słów, jeśli brzmią sensownie, oceń 5 ostatnich. Jeśli zdanie jest poprawne, nie „walcz” z tłumaczeniem, aby było w Twoim stylu. Nie staraj się zrozumieć dlaczego tłumaczenie MT jest jakie jest.

26 Oceny tłumaczy Jednowyrazowe jednostki są w 90% OK - tu nie ma problemu. Przy pierwszym pliku, gdy nie byłam obeznana jeszcze w terminologii Projecta, MT faktycznie mi pomagało, bo używana terminologia faktycznie pochodziła z Projecta. W krótkich tekstach bywa to pomocne, w długich trochę mniej, bo nie zna toto gramatyki i czasem śmieszne podpowiedzi podsuwa. Z moich obserwacji wynika, że MT sprawdza się głównie w krótszych sformułowaniach. Jak dla mnie, to Machine Translation przydaje się w krótszych, kilkuwyrazowych jednostkach. Czasem jednostki są naprawdę świetnie przetłumaczone

27 Oceny tłumaczy To nie działa i nie będzie dobrze działać, bo do działania takich systemów jest niezbędna sztuczna inteligencja, której jak na razie nie udało się stworzyć. Zwodnicze - w większości przypadków niektóre wyrazy są wyjątkowo dziwnie przetłumaczone i trudno się domyślić, dlaczego akurat tak, a nie inaczej. Jednostki z czymś w środku (u mnie to były nawiasy klamrowe) - zupełny bełkot Nie zna toto gramatyki i czasem śmieszne podpowiedzi podsuwa. Najgorsze, że daje złudne poczucie, że ma się sensowną podpowiedź, i może totalnie wprowadzić w błąd W bardziej skomplikowanych przypadkach automat zwykle gubi się i nieraz powstaje zdanie bez sensu Te tłumaczenia maszynowe to żadna pomoc - mnie one wręcz przeszkadzają  Czuję się coraz bardziej jak pracownik Biedronki „Pracownik Biedronki” – duże koncerny albo sieci mają moc ustalania pewnych rozwiązań bez pytania nikogo o zdanie. Takie było odczucie tłumacza, że MT zostało narzucone bez pytania nikogo o zdanie. Jednak wrażenie nie jest do końca słusznie. Microsoft uważnie analizuje wyniki analiz i zgłaszanych uwag, a następnie dostosowuje swoje procesy i modele zależnie od języków. Z drugiej strony faktycznie ma wystarczającą moc kreowania rynku i można poczuć się „mniej znaczącym bytem na tym łez padole”. :-)

28 Podsumowanie Dziękuję za uwagę Kontakt:


Pobierz ppt "Tłumacze i firmy lokalizacyjne w obliczu tłumaczenia maszynowego"

Podobne prezentacje


Reklamy Google