1 1 / 11 Techniki lokalizacji oprogramowania – wykład 8 Wykład 8: Technologia tłumaczenia maszynowego dr inż. Agenor Hofmann-Delbor.

Slides:



Advertisements
Podobne prezentacje
Lingwistyka Matematyczna
Advertisements

Katarzyna Szypuła-Sajon
Wprowadzenie do narzędzi CAT
Programowanie obiektowe
Wprowadzenie do C++ Zajęcia 2.
Jak język angielski wpływa na współczesną polszczyznę ?
PROGRAMOWANIE STRUKTURALNE
PROGRAMOWANIE STRUKTURALNE
ALGORYTM Co to jest algorytm?
Platforma .Net i Vs.Net.
Serwerowe systemy pamięci tłumaczeń dr inż. Agenor Hofmann-Delbor
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Systemy operacyjne.
Java – programowanie obiektowe
Wstęp do interpretacji algorytmów
„Serwery SDL Trados” Prowadzący: Agenor Hofmann-Delbor LSP Software
Rynek tłumaczeń i lokalizacji w Polsce, Wrocław marca 2009r. Prezentacja wersji beta pakietu SDL TRADOS 2009 Studio Agenor Hofmann-Delbor LSP Software.
Rynek tłumaczeń i lokalizacji w Polsce, Wrocław marca 2009r. Lokalizacja plików interfejsu użytkownika Autor: Marcin Stankiewicz.
Wykład 2 Cykl życia systemu informacyjnego
Made by Mateusz Szirch Kilka słów o JavaScript.
Sponsorzy konferencji: Patronat konferencji: : Organizator: : Partnerzy konferencji: Przegląd najnowszych trendów i omówienie bieżącej sytuacji na rynku.
FHU AKTYW – TŁUMACZENIA TECHNICZNE Z JĘZYKA FRANCUSKIEGO
Instrukcja USOSweb Wersja: Opracował: Sebastian Sieńko Moduł sprawdzianów.
Autor: Justyna Radomska
Metodyka nauczania informatyki
Witold Bołt m.
XML – eXtensible Markup Language
Maszyna wirtualna ang. virtual machine, VM.
Algorytmy.
Rynek tłumaczeń i lokalizacji w Polsce, Wrocław marca 2009r. Małgorzata Haas-Tokarska Maksymilian Nawrocki MORAVIA IT.
Wrzesień Rok 2010   Test diagnostyczny składał się z pięciu zadań i sprawdzał umiejętności: • rozumienie ze słuchu • rozumienie tekstu czytanego • umiejętność.
Rodzaje umów licencyjnych dla oprogramowania komputerowego
Na wysokościach myślenia jest sfera,
SPECJALNOŚĆ: Oprogramowanie Systemowe
Urządzenia 1 mld smartfonów do 2016 r., 350 mln z nich jest używanych w pracy Ludzie 82 % populacji online korzysta z sieci społecznościowych Chmura.
Podstawy programowania
Interakcja człowiek – komputer Podstawy metod obiektowych mgr inż. Marek Malinowski Zakład Matematyki i Fizyki Wydz. BMiP PW Płock.
W W W Łukasz Stochniał.
Algorytmika.
C++.
Model obiektowy bazy danych
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Znaki specjalne Co i jak + brak przykładów.  Aby wstawić symbol lub znak specjalny należy na karcie Wstawianie w grupie Symbole kliknąć na przycisk Symbol.
HTML (ang. HyperText Markup Language ) – język do tworzenia stron internetowych opierający się na znacznikach, czy inaczej je nazywając – tagach. Język.
Szczęśliwego Nowego roku!!!
Podstawy języka skryptów
Gromadzenie informacji
Ergonomia procesów informacyjnych
Poziom rozszerzony Opracowała Anna Horodelska Na podstawie standardów wymagań Centralnej Komisji Egzaminacyjnej w Warszawie.
Edytory tekstowe stron WWW
Systemy zarządzania przepływem pracy i systemy zarządzania procesami biznesowymi Karolina Muszyńska.
Podstawy programowania
Struktura systemu operacyjnego
Wstęp do interpretacji algorytmów
Konferencja metodyczna dla nauczycieli informatyki i technologii informacyjnej. Warszawa, Wyszukiwarki... nie tylko stron. Jakub Kacprzak NetSprint.pl.
SŁOWOTWÓRSTWO Vademecum świadomego użytkownika
Temat: Jak działa antywirus? _________________________________________________________________________________________________________________ [ Przedmiot:
Dokumentacja programu komputerowego i etapy tworzenia programów.
Programowanie strukturalne i obiektowe Klasa I. Podstawowe pojęcia dotyczące programowania 1. Problem 2. Algorytm 3. Komputer 4. Program komputerowy 5.
ANALIZA WYNIKÓW DIAGNOZY WSTĘPNEJ
Optymalizacja programów Open-Source
Wady i zalety pracy w chmurze
Hipertekst HTML WWW.
Projektowanie wspomagane komputerem
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Wstęp do Informatyki - Wykład 14
Strukturalny język zapytań SQL - historia
POJĘCIE ALGORYTMU Wstęp do informatyki Pojęcie algorytmu
Zapis prezentacji:

1 1 / 11 Techniki lokalizacji oprogramowania – wykład 8 Wykład 8: Technologia tłumaczenia maszynowego dr inż. Agenor Hofmann-Delbor

2 2 / 11 Techniki lokalizacji oprogramowania – wykład 8 Plan wykładu Na czym polega tłumaczenie maszynowe? Historia MT Jakie są najpopularniejsze platformy MT? Jak MT funkcjonuje w ramach projektów lokalizacyjnych Jakie jest powiązanie systemów CAT i MT

3 3 / 11 Techniki lokalizacji oprogramowania – wykład 8 Zasada pracy MT (tłumaczenie maszynowe/automatyczne) korzysta z własnego algorytmu, aby przetłumaczyć treść z jednego języka na drugi, bez ingerencji człowieka. Istnieje kilka rodzajów systemów MT: MT oparte na systemie reguł (rules-based MT) w sposób analityczny korzysta z gramatycznej reprezentacji danego języka i za pomocą reguł i słownika generuje tekst wynikowy. Innym podejściem jest SMT, czyli mechanizm oparty na analizie statystycznej i umieszcza słowa w najbardziej prawdopodobnym miejscu w szyku zdania. Analiza opiera się na zestawach tekstów utworzonych przez człowieka, zwanych korpusami. Im większe zbiory, tym skuteczniejsza technologia. Obecnie największy potencjał SMT upatrywany jest w Google MT. Systemy oparte na przykładach (example-based MT) pracują w oparciu o analizę istniejących tekstów, które są traktowane jako przykłady dla systemu. Na ich przykładzie przetwarzany jest tekst źródłowy, a aplikacja dopasowuje do niego najbardziej podobny przykład. Przypominają w działaniu systemy CAT i ich użycie jest dość ograniczone. Stosowane są także systemy hybrydowe, będące połączeniem powyższych typów analizy.

4 4 / 11 Techniki lokalizacji oprogramowania – wykład 8 Historia MT Tłumacze wyobrażali sobie automatyzację pracy już w XVII wieku, ale brak odpowiedniej technologii sprawił, iż próby jej realizacji odłożono o dwa wieki. Pierwsze proste konstrukcje tego typu pojawiły się w 1933 i miały, jak to zwykle bywa z nowymi technologiami, zastosowanie w wojskowości. Pierwsze duży projekt związany z MT stworzył IBM we współpracy z Georgetown University w latach 50- tych ubiegłego wieku. Choć nie mówi się o tym wprost, projekt miał wspomagać operacje kontrwywiadowcze – pierwsze tłumaczenia dotyczyły dokumentów w języku rosyjskim. Gdy maszyna wydrukowała przetłumaczony tekst, prasa obwieściła, iż już za kilka lat zmieni się cały świat. Niestety postępy prac nad MT zahamowała rzeczywistość – niska jakość i olbrzymie koszty sprawiły, iż w latach 60-tych odłożono większość prac. Dopiero w latach 80-tych popularyzacja komputerów w domach i w biurach sprawiła, że temat odżył na nowo. Obecnie systemy MT pracują zarówno w sektorze enterprise, jak i na typowych domowych komputerach (z różną skutecznością).

5 5 / 11 Techniki lokalizacji oprogramowania – wykład 8 Przetwarzanie tekstu w MT Istnieje kilka metod przetwarzania tekstu przez MT: Tłumaczenie bezpośrednie – oparte na zamianie poszczególnych słów lub fraz. Nie nadaje się do profesjonalnego użytku, funkcjonuje poprawnie tylko dla bardzo zbliżonych języków. Tłumaczenie z analizą składni – efektem analizy jest drzewo składników, które przetwarzane jest w odniesieniu do zdefiniowanych w systemie reguł transferu do wynikowego zdania. MT oparte o powierzchniowy transfer semantyczny – systemy tego rodzaju analizują składnie i znaczenie w obrębie tekstu źródłowego. Realizowane jest to poprzez dołączenie do drzewa struktury syntaktycznej dodatkowych atrybutów ułatwiających określenie znaczenia. Systemy międzyjęzykowe - oparte są o uniwersalny język reprezentacji znaczenia (tzw. interlingwę), który jest niezależny od języków naturalnych, zawartych w systemie. Proces translacji składa się z dwóch etapów: tłumaczenia z języka źródłowego na interlingwę i tłumaczenia z interlingwy na język wynikowy. Podobnie realizowane są w informatyce niektóre procesy konwersji.

6 6 / 11 Techniki lokalizacji oprogramowania – wykład 8 Jak MT widzi tekst System MT jest w stanie rozpoznać: Morfy –najmniejszy składnik języka posiadającymi znaczenie. Uogólniona postać morfów to morfemy. Wyrazy – mogą posiadać różne formy, które określane są jako wyrazy tekstowe. Uogólnienie to leksem. Przykład (za wikipedią): domem, domy to dwa wyrazy tekstowe jednego leksemu, z kolei wyraz domy składa się z dwóch morfemów: dom – budynku oraz końcówki y wskazującej, że jest ich więcej niż jeden. Frazy (związki frazeologiczne) – ich uogólnienie to schematy frazy. Zdania –podstawowa jednostka tekstu. Ich abstrakcjami są schematy zdań. Wypowiedź – jest po prostu ciągiem zdań. Niekiedy frazy i zdania traktuje się jako jedno i określa mianem sememów. Algorytm MT rozpoznaje zwykle struktury od ogólnych, dłuższych do krótszych, dzięki czemu możliwe jest uzyskanie wyższej jakości przekładu.

7 7 / 11 Techniki lokalizacji oprogramowania – wykład 8 Przykłady z życia Izrealscy dziennikarze użyli dostępnego w Internecie programu MT celem przetłumaczenia listu do ministra spraw zagranicznych Danii. Efektem było omyłkowe przetłumaczenie hebrajskiego haim (jeżeli) jako haima (matka). W dużym skrócie list obrażał matkę wspomnianego ministra, co prawie spowodowało skandal dyplomatyczny… Już teraz w korporacjach takich jak Chrysler, HP i Microsoft działają zaawansowane systemy MT. W Chryslerze powstają tak podręczniki do samochodów dzięki czemu zachowana jest spójność, tłumaczenie jest zawsze takie samo, a koszty lokalizacji spadły o 36%. Przy statystycznym MT im dłuższy tekst, tym lepsze efekty. CNH - producent sprzętu ogrodniczego i budowlanego wdrożył MT w dziale supportu międzynarodowego, łącząc je ze specjalistycznym słownikiem z tej dziedziny. MT działa w obie strony dzięki czemu z zadowalającą jakością klient końcowy jest w stanie zrozumieć inżyniera posługującego się innym językiem i vice versa. Popularne systemy: Freetranslations.com, babelfish.com, Google Translate, Systran, Microsoft MT, Language Weaver

8 8 / 11 Techniki lokalizacji oprogramowania – wykład 8 MT w biznesie Czy z racji niskiej jakości można powiedzieć, że MT nie nadaje się do biznesu? Nie, należy je tylko stosować z rozwagą i w obszarach, w których się sprawdza. Korzyści z MT: przyspieszone efekty strategii time to market, niskie koszty wejścia na rynek. Perspektywy: im więcej informacji w systemie i większe bazy, tym skuteczniejsze systemy. Komisja Europejska opublikowała swoje pamięci tłumaczeń w Internecie – 10 mln słów dostępnych za darmo. Producenci skupiają się obecnie na systemach analizie tekstu źródłowego już w momencie jego powstawania. Rozwijane są systemy hybrydowe MT + TM. Dodając do nich ekstrakcję terminologii z automatycznym QA i korektą człowieka na samym końcu otrzymamy kierunek, w którym zmierza technologia najbliższych 5-10 lat. Dodać można regularne wyrażenia przed QA. Ograniczenia: MT działa dobrze na tekstach technicznych, podręcznikach, instrukcjach. Najgorzej sprawdza się w tekstach o swobodnym, nieszablonowym stylu. W biznesie najrzadziej stosuje się je w tekstach marketingowych. Jakość wynikowego materiału zależy głównie od tego, czy przed rozpoczęciem przetwarzania była odpowiednio rozwiązana kwestia terminologii oraz czy post-editing został przeprowadzony poprawnie. Minus - rozwój MT obniża stawki w branży lokalizacyjnej

9 9 / 11 Techniki lokalizacji oprogramowania – wykład 8 Test Google MT Live demo…

10 10 / 11 Techniki lokalizacji oprogramowania – wykład 8 Więcej informacji, odnośniki Sebastian Kozłowski "Co to jest tłumaczenie maszynowe" Tłumaczenia maszynowe: krótka historia (John Hutchins; tłum. Anna Sosnowska) Tłumaczenie komputerowe: obiektywne spojrzenie oraz podstawy obsługi (Carol Luttrell; tłum. Karol Kowalski)

11 11 / 11 Techniki lokalizacji oprogramowania – wykład 8 Pytania, kontakt