Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

WUT TWG 2006 WEDT Tłumaczenie automatyczne & Query answering Wykład 8 Piotr Gawrysiak 2007.

Podobne prezentacje


Prezentacja na temat: "WUT TWG 2006 WEDT Tłumaczenie automatyczne & Query answering Wykład 8 Piotr Gawrysiak 2007."— Zapis prezentacji:

1 WUT TWG 2006 WEDT Tłumaczenie automatyczne & Query answering Wykład 8 Piotr Gawrysiak pgawrysiak@supermedia.pl 2007

2 WUT TWG 2006 Źródło: Wikipedia Cyfrowe wykluczenie Digital divide - The term digital divide refers to the gap between those with regular, effective access to Digital and information technology, and those without this access. It generally encompasses both physical access to technology hardware and, more broadly, skills and resources which allow for its use.

3 WUT TWG 2006 Cyfrowe wykluczenie

4 WUT TWG 2006 Źródło: Global Reach (www.glreach.com) Tłumaczenie automatyczne

5 WUT TWG 2006 Tłumaczenie automatyczne

6 WUT TWG 2006 W latach 50-tych ubiegłego wieku wydawało się, iż jest to stosunkowo prosty problem, którego rozwiązanie wymaga jedynie zwiększenia mocy obliczeniowej i przede wszystkim pojemności nośników danych Podejście słownikowe – tłumaczenie poszczególnych słow – nie może być skuteczne, występują bowiem różnice w gramatykach języków: źródłowego i docelowego Nawet jeśli potrafimy dokonać translacji gramatyki to dalej mamy problem – word sense disambiguation np.: Tłumaczenie automatyczne - początki Holy Spirit

7 WUT TWG 2006 Przykład: Babelfish (Angielski – Japoński – Angielski) God drew up the heaven and the earth with beginning. The earth the formless and was invalid, as for the darkness there was a surface being deep, mind of God was moving to the surface of the water. (2005) God drew up the heaven and the earth with beginning. And without form or the space there was earth; And the darkness was on the surface being deep. And mind of God moved to the surface of the water. (2007) Na kilkadziesiąt lat to mocno osłabiło popularność badań nad AI Tłumaczenie automatyczne - początki

8 WUT TWG 2006 Google Translate (Angielski – Francuski – Angielski) – najprostsza bodajże możliwa kombinacja In starting God created the sky and the ground. And the ground was without form, and vacuum; and the darkness was on the face of the deep one. And the spirit of God moved on the face of water. (2007) Powinno być: In the beginning God created the heaven and the earth. And the earth was without form, and void; and darkness was upon the face of the deep. And the Spirit of God moved upon the face of the waters. (Genesis, Kings James version) Tłumaczenie automatyczne - początki

9 WUT TWG 2006 Tłumaczenie automatyczne Problemy Word level W łóżku jest szybkaIn bed is window-pane Syntactic level She is a window-pane in bedW łóżku jest szybka Semantic level She is quick in bedW łóżku jest szybka Knowledge representation She is quick in bedW łóżku jest szybka Formalna reprezentacja języka Source: Polish Target: English Różne słowniki Różne gramatyki i reguły składni Nawet różne zestawy znaków Oczywiście i tak zwykle najważniejszym problemem okazuje się że i tak nie mamy słownika

10 WUT TWG 2006 Hieroglify Egipski demotyczny Grecki (Ptolemeusz V) Nieco historii Tłumaczenie – Champollion, ~ 20 lat

11 WUT TWG 2006 Bitexts - Biblia English: In the beginning God created the heavens and the earth. Spanish: En el principio crió Dios los cielos y la tierra. French :Au commencement Dieu créa les cieux et la terre. Haitian :Nan konmansman, Bondye kreye syèl laak latèa. Danish :Begyndelsen skabte Gud Himmelen og Jorden. Swedish :I begynnelsen skapade Gud himmel och jord. Finnish :Alussa loi Jumala taivaan ja maan. Greek : Latin :in principio creavit Deus caelum et terram Vietnamese :Ban dâu Ðúc Chúa Tròi dung nên tròi dât. Inne źródła – głównie teksty prawnicze (UE), zapisy z posiedzeń parlamentarnych (np. Kanada)

12 WUT TWG 2006 Biblia English: In the beginning God created the heavens and the earth. Spanish: En el principio crió Dios los cielos y la tierra. French :Au commencement Dieu créa les cieux et la terre. Haitian :Nan konmansman, Bondye kreye syèl laak latèa. Danish :Begyndelsen skabte Gud Himmelen og Jorden. Swedish :I begynnelsen skapade Gud himmel och jord. Finnish :Alussa loi Jumala taivaan ja maan. Greek : Latin :in principio creavit Deus caelum et terram Vietnamese :Ban dâu Ðúc Chúa Tròi dung nên tròi dât.

13 WUT TWG 2006 Biblia cont. English: In the beginning God created the heavens and the earth. Spanish: En el principio crió Dios los cielos y la tierra. French :Au commencement Dieu créa les cieux et la terre. Haitian :Nan konmansman, Bondye kreye syèl laak latèa. Danish :Begyndelsen skabte Gud Himmelen og Jorden. Swedish :I begynnelsen skapade Gud himmel och jord. Finnish :Alussa loi Jumala taivaan ja maan. Greek : Latin :in principio creavit Deus caelum et terram Vietnamese :Ban dâu Ðúc Chúa Tròi dung nên tròi dât.

14 WUT TWG 2006 Biblia cont. English: In the beginning God created the heavens and the earth. Spanish: En el principio crió Dios los cielos y la tierra. French :Au commencement Dieu créa les cieux et la terre. Haitian :Nan konmansman, Bondye kreye syèl laak latèa. Danish :Begyndelsen skabte Gud Himmelen og Jorden. Swedish :I begynnelsen skapade Gud himmel och jord. Finnish :Alussa loi Jumala taivaan ja maan. Greek : Latin :in principio creavit Deus caelum et terram Vietnamese :Ban dâu Ðúc Chúa Tròi dung nên tròi dât.

15 WUT TWG 2006 English:In the beginning God created the heavens and the earth. Vietnamese:Ban dâu Ðúc Chúa Tròi dung nên tròi dât. English:God called the expanse heaven. Vietnamese:Ðúc Chúa Tròi dat tên khoang không la tròi. English:… you are this day like the stars of heaven in number. Vietnamese:… các nguoi dông nhu sao trên tròi. Tłumaczenie słów

16 WUT TWG 2006 English:In the beginning God created the heavens and the earth. Vietnamese:Ban dâu Ðúc Chúa Tròi dung nên tròi dât. English:God called the expanse heaven. Vietnamese:Ðúc Chúa Tròi dat tên khoang không la tròi. English:… you are this day like the stars of heaven in number. Vietnamese:… các nguoi dông nhu sao trên tròi. Tłumaczenie Jeszcze lepiej – dopasowanie wzorców: Książka okazała się adjective, The book turned out to be adjective

17 WUT TWG 2006 Słownik dwujęzyczny Posiadając repozytorium sparowanych zdań możemy skonstruować dla każdego słowa wektor, opisujący jego występowanie w zdaniach Podobieństwo wektorów (czyli wektory najmniej odległe w przestrzeni – np. wg. miary kosinusowej) wyznaczają nam powiązane semantycznie słowa Zwykle częstość występowania słów ograniczana jest do K=1000 - 10000 S0 I am very pleased to see that happening. Je suis très heureux que cela se produise. S1 As I mentioned earlier, my riding is very diverse. Comme je l'ai dit tout à l'heure, ma circonscription est très diversifiée. S2 Dauphin-Swan River is located in west central Manitoba, the second largest settled area riding. La circonscription est située au centre ouest du Manitoba et vient au deuxième rang quant à sa superficie habitée.

18 WUT TWG 2006 E_I:occ:S01 E_I:occ:S11 E_in:occ:S21 E_large:occ:S21 E_locate:occ:S21 E_Manitoba:occ:S21 E_mention:occ:S11 E_my:occ:S11 E_pleased:occ:S01 E_rid:occ:S21 E_riding:occ:S11 F_centre:occ:S21 F_circonscription:occ:S11 F_circonscription:occ:S21 F_Comme:occ:S11 F_deuxième:occ:S21 F_dit:occ:S11 F_diversifiée:occ:S11 F_du:occ:S21 F_est:occ:S11 F_est:occ:S21 F_et:occ:S21 F_habitée:occ:S21 F_heure:occ:S11 F_heureux:occ:S01 F_Je:occ:S01 F_Je:occ:S11 (E_I -> sims F_Je0.66442 F_que0.324093... (E_ riding -> sims F_circonscription0.565143 F_comté0.315204... (E_my -> sims F_mon0.318009 F_ma0.301029 F_j0.159929 F_Je0.153954... Słownik dwujęzyczny

19 WUT TWG 2006 Text Alignment Tak naprawdę potrzebujemy informacji o tym, które części zdań tłumaczone są na które w języku docelowym Reguły gramatyczne (oraz styl pisania tłumaczy) powodują, iż zmienia się nie tylko kolejność słów, ale nawet całych zdań. Potrzebne jest zatem dokonanie sparowania – alignment ciągów zdań (beads) – (typu 1:1, 0:1, 1:0, 1:2 itd.) Podejścia: Wykorzystujące gramatykę Wykorzystujące jedynie informacje statystyczne (Length-Based Approach) – Church, Gale 1993 krótkie zdania tłumaczone będą na krótkie zdania, a długie – na długie metody programowania dynamicznego użyte do znalezienia sparowania o najmniejszym koszcie

20 WUT TWG 2006 Pattern matching – inne zastosowania Telephone Cell phone Telecommunications Fax machine Data transmission network Electronic mail AD BT RT Post and telecom Np. Automatyczne budowanie tezaurusów Tezaurus (sieć semantyczna) przechowuje informacje o związkach pomiędzy słowami (pojęciami) – przykład WordNet Relacje askryptor - deskryptor Relacje typu Broader term – Narrower term Relacje typu Related term The U.S.S Nashville arrived in Colon harbour with 42 marines With the warship in Colon harbour, the Colombian troops withdrew Także Latent Semantic Analysis (LSA)

21 WUT TWG 2006 Question Answering Kolejny etap rozwoju metod IR To co zaczyna nas interesować w przypadku bardzo dużych repozytoriów dokumentów (Internet) to nie tylko zbiór relewantnych dokumentów ale wiedza QA (question answering): w odpowiedzi na zapytanie użytkownika należy dostarczyć skrótowej definicji, ew. popartej listą źródeł AltaVista query log (~2000) who invented surf music? how to make stink bombs which english translation of the bible is used in official catholic liturgies? how to do clayart how to copy psx how tall is the sears tower? Excite query log (12/1999) how can i find someone in texas where can i find information on puritan religion? what are the 7 wonders of the world how can i eliminate stress What vacuum cleaner does Consumers Guide recommend Zwykle około 12–15% wszystkich zapytań

22 WUT TWG 2006 QA – metody naiwne Metoda 1 Używana m.in. przez Google 1. Dodanie słów pytających do stop-listy 2. Standardowe IR To czasami nawet działa: Pytanie: Who was the prime minister of Australia during the Great Depression? The Great Depression - Stories from Australia's Culture and... Prime Ministers during the Great Depression. James Henry Scullin. James Henry Scullin. Image courtesy of National Library of Australia. Labor Prime Minister... www.cultureandrecreation.gov.au/articles/greatdepression/ - 29k - Cached - Similar pagesThe Great Depression - Stories from Australia's Culture and...Cached Similar pages Ale zwykle nie (np. How much money did IBM spend on advertising in 2002?) Metoda 2 - Też używana przez Google Bierzemy zapytanie i poszukujemy stron zawierających dokładnie ten sam tekst Traktujemy następne zdanie występujące w dokumencie jako odpowiedź. Działa doskonale jeśli mamy szczęście i trafiliśmy na FAQ, email z pytaniem itp. W pozostałych przypadkach działa bardzo źle...

23 WUT TWG 2006 Elementy QA można odnaleźć w wielu systemach wykorzystujących NLP: Bazy danych z interfejsem w języku naturalnym (np. Lunar) Wiele wczesnych prac Systemy IVR Dziedzina rozwijana obecnie Nowością jest przejście do systemów typu open-domain MURAX (Kupiec 1993): Odpowiedzi encyklopedyczne TREC QA competition: od 1999 Jeden z pierwszych publicznych systemów – Ask Jeeves Wykorzystuje analizę wzorców aby dopasować pytanie do własnej bazy parametryzowanych odpowiedzi (tworzonych ręcznie) Jeśli trafimy na wzorzec pytania – otrzymujemy odpowiedź b. wysokiej jakości (ale koszty utrzymania bazy są duże) Jeśli nie – zwykłe wyszukiwanie w sieci WWW www.ask.com; Inne systemy – AnswerBus - www.answerbus.com, LCC - www.languagecomputer.comwww.ask.comwww.answerbus.com www.languagecomputer.com Inne systemy QA

24 WUT TWG 2006 http://trec.nist.gov Polega na udzieleniu odpowiedzi na kilkaset pytań (typu zapytań o fakty) Przez pierwsze trzy lata konkurujące systemy mogły udzielić uporządkowaną listę 5-ciu urywków tekstu (50/250 bytes) na każde pytanie. Ostatnio (2005) kilka zadań - udzielanie odpowiedzi (jednej), porządkowanie dokumentów zawierających odpowiedzi (<=1000). Korpus ( 1,033,461 dokumentów, 3GB tekstu) : AP newswire, 1998-2000 New York Times newswire, 1998-2000 Xinhua News Agency newswire, 1996-2000 Można podpierać się wyszukiwaniem w innych źródłach np. WWW Czas – tydzień na przeprowadzenie analizy i udzielenie odpowiedzi... Może to temat na pracę magisterską? (jak na razie żaden zespół z Polski nie uczestniczy w TREC). TREC QA Competition

25 WUT TWG 2006 Przykłady pytań z TREC 1. Who is the author of the book, "The Iron Lady: A Biography of Margaret Thatcher"? 2. What was the monetary value of the Nobel Peace Prize in 1989? 3. What does the Peugeot company manufacture? 4. How much did Mercury spend on advertising in 1993? 5. What is the name of the managing director of Apricot Computer? 6. Why did David Koresh ask the FBI for a word processor? 7. What debts did Qintex group leave? 8. What is the name of the rare neurological disease with symptoms such as: involuntary movements (tics), swearing, and incoherent vocalizations (grunts, shouts, etc.)? Obecnie najlepsze systemy udzielają odpowiedzi na ok. 70% pytań (TREC-12 – 0.7, TREC-10 – 0.75) B. różne podejścia 2000, 2001 – podejścia holistyczne używające wielu zaawansowanych technik NLP ( Harabagiu, Moldovan et al.) AskMSR – proste metody wykorzystujące obfitość danych i redundancję informacji Różnego rodzaju algorytmy dopasowujące wzorce (a la DIPRE)

26 WUT TWG 2006 AskMSR: Simplicity Opracowany przez Microsoft Research (dla MSN) In what year did Abraham Lincoln die? Ignorujemy dokumenty trudne do analizy i poszukujemy prostych

27 WUT TWG 2006 AskMSR cont.

28 WUT TWG 2006 Query rewriting Zapytanie użytkownika jest często syntaktycznie bliskie zdaniu zawierającemu odpowiedź: Where is the Louvre Museum located? The Louvre Museum is located in Paris Who created the character of Scrooge? Charles Dickens created the character of Scrooge. Klasyfikacja zapytania do jednej z siedmiu kategorii Who is/was/are/were…? When is/did/will/are/were …? Where is/are/were …? a. transformacje (zależne od kategorii pytania) np: For Where questions, move is to all possible locations: Where is the Louvre Museum located is the Louvre Museum located the is Louvre Museum located the Louvre is Museum located the Louvre Museum is located the Louvre Museum located is b. specyfikacja typu odpowiedzi (np. Date, Person, Location, …) When was the French Revolution? DATE Powyższe reguły tworzone ręcznie

29 WUT TWG 2006 Search engine System wag powiązanych z zaufaniem odpowiedzi Wszystkie zapytania wysyłamy do wyszukiwarki Pobieramy opisy (snippets) najlepszych N dokumentów +the Louvre Museum is located Where is the Louvre Museum located? Weight 5 Jeśli coś znajdziemy to jest wysoce prawdopodobne iż jest to poszukiwana odpowiedź +Louvre +Museum +located Waga = 1 Wiele możliwych fałszywych trafień

30 WUT TWG 2006 Mining Tworzymy listę wszystkich n-gramów (N=1,2,3...k) ze wszystkich odnalezionych opisów Poszczególnym n-gramom przypisujemy wartości związane z liczbą wystąpień ważonych wagami zapytań Np: Who created the character of Scrooge? Dickens - 117 Christmas Carol - 78 Charles Dickens - 75 Disney - 72 Carl Banks - 54 A Christmas - 41 Christmas Carol - 45 Uncle - 31

31 WUT TWG 2006 Filtrowanie & składanie Każde zapytanie jest związane z filtrami typów odpowiedzi When… Where… What … Who … Podwyższamy wartość n-gramów które pasują Obniżamy wartość tych, które nie pasują Date Location Person Dickens Charles Dickens Mr Charles Scores 20 15 10 Mr Charles Dickens Score 45

32 WUT TWG 2006 Rezultaty Słabo działa na repozytorium TREC (dobre odpowiedzi na ~4 – 5 pozycji) Nieźle działa w WWW (2-3) – przyczyną jest rozmiar repozytorium Niestety w wielu zastosowaniach (szczególnie komercyjnych) dysponujemy jedynie ograniczonym zbiorem dokumentów Działa tylko dla prostych pytań typu fact-based Oparty o ręcznie tworzony i niewielki zbiór: klas pytań reguł tworzenia zapytań filtrów odpowiedzi

33 WUT TWG 2006 Dopasowywanie wzorców Wykorzystywane są charakterystyczne frazy "When was born Typowe odpowiedzi "Mozart was born in 1756. "Gandhi (1869-1948)... A zatem takie wzorce " was born in " ( - Wyrażenia regularne mogą być tu przydatne

34 WUT TWG 2006 Wzorce Oczywiście najlepiej, jeśli wzorców nie trzeba będzie tworzyć ręcznie – potrzebne są metody uczenia Np: The great composer Mozart (1756-1791) achieved fame at a young age Mozart (1756-1791) was a genius The whole world would always be indebted to the great music of Mozart (1756-1791) Najdłuższy wspólny podciąg to "Mozart (1756-1791) Możemy użyć tu np. algorytmu drzew sufiksowych do odnajdywania najdłuższych wspólnych ciągów (Suffix Tree, używane także do grupowania jako Suffix Tree Clustering) Należy powyższe powtórzyć dla innych pytań np. Gandhi 1869, Newton 1642, etc. Rezultat (jako wzorzec dla BIRTHDATE) a. born in, b. was born on, c. ( - d. ( - )

35 WUT TWG 2006 Przykładowe wyniki 6 typów pytań BIRTHDATE, LOCATION, INVENTOR, DISCOVERER, DEFINITION, WHY-FAMOUS różna precyzja otrzymywanych odpowiedzi: BIRTHDATE 1.0 ( - ) 0.85 was born on, 0.6 was born in 0.59 was born 0.53 was born 0.50- ( 0.36 ( - INVENTOR 1.0 invents 1.0the was invented by 1.0 invented the in DISCOVERER 1.0when discovered 1.0 's discovery of 0.9 was discovered by in DEFINITION 1.0 and related 1.0form of, 0.94as, and

36 WUT TWG 2006 Problemy Potrzebna jest analiza POS i semantyczna "Where are the Rocky Mountains? "Denver's new airport, topped with white fiberglass cones in imitation of the Rocky Mountains in the background, continues to lie empty in "background" to nie Long distance dependencies "Where is London? "London, which has one of the most busiest airports in the world, lies on the banks of the river Thames tu potrzebny byłby wzorzec tego typu:, ( )*, lies on Nadzieja w obfitości danych w WWW Tylko jedno słowo charakterystyczne "In which county does the city of Long Beach lie? "Long Beach is situated in Los Angeles County możliwy wzorzec: is situated in Wielkość liter może być istotna "What is a micron? "...a spokesman for Micron, a maker of semiconductors, said SIMMs are... Dla pytania o Micron taka odpowiedź byłaby poprawna


Pobierz ppt "WUT TWG 2006 WEDT Tłumaczenie automatyczne & Query answering Wykład 8 Piotr Gawrysiak 2007."

Podobne prezentacje


Reklamy Google