POLSKIE TOWARZYSTWO FONETYCZNE Analiza, synteza i rozpoznawanie mowy w lingwistyce, technice i medycynie Szczyrk 2003 System Thetos w serwisie tekstów i streszczeń z tłumaczeniem na język migowy Przemysław Szmal, Sławomir Kulików Instytut Informatyki Politechnika Śląska Gliwice (praca finansowana ze środków KBN w latach 2003-2005 jako projekt badawczy nr 4 T11C 024 24)
Plan prezentacji Wstęp System Thetos Program PolSumm Internetowy serwis lingwistyczny LAS Aplikacja I-Thetos Kierunki dalszych prac Uwagi końcowe
Wstęp (1) Prace z zakresu inżynierii języka naturalnego Warsztat: środowisko do prac badawczo- rozwojowych procesory lingwistyczne baza słownikowa mechanizmy i narzędzia ułatwiające: zarządzanie zasobami prowadzenie eksperymentów analizę wyników eksperymentów
Wstęp (2) Pomysł: zapewnić dostęp do zasobów szerokiemu gronu użytkowników. Środek: użyteczne aplikacje Aplikacje lokalne Polmorph: analizator morfologiczny ze środowiskiem Thetos (TGT-1): translator tekstów na j. migowy PolSumm: generator streszczeń Aplikacja sieciowa LAS: serwer lingwistyczny I-Thetos: aplet pośredniczący w dostępie
System Thetos (1) Zadanie: tłumaczenie tekstów (zdań) w języku polskim na polski język migowy Etapy tłumaczenia: lingwistyczny i animacyjny Realizacja - w części lingwistycznej i w części animacyjnej systemu
System Thetos (2) Przykład Tekst wejściowy: Dzieci nie lubią chorować. Wynik pracy części lingwistycznej: dziecko chorować lubić nie . Wynik na wyjściu części animacyjnej:
System Thetos (3) Moduły zaangażowane w tłumaczenie w części lingwistycznej Analizator morfologiczny Generator tekstu wyjściowego Analizator syntaktyczny Generator struktury składniowej Analizator semantyczny Konwerter reprezentacji predykatywnej
System Thetos (4) Część animacyjna - problemy Postać wirtualna Szkielet Wygląd zewnętrzny Ruchy Konstrukcja wypowiedzi w j. migowym Znaki języka migowego Sekwencje znaków Tempo wypowiedzi ...
Program PolSumm (1) Zadanie: generacja streszczenia tekstów w języku polskim Założenie: streszczenie – ciąg zdań z pierwotnego tekstu uznanych za najistotniejsze rozmiar streszczenia – zadany (% liczby zdań wejściowych) kolejność zdań w streszczeniu zachowana Metody generacji streszczenia: metoda statystyczna metoda wyszukiwania informacji
Program PolSumm (2) Zasada wyboru zdań - metoda statystyczna: usunąć z tekstu słowa nieistotne (u nas: pozostawić rzeczowniki) określić wagi pozostawionych słów: waga słowa = częstość występowania słowa w całym tekście wyznaczyć wagi zdań, sumując wagi słów, które w nich pozostają wybrać zadaną liczbę zdań o największej wadze
Program PolSumm (3) Zasada wyboru zdań - metoda wyszukiwania informacji: usunąć z tekstu słowa nieistotne (u nas: pozostawić rzeczowniki) wyszukać powiązania między słowami (powtórzenia pojęć) w celu wyszukania myśli wyznaczyć wagi zdań w przekazywaniu myśli zawartej w tekście wybrać zadaną liczbę zdań o największej wadze
Program PolSumm (4) Przykład Zaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
Program PolSumm (4) Przykład Usunięcie nieistotnych słów Zaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
Program PolSumm (4) Przykład Szukanie powiązań - bezpośrednie Zaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
Program PolSumm (4) Przykład Szukanie powiązań - pośrednie Zaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
Program PolSumm (4) Przykład Wynik wyszukiwania powiązań Zaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
Program PolSumm (5) Szukanie przekazywanej myśli przekazywanie myśli przez powtórzenie pojęć szukanie myśli w obrębie akapitu legenda zdanie pierwsze wystąpienie pojęcia powtórzenie pojęcia powiązanie słów przekazywana myśl tekst źródłowy Z1 Z2 Z3 Z4
Program PolSumm (6) Moduły zaangażowane w generację streszczenia analizator morfologiczny analizator syntaktyczny generator streszczenia
Internetowy serwis lingwistyczny LAS Budowa moduły uniwersalne - analizator morfologiczny - analizator syntaktyczny moduły dedykowane - tłumaczenie na język migowy - generowanie animacji gestów - generowanie streszczenia zlecenia zewnętrzne (od aplikacji I-Thetos) moduł koordynujący
Aplikacja I-Thetos (1) przyciski sterujące awatar tekst źródłowy wynik streszczania wynik tłumaczenia
Aplikacja I-Thetos (2) Zasada obsługi: wybór tekstu źródłowego zawartość strony WWW (z Internet Explorer) wprowadzony z klawiatury ustawienie parametrów wykonanie streszczania przed tłumaczeniem wybór typu widoku wykonanie tłumaczenia (połączenie z serwerem) podgląd wyników zapisanie wyników
Aplikacja I-Thetos (2) Zasada obsługi: wybór tekstu źródłowego zawartość strony WWW (z Internet Explorer) wprowadzony z klawiatury ustawienie parametrów wykonanie streszczania przed tłumaczeniem wybór typu widoku wykonanie tłumaczenia (połączenie z serwerem) podgląd wyników zapisanie wyników
Aplikacja I-Thetos (2) Zasada obsługi: wybór tekstu źródłowego zawartość strony WWW (z Internet Explorer) wprowadzony z klawiatury ustawienie parametrów wykonanie streszczania przed tłumaczeniem wybór typu widoku wykonanie tłumaczenia (połączenie z serwerem) podgląd wyników zapisanie wyników
Aplikacja I-Thetos (3) Przykład 1. Generacja streszczenia
Aplikacja I-Thetos (3) Przykład 2. Tłumaczenie zadanego tekstu: Wynik: Dzieci nie lubią chorować. Wynik:
Kierunki dalszych prac Program prototypowy – konieczne ulepszenia poprawa jakości tłumaczenia usunięcie ograniczeń eksploatacyjnych (przeglądarka Internet Explorer + wtyczka VRML) uwzględnienie zabezpieczeń pracy: połączenie szyfrowane
Uwagi końcowe Aplikacja internetowa: serwer LAS + I-Thetos: Udostępnia szerokiemu gronu użytkowników wyniki prac badawczych Ułatwia osobom niesłyszącym korzystanie z Internetu Może być używana przez osoby słyszące do nauki języka migowego do wykonywania streszczeń Wymaga dalszych prac
Dziękuję za uwagę
Dziękuję za uwagę Adres kontaktowy: pszmal@polsl.pl Projekt/system Thetos: thetos.polsl.pl thetos.aei.polsl.pl Serwer LAS: las.aei.polsl.pl/las2