W4: Statystyka, Zastosowania

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

Lingwistyka Matematyczna
Znaki informacyjne.
Wzór w notacji nawiasowej: a*(d*i*(k*o-l*n)-e*h*(k*o-l*n))+f*i*j*n
Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Wprowadzenie do informatyki Wykład 6
Obserwowalność System ciągły System dyskretny
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
WYKŁAD 6 ATOM WODORU W MECHANICE KWANTOWEJ (równanie Schrődingera dla atomu wodoru, separacja zmiennych, stan podstawowy 1s, stany wzbudzone 2s i 2p,
Ludwik Antal - Numeryczna analiza pól elektromagnetycznych –W10
Liczby pierwsze.
Domy Na Wodzie - metoda na wlasne M
1 mgr inż. Sylwester Laskowski Opiekun Naukowy: prof. dr hab. inż. Andrzej P. Wierzbicki.
MS Access 2000 Normalizacja Paweł Górczyński 2005.
POLSKIE TOWARZYSTWO FONETYCZNE Analiza, synteza i rozpoznawanie mowy w lingwistyce, technice i medycynie Szczyrk 2003 System Thetos w serwisie tekstów.
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
Ksantypa2: Architektura
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
PREPARATYWNA CHROMATOGRAFIA CIECZOWA.
BIOSTATYSTYKA I METODY DOKUMENTACJI
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
Praca Inżynierska „Analiza i projekt aplikacji informatycznej do wspomagania wybranych zadań ośrodków sportowych” Dyplomant: Marcin Iwanicki Promotor:
UKŁADY SZEREGOWO-RÓWNOLEGŁE
Instytut Informatyki Politechniki Śląskiej
Klasyfikacja systemów
Opracował: Zespół Humanistyczny. Klasa Średnia ww - wielokrotnego wyboru (na 20 p) Średnia KO - krótkie odpowiedzi (na 10 p) Średnia za zaproszenie (na.
Pytania konkursowe.
Jak wypadliśmy na maturze z matematyki w 2010 roku?
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
POJĘCIE ALGORYTMU Pojęcie algorytmu Etapy rozwiązywania zadań
O relacjach i algorytmach
Technika Mikroprocesorowa 1
Technika Mikroprocesorowa 1
Algorytmy.
Podstawy układów logicznych
Agnieszka Jankowicz-Szymańska1, Wiesław Wojtanowski1,2
Wyrażenia algebraiczne
Rozkłady wywodzące się z rozkładu normalnego standardowego
Obserwatory zredukowane
Modelowanie – Analiza – Synteza
Podstawy automatyki 2012/2013Transmitancja widmowa i charakterystyki częstotliwościowe Mieczysław Brdyś, prof. dr hab. inż.; Kazimierz Duzinkiewicz, dr.
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Miary efektywności/miary dobroci/kryteria jakości działania SSN
DOŚWIADCZENIA LOSOWE.
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
  Prof.. dr hab.. Janusz A. Dobrowolski Instytut Systemów Elektronicznych, Politechnika Warszawska.
Obserwowalność i odtwarzalność
EcoCondens Kompakt BBK 7-22 E.
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
Projektowanie relacyjnych baz danych – postacie normalne
Podstawy programowania
Obliczalność czyli co da się policzyć i jak Model obliczeń sieci liczące dr Kamila Barylska.
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Gramatyki Lindenmayera
Systemy dynamiczne 2014/2015Obserwowalno ść i odtwarzalno ść  Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Obserwowalność.
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Zagadnienia AI wykład 2.
Współrzędnościowe maszyny pomiarowe
Elementy geometryczne i relacje
Strategia pomiaru.
Systemy wspomagające dowodzenie twierdzeń
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Wstęp do programowania Wykład 9
POJĘCIE ALGORYTMU Wstęp do informatyki Pojęcie algorytmu
Zapis prezentacji:

W4: Statystyka, Zastosowania Inżynieria Języka Nina Suszczańska, Politechnika Śląska, 2006

Plan W1: Lingwistyka W2: Gramatyki W3: Składnia, Semantyka W4: Statystyka, Zastosowania 20.05.2006 2 z 54

Statystyka, Modele statystyczne HMM (Hidden Markov Model), czyli ukryte modeli Markowa prawdopodobieństwo warunkowe Przykład: potrzebna jest reprezentacja wartości prawdopodobieństwa tego, że wystąpi słowo „dog”, jeśli przed nim wystąpi słowo „the”, lub „prawda, że słowo jest N, jeżeli przed nim jest ADJ, który poprzedzony jest DET”. 20.05.2006 3 z 54

Statystyka (2) Notacja: P - prawdopodobieństwo () - tego I - to co dane = - jest C - przeliczenie czegoś – pewnych obiektów Każde słowo w tekscie będziemy numerować 1  m. Wtedy dla „prawdopodobieństwa, że słowem drugim będzie „dog”, jeżeli pierwszym słowem jest „the” (przy wykonaniu warunku) : P( W2 = „dog” | W1 = „the” ) wi zamiast: i-te słowo ze słownika P( W2 = wj | W1 = wi ) Po prostu liczymy ile razy wypadnie słowo wj po wi i obliczamy stosunek wiwj do wszystkich wi w tekście Czyli będziemy zliczać wszystkie wystąpienia „the” w naszym tekście, oraz te „the”, które poprzedzają słowo „dog” 20.05.2006 4 z 54

Statystyka (3) C( the, dog ) / C( the) P( W2 = wj | W1 = wi ) = C(W1 = wi ,W2 = wj ) / C(W1 = wi) Jeżeli użyć notacji dla kolejno występujących słów Wn i Wn-1, to otrzymamy: P( Wn = wj | Wn-1 = wi ) = C(Wn-1 = wi ,Wn = wj ) / C(Wn-1 = wi) jawne modele Markova (Visible Markov Models, VMM) model Charniaka (1993) Brill-model (1992) HMM (ukryte modeli Markowa) 20.05.2006 5 z 54

Statystyka (4) Załóżmy, że chcemy obliczyć prawdopodobieństwo dla rozpoznania frazy „the big dog”. Modele statystyczne mogą obliczać i dłuższe frazy. Przede wszystkim zanotujemy skrót do zapisu sekwencji słów: P( the big dog ) = P( the ) P( big | the ) P( dog | the big ). Jest to standardowy wzór statystyczny dla warunkowego prawdopodobieństwa. Wzór ogólny ma postać: P( W1,n ) = P( W1 ) P( W2 | W1 ) P( W3 | W1,2 ) . . . P( Wn | W1,n-1 ), gdzie P( W1,n ) oznacza prawdopodobieństwo znalezienie ciągu słów od W1 do Wn w tekście w języku angielskim. Jest to skrót dla P( W1, W2, ... , Wn ). Są także skróty dla P( W1 = W1, W2 = W2, ... , Wn = Wn ), czyli prawdopodobieństwo, że pierwszym słowem jest W1, drugim W2, itd., a ostatnim Wn. Punktem wyjściowym tego wzoru jest odnalezienie trzech odrębnych, indywidualnych prawdopodobieństw: P( the big dog ) = P( the ) P( big | the ) P( dog | the big) P( the pig dog ) = P( the ) P( pig | the ) P( dog | the pig) Tu proste prawdopodobieństwa są mnożone (obliczany iloraz). 20.05.2006 6 z 54

Statystyka (5) Jeżeli zastosujemy nasz model nie do słów, a do ich cech, to możemy zapisać: P( DET ADJ N) = P( DET ) P( ADJ | DET) P( N | DET ADJ ) P( DET ADV N) = P( DET ) P( ADV | DET) P( N | DET ADV ) Tu fraza “the big dog” jest określona dokładnie Ale analiza przez poszukiwanie ADV lub ADJ nie jest dokładnie określona, gdyż można utworzyć taką frazę jak „the quickly house”, która nie należy do języka angielskiego, pomimo, że jej P(N | DET ADV) jest dość duże 20.05.2006 7 z 54

Statystyka (6) Innym typem analizatora statystycznego jest tak zwany Brill-model (1992) Oparty jest on o reguły GRAMATYKI GENERATYWNEJ G = { , N, P, S }, gdzie:  - to zbiór symboli terminalnych (czasami używa się T) N - to zbiór symboli nieterminalnych P - to zbiór reguł produkcyjnych S - to symbol startowy Za symbol startowy będziemy uważać zdanie, za symbole terminalne – słowa – jak na przykład cat, dog itp. Symbole nieterminalne zawierają nazwy fraz np. NP., VP, PP, ADV, V, ADJ, N itp. Kiedy stosowane są reguły produkcyjne nazywamy ich wyniki wywodem, a notujemy -> 20.05.2006 8 z 54

Statystyka (7) S -> NP VP NP -> N NP -> ADJ N VP -> V VP -> V ADV ADJ -> BIG ADJ -> FIERCE N -> DOGS N -> CATS V -> ATTACK V -> EAT ADV -> FEROCIOUSLY ADV -> NIOSILY 20.05.2006 9 z 54

Statystyka (8) Wtedy możemy wywód zaprezentować jako drzewo : S NP VP ADJ N V ADV Fierce dogs attack ferociously lub: NP VP ADJ N VP ADJ N V ADV Fierce N V ADV Fierce dogs V ADV Fierce dogs attack ADV Fierce dogs attack ferociously. 20.05.2006 10 z 54

Statystyka (9) Przyjmijmy : S -> aA A -> bB B -> cA B -> d Wtedy łatwo wyprodukować łańcuchy abc abcbd abcbcbd abcbcbcbd ... Wykorzystaliśmy tu regułę X -> tY. 20.05.2006 11 z 54

Statystyka (10) Możemy reprezentować wynik (przebieg) gramatyki w postaci sieci tranzytywnej (TN):EBAS a b d c Można mówić o probabilistycznym automacie skończonych stanów, tzw. łańcuchy Markowa. The (0,6) dog (0,5) ate(0,7)E21S A (0,4) cat (0,5) slept (0,3) Węzeł (1) ma prawdopodobieństwo 0,5 dla “cat” i 0,5 dla “dog”. Przejście ze stanu (2) ma prawdopodobieństwo 0,7 i 0,3 odpowiednio dla „ate” i „slept”. W sumie dają 1.0. {Zbiór wszystkich zdań wygenerowanych za pomocą łańcuchów Markowa.} jawne modele Markova (Visible Markov Models, VMM) S A B E S 1 2 E 20.05.2006 12 z 54

Statystyka (11) Możemy tu mówić o probabilistycznej regularnej gramatyce. Na przykład: the dog ate P = 0,6 * 0,5 * 0,7 = 0,21 the dog slept P = 0,6 * 0,5 * 0,3 = 0,09 a dog ate P = 0,4 * 0,5 * 0,7 = 0,14 a dog slept P = 0,4 * 0,5 * 0,3 = 0,06 the cat ate P = 0,6 * 0,5 * 0,7 = 0,21 the cat slept P = 0,6 * 0,5 * 0,3 = 0,09 a cat ate P = 0,4 * 0,5 * 0,7 = 0,14 a act slept P = 0,4 * 0,5 * 0,3 = 0,06 __________________________________________ Razem: = 1,00 20.05.2006 13 z 54

Statystyka (12) Mówiliśmy o prawdopodobieństwie wystąpienia ciągu dwóch słów przed danym słowem. Wróćmy do wzoru: P( W1,n ) = P( W1 ) P( W2 | W1) P( W3 | W1,2 ) ... P( Wn | W1,n ) Jeżeli mamy ciąg ośmiu słów, to ostatni term jest W1,7 , co jest skrótem dla ciągu W1, W2, ..., W7. Innymi słowy – dla frazy o długości 8 potrzebujemy korpusu z 7 słów. Jeżeli 30 słów- to ostatni jest W1,29. Musimy obliczyć wszystkie te prawdopodobieństwa. Żeby do końca wyobrazić sobie dramat tego podejścia, uświadomimy sobie, że dla słowa, które stoi przed aktualnym, mamy wzór: P( W1,n ) = P( W1 ) P( W2 | W1) P( W3 | W1,2 ) ... P( Wn | Wn-2,n-1 ) I tak, jeżeli ostatnie słowo jest 50-te, to ... Musimy wprowadzić symbol  dla oznaczenia iloczynu wszystkich ciągów termów. n P( W1,n ) = P( W1 ) P( W2 | W1 )  P( Wi | Wi-2, i-1) i = 3 Dwa termy przed symbolem , to prawdopodobieństwa dla pierwszych dwóch słów. Wprowadzimy dwa słowa „urojone” – słowo 0 i słowo –1, dla których zakładamy, że znane jest prawdopodobieństwo. Taki trik pozwala zapisać: n P( W1,n ) =  P(Wi | Wi-2, i-1 ) i=1 20.05.2006 14 z 54

P( W1,n | Wi-2, i-1 ) = C( Wi-2,i ) / C( Wi-2, i-1) Statystyka (13) Możemy teraz obliczać prawdopodobieństwo dla wszystkich fraz z 2 i 3 słów, za pomocą zwykłej metody: P( W1,n | Wi-2, i-1 ) = C( Wi-2,i ) / C( Wi-2, i-1) Dlaczego mówimy trigram? Dlatego, że 3 jest maksymalną liczbą dla obliczania indywidualnych fraz, aby utworzyć naszą kolekcję statystyczną, czyli korpus z 2 – 3 słownych łańcuchów. Można mówić o łańcuchach Markowa dla systemu opartego o trygramy. Łuki oznaczać będziemy wejściowymi słowami i prawdopodobieństwem. Węzły stanu będziemy etykietować ostatnimi dwoma słowami w wyjściowej frazie. W taki właśnie sposób możemy reprezentować prostą (elementarną) gramatykę, w której istnieją tylko dwa terminalne symbole (słowa) a i b, oraz generować zdania w tej gramatyce. a: P(a|ba) a: P(a|bb) b: P(b|ba) aa bb ba ab 20.05.2006 15 z 54

HMM (Hidden Markov Model) – ukryte modele Markowa Skorzystamy ze współczynnika wagi. Wtedy to nasz zapis przybierze postać: P( Wn | Wn-2,n-1 ) = λ1 P( Wn) + λ2 P( Wn | Wn-1) + λ3 P( Wn | Wn-2, n-1 ) Tu symbol λ wykorzystano jako dodatek do prawdopodobieństwa w przypadku unigramów i bigramów. Za pomocą λ można sterować przebiegiem analizy – nadając nieważnym frazom mającym niezerowe prawdopodobieństwa wartości zero. Z tego wzoru wynika teoria HMM, gdzie λ jest wykorzystywana dla automatycznego poszukiwania dobrych wartości, czyli dobrych przejść (wyborów). Ponadto HMM daje możliwość wyboru różnych dróg przejścia dla tego samego wyjściowego symbolu, z odpowiednią wartością prawdopodobieństwa. Łuki te mogą prowadzić do różnych stanów. Jest to niemożliwe w modelach determinowanych stanów, a w HMM te same frazy mogą produkować zadaną frazę, korzystając z innych stanów tranzytywnego obejścia drogi. Obejście to nazywa się hidden, stąd nazwa HMM. 20.05.2006 16 z 54

HMM w formie diagramu Wykorzystamy nasz wcześniejszy wzór trigramów. Przykład: HMM – prezentujący część naszego „ab”-języka. b: P(b|ab) b:P(b|b) b:P(b) a:P(a|ab) a:P(a|b) a:P(a) ξ: λ2 ξ: λ3 ξ: λ1 ab λ1 bb ba 20.05.2006 17 z 54

λ1P( a ) + λ2 P( b ) + λ3 P( a | ab) HMM w formie diagramu W tym diagramie, drzewo „pseudostanów” (stany λ) jest wykorzystane zgodnie ze stałymi we wzorze. Łuki obchodzą te węzły i podają na wyjściu symbol ξ z prawdopodobieństwem równym stałej λ w tym węźle. Nieistniejące (ukryte) słowa są trikiem charakteryzującym diagram. Wykorzystanie takiego diagramu powoduje obliczenie prawdopodobieństwa łańcuchów (fraz) słów, z wykorzystaniem krzyżujących się łuków. W przypadku tym odpowiednio obliczone prawdopodobieństwo przenoszone jest od jednego stanu – do drugiego. Warunek: obliczamy sumę jedynie dla nie-pseudostanów; wtedy sumujemy wszystkie łuki między „dobrymi” stanami. Dal serii przechodzenia stanów – robimy iloczyn tych sum. I tak – prawdopodobieństwo przejścia od stanu „ab” do stanu „ba” (do wyjścia „a”) jest sumą: λ1P( a ) + λ2 P( b ) + λ3 P( a | ab) W chwili obecnej ukryte modele Markowa są wykorzystywane np. w analizatorach statystycznych, w których opracowane są efektywne algorytmy dla rozwiązania problemu sumowania wszystkich przejść. 20.05.2006 18 z 54

Statystyka (14) LITERATURA: Charniak E., Statisticae Language Learning. (Breadfotd/ MIT Press) (1993) Brill, E., A simple Rule-Based Part of Speech Tagger Proces. 3rd Conf. on Applied Natural Language Processing (Trento, Italy) (1992) Jurafsky & Martin; Dr. Jan Hajič, CS Dept., Johns Hopkins Univ. Introduction to Natural Language Processing (600.465), hajic@cs.jhu.edu, www.cs.jhu.edu/~hajic 20.05.2006 19 z 54

Parser Polsyn Część składowa projektów Thetos, LAS, PolSumm, Liana, Dialog-2 Przebieg analizy: Analiza morfologiczna Analiza składniowa (Polsyn) Interpretacja semantyczna Tekst 20.05.2006 20 z 54

Struktura zdania w SGGP Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. 20.05.2006 21 z 54

GS poziomu pierwszego TZG1 GAT1 NG2 ZPK2 NG4 VG2 ZPK3 PG1 NG1 NG3 NG5 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka,której prawdziwego imienia nikt nie pamiętał. TZG1 GAT1 NG2 ZPK2 NG4 VG2 ZPK3 PG1 NG1 NG3 NG5 ZPK1 VG1 20.05.2006 22 z 54

GS poziomu drugiego TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 NG7 [Anafora] NG8 PG2 AG2 VG3 NG6 AG4 [EOC] NG9 VG4 AG6 [EOC] 20.05.2006 23 z 54

Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 20.05.2006 24 z 54

Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 20.05.2006 25 z 54

Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka,której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 20.05.2006 26 z 54

Anafora w SGGP W SGGP przez anaforę rozumiemy relację nie między pojedynczymi słowami, a między GS W naszym przykładzie: NG7 - anafora NG6 - antecedent NG7 Przykłady inne: Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Wtedy wybiła północ i stało się to, co zapowiedziała wróżka. 20.05.2006 27 z 54

Analiza semantyczna Predykatywno-argumentowy model zdania Relacja n-arna Zbiór relacji binarnych Relacje wyprowadzone Interpretacja semantyczna 20.05.2006 28 z 54

Modelowanie tekstu Na potrzeby Thetosa i Polsumm Podział zdań złożonych na pojedyncze Rekonstrukcja strukturalnej i leksykalnej pełni składu zdań Anafory Elipsy Forma kanoniczna zdania 20.05.2006 29 z 54

Projekt Thetos Polish Text into Sign Language Translator Zastosowanie wyników w systemie Thetos wersja 1 (1999 - 2001) wersja 2 (2003 - 2005) Część lingwistyczna Część animacyjna 20.05.2006 30 z 54

Schemat translacji w Thetosie-2 Ogólny widok modyfikacji input text Linguistic subsystem Text modeling processor modeled input text (in canonical form) Text translating processor output text (textual form of the sign language) Animation subsystem 20.05.2006 animated gesture sequence 31 z 54

Schemat translacji w Thetosie-2 Procesor modelujący tekst 20.05.2006 32 z 54

Schemat translacji w Thetosie-2 Procesor tłumaczący tekst 20.05.2006 33 z 54

Schemat translacji w Thetosie-2 Widok ogólny 20.05.2006 34 z 54

Anafora przy tłumaczeniu (1) Zdania w języku miganym nie mogą być złożone Problemy: Jak przekazać w języku migowym/miganym związek anaforyczny? Jak uzupełniać braki w zdaniach z elipsą? Czy i w jakim stopniu w języku miganym występują te mechanizmy językowe? Jak przetłumaczyć elipsę na elipsę? 20.05.2006 35 z 54

Badania statystyczne Wyliczenie zakresu przeszukiwania: Półautomatyczne wyliczenie zakresu 20.05.2006 36 z 54

Badania statystyczne(2) Postać raportu: Liczba anafor: 6 (Chm-Aut) odległość maksymalna: 3 odległość minimalna: 1 odległość średnia: 1,66 Liczba anafor: 8 (S-P1) - odległość maksymalna: 2 - odległość minimalna: 1 - odległość średnia: 1,25 Liczba anafor: 9 (Kr.Śn.) - odległość maksymalna: 4 - odległość średnia: 2,44 Liczba anafor: 35 (S-P2) - odległość maksymalna: 7 - odległość średnia: 1,82 20.05.2006 37 z 54

Badania statystyczne(3) Fragmenty tekstów: Królewna Śnieżka – 6 KB Kopciuszek - 3 KB Czerwony Kapturek - 3 KB Robinson - 6 KB Pani Twardowska - 4 KB Wioska - 2 KB J. Chmielewska, Autobiografia - 1 KB H. Sienkiewicz, Potop – 2 fragmenty 2 KB 3 KB 20.05.2006 38 z 54

Badania statystyczne (4) Wyniki: Anafor w tekście 80% 10% 2% Odstęp (w zdaniach) 0 - 2 3 4-8 20.05.2006 39 z 54

Badania statystyczne (6) Czerwony Kapturek Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. Dziewczynka chodziła w czerwonej pelerynce z kapturkiem i dlatego wszyscy nazywali ją Czerwonym Kapturkiem. Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Czerwony Kapturek miał babcię, która mieszkała w chatce w lesie. W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad. 20.05.2006 40 z 54

Przekształcenie tekstu Wyniki generowania zdań Dla zdania S1: [NG6 VG3 AG2 PG2] pewny dziewczynka mieszkać dawno , dawno to w mały wiejski domek Dla zdania S2: [NG9 VG4 NG8 NG7] nikt pamiętać nie prawdziwy imię który Przekształcenie tekstu: Nowa grupa NG7’: Zmiany strukturalne: dziewczynka - reprezentant antecedensa (NG6) - zastępuje której (NG7) morfo-syntaktyczne charakterystyki NG7’ dziedziczone po NG7 Nowa grupa NG8’ = NG8+NG7’ Zdanie S2 po przebudowie: [NG9 VG4 NG8’] nikt pamiętać nie prawdziwy imię dziewczynka 20.05.2006 41 z 54

Generowanie W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad. 20.05.2006 42 z 54

Program PolSumm Program streszczania tekstów Metody statystyczne Metody lingwistyczne Analiza składniowa, semantyczna Metoda dominant Wybór istotnych faktów Metoda statystyczna Wyszukiwanie informacji Obliczenie unikalnej wagi dla każdego zdania 20.05.2006 43 z 54

Program PolSumm c.d. Etapy streszczania w programie PolSumm Wybór istotnych faktów Generowanie tekstu streszczenia Analiza lingwistyczna 20.05.2006 44 z 54

Serwer lingwistyczny LAS (1) Stanowisko badawcze Serwer analizy lingwistycznej LAS (Linguistics Analysis Server) http://thetos.zo.iinf.polsl.gliwice.pl/las2/ http://thetos.zo.iinf.polsl.gliwice.pl/forum/ 20.05.2006 45 z 54

Serwer lingwistyczny LAS (2) Analiza morfologiczna Analiza składniowa Thetos Polsumm Modelowanie tekstu Słowniki ??? 20.05.2006 46 z 54

Serwer lingwistyczny LAS (3) Forum 20.05.2006 47 z 54

System LIAna (1) Opracowanie oprogramowania wspomagającego analityka obiektowego Opracowanie elementów metodyki LIA (Linguistically based Information Analysis) dla języka polskiego algorytmy automatycznej identyfikacji kluczowych abstrakcji: wydzielenie kandydatów na klasy, obiekty lub atrybuty wydzielenie kandydatów na relacje, zdarzenia lub metody algorytmy inne: wyszukiwanie kontekstów dla zidentyfikowanych pojęć podejmowanie decyzji na podstawie macierzy kontekstowej sporządzenie arkuszu roboczego analityka (tezaurus, baza doświadczenia) itd. 20.05.2006 48 z 54

Schemat ogólny systemu Liana BD kontekstów Analiza lingwistyczna Baza Tekstów Wizualizacja wyników analizy lingwistycznej BD leksemów Wyniki analizy lingwistycznej Kontekster Tworzenie arkusza OOA/D Procesor tablicy kontekstów Wizualizacja wyników OOA/D (Edytory graficzne diagramów) BD wymagań Tablica kontekstów Arkusz roboczy OOA/D 20.05.2006 49 z 54

Interpretacja semantyczna System Liana (2) Schemat przekształcenia RelSyn RelOOA/D Interpretacja semantyczna Oparta o cechy gramatyczne Oparta o ontologie Opracowanie ontologii: Wybór relacji Opracowanie sieci pojęć Opracowanie maszyny decyzyjnej RelSyn Interpretacja semantyczna RelOOA/D 20.05.2006 50 z 54

LingBench 20.05.2006 51 z 54

LingBench 20.05.2006 52 z 54

LingBench http://www.natlantech.com 20.05.2006 53 z 54

Koniec 20.05.2006 54 z 54