Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Instytut Informatyki Politechniki Śląskiej

Podobne prezentacje


Prezentacja na temat: "Instytut Informatyki Politechniki Śląskiej"— Zapis prezentacji:

1 Instytut Informatyki Politechniki Śląskiej
Zastosowanie GS-modelu języka polskiego w kompleksowej analizie tekstów Nina Suszczańska Instytut Informatyki Politechniki Śląskiej IPI PAN Warszawa

2 Plan Wiadomości ogólne o GS-modelu Analiza składniowa
Formalizm SGS Gramatyka SGGP (dawniej GS-gramatyka) Analiza składniowa Analiza semantyczna Modelowanie tekstu Aplikacje LAS Thetos Polsumm Liana Podsumowanie IPI PAN Warszawa

3 Wiadomości ogólne o GS-modelu (1)
Model języka Przy budowaniu modeli języka ustala się: skończony zbiór V (słownik języka) gramatyka formalna (zbiór reguł – produkcji) Sensowność formalnej gramatyki języka naturalnego z punktu widzenia lingwistyki Aktualne pytania: jak odbywa się podział zdania na składowe jakie relacje powstają przy tym podziale IPI PAN Warszawa

4 Wiadomości ogólne o GS-modelu (2)
SGS – Formalizm Systemów Grup Składniowych 1975 – A.V.Gładky: Powstanie formalizmu Uogólnienie formalizmów: analizy składnikowej i drzew zależności Reprezentacja składniowa zdania: etykietowany skierowany graf: Węzły – grupy składniowe (GS) Krawędzie – relacja zależności Aksjomaty: ograniczenia na topologię grafu < G ,r > 1984 – c.d.: Rozwój formalizmu w celu modelowania języka naturalnego Zalety SGS Zdolność jawnie wskazywać grupy wyrazów Zdolność jawnie wskazywać relacje składniowe między wyrazami lub grupami wyrazów Przydatność do języków naturalnych, przede wszystkim o szyku swobodnym IPI PAN Warszawa

5 Wiadomości ogólne o GS-modelu (3)
SGS na potrzeby NL: aksjomaty Gładkiego silny etykietowany SGS: < G , R , EG , ER ,  , > kryteria ogólne grupowania GS-gramatyka NL operacje na iloczynie kartezjańskim G x I x K x A x R poziomy GS typy reguły szczegółowe skończony zbór produkcji postaci GSL  GSP gdzie GSL i GSP są jednostkami GS–modelu, czyli elementami słownika V jednostki terminalne i nieterminalne reprezentacja składniowa zdania multigraf problemy redukcji Predykatywno-argumentowy model zdania Modelowanie tekstu IPI PAN Warszawa

6 Wiadomości ogólne o GS-modelu (2)
Gramatyka SGGP – Syntactical Groups Grammar for Polish – dawniej GS-gramatyka Zadanie SGGP: określenie warunków grupowania GS oraz warunków powstania relacji składniowych SGGP operuje na skończonych zbiorach: G – zbiór GS Zdanie jest skończonym zbiorem Z podzbiorów słów Niepusty podzbiór GS  Z nazywa się grupą składniową, jeżeli spełnia on aksjomaty SGS Słowo z atrybutami jest GS; I – zbiór indeksów Indeks słowa: numer porządkowy słowa w tekście Indeks GS: nazwa typu + numer porządkowy GS danego typu K – zbiór typów GS A – zbiór atrybutów GS Cechy morfo-syntaktyczne Cechy semantyczne Inne zbiór atrybutów GS jest dziedziczony lub generowany Reguły cechowania GS są częścią składową GS-gramatyki R – zbiór relacji składniowych Kolejność wykonania reguł nie jest obojętna dla wyników Reguły zarządzania tą kolejnością także należą do GS-gramatyki IPI PAN Warszawa

7 Pojęcia podstawowe (1) Słowo: ciąg symboli, w tym liter, cyfr, znaków interpunkcji itp. Grupa (składniowa): ciąg wyrazów lub grup spełniający aksjomaty SGS   Element bazowy: element główny w GS, wszystkie inne elementy są grupowane wokół bazowego (reprezentant GS) Klasa (typ) słowa lub grupy: kategoria gramatyczna – odpowiednik kategorii część mowy w gramatyce tradycyjnej Wymaganie: wskazuje na warunki wykonania produkcji Warunek: ograniczenie na wybór wymagania lub innej kategorii w produkcji Modyfikator (mod): jednostka GS–modelu, która zmienia lub modyfikuje sens GS stojącej z prawej strony modyfikatora Łącznik : jednostka GS–modelu, która łączy dwie GS stojące z lewej i prawej strony od  bez podporządkowania jednej grupy drugiej Łącznik : jednostka GS–modelu, która łączy dwie GS stojące z lewej i prawej strony od , podporządkowując grupę z prawej grupie z lewej strony od łącznika Model rządu : definiuje kontekst semantyczny GS (GS) = 0 – nie jest znany lub nie istnieje (GS) ≠ 0 – znany i ma być brany pod uwagę przy wykonaniu produkcji      IPI PAN Warszawa

8 Pojęcia podstawowe (2) Cztery poziomy (rzędy) GS: Spójność
Zerowy – trywialny Pierwszy Drugi Czwarty - funkcjonalny Spójność Cecha gramatyczna GS GS spójna bierze udział w rozbiorze składniowym zdania Definicja: GS jest spójną, jeżeli jest ona maksymalną GS rzędu drugiego, czyli taką, która według reguł GS-gramatyki nie może być częścią jakiejkolwiek GS poza samym zdaniem Typ relacji między składowymi GS zależny od poziomu GS, ponadto Relacja potencjalna (RP): relacja binarna, która może powstać między grupami przy łączeniu ich w jedną GS Relacja wewnętrzna (Rel): relacja binarna powstała między elementami składowymi GS Relacja funkcyjna (RF): relacja binarna między spójnymi GS. Wyznacza rolę składniową danej GS w zdaniu IPI PAN Warszawa

9 Kryteria ogólne grupowania wyrazów:
GS-gramatyka c.d. Kryteria ogólne grupowania wyrazów: Bezwarunkowe kryterium leksykalne: a także, r. ak., na przykład kryterium pozycyjne: w sobotę, w wybranym języku kryterium paradygmatyczne: będę czytał kryterium zespolenia: usiąść, gdzie wskazano; człowiek, do którego mówię kryterium zestawienia: dwieście dwadzieścia dwa Warunkowe kryterium operatorowe: bardzo dobrze, nie zawsze kryterium zgody: dwie dziewczynki, Jan czyta kryterium współrzędności: obie dziewczynki i parasol kryterium rządu: wybór kandydata na podmiot kryterium odbudowy: wygłaszam referat IPI PAN Warszawa

10 GS-gramatyka c.d. Reguły szczegółowe: Poziom GS Typ Struktura
Reprezentant Własności Cechy gramatyczne Relacje syntaktyczne między elementami składowymi GS Kryterium wyróżnienia GS IPI PAN Warszawa

11 GS-gramatyka c.d. (Typy GS)
Typ GS Znaczenie Poziom 1 Poziom 2 Spójność AG grupa ogólna * GAT grupa atrybutywna GIM imię GL grupa liczebnika GSP grupa spójnika GW grupa wypunktowania NG grupa rzeczownika PG grupa przyimka PS grupa przysłówka S grupa zdania TZL grupa trywialna złożona VG grupa czasownika ZPK grupa interpunkcyjna {"AG", "GAT", "GIM", "GL", "GSP", "GW", "NG", "PG", "PS", "S", "TZL", "VG", "ZPK","nie","mod","VGA" IPI PAN Warszawa

12 GS-gramatyka c.d. GS trywialne (GS0) Kryterium leksykalne
Gramatyka zadana „z góry”, np. słownikiem Informacja dodatkowa reprezentant SG cechy syntaktyczne semantyczne (ew.) RP = Ø IPI PAN Warszawa

13 GS poziomu pierwszego (na przykładzie PS1)
GS-gramatyka c.d. GS poziomu pierwszego (na przykładzie PS1) [operator] + przysłówek (1) gdzie operator fakultatywny: operator z listy modyfikatorów dla przysłówków przysłówek z cechami gramatycznymi modyfikatora semantycznego PS, której elementem głównym jest przysłówek z cechami gramatycznymi jak wyżej Warunkiem grupowania jest odpowiednia kolejność GS przy spełnieniu jednego z ww. punktów Lista operatorów stanowi element słownikowy Nie każdy modyfikator może pełnić funkcję operatora dla konkretnych klas wyrazów: wszystko może być modyfikatorem dla czasownika więcej — dla rzeczownika, ale żaden z nich nie może być modyfikatorem przysłówka RP = {modyfikacja, niegacja} IPI PAN Warszawa

14 PS wg Kryterium współrzędności
Gramatyka PS1 c.d. PS wg Kryterium współrzędności PS1  PS (2) Znak  oznacza przecinek lub jeden z spójników szeregowych Składowa główna nie jest wyznaczana Reprezentantem PS złożonej może być każdy z reprezentantów PS składowych Relacja między PS1 i PS2 jest szereg Warunkiem wykonania reguły (2) jest fakt posiadania kandydatów na składowe wspólnych cech gramatycznych IPI PAN Warszawa

15 Gramatyka PS1 c.d. Relacja „szereg” Zbiór relacji:
połączenie_przez_spójnik_-i połączenie_przez_spójnik_-lub połączenie_przez_spójnik_-także uzgodnienie_przez_przecinek Notacja: #sp_i, #sp_lub, #sp_także oraz #uzg_, Przykład: szybko1 i2 bezpiecznie3 PS = {1,2,3}; 1 — 3 Myślnik wskazuje na równoważność składowych PS Wyszczególniono: 1 —#sp_i 3 IPI PAN Warszawa

16 Cechy gramatyczne (atrybuty)
GS1-gramatyka c.d. Cechy gramatyczne (atrybuty) Cechy gramatyczne GS, w tym semantyczne, wyznacza się jako wynik: dziedziczenia po składowej głównej dla (1) wykonania operacji unifikacji atrybutów składowych szeregowych dla (2) wykonania operacji generalizacji atrybutów składowych szeregowych dla (2) Operacje unifikacji i generalizacji stosowane do atrybutów (cech) GS nie będą omawiane IPI PAN Warszawa

17 GS1-gramatyka c.d. Przykłady GAT1 zbyt1 młody2 Tu G = {1,2}; 2 #mod 1
ładnie1 ozdobiona2 Tu G = {1,2}; 2 #mod 1 nie1 wystarczająco2 szybko3 przeczytany4 G1 = {1,2}; G2 = {G1,3}; G3 = {G2,4}; #nie 1, 3#mod G1, 4#mod G2 najpotężniejszym1 i2 najstarszym3 G1 = {1,2,3}; 1 —#sp_i 3 czwartego1 ,2 piątego3 i4 dziesiątego5 G1 = {1,2,3}, G2 = { G1,4,5}; 1—#uzg_,3, G1 —#sp_i 5 IPI PAN Warszawa

18 GS2-gramatyka Przykłady NG2
dom1 ojca2 NG = {NG1, NG2}, NG1= {1}, NG2 = {2}; NG1 #dop2 NG2; dom1 dla2 ojca3 NG = {NG1, PG}, NG1 = {1}, PG = {2,3}; NG1 #dop PG; IPI PAN Warszawa

19 – NGacc+({NGd,”przed”^NGi,”wobec”^NGg})
NG2-gramatyka c.d. Przykład 2 Schemat wymagań [Polański] co do otoczenia dla rzeczownika demonstracja w znaczeniu pokaz To samo w postaci komputerowej [Grund] Znak ‘–‘ oznacza rzeczownik, NGacc, NGd, NGi, NGg to są NG odpowiednio w bierniku, celowniku, narzędniku i dopełniaczu – NGacc+({NGd,”przed”^NGi,”wobec”^NGg}) IPI PAN Warszawa

20 Zdanie jako GS poziomu drugiego
GS-gramatyka c.d. Zdanie jako GS poziomu drugiego Grupa zdania S: Kryterium rządu , Kryterium zespolenia, Kryterium współrzędności, Kryterium operatorowe Kryterium odbudowy Elementami składowymi S są GS spójne Rolę GS bazowej spełnia VG, która jest korzeniem grafu struktury S, wszystkie inne spójne GS są podrzędnymi VG IPI PAN Warszawa

21 Mój1 pies2 nie3 lubi4 goździków5 .6
Zdanie c.d. Przykład Mój1 pies2 nie3 lubi4 goździków5 .6 trzy spójne GS: NG1, NG2 i VG, NG1 i NG2 są podrzędnymi VG: NG1 = {1,2}, NG2 = {5}, VG ={3,4}, S = {NG1, NG2, VG}; 21, 43, VG  NG1, VG  NG2; IPI PAN Warszawa

22 Zdanie c.d. S, jak i każda inna GS, etykietowana jest cechami gramatycznymi indeks zdania tryb czas strona itp. Relacje w zdaniu podmiot orzeczenie dopełnienia różnego rodzaju okoliczniki Nie wszystkie z cech gramatycznych i relacji składniowych GS-gramatyki zgadzają się z tradycyjnymi, ponieważ zostały wprowadzone ze względu na przetwarzanie komputerowe IPI PAN Warszawa

23 Fragment listy relacji składniowych
Relacje Znaczenie Typ argumentów Funkcyjne GSPoziomu1 GSPoziomu2 #atr atrybut (przystawka, oznaczenie) * #dop2 dopełnienie w dopełniaczu #dop4 dopełnienie w bierniku #niezg niespójność #okolicznik okolicznik #orzeczenie orzeczenie #podmiot podmiot IPI PAN Warszawa

24 Analiza składniowa Parser Polsyn
Część składowa projektów Thetos, LAS, PolSumm, Liana, Dialog-2 Przebieg analizy: Analiza morfologiczna Analiza składniowa (Polsyn) Interpretacja semantyczna Tekst IPI PAN Warszawa

25 Struktura zdania w SGGP
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. IPI PAN Warszawa

26 GS poziomu pierwszego TZG1 GAT1 NG2 ZPK2 NG3 NG4 PG1 NG5 VG2 ZPK3 NG1
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 GAT1 NG2 ZPK2 NG3 NG4 PG1 NG5 VG2 ZPK3 NG1 ZPK1 VG1 IPI PAN Warszawa

27 GS poziomu drugiego TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 NG7 [Anafora] NG8 PG2 AG2 VG3 NG6 AG4 [EOC] NG9 VG4 AG6 [EOC] IPI PAN Warszawa

28 Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem IPI PAN Warszawa

29 Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem IPI PAN Warszawa

30 Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2
Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem IPI PAN Warszawa

31 Anafora w SGGP W SGGP przez anaforę rozumiemy relację nie między pojedynczymi słowami, a między GS W naszym przykładzie: NG7 - anafora NG6 - antecedent NG7 Przykłady inne: Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Wtedy wybiła północ i stało się to, co zapowiedziała wróżka. IPI PAN Warszawa

32 Analiza semantyczna (1)
Predykatywno-argumentowy model zdania Relacja n-arna Zbiór relacji binarnych Relacje wyprowadzone Interpretacja semantyczna IPI PAN Warszawa

33 Analiza semantyczna (2)
Tablica - nie więcej niż 4 warianty rozbioru z uwzględnieniem miejsc walencyjnych Narzędzie do eliminowania niejednoznaczności Podstawa do wyszukiwania antecedensów SemSyn Lp. Predykat Subiekt Obiekt Adresat Instrument Miejsce Czas Cel(meta) Przyczyna Inne 1 2 3 4 5 6 7 8 9 W1 VG NG1 NG2 NG3 W2 W3 W4 IPI PAN Warszawa

34 Modelowanie tekstu Na potrzeby Thetosa i Polsumm
Podział zdań złożonych na pojedyncze Rekonstrukcja strukturalnej i leksykalnej pełni składu zdań Anafory Elipsy Forma kanoniczna zdania IPI PAN Warszawa

35 Projekt Thetos Polish Text into Sign Language Translator
Zastosowanie wyników w systemie Thetos wersja 1 ( ) wersja 2 ( ) Część lingwistyczna Część animacyjna IPI PAN Warszawa

36 Schemat translacji w Thetosie-2 Ogólny widok modyfikacji
input text Linguistic subsystem Text modeling processor modeled input text (in canonical form) Text translating processor output text (textual form of the sign language) Animation subsystem IPI PAN Warszawa animated gesture sequence

37 Schemat translacji w Thetosie-2 Procesor modelujący tekst
IPI PAN Warszawa

38 Schemat translacji w Thetosie-2 Procesor tłumaczący tekst
IPI PAN Warszawa

39 Schemat translacji w Thetosie-2 Widok ogólny
IPI PAN Warszawa

40 Anafora przy tłumaczeniu (1)
Zdania w języku miganym nie mogą być złożone Problemy: Jak przekazać w języku migowym/miganym związek anaforyczny? Jak uzupełniać braki w zdaniach z elipsą? Czy i w jakim stopniu w języku miganym występują te mechanizmy językowe? Jak przetłumaczyć elipsę na elipsę? IPI PAN Warszawa

41 Anafora przy tłumaczeniu(2)
Założenia: antecedens – tylko w zdaniach poprzednich tekst przekształcany „na bieżąco” kolejne wyszukiwania – w przetworzonym tekście Hipoteza: schemat walencyjny jest pomocny w odnalezieniu składowej (także w przypadku elipsy) Problem: ile zdań w zakresie wyszukiwania? IPI PAN Warszawa

42 Badania statystyczne Wyliczenie zakresu przeszukiwania:
Półautomatyczne wyliczenie zakresu IPI PAN Warszawa

43 Badania statystyczne(2)
Postać raportu: Liczba anafor: 6 (Chm-Aut) odległość maksymalna: 3 odległość minimalna: 1 odległość średnia: 1,66 Liczba anafor: 8 (S-P1) - odległość maksymalna: 2 - odległość minimalna: 1 - odległość średnia: 1,25 Liczba anafor: 9 (Kr.Śn.) - odległość maksymalna: 4 - odległość średnia: 2,44 Liczba anafor: 35 (S-P2) - odległość maksymalna: 7 - odległość średnia: 1,82 IPI PAN Warszawa

44 Badania statystyczne(3)
Fragmenty tekstów: Królewna Śnieżka – 6 KB Kopciuszek - 3 KB Czerwony Kapturek - 3 KB Robinson - 6 KB Pani Twardowska - 4 KB Wioska - 2 KB J. Chmielewska, Autobiografia - 1 KB H. Sienkiewicz, Potop – 2 fragmenty 2 KB 3 KB IPI PAN Warszawa

45 Badania statystyczne (4)
Wyniki: Anafor w tekście 80% 10% 2% Odstęp (w zdaniach) 0 - 2 3 4-8 IPI PAN Warszawa

46 Badania statystyczne (6)
Czerwony Kapturek Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. Dziewczynka chodziła w czerwonej pelerynce z kapturkiem i dlatego wszyscy nazywali ją Czerwonym Kapturkiem. Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Czerwony Kapturek miał babcię, która mieszkała w chatce w lesie. W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad. IPI PAN Warszawa

47 Przekształcenie tekstu
Wyniki generowania zdań Dla zdania S1: [NG6 VG3 AG2 PG2] pewny dziewczynka mieszkać dawno , dawno to w mały wiejski domek Dla zdania S2: [NG9 VG4 NG8 NG7] nikt pamiętać nie prawdziwy imię który Przekształcenie tekstu: Nowa grupa NG7’: Zmiany strukturalne: dziewczynka - reprezentant antecedensa (NG6) - zastępuje której (NG7) morfo-syntaktyczne charakterystyki NG7’ dziedziczone po NG7 Nowa grupa NG8’ = NG8+NG7’ Zdanie S2 po przebudowie: [NG9 VG4 NG8’] nikt pamiętać nie prawdziwy imię dziewczynka IPI PAN Warszawa

48 Generowanie W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad. IPI PAN Warszawa

49 Program PolSumm Program streszczania tekstów Metody statystyczne
Metody lingwistyczne Analiza składniowa, semantyczna Metod dominant Wybór istotnych faktów Metoda statystyczna Wyszukiwanie informacji Obliczenie unikalnej wagi dla każdego zdania IPI PAN Warszawa

50 Program PolSumm c.d. Etapy streszczania w programie PolSumm
Wybór istotnych faktów Generowanie tekstu streszczenia Analiza lingwistyczna IPI PAN Warszawa

51 Serwer lingwistyczny LAS
Stanowisko badawcze Serwer analizy lingwistycznej LAS (Linguistics Analysis Server) IPI PAN Warszawa

52 System LIAna (1) Opracowanie oprogramowania wspomagającego analityka obiektowego Opracowanie elementów metodyki LIA (Linguistically based Information Analysis) dla języka polskiego algorytmy automatycznej identyfikacji kluczowych abstrakcji: wydzielenie kandydatów na klasy, obiekty lub atrybuty wydzielenie kandydatów na relacje, zdarzenia lub metody algorytmy inne: wyszukiwanie kontekstów dla zidentyfikowanych pojęć podejmowanie decyzji na podstawie macierzy kontekstowej sporządzenie arkuszu roboczego analityka (tezaurus, baza doświadczenia) itd. IPI PAN Warszawa

53 Schemat ogólny systemu Liana
BD kontekstów Analiza lingwistyczna Baza Tekstów Wizualizacja wyników analizy lingwistycznej BD leksemów Wyniki analizy lingwistycznej Kontekster Tworzenie arkusza OOA/D Procesor tablicy kontekstów Wizualizacja wyników OOA/D (Edytory graficzne diagramów) BD wymagań Tablica kontekstów Arkusz roboczy OOA/D IPI PAN Warszawa

54 Interpretacja semantyczna
System Liana (2) Schemat przekształcenia RelSyn RelOOA/D Interpretacja semantyczna Oparta o cechy gramatyczne Oparta o ontologie Opracowanie ontologii: Wybór relacji Opracowanie sieci pojęć Opracowanie maszyny decyzyjnej RelSyn Interpretacja semantyczna RelOOA/D IPI PAN Warszawa

55 Eksperyment: interpretacja semantyczna
Przykład RelSyn: #ozn(A,B) Interpretacja semantyczna Propozycja abstrakcji OOA/D A, cechy B, cechy zadaniem programu program (rzecz.) zadanie (rzecz.odsł.) A jest obiektem działalności B brak RelOOA/D: 1) B jest usługą żądaną od A; 2) A jest argumentem operacji B elementy firmy firma (l.p.) element (l.mn.) B jest częścią A agregacja(A,B): BA; 1:N interwał wysyłki wysyłka (rzecz. odsł.) interwał (rzecz.) A jest atrybutem działalności B brak RelOOA/D: 1) A jest zdarzeniem; 2) B jest atrybutem A plik dokumentów dokument (l.mn.) plik (l.p.) B składa się z A; A jest częścią B agregacja(A,B): AB; N:1 IPI PAN Warszawa

56 Podsumowanie Dziękuję za uwagę
Rozbudowano i dostosowano do potrzeb przetwarzania języka naturalnego formalizm SGS Opracowano: zbiór GS-gramatyk dla różnych poziomów przetwarzania GS-parser dla języka polskiego algorytmy i programy analizatora semantycznego analizy najprostszych przypadków anafor i elips interpretacji semantycznej relacji składniowych zasady modelowania tekstu Opracowania znalazły zastosowanie w systemach Thetos, PolSumm, Liana, DIALOG-2 i in. Dziękuję za uwagę IPI PAN Warszawa

57 Bibliografia IPI PAN Warszawa 7.03.2005
Gładky A.V., (1985) Sintaksiczeskie struktury jestestwennogo jazyka w awtomatizirowannych sistemach obszczenija. Nauka, Moskwa B.S. Galukshov, (1975) Grammatika Sintaksicheskich Grupp. Nauchno-technicheskaya informaciya, seriya 2, No. 1, Gładky A., Melczuk I., (1979) Elementy matematiczeskoj lingwistiki. Nauka, Moskwa. Nikitin A.I., Sushchanskaya N.F., (1984) Automation of the Presemantic Analysis of Natural-language Texts, Cybernetics 20 (1): Świdzński M., (1992) Gramatyka formalna języka polskiego. Wydawnictwa Uniwersytetu Warszawskiego, Warszawa Sushchanska N.F., (1999) Computer grammar of syntactic groups. Cybernetics and Systems Analysis, Consultants Bureau, New York Vol. 35 (6) Nov-Dec, Szafran K., (1996) Analizator morfologiczny SAM-95, opis użytkowy, fragment raportu z pracy realizowanej w Instytucie Informatyki Uniwersytetu Warszawskiego, Warszawa Tokarski J., ed: Zygmunt Saloni, (1993) Schematic Index a Tergo of Polish Words Forms, Wydawnictwo Naukowe PWN, Warszawa. Polański K.(red.), (1980) Słownik syntaktyczno-generatywny czasowników polskich, Wyd. PAN, Warszawa-Wrocław-Katowice-Gdańsk Grund D., (2000) Komputerowa implementacja słownika syntaktyczno-generatywnego czasowników polskich. Studia Informatica, Vol.21, No 3 (41), s Suszczanska N., (2000) On some universal algebras using in NL-semantics. Abstract in Atlas Mathematical Conference Abstracts ( Materiały konferencji międzynarodowej AAA60: Workshop on General Algebra (60. Arbeitstagung Allgemeine Algebra), June , 2000, Dresden University of Technology, Dresden, GERMANY Szmal P., Suszczańska N. (2001) Selected Problems of Translation from the Polish Written Language to the Sign Language. Archiwum Informatyki Teoretycznej i Stosowanej 13, 37–51 Suszczańska N., Kulików S., (2003) A Polish Document Summarizer. 21st IASTED International Conference APPLIED INFORMATICS - AI’2003, Innsbruck Yourdon E., Argila C. (1996) Case Studies in Object-Oriented Analysis and Design, Prentice Hall/Yourdon Press, Suszczańska N., (2003) Automatyczna identyfikacja relacji między abstrakcjami dziedziny problemu dla potrzeb analizy obiektowej. Materiały V Krajowej Konferencji „Inżynieria Wiedzy i Systemy Ekspertowe”, czerwiec 2003, Wrocław, Szmal, P., Kulików, S.: Support for deaf people at Web browsing. 3rd IASTED International Conference Artificial Intelligence and Applications AIA’2003, Benalmadena 2003, s Ciura M., Grund D., Kulików S., Suszczańska N.: A System to Adapt Techniques of Text Summarizing to Polish. Proceedings of the International Conference on Computational Intelligence, Istanbul, Turkey, 2004, s Bach M.: Metody konstruowania zadań wyszukiwania w bazach danych w procesie translacji zapytań sformułowanych w języku naturalnym, Rozprawa doktorska, Gliwice 2004. Suszczańska N., Lubiński M.: POLMORPH, Polish Language Morphological Analysis Tool, 19th IASTED Int. Conf. APPLIED INFORMATICS - AI’2001, Innsbruck (Austria) 2001, s Suszczańska N.: GS-model składni języka polskiego, Speech and Language Technology, Red. G. Demenko, M Karpiński, K. Jassem, Polskie Towarzystwo Fonetyczne, vol. 7, Poznań 2003. Grund D.: Biblioteka funkcji dostępu do danych słownika syntaktycznego czasowników polskich. Studia Informatica, Vol.23, No 4 (51), Gliwice 2002, s IPI PAN Warszawa


Pobierz ppt "Instytut Informatyki Politechniki Śląskiej"

Podobne prezentacje


Reklamy Google