Instytut Informatyki Politechniki Śląskiej

Slides:



Advertisements
Podobne prezentacje
Lingwistyka Matematyczna
Advertisements

Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Wprowadzenie do informatyki Wykład 6
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
WYKŁAD 6 ATOM WODORU W MECHANICE KWANTOWEJ (równanie Schrődingera dla atomu wodoru, separacja zmiennych, stan podstawowy 1s, stany wzbudzone 2s i 2p,
Ludwik Antal - Numeryczna analiza pól elektromagnetycznych –W10
Liczby pierwsze.
Domy Na Wodzie - metoda na wlasne M
Jaki personel zatrudniamy a jaki byśmy chcieli?
1 mgr inż. Sylwester Laskowski Opiekun Naukowy: prof. dr hab. inż. Andrzej P. Wierzbicki.
11 RDF Wertykalne zastosowania XML-a. 22 RDF - Wprowadzenie Problemy Sieć jest nieczytelna dla programów komputerowych. Sieć zawiera zbyt wiele informacji.
POLSKIE TOWARZYSTWO FONETYCZNE Analiza, synteza i rozpoznawanie mowy w lingwistyce, technice i medycynie Szczyrk 2003 System Thetos w serwisie tekstów.
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
UŁAMKI DZIESIĘTNE porównywanie, dodawanie i odejmowanie.
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
W4: Statystyka, Zastosowania
Typy zachowań firmy w procesie internacjonalizacji (projekt badawczy)
PREPARATYWNA CHROMATOGRAFIA CIECZOWA.
mgr inż. Marek Kamiński Katedra Inżynierii Oprogramowania WETI PG
Życiorys mgr inż. Krystyna Dziubich Katedra Architektury Systemów Komputerowych WETI PG Urodzona: r. Wykształcenie: studia uzupełniające.
Życiorys mgr inż. Sławomir Nasiadka Katedra Architektury Systemów Komputerowych WETI PG Urodzony: r. Wykształcenie: studia na kierunku.
mgr inż. Jan Masiejczyk Akademia Marynarki Wojennej
mgr inż. Piotr Piotrowski Katedra Inżynierii Oprogramowania WETI PG
Zrozumieć „myślenie przestrzenią”.
Praca Inżynierska „Analiza i projekt aplikacji informatycznej do wspomagania wybranych zadań ośrodków sportowych” Dyplomant: Marcin Iwanicki Promotor:
Opracował: Zespół Humanistyczny. Klasa Średnia ww - wielokrotnego wyboru (na 20 p) Średnia KO - krótkie odpowiedzi (na 10 p) Średnia za zaproszenie (na.
Pytania konkursowe.
Jak wypadliśmy na maturze z matematyki w 2010 roku?
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Wprowadzenie do JSP Copyright © Politecnico di Milano September 2003 Translation: Kamil Żyła, Politechnika Lubelska.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
O relacjach i algorytmach
Wanda Klenczon Biblioteka Narodowa
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
Zasady organizacji wydarzeń promocyjnych
Rozwiązanie zadań do zaliczenia I0G1S4 // indeks
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Analiza matury 2013 Opracowała Bernardeta Wójtowicz.
Model relacyjny.
Programowanie obiektowe – język C++
Gramatyki i translatory
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
Rachunek różniczkowy funkcji jednej i wielu zmiennych
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
Projektowanie relacyjnych baz danych – postacie normalne
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Podstawy programowania
Obliczalność czyli co da się policzyć i jak Model obliczeń sieci liczące dr Kamila Barylska.
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Gramatyki Lindenmayera
Model obiektowy bazy danych
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Zagadnienia AI wykład 2.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Współrzędnościowe maszyny pomiarowe
Elementy geometryczne i relacje
Strategia pomiaru.
Języki formalne Copyright, 2006 © Jerzy R. Nawrocki Wprowadzenie do informatyki Wykład.
ANALIZA SKŁADNIOWA.
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Projektowanie wspomagane komputerem
Zapis prezentacji:

Instytut Informatyki Politechniki Śląskiej Zastosowanie GS-modelu języka polskiego w kompleksowej analizie tekstów Nina Suszczańska nsusz@star.iinf.polsl.gliwice.pl Instytut Informatyki Politechniki Śląskiej 7.03.2005 IPI PAN Warszawa

Plan Wiadomości ogólne o GS-modelu Analiza składniowa Formalizm SGS Gramatyka SGGP (dawniej GS-gramatyka) Analiza składniowa Analiza semantyczna Modelowanie tekstu Aplikacje LAS Thetos Polsumm Liana Podsumowanie 7.03.2005 IPI PAN Warszawa

Wiadomości ogólne o GS-modelu (1) Model języka Przy budowaniu modeli języka ustala się: skończony zbiór V (słownik języka) gramatyka formalna (zbiór reguł – produkcji) Sensowność formalnej gramatyki języka naturalnego z punktu widzenia lingwistyki Aktualne pytania: jak odbywa się podział zdania na składowe jakie relacje powstają przy tym podziale 7.03.2005 IPI PAN Warszawa

Wiadomości ogólne o GS-modelu (2) SGS – Formalizm Systemów Grup Składniowych 1975 – A.V.Gładky: Powstanie formalizmu Uogólnienie formalizmów: analizy składnikowej i drzew zależności Reprezentacja składniowa zdania: etykietowany skierowany graf: Węzły – grupy składniowe (GS) Krawędzie – relacja zależności Aksjomaty: ograniczenia na topologię grafu < G ,r > 1984 – c.d.: Rozwój formalizmu w celu modelowania języka naturalnego Zalety SGS Zdolność jawnie wskazywać grupy wyrazów Zdolność jawnie wskazywać relacje składniowe między wyrazami lub grupami wyrazów Przydatność do języków naturalnych, przede wszystkim o szyku swobodnym 7.03.2005 IPI PAN Warszawa

Wiadomości ogólne o GS-modelu (3) SGS na potrzeby NL: aksjomaty Gładkiego silny etykietowany SGS: < G , R , EG , ER ,  , > kryteria ogólne grupowania GS-gramatyka NL operacje na iloczynie kartezjańskim G x I x K x A x R poziomy GS typy reguły szczegółowe skończony zbór produkcji postaci GSL  GSP gdzie GSL i GSP są jednostkami GS–modelu, czyli elementami słownika V jednostki terminalne i nieterminalne reprezentacja składniowa zdania multigraf problemy redukcji Predykatywno-argumentowy model zdania Modelowanie tekstu 7.03.2005 IPI PAN Warszawa

Wiadomości ogólne o GS-modelu (2) Gramatyka SGGP – Syntactical Groups Grammar for Polish – dawniej GS-gramatyka Zadanie SGGP: określenie warunków grupowania GS oraz warunków powstania relacji składniowych SGGP operuje na skończonych zbiorach: G – zbiór GS Zdanie jest skończonym zbiorem Z podzbiorów słów Niepusty podzbiór GS  Z nazywa się grupą składniową, jeżeli spełnia on aksjomaty SGS Słowo z atrybutami jest GS; I – zbiór indeksów Indeks słowa: numer porządkowy słowa w tekście Indeks GS: nazwa typu + numer porządkowy GS danego typu K – zbiór typów GS A – zbiór atrybutów GS Cechy morfo-syntaktyczne Cechy semantyczne Inne zbiór atrybutów GS jest dziedziczony lub generowany Reguły cechowania GS są częścią składową GS-gramatyki R – zbiór relacji składniowych Kolejność wykonania reguł nie jest obojętna dla wyników Reguły zarządzania tą kolejnością także należą do GS-gramatyki 7.03.2005 IPI PAN Warszawa

Pojęcia podstawowe (1) Słowo: ciąg symboli, w tym liter, cyfr, znaków interpunkcji itp. Grupa (składniowa): ciąg wyrazów lub grup spełniający aksjomaty SGS   Element bazowy: element główny w GS, wszystkie inne elementy są grupowane wokół bazowego (reprezentant GS) Klasa (typ) słowa lub grupy: kategoria gramatyczna – odpowiednik kategorii część mowy w gramatyce tradycyjnej Wymaganie: wskazuje na warunki wykonania produkcji Warunek: ograniczenie na wybór wymagania lub innej kategorii w produkcji Modyfikator (mod): jednostka GS–modelu, która zmienia lub modyfikuje sens GS stojącej z prawej strony modyfikatora Łącznik : jednostka GS–modelu, która łączy dwie GS stojące z lewej i prawej strony od  bez podporządkowania jednej grupy drugiej Łącznik : jednostka GS–modelu, która łączy dwie GS stojące z lewej i prawej strony od , podporządkowując grupę z prawej grupie z lewej strony od łącznika Model rządu : definiuje kontekst semantyczny GS (GS) = 0 – nie jest znany lub nie istnieje (GS) ≠ 0 – znany i ma być brany pod uwagę przy wykonaniu produkcji      7.03.2005 IPI PAN Warszawa

Pojęcia podstawowe (2) Cztery poziomy (rzędy) GS: Spójność Zerowy – trywialny Pierwszy Drugi Czwarty - funkcjonalny Spójność Cecha gramatyczna GS GS spójna bierze udział w rozbiorze składniowym zdania Definicja: GS jest spójną, jeżeli jest ona maksymalną GS rzędu drugiego, czyli taką, która według reguł GS-gramatyki nie może być częścią jakiejkolwiek GS poza samym zdaniem Typ relacji między składowymi GS zależny od poziomu GS, ponadto Relacja potencjalna (RP): relacja binarna, która może powstać między grupami przy łączeniu ich w jedną GS Relacja wewnętrzna (Rel): relacja binarna powstała między elementami składowymi GS Relacja funkcyjna (RF): relacja binarna między spójnymi GS. Wyznacza rolę składniową danej GS w zdaniu 7.03.2005 IPI PAN Warszawa

Kryteria ogólne grupowania wyrazów: GS-gramatyka c.d. Kryteria ogólne grupowania wyrazów: Bezwarunkowe kryterium leksykalne: a także, r. ak., na przykład kryterium pozycyjne: w sobotę, w wybranym języku kryterium paradygmatyczne: będę czytał kryterium zespolenia: usiąść, gdzie wskazano; człowiek, do którego mówię kryterium zestawienia: dwieście dwadzieścia dwa Warunkowe kryterium operatorowe: bardzo dobrze, nie zawsze kryterium zgody: dwie dziewczynki, Jan czyta kryterium współrzędności: obie dziewczynki i parasol kryterium rządu: wybór kandydata na podmiot kryterium odbudowy: wygłaszam referat 7.03.2005 IPI PAN Warszawa

GS-gramatyka c.d. Reguły szczegółowe: Poziom GS Typ Struktura Reprezentant Własności Cechy gramatyczne Relacje syntaktyczne między elementami składowymi GS Kryterium wyróżnienia GS 7.03.2005 IPI PAN Warszawa

GS-gramatyka c.d. (Typy GS) Typ GS Znaczenie Poziom 1 Poziom 2 Spójność AG grupa ogólna * GAT grupa atrybutywna GIM imię GL grupa liczebnika GSP grupa spójnika GW grupa wypunktowania NG grupa rzeczownika PG grupa przyimka PS grupa przysłówka S grupa zdania TZL grupa trywialna złożona VG grupa czasownika ZPK grupa interpunkcyjna {"AG", "GAT", "GIM", "GL", "GSP", "GW", "NG", "PG", "PS", "S", "TZL", "VG", "ZPK","nie","mod","VGA" 7.03.2005 IPI PAN Warszawa

GS-gramatyka c.d. GS trywialne (GS0) Kryterium leksykalne Gramatyka zadana „z góry”, np. słownikiem Informacja dodatkowa reprezentant SG cechy syntaktyczne semantyczne (ew.) RP = Ø 7.03.2005 IPI PAN Warszawa

GS poziomu pierwszego (na przykładzie PS1) GS-gramatyka c.d. GS poziomu pierwszego (na przykładzie PS1) [operator] + przysłówek (1) gdzie operator fakultatywny: operator z listy modyfikatorów dla przysłówków przysłówek z cechami gramatycznymi modyfikatora semantycznego PS, której elementem głównym jest przysłówek z cechami gramatycznymi jak wyżej Warunkiem grupowania jest odpowiednia kolejność GS przy spełnieniu jednego z ww. punktów Lista operatorów stanowi element słownikowy Nie każdy modyfikator może pełnić funkcję operatora dla konkretnych klas wyrazów: wszystko może być modyfikatorem dla czasownika więcej — dla rzeczownika, ale żaden z nich nie może być modyfikatorem przysłówka RP = {modyfikacja, niegacja} 7.03.2005 IPI PAN Warszawa

PS wg Kryterium współrzędności Gramatyka PS1 c.d. PS wg Kryterium współrzędności PS1  PS2 (2) Znak  oznacza przecinek lub jeden z spójników szeregowych Składowa główna nie jest wyznaczana Reprezentantem PS złożonej może być każdy z reprezentantów PS składowych Relacja między PS1 i PS2 jest szereg Warunkiem wykonania reguły (2) jest fakt posiadania kandydatów na składowe wspólnych cech gramatycznych 7.03.2005 IPI PAN Warszawa

Gramatyka PS1 c.d. Relacja „szereg” Zbiór relacji: połączenie_przez_spójnik_-i połączenie_przez_spójnik_-lub połączenie_przez_spójnik_-także uzgodnienie_przez_przecinek Notacja: #sp_i, #sp_lub, #sp_także oraz #uzg_, Przykład: szybko1 i2 bezpiecznie3 PS = {1,2,3}; 1 — 3 Myślnik wskazuje na równoważność składowych PS Wyszczególniono: 1 —#sp_i 3 7.03.2005 IPI PAN Warszawa

Cechy gramatyczne (atrybuty) GS1-gramatyka c.d. Cechy gramatyczne (atrybuty) Cechy gramatyczne GS, w tym semantyczne, wyznacza się jako wynik: dziedziczenia po składowej głównej dla (1) wykonania operacji unifikacji atrybutów składowych szeregowych dla (2) wykonania operacji generalizacji atrybutów składowych szeregowych dla (2) Operacje unifikacji i generalizacji stosowane do atrybutów (cech) GS nie będą omawiane 7.03.2005 IPI PAN Warszawa

GS1-gramatyka c.d. Przykłady GAT1 zbyt1 młody2 Tu G = {1,2}; 2 #mod 1 ładnie1 ozdobiona2 Tu G = {1,2}; 2 #mod 1 nie1 wystarczająco2 szybko3 przeczytany4 G1 = {1,2}; G2 = {G1,3}; G3 = {G2,4}; 2#nie 1, 3#mod G1, 4#mod G2 najpotężniejszym1 i2 najstarszym3 G1 = {1,2,3}; 1 —#sp_i 3 czwartego1 ,2 piątego3 i4 dziesiątego5 G1 = {1,2,3}, G2 = { G1,4,5}; 1—#uzg_,3, G1 —#sp_i 5 7.03.2005 IPI PAN Warszawa

GS2-gramatyka Przykłady NG2 dom1 ojca2 NG = {NG1, NG2}, NG1= {1}, NG2 = {2}; NG1 #dop2 NG2; dom1 dla2 ojca3 NG = {NG1, PG}, NG1 = {1}, PG = {2,3}; NG1 #dop PG; 7.03.2005 IPI PAN Warszawa

– NGacc+({NGd,”przed”^NGi,”wobec”^NGg}) NG2-gramatyka c.d. Przykład 2 Schemat wymagań [Polański] co do otoczenia dla rzeczownika demonstracja w znaczeniu pokaz To samo w postaci komputerowej [Grund] Znak ‘–‘ oznacza rzeczownik, NGacc, NGd, NGi, NGg to są NG odpowiednio w bierniku, celowniku, narzędniku i dopełniaczu – NGacc+({NGd,”przed”^NGi,”wobec”^NGg}) 7.03.2005 IPI PAN Warszawa

Zdanie jako GS poziomu drugiego GS-gramatyka c.d. Zdanie jako GS poziomu drugiego Grupa zdania S: Kryterium rządu , Kryterium zespolenia, Kryterium współrzędności, Kryterium operatorowe Kryterium odbudowy Elementami składowymi S są GS spójne Rolę GS bazowej spełnia VG, która jest korzeniem grafu struktury S, wszystkie inne spójne GS są podrzędnymi VG 7.03.2005 IPI PAN Warszawa

Mój1 pies2 nie3 lubi4 goździków5 .6 Zdanie c.d. Przykład Mój1 pies2 nie3 lubi4 goździków5 .6 trzy spójne GS: NG1, NG2 i VG, NG1 i NG2 są podrzędnymi VG: NG1 = {1,2}, NG2 = {5}, VG ={3,4}, S = {NG1, NG2, VG}; 21, 43, VG  NG1, VG  NG2; 7.03.2005 IPI PAN Warszawa

Zdanie c.d. S, jak i każda inna GS, etykietowana jest cechami gramatycznymi indeks zdania tryb czas strona itp. Relacje w zdaniu podmiot orzeczenie dopełnienia różnego rodzaju okoliczniki Nie wszystkie z cech gramatycznych i relacji składniowych GS-gramatyki zgadzają się z tradycyjnymi, ponieważ zostały wprowadzone ze względu na przetwarzanie komputerowe 7.03.2005 IPI PAN Warszawa

Fragment listy relacji składniowych Relacje Znaczenie Typ argumentów Funkcyjne GSPoziomu1 GSPoziomu2 #atr atrybut (przystawka, oznaczenie) * #dop2 dopełnienie w dopełniaczu #dop4 dopełnienie w bierniku #niezg niespójność #okolicznik okolicznik #orzeczenie orzeczenie #podmiot podmiot 7.03.2005 IPI PAN Warszawa

Analiza składniowa Parser Polsyn Część składowa projektów Thetos, LAS, PolSumm, Liana, Dialog-2 Przebieg analizy: Analiza morfologiczna Analiza składniowa (Polsyn) Interpretacja semantyczna Tekst 7.03.2005 IPI PAN Warszawa

Struktura zdania w SGGP Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. 7.03.2005 IPI PAN Warszawa

GS poziomu pierwszego TZG1 GAT1 NG2 ZPK2 NG3 NG4 PG1 NG5 VG2 ZPK3 NG1 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 GAT1 NG2 ZPK2 NG3 NG4 PG1 NG5 VG2 ZPK3 NG1 ZPK1 VG1 7.03.2005 IPI PAN Warszawa

GS poziomu drugiego TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 NG7 [Anafora] NG8 PG2 AG2 VG3 NG6 AG4 [EOC] NG9 VG4 AG6 [EOC] 7.03.2005 IPI PAN Warszawa

Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 7.03.2005 IPI PAN Warszawa

Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 7.03.2005 IPI PAN Warszawa

Poziom funkcjonalny problem S1 major S2 TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. TZG1 PG1 GAT1 NG1 ZPK1 VG1 NG2 ZPK2 NG3 NG4 NG5 VG2 ZPK3 AG1 PG2 AG2 VG3 NG6 AG3 [EOC] NG7 [Anafora] NG8 NG9 VG4 AG4 [EOC] VG3 predykat S1 major okoliczn_gr okoliczn_gr podmiot S2 VG4 predykat dopełnienie podmiot problem 7.03.2005 IPI PAN Warszawa

Anafora w SGGP W SGGP przez anaforę rozumiemy relację nie między pojedynczymi słowami, a między GS W naszym przykładzie: NG7 - anafora NG6 - antecedent NG7 Przykłady inne: Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Wtedy wybiła północ i stało się to, co zapowiedziała wróżka. 7.03.2005 IPI PAN Warszawa

Analiza semantyczna (1) Predykatywno-argumentowy model zdania Relacja n-arna Zbiór relacji binarnych Relacje wyprowadzone Interpretacja semantyczna 7.03.2005 IPI PAN Warszawa

Analiza semantyczna (2) Tablica - nie więcej niż 4 warianty rozbioru z uwzględnieniem miejsc walencyjnych Narzędzie do eliminowania niejednoznaczności Podstawa do wyszukiwania antecedensów SemSyn Lp. Predykat Subiekt Obiekt Adresat Instrument Miejsce Czas Cel(meta) Przyczyna Inne 1 2 3 4 5 6 7 8 9 W1 VG NG1 NG2 NG3 W2 W3 W4 7.03.2005 IPI PAN Warszawa

Modelowanie tekstu Na potrzeby Thetosa i Polsumm Podział zdań złożonych na pojedyncze Rekonstrukcja strukturalnej i leksykalnej pełni składu zdań Anafory Elipsy Forma kanoniczna zdania 7.03.2005 IPI PAN Warszawa

Projekt Thetos Polish Text into Sign Language Translator Zastosowanie wyników w systemie Thetos wersja 1 (1999 - 2001) wersja 2 (2003 - 2005) Część lingwistyczna Część animacyjna 7.03.2005 IPI PAN Warszawa

Schemat translacji w Thetosie-2 Ogólny widok modyfikacji input text Linguistic subsystem Text modeling processor modeled input text (in canonical form) Text translating processor output text (textual form of the sign language) Animation subsystem 7.03.2005 IPI PAN Warszawa animated gesture sequence

Schemat translacji w Thetosie-2 Procesor modelujący tekst 7.03.2005 IPI PAN Warszawa

Schemat translacji w Thetosie-2 Procesor tłumaczący tekst 7.03.2005 IPI PAN Warszawa

Schemat translacji w Thetosie-2 Widok ogólny 7.03.2005 IPI PAN Warszawa

Anafora przy tłumaczeniu (1) Zdania w języku miganym nie mogą być złożone Problemy: Jak przekazać w języku migowym/miganym związek anaforyczny? Jak uzupełniać braki w zdaniach z elipsą? Czy i w jakim stopniu w języku miganym występują te mechanizmy językowe? Jak przetłumaczyć elipsę na elipsę? 7.03.2005 IPI PAN Warszawa

Anafora przy tłumaczeniu(2) Założenia: antecedens – tylko w zdaniach poprzednich tekst przekształcany „na bieżąco” kolejne wyszukiwania – w przetworzonym tekście Hipoteza: schemat walencyjny jest pomocny w odnalezieniu składowej (także w przypadku elipsy) Problem: ile zdań w zakresie wyszukiwania? 7.03.2005 IPI PAN Warszawa

Badania statystyczne Wyliczenie zakresu przeszukiwania: Półautomatyczne wyliczenie zakresu 7.03.2005 IPI PAN Warszawa

Badania statystyczne(2) Postać raportu: Liczba anafor: 6 (Chm-Aut) odległość maksymalna: 3 odległość minimalna: 1 odległość średnia: 1,66 Liczba anafor: 8 (S-P1) - odległość maksymalna: 2 - odległość minimalna: 1 - odległość średnia: 1,25 Liczba anafor: 9 (Kr.Śn.) - odległość maksymalna: 4 - odległość średnia: 2,44 Liczba anafor: 35 (S-P2) - odległość maksymalna: 7 - odległość średnia: 1,82 7.03.2005 IPI PAN Warszawa

Badania statystyczne(3) Fragmenty tekstów: Królewna Śnieżka – 6 KB Kopciuszek - 3 KB Czerwony Kapturek - 3 KB Robinson - 6 KB Pani Twardowska - 4 KB Wioska - 2 KB J. Chmielewska, Autobiografia - 1 KB H. Sienkiewicz, Potop – 2 fragmenty 2 KB 3 KB 7.03.2005 IPI PAN Warszawa

Badania statystyczne (4) Wyniki: Anafor w tekście 80% 10% 2% Odstęp (w zdaniach) 0 - 2 3 4-8 7.03.2005 IPI PAN Warszawa

Badania statystyczne (6) Czerwony Kapturek Dawno, dawno temu, w małym wiejskim domku, mieszkała pewna dziewczynka, której prawdziwego imienia nikt nie pamiętał. Dziewczynka chodziła w czerwonej pelerynce z kapturkiem i dlatego wszyscy nazywali ją Czerwonym Kapturkiem. Jej mamusia także lubiła używać tego imienia, bo pasowało do dziewczynki. Czerwony Kapturek miał babcię, która mieszkała w chatce w lesie. W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad. 7.03.2005 IPI PAN Warszawa

Przekształcenie tekstu Wyniki generowania zdań Dla zdania S1: [NG6 VG3 AG2 PG2] pewny dziewczynka mieszkać dawno , dawno to w mały wiejski domek Dla zdania S2: [NG9 VG4 NG8 NG7] nikt pamiętać nie prawdziwy imię który Przekształcenie tekstu: Nowa grupa NG7’: Zmiany strukturalne: dziewczynka - reprezentant antecedensa (NG6) - zastępuje której (NG7) morfo-syntaktyczne charakterystyki NG7’ dziedziczone po NG7 Nowa grupa NG8’ = NG8+NG7’ Zdanie S2 po przebudowie: [NG9 VG4 NG8’] nikt pamiętać nie prawdziwy imię dziewczynka 7.03.2005 IPI PAN Warszawa

Generowanie W lesie mieszkał szczwany wilk, który wielokrotnie obserwował dziewczynkę zza drzew, gdy biegła ścieżką do babci. Dziś zaś stwierdził, że jest tak głodny, że Czerwony Kapturek będzie smacznym kąskiem na obiad. 7.03.2005 IPI PAN Warszawa

Program PolSumm Program streszczania tekstów Metody statystyczne Metody lingwistyczne Analiza składniowa, semantyczna Metod dominant Wybór istotnych faktów Metoda statystyczna Wyszukiwanie informacji Obliczenie unikalnej wagi dla każdego zdania 7.03.2005 IPI PAN Warszawa

Program PolSumm c.d. Etapy streszczania w programie PolSumm Wybór istotnych faktów Generowanie tekstu streszczenia Analiza lingwistyczna 7.03.2005 IPI PAN Warszawa

Serwer lingwistyczny LAS Stanowisko badawcze Serwer analizy lingwistycznej LAS (Linguistics Analysis Server) 7.03.2005 IPI PAN Warszawa

System LIAna (1) Opracowanie oprogramowania wspomagającego analityka obiektowego Opracowanie elementów metodyki LIA (Linguistically based Information Analysis) dla języka polskiego algorytmy automatycznej identyfikacji kluczowych abstrakcji: wydzielenie kandydatów na klasy, obiekty lub atrybuty wydzielenie kandydatów na relacje, zdarzenia lub metody algorytmy inne: wyszukiwanie kontekstów dla zidentyfikowanych pojęć podejmowanie decyzji na podstawie macierzy kontekstowej sporządzenie arkuszu roboczego analityka (tezaurus, baza doświadczenia) itd. 7.03.2005 IPI PAN Warszawa

Schemat ogólny systemu Liana BD kontekstów Analiza lingwistyczna Baza Tekstów Wizualizacja wyników analizy lingwistycznej BD leksemów Wyniki analizy lingwistycznej Kontekster Tworzenie arkusza OOA/D Procesor tablicy kontekstów Wizualizacja wyników OOA/D (Edytory graficzne diagramów) BD wymagań Tablica kontekstów Arkusz roboczy OOA/D 7.03.2005 IPI PAN Warszawa

Interpretacja semantyczna System Liana (2) Schemat przekształcenia RelSyn RelOOA/D Interpretacja semantyczna Oparta o cechy gramatyczne Oparta o ontologie Opracowanie ontologii: Wybór relacji Opracowanie sieci pojęć Opracowanie maszyny decyzyjnej RelSyn Interpretacja semantyczna RelOOA/D 7.03.2005 IPI PAN Warszawa

Eksperyment: interpretacja semantyczna Przykład RelSyn: #ozn(A,B) Interpretacja semantyczna Propozycja abstrakcji OOA/D A, cechy B, cechy zadaniem programu program (rzecz.) zadanie (rzecz.odsł.) A jest obiektem działalności B brak RelOOA/D: 1) B jest usługą żądaną od A; 2) A jest argumentem operacji B elementy firmy firma (l.p.) element (l.mn.) B jest częścią A agregacja(A,B): BA; 1:N interwał wysyłki wysyłka (rzecz. odsł.) interwał (rzecz.) A jest atrybutem działalności B brak RelOOA/D: 1) A jest zdarzeniem; 2) B jest atrybutem A plik dokumentów dokument (l.mn.) plik (l.p.) B składa się z A; A jest częścią B agregacja(A,B): AB; N:1 7.03.2005 IPI PAN Warszawa

Podsumowanie Dziękuję za uwagę Rozbudowano i dostosowano do potrzeb przetwarzania języka naturalnego formalizm SGS Opracowano: zbiór GS-gramatyk dla różnych poziomów przetwarzania GS-parser dla języka polskiego algorytmy i programy analizatora semantycznego analizy najprostszych przypadków anafor i elips interpretacji semantycznej relacji składniowych zasady modelowania tekstu Opracowania znalazły zastosowanie w systemach Thetos, PolSumm, Liana, DIALOG-2 i in. Dziękuję za uwagę 7.03.2005 IPI PAN Warszawa

Bibliografia IPI PAN Warszawa 7.03.2005 Gładky A.V., (1985) Sintaksiczeskie struktury jestestwennogo jazyka w awtomatizirowannych sistemach obszczenija. Nauka, Moskwa B.S. Galukshov, (1975) Grammatika Sintaksicheskich Grupp. Nauchno-technicheskaya informaciya, seriya 2, No. 1, 31--37. Gładky A., Melczuk I., (1979) Elementy matematiczeskoj lingwistiki. Nauka, Moskwa. Nikitin A.I., Sushchanskaya N.F., (1984) Automation of the Presemantic Analysis of Natural-language Texts, Cybernetics 20 (1): 153-160 Świdzński M., (1992) Gramatyka formalna języka polskiego. Wydawnictwa Uniwersytetu Warszawskiego, Warszawa Sushchanska N.F., (1999) Computer grammar of syntactic groups. Cybernetics and Systems Analysis, Consultants Bureau, New York Vol. 35 (6) Nov-Dec, 987-993. Szafran K., (1996) Analizator morfologiczny SAM-95, opis użytkowy, fragment raportu z pracy realizowanej w Instytucie Informatyki Uniwersytetu Warszawskiego, Warszawa Tokarski J., ed: Zygmunt Saloni, (1993) Schematic Index a Tergo of Polish Words Forms, Wydawnictwo Naukowe PWN, Warszawa. Polański K.(red.), (1980) Słownik syntaktyczno-generatywny czasowników polskich, Wyd. PAN, Warszawa-Wrocław-Katowice-Gdańsk Grund D., (2000) Komputerowa implementacja słownika syntaktyczno-generatywnego czasowników polskich. Studia Informatica, Vol.21, No 3 (41), s. 243-256. Suszczanska N., (2000) On some universal algebras using in NL-semantics. Abstract in Atlas Mathematical Conference Abstracts (http://at.yorku.ca/cgi-bin/amca/caee-75). Materiały konferencji międzynarodowej AAA60: Workshop on General Algebra (60. Arbeitstagung Allgemeine Algebra), June 22 - 25, 2000, Dresden University of Technology, Dresden, GERMANY Szmal P., Suszczańska N. (2001) Selected Problems of Translation from the Polish Written Language to the Sign Language. Archiwum Informatyki Teoretycznej i Stosowanej 13, 37–51 Suszczańska N., Kulików S., (2003) A Polish Document Summarizer. 21st IASTED International Conference APPLIED INFORMATICS - AI’2003, Innsbruck Yourdon E., Argila C. (1996) Case Studies in Object-Oriented Analysis and Design, Prentice Hall/Yourdon Press, Suszczańska N., (2003) Automatyczna identyfikacja relacji między abstrakcjami dziedziny problemu dla potrzeb analizy obiektowej. Materiały V Krajowej Konferencji „Inżynieria Wiedzy i Systemy Ekspertowe”, czerwiec 2003, Wrocław, 319-326. Szmal, P., Kulików, S.: Support for deaf people at Web browsing. 3rd IASTED International Conference Artificial Intelligence and Applications AIA’2003, Benalmadena 2003, s. 13-17. http://thetos.zo.iinf.polsl.gliwice.pl/las/ Ciura M., Grund D., Kulików S., Suszczańska N.: A System to Adapt Techniques of Text Summarizing to Polish. Proceedings of the International Conference on Computational Intelligence, Istanbul, Turkey, 2004, s. 117-120 Bach M.: Metody konstruowania zadań wyszukiwania w bazach danych w procesie translacji zapytań sformułowanych w języku naturalnym, Rozprawa doktorska, Gliwice 2004. Suszczańska N., Lubiński M.: POLMORPH, Polish Language Morphological Analysis Tool, 19th IASTED Int. Conf. APPLIED INFORMATICS - AI’2001, Innsbruck (Austria) 2001, s. 84-89. Suszczańska N.: GS-model składni języka polskiego, Speech and Language Technology, Red. G. Demenko, M Karpiński, K. Jassem, Polskie Towarzystwo Fonetyczne, vol. 7, Poznań 2003. Grund D.: Biblioteka funkcji dostępu do danych słownika syntaktycznego czasowników polskich. Studia Informatica, Vol.23, No 4 (51), Gliwice 2002, s. 71-83. 7.03.2005 IPI PAN Warszawa