Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego

Slides:



Advertisements
Podobne prezentacje
I część 1.
Advertisements

Klasyfikacja roczna w roku szkolnym 2012/2013
Znaki informacyjne.
Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
WYKŁAD 6 ATOM WODORU W MECHANICE KWANTOWEJ (równanie Schrődingera dla atomu wodoru, separacja zmiennych, stan podstawowy 1s, stany wzbudzone 2s i 2p,
Filtracja obrazów cd. Filtracja obrazów w dziedzinie częstotliwości
Liczby pierwsze.
PREZENTACJA ZASOBÓW INFORMACYJNYCH BAZY GŁÓWNEGO URZĘDU STATYSTYCZNEGO URZĄD STATYSTYCZNY W ŁODZI Łódź, 10 grudnia 2010 r.
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
POLECANE NOWOŚCI WYDAWNICZE
KONKURS WIEDZY O SZTUCE
Podstawowe pojęcia akustyki
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
UKŁADY SZEREGOWO-RÓWNOLEGŁE
Jaki jest następny wyraz ciągu: 1, 2, 4, 8, 16, …?
Klasyfikacja systemów
Dyskretny szereg Fouriera
Transformacja Z (13.6).
PLAN EWAKUACJI II piętro lewe skrzydło
Pytania konkursowe.
Tytuł prezentacji Warszawa, r..
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Vitalii Dugaev Katedra Fizyki Politechnika Rzeszowska Semestr I Rok 2012/2013.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
PŁEĆ MÓZGU W SPRZEDAŻY I ZARZĄDZANIU CZYLI ORGAZM W BIZNESIE
Projektowanie Stron WWW
Produkcja skojarzona w systemie elektroenergetycznym
PŁEĆ MÓZGU W SPRZEDAŻY I ZARZĄDZANIU CZYLI ORGAZM W BIZNESIE
„Rynek pracy w powiecie trzebnickim: struktura bezrobocia i miejsca pracy.”
Kalendarz 2011 Real Madryt Autor: Bartosz Trzciński.
Kalendarz 2011 Oto ciekawy kalendarz, który zaprojektował
KALENDARZ 2011r. Autor: Alicja Chałupka klasa III a.
1/34 HISTORIA BUDOWY /34 3/34 6 MAJA 2011.
Podstawy działania wybranych usług sieciowych
Analiza wpływu regulatora na jakość regulacji (1)
Analiza wpływu regulatora na jakość regulacji
Tanzania: między tradycją a nowoczesnością
Wykład 22 Modele dyskretne obiektów.
Lekcja 13 Strona 15. Lekcja 13 Strona 16 Lekcja 13 Strona 17 Vertical primary and secondary Tesla coil Jacobs ladder.
Kalendarz 2011r. styczeń pn wt śr czw pt sb nd
1.
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
11. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
  Prof.. dr hab.. Janusz A. Dobrowolski Instytut Systemów Elektronicznych, Politechnika Warszawska.
-17 Oczekiwania gospodarcze – Europa Wrzesień 2013 Wskaźnik > +20 Wskaźnik 0 a +20 Wskaźnik 0 a -20 Wskaźnik < -20 Unia Europejska ogółem: +6 Wskaźnik.
© GfK 2012 | Title of presentation | DD. Month
(C) Jarosław Jabłonka, ATH, 5 kwietnia kwietnia 2017
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
W2 Modelowanie fenomenologiczne I
Ekonometryczne modele nieliniowe
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Dr hab. Renata Babińska- Górecka
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Kalendarz 2020.
ANKIETA ZOSTAŁA PRZEPROWADZONA WŚRÓD UCZNIÓW GIMNAZJUM ZPO W BORONOWIE.
Ankieta dotycząca kart bankomatowych i kont bankowych.
Elementy geometryczne i relacje
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Wstęp do językoznawstwa synchronicznego A1WS Filologia polska, I rok * 2015/2016 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Proseminarium doktoranckie 2015/2016, semestr letni WSPÓŁCZESNE NARZĘDZIA OPISU LINGWISTYCZNEGO POLSZCZYZNY Proseminarium doktoranckie 2015/2016, semestr.
Zapis prezentacji:

KORPUS JAKO PODSTAWA ZDYSCYPLINOWANEGO OPISU LINGWISTYCZNEGO Proseminarium doktoranckie 2011/2012 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje: środa 14.00-15.00, pok. 1 Strona internetowa: www.mswidz.republika.pl

Spotkanie 2 Homonimia.

Defekty języka naturalnego Znak = <Forma, Treść> Ideał Znak1 = <Forma1, Treść1> Znak2 = <Forma2, Treść2> …… Znakn = <Forman, Treśćn>

Defekty języka naturalnego Rzeczywistość a. Znak1 = <Forma1, Treść1> => wariancja Znak2 = <Forma2, Treść1 ….. b. Znak1 = <Forma1, Treść1> => neutralizacja Znak2 = <Forma1, Treść2>

Defekty języka naturalnego a. wariancja to SYNONIMIA b. neutralizacja to HOMINIMIA

Homonimia w życiu Co z tą homonimią? 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka.

Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 12 : 20

Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 14 : 20

Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka?

Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 17 : 26

Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy.

Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy. 11 : 18

Homonimia naukowo

Homonimia naukowo

Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121.

Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121. 26 : 47

Homonimia naukowo Homonimia — równokształtność różnych JT (a także JS). JT (i JS) to słowo zinterpretowane, czyli forma wyrazowa (nie: leksem, fraza, zdanie). Matka dziewczyny odprowadza dziewczyny do szkoły. Dzielę się z tymi chłopakami chłopakami do butów. nie: CHŁOPAK1, CHŁOPAK2 Nie znoszę kolegi matki. Dziecko gryzie szczenię. Homonimia składniowa: problem osobny.

Homoforma — słowo o dwóch interpretacjach Homonimia naukowo Homoforma — słowo o dwóch interpretacjach (Elżbieta Awramiuk, „Systemowość polskiej homonimii międzyparadygmatycznej”, Białystok 1999). 18

Homonimia naukowo Homonimia — problem NOWY. ● Gramatyka tradycyjna i strukturalna: główny problem – SYNTEZA. Deklinacje i koniugacje. Wzorce deklinacyjne i koniugacyjne. Formy podstawowe w słownikach. Homonimia — osobliwość, ciekawostka, problem glottodydaktyki (false friends) System — potencja. Strukturalista rejestruje funkcje / opozycje. Kształty — nieistotne (ważne: różnice kształtu). Homonimia to patologia systemu: zjawisko niesystemowe. Homoforma nie jest JS!!!

Homonimia naukowo ● Wyzwanie NLP. Przetwarzanie tekstów JN. Główny problem — ANALIZA: — morfologiczna (= fleksyjna), — składniowa, [— semantyczna]. Korpusy tekstów — wielkie. Stąd: analiza musi być automatyczna. Homonimia — główne wyzwanie.

Analiza fleksyjna toniemy a.  TONĄĆ b. czas;1,m,ter ciem a.  ĆMA b. rzecz,żeń;D,m bowiem a.  BOWIEM b. spój;- Rozpoznanie FW: a. lematyzacja (a fronte), b. interpretacja gramatyczna (a tergo). Marcin Woliński, Morfeusz: http://sgjp.pl/demo/morfeusz

Rozwiązanie homonimii W tekście — homoformy bardzo częste. tonie 1.  TONĄĆ, czas;3,p,ter 2.  TOŃ, rzecz.żeń.;M,m 3.  TOŃ, rzecz.żeń.;B,m 4.  TOŃ, rzecz.żeń.;W,m 5.  TON, rzecz.mnż.;Ms,p 6.  TON, rzecz.mnż.;W,p 7.  TONA, rzecz.żeń.;C,p 8.  TONA, rzecz.żeń.;Ms,p

Rozwiązanie homonimii Homonimia w węższym sensie: równokształtność FW należących do dwóch LX. (Np.: 1 i 2, 1 i 5, 1 i 7) Synkretyzm: równokształtność FW w obrębie jednego LX (Np..: 2 i 3, 2 i 4, 5 i 6)

Rozwiązanie homonimii Homonimia w węższym sensie: międzyparadygmatyczna. Synkretyzm: homonimia wewnątrzparadygmatyczna. Rozwiązanie homonimii w węższym sensie: dehomonimizacja. Rozwiązanie synkretyzmu: desynkretyzacja.

Rozwiązanie homonimii „Słabe” rozumienie RH: wypisanie dla danej HF wszystkich LX i wszystkich interpretacji gramatycznych. „Mocne” rozumienie RH: wybranie dla danej HF właściwego LX i właściwej interpretacji gramatycznej. Rzeczywisty cel analizy automatycznej: wybór opisu właściwego.

Grant, AMOR, Składak Grant KBN nr 5 H01D 019 20: Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik: Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf

Grant, AMOR, Składak Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa 2004

Homonimia i synkretyzm Homonimie i synkretyzmy są systemowo nieistotne. Z punktu widzenia automatycznej analizy tekstu — BARDZO!!! Zarówno jakościowo, jak i ilościowo. Homonimie: raczej niesystemowe raczej nieseryjne raczej nieprzewidywalne Synkretyzmy: „systemowe” seryjne przewidywalne

Homonimia i synkretyzm Homonimie Lista 133 modeli Elżbiety Awramiuk. Na przykład: a. Model (M-F)1+a: fizyk — fizyki — fizykom — fizykami — fizykach — fizyka  FIZYK lub FIZYKA Model bardzo produktywny b. Model (F-Adj)2: czapla — czapli — czaplą — czaple  CZAPLA lub CZAPLI Model rzadki

Homonimia i synkretyzm c. Model -li(Vp-Vł): pili  PILIĆ lub PIĆ Model rzadki d. Model -ej(Vp-Adv) : jaśniej  JAŚNIEĆ lub JASNY Model produktywny e. Model -i(Ln-P): dzięki  DZIĘKI (przyimek) lub DZIĘKI (rzecz. plurale tantum) Model izolowany

Homonimia i synkretyzm Synkretyzmy Na przykład: a. Rzecz. męskie „typowe”: M=B lub D=B (lp) M=(B)=W (lm) b. Rzecz. żeńskie „typowe”: (D)=C=Ms (lp) M=B=W (lm) c. Rzecz. żeńskie grupy VI: M=B, D=C=Ms=W (lp)

W systemie i tekście Słownik AMOR-a Liczba Jednostka LX 75099 FW 1378663 Różnokształtne FW (bez synkretyzmów) 975140 Różnokształtne FW homonimiczne 6225 FW homonimiczne 15623 FW mające co najmniej 2 interpretacje 669318

W systemie i tekście W słowniku AMOR-a przymiotniki gr. II 2855 żeński gr. IV 1234 męski gr III 878 żeński gr. III 832 męski gr IV 786 czasownik gr. 5c 738 czasownik gr. I 599 czasownik gr. 6a 515 nijaki gr. I 482 czasownik gr. 3 465

W systemie i tekście W korpusie PWN Jednostka Liczba % Słowa 2063309 100.0 Formy wyrazowe mające więcej niż 1 interpretację 922336 44.70 Formy wyrazowe homonimiczne 267404 12.96

Podsumowanie RH: odgadywanie LX lub interpretacji gramatycznej dla danego słowa. Różne cele: techniczny, leksykograficzny, składniowo- semantyczny. Trzy drogi: a. bezskładniowa b. prymitywnie składniowa c. wyrafinowanie składniowa.

Podsumowanie a. bezskładniowa: .......... brać .................. brać to raczej FW czasownika BRAĆ1 niż rzeczownika BRAĆ2; .......... dziewczynie ............ dziewczynie to raczej Msp niż Cp. b. prymitywnie składniowa: ............. dobrym tonie ............: TON, Msp (ale: Jan w kajaku dobrym tonie.) .............. w tonie ............: TONA? TON? TOŃ? B czy Ms? c. wyrafinowanie składniowa

Podsumowanie Wszystkie drogi prowadzą do składni!!!