Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego

Podobne prezentacje


Prezentacja na temat: "Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego"— Zapis prezentacji:

1 KORPUS JAKO PODSTAWA ZDYSCYPLINOWANEGO OPISU LINGWISTYCZNEGO Proseminarium doktoranckie 2011/2012
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW Konsultacje: środa , pok. 1 Strona internetowa:

2 Spotkanie 2 Homonimia.

3 Defekty języka naturalnego
Znak = <Forma, Treść> Ideał Znak1 = <Forma1, Treść1> Znak2 = <Forma2, Treść2> …… Znakn = <Forman, Treśćn>

4 Defekty języka naturalnego
Rzeczywistość a. Znak1 = <Forma1, Treść1> => wariancja Znak2 = <Forma2, Treść1 ….. b. Znak1 = <Forma1, Treść1> => neutralizacja Znak2 = <Forma1, Treść2>

5 Defekty języka naturalnego
a. wariancja to SYNONIMIA b. neutralizacja to HOMINIMIA

6 Homonimia w życiu Co z tą homonimią? 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka.

7 Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 12 : 20

8 Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 14 : 20

9 Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka?

10 Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 17 : 26

11 Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy.

12 Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy. 11 : 18

13 Homonimia naukowo

14 Homonimia naukowo

15 Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121.

16 Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/ : 47

17 Homonimia naukowo Homonimia — równokształtność różnych JT (a także JS). JT (i JS) to słowo zinterpretowane, czyli forma wyrazowa (nie: leksem, fraza, zdanie). Matka dziewczyny odprowadza dziewczyny do szkoły. Dzielę się z tymi chłopakami chłopakami do butów. nie: CHŁOPAK1, CHŁOPAK2 Nie znoszę kolegi matki. Dziecko gryzie szczenię. Homonimia składniowa: problem osobny.

18 Homoforma — słowo o dwóch interpretacjach
Homonimia naukowo Homoforma — słowo o dwóch interpretacjach (Elżbieta Awramiuk, „Systemowość polskiej homonimii międzyparadygmatycznej”, Białystok 1999). 18

19 Homonimia naukowo Homonimia — problem NOWY. ● Gramatyka tradycyjna i strukturalna: główny problem – SYNTEZA. Deklinacje i koniugacje. Wzorce deklinacyjne i koniugacyjne. Formy podstawowe w słownikach. Homonimia — osobliwość, ciekawostka, problem glottodydaktyki (false friends) System — potencja. Strukturalista rejestruje funkcje / opozycje. Kształty — nieistotne (ważne: różnice kształtu). Homonimia to patologia systemu: zjawisko niesystemowe. Homoforma nie jest JS!!!

20 Homonimia naukowo ● Wyzwanie NLP. Przetwarzanie tekstów JN. Główny problem — ANALIZA: — morfologiczna (= fleksyjna), — składniowa, [— semantyczna]. Korpusy tekstów — wielkie. Stąd: analiza musi być automatyczna. Homonimia — główne wyzwanie.

21 Analiza fleksyjna toniemy a.  TONĄĆ b. czas;1,m,ter ciem a.  ĆMA
b. rzecz,żeń;D,m bowiem a.  BOWIEM b. spój;- Rozpoznanie FW: a. lematyzacja (a fronte), b. interpretacja gramatyczna (a tergo). Marcin Woliński, Morfeusz:

22 Rozwiązanie homonimii
W tekście — homoformy bardzo częste. tonie 1.  TONĄĆ, czas;3,p,ter 2.  TOŃ, rzecz.żeń.;M,m 3.  TOŃ, rzecz.żeń.;B,m 4.  TOŃ, rzecz.żeń.;W,m 5.  TON, rzecz.mnż.;Ms,p 6.  TON, rzecz.mnż.;W,p 7.  TONA, rzecz.żeń.;C,p 8.  TONA, rzecz.żeń.;Ms,p

23 Rozwiązanie homonimii
Homonimia w węższym sensie: równokształtność FW należących do dwóch LX. (Np.: 1 i 2, 1 i 5, 1 i 7) Synkretyzm: równokształtność FW w obrębie jednego LX (Np..: 2 i 3, 2 i 4, 5 i 6)

24 Rozwiązanie homonimii
Homonimia w węższym sensie: międzyparadygmatyczna. Synkretyzm: homonimia wewnątrzparadygmatyczna. Rozwiązanie homonimii w węższym sensie: dehomonimizacja. Rozwiązanie synkretyzmu: desynkretyzacja.

25 Rozwiązanie homonimii
„Słabe” rozumienie RH: wypisanie dla danej HF wszystkich LX i wszystkich interpretacji gramatycznych. „Mocne” rozumienie RH: wybranie dla danej HF właściwego LX i właściwej interpretacji gramatycznej. Rzeczywisty cel analizy automatycznej: wybór opisu właściwego.

26 Grant, AMOR, Składak Grant KBN nr 5 H01D : Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik: Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf

27 Grant, AMOR, Składak Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa 2004

28 Homonimia i synkretyzm
Homonimie i synkretyzmy są systemowo nieistotne. Z punktu widzenia automatycznej analizy tekstu — BARDZO!!! Zarówno jakościowo, jak i ilościowo. Homonimie: raczej niesystemowe raczej nieseryjne raczej nieprzewidywalne Synkretyzmy: „systemowe” seryjne przewidywalne

29 Homonimia i synkretyzm
Homonimie Lista 133 modeli Elżbiety Awramiuk. Na przykład: a. Model (M-F)1+a: fizyk — fizyki — fizykom — fizykami — fizykach — fizyka  FIZYK lub FIZYKA Model bardzo produktywny b. Model (F-Adj)2: czapla — czapli — czaplą — czaple  CZAPLA lub CZAPLI Model rzadki

30 Homonimia i synkretyzm
c. Model -li(Vp-Vł): pili  PILIĆ lub PIĆ Model rzadki d. Model -ej(Vp-Adv) : jaśniej  JAŚNIEĆ lub JASNY Model produktywny e. Model -i(Ln-P): dzięki  DZIĘKI (przyimek) lub DZIĘKI (rzecz. plurale tantum) Model izolowany

31 Homonimia i synkretyzm
Synkretyzmy Na przykład: a. Rzecz. męskie „typowe”: M=B lub D=B (lp) M=(B)=W (lm) b. Rzecz. żeńskie „typowe”: (D)=C=Ms (lp) M=B=W (lm) c. Rzecz. żeńskie grupy VI: M=B, D=C=Ms=W (lp)

32 W systemie i tekście Słownik AMOR-a Liczba Jednostka LX 75099 FW
Różnokształtne FW (bez synkretyzmów) 975140 Różnokształtne FW homonimiczne 6225 FW homonimiczne 15623 FW mające co najmniej 2 interpretacje 669318

33 W systemie i tekście W słowniku AMOR-a przymiotniki gr. II 2855
żeński gr. IV 1234 męski gr III 878 żeński gr. III 832 męski gr IV 786 czasownik gr. 5c 738 czasownik gr. I 599 czasownik gr. 6a 515 nijaki gr. I 482 czasownik gr. 3 465

34 W systemie i tekście W korpusie PWN Jednostka Liczba % Słowa 2063309
100.0 Formy wyrazowe mające więcej niż 1 interpretację 922336 44.70 Formy wyrazowe homonimiczne 267404 12.96

35 Podsumowanie RH: odgadywanie LX lub interpretacji gramatycznej dla danego słowa. Różne cele: techniczny, leksykograficzny, składniowo- semantyczny. Trzy drogi: a. bezskładniowa b. prymitywnie składniowa c. wyrafinowanie składniowa.

36 Podsumowanie a. bezskładniowa: brać brać to raczej FW czasownika BRAĆ1 niż rzeczownika BRAĆ2; dziewczynie dziewczynie to raczej Msp niż Cp. b. prymitywnie składniowa: dobrym tonie : TON, Msp (ale: Jan w kajaku dobrym tonie.) w tonie : TONA? TON? TOŃ? B czy Ms? c. wyrafinowanie składniowa

37 Podsumowanie Wszystkie drogi prowadzą do składni!!!


Pobierz ppt "Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego"

Podobne prezentacje


Reklamy Google