KORPUS JAKO PODSTAWA ZDYSCYPLINOWANEGO OPISU LINGWISTYCZNEGO Proseminarium doktoranckie 2011/2012 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje: środa 14.00-15.00, pok. 1 Strona internetowa: www.mswidz.republika.pl
Spotkanie 2 Homonimia.
Defekty języka naturalnego Znak = <Forma, Treść> Ideał Znak1 = <Forma1, Treść1> Znak2 = <Forma2, Treść2> …… Znakn = <Forman, Treśćn>
Defekty języka naturalnego Rzeczywistość a. Znak1 = <Forma1, Treść1> => wariancja Znak2 = <Forma2, Treść1 ….. b. Znak1 = <Forma1, Treść1> => neutralizacja Znak2 = <Forma1, Treść2>
Defekty języka naturalnego a. wariancja to SYNONIMIA b. neutralizacja to HOMINIMIA
Homonimia w życiu Co z tą homonimią? 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka.
Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 12 : 20
Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 14 : 20
Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka?
Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 17 : 26
Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy.
Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy. 11 : 18
Homonimia naukowo
Homonimia naukowo
Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121.
Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121. 26 : 47
Homonimia naukowo Homonimia — równokształtność różnych JT (a także JS). JT (i JS) to słowo zinterpretowane, czyli forma wyrazowa (nie: leksem, fraza, zdanie). Matka dziewczyny odprowadza dziewczyny do szkoły. Dzielę się z tymi chłopakami chłopakami do butów. nie: CHŁOPAK1, CHŁOPAK2 Nie znoszę kolegi matki. Dziecko gryzie szczenię. Homonimia składniowa: problem osobny.
Homoforma — słowo o dwóch interpretacjach Homonimia naukowo Homoforma — słowo o dwóch interpretacjach (Elżbieta Awramiuk, „Systemowość polskiej homonimii międzyparadygmatycznej”, Białystok 1999). 18
Homonimia naukowo Homonimia — problem NOWY. ● Gramatyka tradycyjna i strukturalna: główny problem – SYNTEZA. Deklinacje i koniugacje. Wzorce deklinacyjne i koniugacyjne. Formy podstawowe w słownikach. Homonimia — osobliwość, ciekawostka, problem glottodydaktyki (false friends) System — potencja. Strukturalista rejestruje funkcje / opozycje. Kształty — nieistotne (ważne: różnice kształtu). Homonimia to patologia systemu: zjawisko niesystemowe. Homoforma nie jest JS!!!
Homonimia naukowo ● Wyzwanie NLP. Przetwarzanie tekstów JN. Główny problem — ANALIZA: — morfologiczna (= fleksyjna), — składniowa, [— semantyczna]. Korpusy tekstów — wielkie. Stąd: analiza musi być automatyczna. Homonimia — główne wyzwanie.
Analiza fleksyjna toniemy a. TONĄĆ b. czas;1,m,ter ciem a. ĆMA b. rzecz,żeń;D,m bowiem a. BOWIEM b. spój;- Rozpoznanie FW: a. lematyzacja (a fronte), b. interpretacja gramatyczna (a tergo). Marcin Woliński, Morfeusz: http://sgjp.pl/demo/morfeusz
Rozwiązanie homonimii W tekście — homoformy bardzo częste. tonie 1. TONĄĆ, czas;3,p,ter 2. TOŃ, rzecz.żeń.;M,m 3. TOŃ, rzecz.żeń.;B,m 4. TOŃ, rzecz.żeń.;W,m 5. TON, rzecz.mnż.;Ms,p 6. TON, rzecz.mnż.;W,p 7. TONA, rzecz.żeń.;C,p 8. TONA, rzecz.żeń.;Ms,p
Rozwiązanie homonimii Homonimia w węższym sensie: równokształtność FW należących do dwóch LX. (Np.: 1 i 2, 1 i 5, 1 i 7) Synkretyzm: równokształtność FW w obrębie jednego LX (Np..: 2 i 3, 2 i 4, 5 i 6)
Rozwiązanie homonimii Homonimia w węższym sensie: międzyparadygmatyczna. Synkretyzm: homonimia wewnątrzparadygmatyczna. Rozwiązanie homonimii w węższym sensie: dehomonimizacja. Rozwiązanie synkretyzmu: desynkretyzacja.
Rozwiązanie homonimii „Słabe” rozumienie RH: wypisanie dla danej HF wszystkich LX i wszystkich interpretacji gramatycznych. „Mocne” rozumienie RH: wybranie dla danej HF właściwego LX i właściwej interpretacji gramatycznej. Rzeczywisty cel analizy automatycznej: wybór opisu właściwego.
Grant, AMOR, Składak Grant KBN nr 5 H01D 019 20: Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik: Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf
Grant, AMOR, Składak Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa 2004
Homonimia i synkretyzm Homonimie i synkretyzmy są systemowo nieistotne. Z punktu widzenia automatycznej analizy tekstu — BARDZO!!! Zarówno jakościowo, jak i ilościowo. Homonimie: raczej niesystemowe raczej nieseryjne raczej nieprzewidywalne Synkretyzmy: „systemowe” seryjne przewidywalne
Homonimia i synkretyzm Homonimie Lista 133 modeli Elżbiety Awramiuk. Na przykład: a. Model (M-F)1+a: fizyk — fizyki — fizykom — fizykami — fizykach — fizyka FIZYK lub FIZYKA Model bardzo produktywny b. Model (F-Adj)2: czapla — czapli — czaplą — czaple CZAPLA lub CZAPLI Model rzadki
Homonimia i synkretyzm c. Model -li(Vp-Vł): pili PILIĆ lub PIĆ Model rzadki d. Model -ej(Vp-Adv) : jaśniej JAŚNIEĆ lub JASNY Model produktywny e. Model -i(Ln-P): dzięki DZIĘKI (przyimek) lub DZIĘKI (rzecz. plurale tantum) Model izolowany
Homonimia i synkretyzm Synkretyzmy Na przykład: a. Rzecz. męskie „typowe”: M=B lub D=B (lp) M=(B)=W (lm) b. Rzecz. żeńskie „typowe”: (D)=C=Ms (lp) M=B=W (lm) c. Rzecz. żeńskie grupy VI: M=B, D=C=Ms=W (lp)
W systemie i tekście Słownik AMOR-a Liczba Jednostka LX 75099 FW 1378663 Różnokształtne FW (bez synkretyzmów) 975140 Różnokształtne FW homonimiczne 6225 FW homonimiczne 15623 FW mające co najmniej 2 interpretacje 669318
W systemie i tekście W słowniku AMOR-a przymiotniki gr. II 2855 żeński gr. IV 1234 męski gr III 878 żeński gr. III 832 męski gr IV 786 czasownik gr. 5c 738 czasownik gr. I 599 czasownik gr. 6a 515 nijaki gr. I 482 czasownik gr. 3 465
W systemie i tekście W korpusie PWN Jednostka Liczba % Słowa 2063309 100.0 Formy wyrazowe mające więcej niż 1 interpretację 922336 44.70 Formy wyrazowe homonimiczne 267404 12.96
Podsumowanie RH: odgadywanie LX lub interpretacji gramatycznej dla danego słowa. Różne cele: techniczny, leksykograficzny, składniowo- semantyczny. Trzy drogi: a. bezskładniowa b. prymitywnie składniowa c. wyrafinowanie składniowa.
Podsumowanie a. bezskładniowa: .......... brać .................. brać to raczej FW czasownika BRAĆ1 niż rzeczownika BRAĆ2; .......... dziewczynie ............ dziewczynie to raczej Msp niż Cp. b. prymitywnie składniowa: ............. dobrym tonie ............: TON, Msp (ale: Jan w kajaku dobrym tonie.) .............. w tonie ............: TONA? TON? TOŃ? B czy Ms? c. wyrafinowanie składniowa
Podsumowanie Wszystkie drogi prowadzą do składni!!!