Proseminarium doktoranckie 2015/2016, semestr letni WSPÓŁCZESNE NARZĘDZIA OPISU LINGWISTYCZNEGO POLSZCZYZNY Proseminarium doktoranckie 2015/2016, semestr.

Slides:



Advertisements
Podobne prezentacje
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Advertisements

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Zagadnienia automatycznego wnioskowania w logikach deskrypcyjnych
Jak język angielski wpływa na współczesną polszczyznę ?
POLSKIE TOWARZYSTWO FONETYCZNE Analiza, synteza i rozpoznawanie mowy w lingwistyce, technice i medycynie Szczyrk 2003 System Thetos w serwisie tekstów.
® System do analizy tekstów ortograficznych Cezary Dołęga,
Wykorzystanie Platformy Moodle w dydaktyce języków obcych
JĘZYK POLSKI KLASY IV - VI
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
2. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Automatyczna analiza i synteza derywacyjna tekstu polskiego
Uniwersytet Jagielloński
6. Wprowadzenie do nauki o języku A1NJ
5. Wprowadzenie do nauki o języku A1NJ
4. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
1. Wprowadzenie do nauki o języku A1NJ
3. Wprowadzenie do nauki o języku A1NJ
3. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
4. Wprowadzenie do nauki o języku A1NJ
2. W PROWADZENIE DO NAUKI O JĘZYKU A1NJ * 3003-K1A1NJ S TUDIA STACJONARNE 2011/2012 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
5. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
JAK UCZYĆ SIĘ JĘZYKÓW OBCYCH
Zaawansowane przetwarzanie tekstu dla potrzeb bibliotek cyfrowych Stanisław Osiński
LIRYKA - podział ze względu na typ wyrażanych przez nią przeżyć
Opracował Wiesław Rychlicki na podstawie:
OTWARCIE NOWEJ SIEDZIBY INSTYTUTU PODSTAW INFORMATYKI PAN
VI KONFERENCJA EWALUACYJNA
Konspekt, a scenariusz (teza 13).
11. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład.
FIZYKA FIZYKA TECHNICZNA:
Temat: Utrwalenie wiadomości o czasowniku.
IBUK Libra WIRTUALNA CZYTELNIA
Europejska edukacja kulturowa Specjalność na studiach I stopnia.
Opracowała: mgr Joanna Pastuszka Szkoła Podstawowa w LipowcuKościelnym
Wstęp do językoznawstwa synchronicznego A1WS Filologia polska, I rok * 2014/2015 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Przygotowanie dobrej prezentacji
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Modelowanie Kognitywne
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Czy katalogowanie ma przyszłość? Dwugłos względnie uporządkowany Jadwiga Woźniak-Kasperek Małgorzata Kisilowska Instytut Informacji Naukowej i Studiów.
Królowa Rzeczownik Królowa to żona króla, i matka następcy tronu. Zasiadała przy boku władcy. Pełniła funkcję reprezentacyjną. Prowadziła akcje charytatywne.
9. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
Wstęp do językoznawstwa synchronicznego A1WS Filologia polska, I rok * 2015/2016 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Wstęp do GFJP: jak to chodzi....  Definicja pewnego zbioru wyrażeń (np. zbioru „język polski”).  Różne aparaty: ST, EST, GB, GPSG, HPSG,…
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Dr Krzysztof Olszewski Instytut Języka Angielskiego Uniwersytet Śląski.
Nikogo nie trzeba przekonywać, że eksperymenty wykonywane samodzielnie przez ucznia czy prezentowane przez nauczyciela sprawiają, że lekcje są bardziej.
1 Jak Zdecydowanie Zwiększyć Skuteczność Sprzedaży? W ielowymiarowe Z arządzanie E fektem w praktyce Projekt i realizacja: dr Mariusz Salamon.
”FALSE FRIENDS” (Źródła ilustracji:
Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.
Rzeczownik przyimek powtórzenie. Rzeczownik Napisz zdanie z rzeczownikami:  wróg – Mianownik, l.p.  oko - Celownik l.m.  człowiek – Narzędnik l.m.
Opis przymiotnika i przysłówka w Słowosieci Marek Maziarz *, Maciej Piasecki*, Stanisław Szpakowicz #, Justyna Wieczorek *, Michał Kaliński * * Katedra.
Proseminarium doktoranckie 2015/2016, semestr letni WSPÓŁCZESNE NARZĘDZIA OPISU LINGWISTYCZNEGO POLSZCZYZNY Proseminarium doktoranckie 2015/2016, semestr.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
1.Promieniowanie ciała doskonale czarnego ciała doskonale czarnego Anna Steć Gr.3 ZiIP, GiG Przedmiot: Fizyka Współczesna.
Wizualizacja zbiorów Biblioteki Głównej Politechniki Warszawskiej według dziedzin nauki na podstawie UKD Stan na październik 2015 Cel: Zilustrowanie zawartości.
Części zdania pojedynczego
Strukturalny język zapytań SQL - historia
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
IBUK Libra WIRTUALNA CZYTELNIA
Zapis prezentacji:

Proseminarium doktoranckie 2015/2016, semestr letni WSPÓŁCZESNE NARZĘDZIA OPISU LINGWISTYCZNEGO POLSZCZYZNY Proseminarium doktoranckie 2015/2016, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW Konsultacje: Strona internetowa:

Spotkanie 2 Homonimia polska. 2

Znak = Ideał Znak1 = Znak2 = …… Znakn = 3 Defekty języka naturalnego

Rzeczywistośća. Znak1 = => wariancja Znak2 = <Forma2, Treść1 …..b. Znak1 = => neutralizacja Znak2 = ….. 4 Defekty języka naturalnego

a. wariancja to SYNONIMIAb. neutralizacja to HOMINIMIA 5 Defekty języka naturalnego

Co z tą homonimią? 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 6 Homonimia w życiu

130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 12 : 20 7 Homonimia w życiu

268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 8 Homonimia w życiu

268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 17 : 26 9 Homonimia w życiu

408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy. 10 Homonimia w życiu

408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy. 11 : Homonimia w życiu

12 Homonimia naukowo

13 Homonimia naukowo

PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/ Homonimia naukowo

PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/ : Homonimia naukowo

Homonimia — równokształtność różnych JT (a także JS). JT (i JS) to słowo zinterpretowane, czyli forma wyrazowa (nie: leksem, fraza, zdanie). Matka dziewczyny odprowadza dziewczyny do szkoły. Dzielę się z tymi chłopakami chłopakami do butów. nie: CHŁOPAK 1, CHŁOPAK 2 Nie znoszę kolegi matki. Dziecko gryzie szczenię. Homonimia składniowa: problem osobny. 16 Homonimia naukowo

Homoforma — słowo o dwóch interpretacjach (Elżbieta Awramiuk, „Systemowość polskiej homonimii międzyparadygmatycznej”, Białystok 1999). 17 Homonimia naukowo

Homonimia — problem NOWY. ●Gramatyka tradycyjna i strukturalna: główny problem – SYNTEZA. Deklinacje i koniugacje. Wzorce deklinacyjne i koniugacyjne. Formy podstawowe w słownikach. Homonimia — osobliwość, ciekawostka, problem glottodydaktyki (false friends) System — potencja. Strukturalista rejestruje funkcje / opozycje. Kształty — nieistotne (ważne: różnice kształtu). Homonimia to patologia systemu: zjawisko niesystemowe. Homoforma nie jest JS!!! 18 Homonimia naukowo

●Era NLP. Przetwarzanie tekstów JN. Główny problem — ANALIZA: — morfologiczna (= fleksyjna), — składniowa, [— semantyczna]. Korpusy tekstów — wielkie. Stąd: analiza musi być automatyczna. Homonimia — główne wyzwanie. 19 Homonimia naukowo

o toniemy a.  TONĄĆ b. czas;1,m,ter ciem a.  ĆMA b. rzecz,żeń;D,m bowiem a.  BOWIEM b. spój;- o Rozpoznanie FW: a. lematyzacja (a fronte), b. interpretacja gramatyczna (a tergo). Marcin Woliński, Morfeusz: 20 Analiza fleksyjna

W tekście — homoformy bardzo częste. o tonie 1.  TONĄĆ, czas;3,p,ter 2.  TOŃ, rzecz.żeń.;M,m 3.  TOŃ, rzecz.żeń.;B,m 4.  TOŃ, rzecz.żeń.;W,m 5.  TON, rzecz.mnż.;Ms,p 6.  TON, rzecz.mnż.;W,p 7.  TONA, rzecz.żeń.;C,p 8.  TONA, rzecz.żeń.;Ms,p 9.  TONI, rzecz.m1.;M,m,depr 10.  TONIO, rzecz.m1.;M,m,depr 11.  TONIA, rzecz.żeń.;M,m 12.  TONIA, rzecz.żeń.;M,m 13.  TONIA, rzecz.żeń.;M,m 21 Rozwiązanie homonimii

Morfologia Wywoływać daremnie. Siostra skarży: – Nieostre! Muszę ostrą mieć siostrę, dlatego ciemnię ciemnię. U nas tak jest jak w mieście Marki, gdzie mnich nie lubi popa, a Azji Europa: nie znoszą kucharki kucharki. 22 Rozwiązanie homonimii

Morfologia i składnia W tym podręczniku bój się wymienia: Crécy i Grunwald, i Austerlitz… Ja na wieś jadę barany strzyc, a ty, dojarko, bój się wymienia. 23 Rozwiązanie homonimii

Składnia Polecono Janowi wybaczać, a wyglądał na szuję. Polecono Janowi wybaczać, ale on nie daruje. 24 Rozwiązanie homonimii

Semantyka Droga do szkółki przy kościele opłaca się przez dwie niedziele. 25 Rozwiązanie homonimii

Biegli stają. Brać zbiega. Dali ujmę. Działa złocisz. Gaci się nie pnie. Gorzej czernią. Grab mnie. Imam się goli. Kiście wyrób. Kulę garb. Kurz zsyp. Kurzy szkoda. 26 Rozwiązanie homonimii

o Homonimia w węższym sensie: równokształtność FW należących do dwóch LX. (Np.: 1 i 2, 1 i 5, 1 i 7) o Synkretyzm: równokształtność FW w obrębie jednego LX (Np..: 2 i 3, 2 i 4, 5 i 6) 27 Rozwiązanie homonimii

oHomonimia w węższym sensie: międzyparadygmatyczna. oSynkretyzm: homonimia wewnątrzparadygmatyczna. oRozwiązanie homonimii w węższym sensie: dehomonimizacja. oRozwiązanie synkretyzmu: desynkretyzacja. 28 Rozwiązanie homonimii

o„Słabe” rozumienie RH: wypisanie dla danej HF wszystkich LX i wszystkich interpretacji gramatycznych. o„Mocne” rozumienie RH: wybranie dla danej HF właściwego LX i właściwej interpretacji gramatycznej. oRzeczywisty cel analizy automatycznej: wybór opisu właściwego. 29 Rozwiązanie homonimii

o Grant KBN nr 5 H01D : Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik:Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko o Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf 30 Grant, AMOR, Składak

Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa Grant, AMOR, Składak

Homonimie i synkretyzmy są systemowo nieistotne. Z punktu widzenia automatycznej analizy tekstu — BARDZO!!! Zarówno jakościowo, jak i ilościowo. oHomonimie: raczej niesystemowe raczej nieseryjne raczej nieprzewidywalne oSynkretyzmy: „systemowe” seryjne przewidywalne 32 Homonimia i synkretyzm

oHomonimie Lista 133 modeli Elżbiety Awramiuk. Na przykład: a. Model (M-F)1+a: fizyk — fizyki — fizykom — fizykami — fizykach — fizyka  FIZYK lub FIZYKA Model bardzo produktywny b. Model (F-Adj)2: czapla — czapli — czaplą — czaple  CZAPLA lub CZAPLI Model rzadki 33 Homonimia i synkretyzm

c. Model -li(V p -V ł ): pili  PILIĆ lub PIĆ Model rzadki d. Model -ej(V p -Adv) : jaśniej  JAŚNIEĆ lub JASNY Model produktywny e. Model -i(Ln-P): dzięki  DZIĘKI (przyimek) lub DZIĘKI (rzecz. plurale tantum) Model izolowany 34 Homonimia i synkretyzm

oSynkretyzmy Na przykład: a. Rzecz. męskie „typowe”: M=B lub D=B (lp) M=(B)=W (lm) b. Rzecz. żeńskie „typowe”: (D)=C=Ms (lp) M=B=W (lm) c. Rzecz. żeńskie grupy VI: M=B, D=C=Ms=W (lp) 35 Homonimia i synkretyzm

Liczba Jednostka LX75099 FW Różnokształtne FW (bez synkretyzmów) Różnokształtne FW homonimiczne6225 FW homonimiczne15623 FW mające co najmniej 2 interpretacje oSłownik AMOR-a W systemie i tekście

oW słowniku AMOR-a 37 –przymiotniki gr. II–2855 –żeński gr. IV–1234 –męski gr III–878 –żeński gr. III–832 –męski gr IV–786 –czasownik gr. 5c–738 –czasownik gr. I–599 –czasownik gr. 6a–515 –nijaki gr. I–482 –czasownik gr. 3–465 W systemie i tekście

W korpusie PWN 38 JednostkaLiczba% Słowa Formy wyrazowe mające więcej niż 1 interpretację Formy wyrazowe homonimiczne W systemie i tekście

oRH: odgadywanie LX lub interpretacji gramatycznej dla danego słowa. oRóżne cele: techniczny, leksykograficzny, składniowo- semantyczny. oTrzy drogi: a. bezskładniowa b. prymitywnie składniowa c. wyrafinowanie składniowa. 39 Podsumowanie

a. bezskładniowa: brać brać to raczej FW czasownika BRAĆ 1 niż rzeczownika BRAĆ 2 ; dziewczynie dziewczynie to raczej Msp niż Cp. b. prymitywnie składniowa: dobrym tonie : TON, Msp (ale: Jan w kajaku dobrym tonie.) w tonie : TONA? TON? TOŃ? B czy Ms? c. wyrafinowanie składniowa 40 Podsumowanie

Wszystkie drogi prowadzą do składni!!! 41 Podsumowanie