2. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013-2014 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje (pok. 1): śr 14.00-15.00, sob (w dniach zjazdów) Strona przedmiotu — szukaj pod: http://www.mswidz.republika.pl/ 1
Wykład 2: Aparat pojęciowy analizy tekstu.
Program Co to jest język naturalny? Aparat pojęciowy analizy tekstu. Poziomy struktury tekstu. Podstawy morfologii. Derywacja i gniazda słowotwórcze. Fleksja polska. Elementarz składni. Świat znaczeń: podstawy leksykologii. Leksykografia. Komunikacja językowa. Zróżnicowanie języków świata. Typologia języków. Inne.
Przypomnienie Językoznawstwo – nauka empiryczna. Dział semiologii. Przedmiot: języki naturalne. Znaki konwencjonalne. Opozycje. System. Znaki proste i znaki złożone. Dwuklasowość. Język – para <Słownik, Gramatyka>. Populacja rodzimych użytkowników. Komunikacyjna uniwersalność języka naturalnego. 4
Modelowanie Jak opisać język naturalny strukturalnie? Model — urządzenie funkcjonujące jak oryginał. Co jest tym oryginałem (= obiektem opisu)? Umowa: JN NS (rodzimy użytkownik). Co modelujemy? Kompetencję idealnego NS’a, czyli umiejętność: odróżniania wyrażeń poprawnych od niepoprawnych, interpretowania ( rozumienia) wyrażeń poprawnych, wytwarzania wyrażeń poprawnych. 5
Poprawność a sensowność Zdanie poprawne nie musi być sensowne: Słowiki pokąsały nas po ołówku. Colorless green ideas sleep furiously. Umarł ten nieśmiertelny żonaty kawaler. Wyrażenie sensowne nie musi być zdaniem poprawnym: * Słowikie kląskać w ogrodu. * Kali, you is my baby... * Kupi pan pięć kilogramy cementu. 6
Opis (= model) języka naturalnego Opis JN to — przy pewnych założeniach — jego gramatyka. Jest konwencjonalny i arbitralny. Model to idealizacja: wyostrzenie uogólnienie uproszczenie Istnieje nieograniczenie wiele poprawnych modeli (= opisów) danego JN. 7
Dane empiryczne Opisywany obiekt to czarna skrzynka. Językoznawca potrzebuje danych empirycznych. Dane: teksty rzeczywiste, teksty preparowane, sądy rodzimego użytkownika o nich. Zbiór tekstów – korpus. 8
Korpusy tekstów Na przykład: http://korpus.pwn.pl/ http:/korpus.pl/ PELCRA LOB Corpus BNC (British National Corpus) ..... http://www.let.ru.nl/corpusngt/ 9
Tekst Tekst – wytwór użytkownika języka: produkt kompetencji językowej. Rozróżnienie langue – parole (F. de Saussure) mowa – mówienie system – tekst 10
System a tekst System: jeden jedyny abstrakcyjny zamknięty pozaczasowy Tekst: jeden z bardzo wielu dostępny zmysłom będący elementem zbioru otwartego zlokalizowany w czasie i przestrzeni linearny (???) Czy to ostatnie – wystarczająco ogólne? 11
Typologia tekstów Teksty języka fonicznego: mówione pisane (śpiewane) brajlowskie e-mailowe sms-owe „migane” „palcowane” ......... Reprezentują one odmiany diakrytyczne JN. 12
Typologia tekstów Teksty języka wizualno-przestrzennego: migane pisane: a. opisy (J. Hollak, T. Jagodziński, 1879, Słownik mimiczny dla głuchoniemych i osób z nimi styczność mających, Warszawa: Druk i nakład Instytutu Głuchoniemych) b. notacja Szczepankowskiego c. notacja hamburska d. SignWriting ..................... „dotykowe” 13
Poziomy znaku Znak ma: kształt (formę) treść (funkcję) Składniki kształtu znaku – cegiełki asemantyczne: diakryty. Hierarchia składników tekstu: diakryty znaki proste znaki złożone 14
Diakryty Diakryty języka fonicznego: głoski, allofony, fonemy litery, grafemy „sześciopunkty” ....... Ale także: elementy składowe „cegiełek”: piksele, krzywe, pociągnięcia pędzla,..., cechy artykulacyjne lub akustyczne,... 15
Diakryty Diakryty języka wizualno-przestrzennego: układ dłoni i palców (handshape) pozycja dłoni (palm orientation) miejsce artykulacji (location) ruch (movement): jego punkt wyjścia i dojścia, kierunek, zwrot sposób ruchu zatrzymanie (hold) (?) .......... 16
Diakryty Ale także: parametry poszczególnych elementów diakrytycznych pewne elementy niemanualne elementy obce ................ Jaki jest status tych elementów? Czy nie mają one znaczeń? Czy to nie są znaki? Granica między znakiem a diakrytem – nieostra, nieogólna, być może – nie do zdefiniowania... 17
Modelowanie języka Cele: sporządzenie listy znaków prostych rekonstrukcja sieci opozycji [w tym: ograniczeń łączliwości]. Procedury analityczne: segmentacja strukturyzacja 18
Okaz i typ Jednostki tekstu (= obiekty konkretne) reprezentują jednostki systemu (= obiekty abstrakcyjne) JT – okaz (token), JS – typ (type). Jakie JS są reprezentowane przez następujące JT: mamami, mamami, MAMAMI, mamami kot, kota, koty kupić, napisać, jeść Kto przyszedł?, Umrzesz ty., Wszyscy tu wczoraj rzygali. 19
Okaz i typ Jakie JS są reprezentowane przez następujące JT: mamami, mamami, MAMAMI, mamami 20
Okaz i typ słowo mamami (różnie zapisane) (1 JS) (???) cztery warianty słowa mamami 21
Okaz i typ Jakie JS są reprezentowane przez następujące JT: kot, kota, koty 22
Okaz i typ Pięć różnych form wyrazowych leksemu KOT (5 JS): mianownik, pojedyncza, dopełniacz, pojedyncza - lub biernik, pojedyncza mianownik, mnoga – biernik, mnoga – wołacz, mnoga Jeden leksem KOT (1 JS) 23
Okaz i typ Jakie JS są reprezentowane przez następujące JT: kupić, napisać, jeść 24
Okaz i typ Forma wyrazowa o wartości „bezokolicznik” (1 JS) Formy trzech leksemów (3 JS) 25
Okaz i typ Jakie JS są reprezentowane przez następujące JT: Kto przyszedł?, Umrzesz ty., Wszyscy tu wczoraj rzygali. 26
Okaz i typ Zdanie (1 JS) Trzy różne zdania (3 JS) Dwa zdania (2 JS) (O co tu chodzi???) 27
Podsumowanie Językoznawca opisuje kompetencję językową NS’a, czyli buduje model JN. Opis JN to jego gramatyka. Dane empiryczne: korpus tekstów. Znaki mają trzy poziomy struktury: [diakryt –] znak prosty – znak złożony. Poziomy abstrakcji: okazy i typy. 28