8. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”

Slides:



Advertisements
Podobne prezentacje
INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE
Advertisements

Jak szukać potrzebną pozycję w „Programie Mol”
Lingwistyka Matematyczna
Wstęp do Informatyki, część 1
Wstęp do Informatyki, WSZ, część 1
Rafał Hryniów Tomasz Pieciukiewicz
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Jak korzystać z literatury popularnonaukowej
Wprowadzenie do C++ Zajęcia 2.
przetwarzaniu informacji
Support.ebsco.com Przewodnik Czytanie artykułu EBSCOhost.
Sztuczna Inteligencja Analiza języka naturalnego Tłumaczenie maszynowe
Budowa i funkcje elektronicznego katalogu biblioteki szkolnej
® System do analizy tekstów ortograficznych Cezary Dołęga,
JĘZYK POLSKI KLASY IV - VI
Języki formalne i gramatyki
Wyższa Szkoła Informatyki i Zarządzania
Wyszukiwanie informacji
ENCYKLOPEDIE I SŁOWNIKI
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
1. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
2. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
6. Wprowadzenie do nauki o języku A1NJ
5. Wprowadzenie do nauki o języku A1NJ
1. Wprowadzenie do nauki o języku A1NJ
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Strategia skutecznego szukania informacji w Internecie
Opracował Wiesław Rychlicki na podstawie:
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Słowniki i korpusy języka polskiego
Informatyczny system edukacyjny do przedmiotu „Multimedia”
Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium Programowania i Zastosowań Komputerów Marcin Hankiewicz.
XML – eXtensible Markup Language
Tworzenie stron internetowych www World Wide Web
11. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
Gramatyki i translatory
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład.
Droga poszukiwań informacji na dany temat oprac. M. Tofil Napisanie referatu, przygotowanie maturalnej prezentacji, wymaga zgromadzenia odpowiedniej ilości.
Zmiany w egzaminie maturalnym Egzamin maturalny od 2010 r. 1 CZĘŚĆ USTNA przedmioty obowiązkowe: język polski – nie określa się poziomu egzaminu język.
Encyklopedie i słowniki jako źródła informacji
Zasoby internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford Dictionaries online. Mówi o tym, czym są Oxford Dictionaries.
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford English Dictionary online Mówi: czym jest Oxford English Dictionary.
Wstęp do językoznawstwa synchronicznego A1WS Filologia polska, I rok * 2014/2015 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
MATURA Podstawa prawna Rozporządzenie Ministra Edukacji Narodowej z dnia 30 kwietnia 2007r. w sprawie warunków i sposobu oceniania, klasyfikowania.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
HTML (ang. HyperText Markup Language ) – język do tworzenia stron internetowych opierający się na znacznikach, czy inaczej je nazywając – tagach. Język.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Encyklopedie i słowniki jako podstawowe źródło informacji Oprac
Poznajemy zasoby internetu
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Programowanie w językach skryptowych
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
9. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
Wyszukiwanie informacji na dany temat w oparciu o warsztat informacyjny Pedagogicznej Biblioteki Wojewódzkiej w Warszawie (materiały pomocnicze do.
Spotkanie 5 Wstęp do GFJP: jak to chodzi....  Definicja pewnego zbioru wyrażeń (np. zbioru „język polski”).  Różne aparaty: ST, EST, GB, GPSG, HPSG,…
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Pełnosprawny Student IX Kraków, 3 listopada 2015 r. Akademicka Biblioteka Cyfrowa Międzyuczelniana biblioteka materiałów dostępnych w wersjach elektronicznych.
Bibliografia. Uporządkowany spis książek i artykułów, który wydawany jest osobno lub dołączany do prac naukowych i popularnonaukowych. Bibliografia ma.
1 Międzywydziałowe Centrum Języków Obcych. 2 Zajęcia językowe odbywają się w grupach o różnych poziomach, zależnie od stopnia opanowania języka obcego.
Seminarium dyplomowe5 Jan Brzozowski, Katedra Studiów Europejskich.
Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Poradnik: Wirtualna Biblioteka Nauki - Jak szukać literatury na wybrany temat w Bibliotece i Centrum Informacji Naukowej PMWSZ w Opolu.
Wstęp do Informatyki - Wykład 14
Strukturalny język zapytań SQL - historia
Zapis prezentacji:

8. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2014-2016 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje (pok. 1): śr 14.00-15.00, sob (w dniach zjazdów) Strona przedmiotu — szukaj pod: http://www.mswidz.republika.pl/ 1

Program Co to jest język naturalny? Aparat pojęciowy analizy tekstu.  Poziomy struktury tekstu. Wstęp do morfologii. Fleksja polska. Elementarz składni.  Derywacja i gniazda słowotwórcze. Świat znaczeń: podstawy leksykologii. Leksykografia. Komunikacja językowa. Zróżnicowanie języków świata. Typologia języków. Inne: Korpusy i narzędzia ich obsługi.

Wykład 8: Korpusy i narzędzia ich obsługi

Językoznawstwo korpusowe „[językoznawstwo XXI stulecia] to [...] lingwistyka korpusowa. Rozwija się ona już od jakiegoś czasu; wynikła w sposób naturalny z dość szczęśliwego splotu różnorodnych okoliczności; zdominowała inne nurty i odmiany językoznawstwa nieodwracalnie. Nie można być dziś językoznawcą i nie otrzeć się o nią choćby jako użytkownik narzędzi. A skoro tak, to warto wejść w ten świat z wyboru, zadań bowiem jest moc i będzie ich coraz więcej. W świecie jest na tę najnowszą lingwistykę, nie na dowolną, mnóstwo pieniędzy – i zajmują się nią całe rzesze; to dowodzi, że coś jest na rzeczy, że czemuś to służy...” [Świdziński, M.: „Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy”. [W:] LingVaria, nr 1. Kraków 2006. 23-32.] 4

Szkic historii lingwistyki Lingwistyka I połowy XX wieku – strukturalizm (F. de Saussure, J.N. Baudouin de Courtenay, M. Kruszewski, O. Jespersen, N. Trubeckoj, L. Hjelmslev, L. Tesniére, J. Kuryłowicz, L. Bloomfield, Z. S. Harris): opis struktury, nie genezy. Język naturalny: dwuklasowy system semiotyczny służący danej populacji do komunikacji uniwersalnej. Lingwistyka formalna: opisy „typu matematycznego” – twierdzenia, dowody, rachunki. Opis na papierze!!! Wynik: definicja drzew struktury. Język naturalny: zbiór wszystkich wyrażeń poprawnych i tylko takich. Generatywizm: N. Chomsky, Syntactic Structures (1957). Inne formalizmy: GPSG, HPSG, DCG, wiele innych. 5

Szkic historii lingwistyki Lingwistyka informatyczna: zadania inżynierskie – budowa korpusu, automatyczna analiza tekstu, przetwarzanie tekstów, przeszukiwanie itp. Opis jest urządzeniem – na przykład programem komputerowym. Wynik: określony podzbiór korpusu, lista składników spełniających zadane warunki, rzeczywiste drzewa struktury dla danego wyrażenia (parsing trees). Pojęcie implementacji opisu (formalnego). Lingwistyka korpusowa. 6

Korpusy korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit. «główna część budowli; w architekturze pałacowej: część centralna budynku o charakterze reprezentacyjnym; w architekturze sakralnej: część nawowa kościoła» 4. techn. «główna, tworząca całość, część jakiegoś urządzenia, maszyny, przyrządu itp.; kadłub» Korpus obrabiarki, okrętu. 5. wojsk. «duża jednostka taktyczna składająca się z kilku dywizji lub brygad; wchodzi w skład armii lub może działać samodzielnie» Korpus zmechanizowany. Korpus piechoty, kawalerii. FR. Korpus oficerów, korpus oficerski «ogół oficerów wchodzących w skład dowództwa wojskowego» FR.Korpus kadetów «szkoła wojskowa, początkowo szkoła oficerska, później średnia szkoła ogólnokształcąca, przygotowująca kandydatów do szkół oficerskich; w Polsce istniała do roku 1956» 7

Korpusy FR. polit. Korpus dyplomatyczny «ogół przedstawicieli państw obcych akredytowanych przy rządzie danego kraju; personel dyplomatyczny oraz wszyscy członkowie obcych misji dyplomatycznych korzystających z przywilejów i immunitetów» FR. Korpus konsularny «ogół konsulów w określonym państwie lub miejscowości; szefowie placówek konsularnych oraz członkowie personelu konsularnego korzystający z przywilejów i immunitetów» (wg KSJP) 8

Korpusy (wg ISJP) korpus [...] 6 Korpus tekstów to zbiór książek, czasopism, artykułów itp. przeznaczony do jakichś prac lub badań. Termin specjalistyczny. …komputerowy korpus języka polskiego. (wg ISJP) 9

Korpusy Korpus to dowolny zbiór tekstów. Korpus to dowolny zbiór tekstów, w którym czegoś szukamy. Korpus to dowolny zbiór tekstów będący podstawą badań (np. naukowych). Korpus narodowy??? 10

Korpusy Klasyfikacje: Rozmiar: wielki – średni – mały Waga: zasadniczy – pomocniczy Cel: podstawowy – przykładowy (sample) Zakres: ogólny – szczegółowy Status: naukowy (kulturowy) – komercyjny 11

Korpusy LOB Corpus Lancaster – Oslo/Bergen 1970-1978 Geoffrey Leech, Stig Johansson BNC 1991-1995 Oxford, Lancaster, Longman PELCRA Polish and English Language Corpora for Research and Applications COBUILD http://korpus.pwn.pl/ Korpus PWN http://korpus.pl/ Korpus IPI PAN http://nkjp Narodowy Korpus Języka Polskiego 12

Национальый Корпус Русского Языка Korpusy Inne języki Český Narodní Korpus Korpus niemiecki Berlińskiej Akademii Nauk (DWDS) Korpusy IDS (Institut für Deutsche Sprache) Национальый Корпус Русского Языка korpusy francuskie korpusy hiszpańskie korpusy portugalskie Polski Korpus Narodowy??? 13

Korpusy The Lancaster/Oslo-Bergen Corpus Approximately 1,000,000 words of British written English dating from 1960. The corpus is made up of 15 different genre categories. Available as orthographic text, and tagged with the CLAWS1 part-of-speech tagging system. The Leeds-Lancaster Treebank and Lancaster Parsed Corpus are analyzed subsamples of the LOB corpus. For further information see the corpus manual (1978) and the tagged corpus manual (1986). (There is a local on-line copy of the tagged corpus manual at Lancaster.) http://khnt.hit.uib.no/icame/manuals/lob/INDEX.HTM 14 14

Korpusy ● BNC (British National Corpus) 15 15

Korpusy London and Glasgow 1987 16 16

Korpusy 17 17

Korpusy 18 18

Korpusy http://korpus.pwn.pl/ Korpus PWN Wydawnictwo Naukowe PWN przygotowało i udostępniło sieciową wersję Korpusu Języka Polskiego PWN wielkości 40 milionów słów. Korpus składa się z fragmentów 386 różnych książek, 977 numerów 185 różnych gazet i czasopism, 84 nagranych rozmów, 207 stron internetowych oraz kilkuset ulotek reklamowych. Pełna wersja sieciowa korpusu jest dostępna odpłatnie (40 mln), a bezpłatnie wersja demonstracyjna wielkości ponad 7,5 miliona słów. 19

Korpusy 20

Korpusy http:/korpus.pl/ Korpus IPI PAN 2. wydanie Korpusu IPI PAN (marzec 2006) 2.all.250.bin.tar.bz2 — pełny Korpus IPI PAN, czyli ponad 250 mln. segmentów. 2.sample.30.bin.tar.bz2 — próbka Korpusu IPI PAN dostępna na stronie http://korpus.pl/; ponad 30 mln. segmentów. Niniejsza wersja sample jest korpusem różnorodnym o następującym składzie: proza współczesna: ponad 10% proza dawna: prawie 10% teksty książkowe niebeletrystyczne (głównie naukowe): 10% prasa: 50% stenogramy sejmowe i senackie (w tym z komisji śledczej): 15% ustawy: 5% 21

Korpusy 22

Narzędzie do znakowania – tager Znakowanie Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): lokalizacja PoS morfologia składnia semantyka pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! 23

Korpus IPI PAN Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 24

Korpus IPI PAN Grant KBN numer 7 T11C 043 20 Instytut Podstaw Informatyki PAN (IPI PAN) 04.2001–03.2004 Książka dostępna jako pdf: http://nlp.ipipan.waw.pl/~adamp/Papers/2004-corpus/ 25

[Korpus SFPW (1967-1971) – 500 tys. słów] Korpus IPI PAN Korpus IPI PAN – jeden z dwóch publicznie dostępnych korpusów języka polskiego: [Korpus SFPW (1967-1971) – 500 tys. słów] Korpus PWN (wersja sieciowa) – 70 (100 mln) http://sjp.pwn.pl/korpus Korpus IPI PAN (2004) – 100 mln segmentów, znakowany morfosyntaktycznie, dostępny on-line: http://korpus.pl/poliqarp/poliqarp.php http://www.korpusy.net/index.php/ http://korpus.pl/ 26

Korpus narodowy (= skarbiec…) Wielkość: niemal 2 miliardy słów. NKJP Korpus narodowy (= skarbiec…) Wielkość: niemal 2 miliardy słów. Dostępny dla każdego: http://nkjp.pl 27

Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski Podstawy teoretyczne Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski http://nlp.ipipan.waw.pl/~wolinski/morfeusz/znakowanie.pdf Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), 39-54. 28

Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. Podstawy teoretyczne Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem (termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. 29

Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Podstawy teoretyczne Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. 30

Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń Podstawy teoretyczne Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. 31

Kategorie gramatyczne IPI PAN 32

Kategorie gramatyczne 33

Kategorie gramatyczne 34

Kategorie gramatyczne 35

Części mowy (klasy fleksyjne) 36

Części mowy (klasy fleksyjne) 37

Części mowy (klasy fleksyjne) 38

Poliqarp: POLyinterpretation Indexing Query and Retrieval Processor Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: graficzna (Windows – wersje po 2000, GNU/Linux, tekstowa (GNU/Linux), internetowa. 39

Poliqarp Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa 2007. Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa 1958-70. 40

Poliqarp Zapytania o segmenty: małej mam pieniądze marek/i Kasztowość Wyrażenia regularne ”,” ”dom|domy” ”chłop[iy]” ”chłop.?” ”.*pisać” 41

Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] Poliqarp Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] [base=”.*pisa.*”] [orth=”semaforu|semafora”] 42

Poliqarp Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] 43

JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ Poliqarp Kwerendy: Przyimki złożone. JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ PRZEJECHAĆ – wprowadzane przyimki. Spójniki z aglutynantem. Aglutynant doczepiony wewnątrz zdania. Czasowniki wymagające zdania JAKOBY. 44

Poliqarp Zapytania o znaczniki morfosyntaktyczne: [pos=aglt] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] 45

Podsumowanie Lingwistyka XXI wieku – korpusowa. Korpus – zbiór tekstów wymagających narzędzi obsługi. Polszczyzna – dobrze opisana gramatycznie. Istnieją narzędzia do pracy z korpusem tekstów polskich. Istnieją narzędzia analizy morfologicznej i składniowej. Współczesny leksykograf musi być lingwistą korpusowym. 46