Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego

Podobne prezentacje


Prezentacja na temat: "Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego"— Zapis prezentacji:

1 WARSZTAT INFORMATYCZNY HUMANISTY: NARZĘDZIA PRACY Z KORPUSEM TEKSTÓW 3003-WIH-OG 2010/2011
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW Konsultacje: pon , pok. 1 Strona internetowa:

2 Tematy Wprowadzenie do językoznawstwa korpusowego.
Korpus jako źródło informacji lingwistycznej. Typy korpusów. Dostępne korpusy polskie. Homonimia jako problem praktyczny. Analizatory morfologiczne. Pojęcie znakowania. Koncepcje zbioru znaczników. Morfeusz. AMOR. Narzędzia obsługi korpusów. Wyszukiwarka Korpusu PWN. Holmes i korpus PWN. Poliqarp i Korpus IPI PAN. Narzędzia interpretacji składniowej. Gramatyka formalna języka polskiego i Świgra. Spejd – narzędzie przetwarzania powierzchniowego. Zadania praktyczne. Warsztat współczesnego leksykografa. 2

3 Spotkanie 7 Poliqarp.

4 Narzędzie do znakowania – tager
Znakowanie Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): lokalizacja PoS morfologia składnia semantyka pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! 4

5 Korpus IPI PAN Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 5

6 Korpus IPI PAN Grant KBN numer 7 T11C Instytut Podstaw Informatyki PAN (IPI PAN) – Książka dostępna jako pdf: corpus/ 6

7 [Korpus SFPW (1967-1971) – 500 tys. słów]
Korpus IPI PAN Korpus IPI PAN – jeden z dwóch publicznie dostępnych korpusów języka polskiego: [Korpus SFPW ( ) – 500 tys. słów] Korpus PWN (wersja sieciowa) – 40 mln segmentów (7,5 mln) Korpus IPI PAN (2004) – 100 mln segmentów, znakowany morfosyntaktycznie, dostępny on-line: 7

8 Przetwarzanie korpusu
Konwersja tekstów wejściowych do formatu XML. Podział tekstu na wypowiedzenia. Przejście do postaci binarnej. Segmentacja. Znakowanie. 8

9 Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski
Podstawy teoretyczne Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), 9

10 Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi.
Podstawy teoretyczne Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem (termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. 10

11 Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne.
Podstawy teoretyczne Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. 11

12 Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń
Podstawy teoretyczne Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. 12

13 Kategorie gramatyczne
Saloni, Świdziński: przypadek poprzyimkowość pozycja deprecjatywność liczba rodzaj osoba czas tryb stopień 13

14 Kategorie gramatyczne
IPI PAN 14

15 Kategorie gramatyczne
15

16 Kategorie gramatyczne
16

17 Kategorie gramatyczne
17

18 PoS Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego (1974) Mamy leksem LX. Pytamy kolejno: (1) czy jest odmienny; (2) czy odmienia się przez przypadek; (3) czy odmienia się przez osobę; (4) czy odmienia się przez rodzaj; (5) czy odmienia się przez liczbę; (6) czy jest samodzielny składniowo; (7) czy pełni funkcję łączącą; (8) czy ma rząd. 18

19 PoS 19

20 PoS RZECZowniki PRZYMiotniki LICZebniki CZASowniki CZAS NIEWL — czasowniki niewłaściwe PART-PRZYS — partykuło-przysłówki SPOJ — spójniki PRZYIMki WYKrzykniki 20

21 Klasy gramatyczne (fleksyjne)
21

22 Klasy gramatyczne (fleksyjne)
22

23 Klasy gramatyczne (fleksyjne)
23

24 Formy podstawowe 24

25 Formy podstawowe 25

26 Formy podstawowe 26

27 Poliqarp: POLyinterpretation Indexing Query and Retrieval Processor
Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: graficzna (Windows – wersje po 2000, GNU/Linux, tekstowa (GNU/Linux), internetowa. 27

28 Poliqarp Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa 28

29 Poliqarp Zapytania o segmenty: małej mam pieniądze marek/i Kasztowość
Wyrażenia regularne ”,” ”dom|domy” ”chłop[iy]” ”chłop.?” ”.*pisać” 29

30 Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”]
Poliqarp Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] [base=”.*pisa.*”] [orth=”semaforu|semafora”] 30

31 Poliqarp Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] 31

32 JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ
Poliqarp Kwerendy: Przyimki złożone. JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ PRZEJECHAĆ – wprowadzane przyimki. Spójniki z aglutynantem. Aglutynant doczepiony wewnątrz zdania. Czasowniki wymagające zdania JAKOBY. 32

33 Poliqarp Zapytania o znaczniki morfosyntaktyczne: [pos=siebie] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] 33

34 Poliqarp 34

35 Poliqarp 35

36 Poliqarp 36


Pobierz ppt "Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego"

Podobne prezentacje


Reklamy Google