Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego

Slides:



Advertisements
Podobne prezentacje
I część 1.
Advertisements

Wzór w notacji nawiasowej: a*(d*i*(k*o-l*n)-e*h*(k*o-l*n))+f*i*j*n
Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Wprowadzenie do informatyki Wykład 6
PODSTAWY MARKETINGU Ćwiczenia nr 1.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Powierzchnie reklamowe na terenach MTP
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Liczby pierwsze.
® System do analizy tekstów ortograficznych Cezary Dołęga,
KONKURS WIEDZY O SZTUCE
JĘZYK POLSKI KLASY IV - VI
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
Pojęcia podstawowe, historia komputera, rodzaje komputerów.
Podstawowe pojęcia akustyki
Polski system bankowy wybrane zagadnienia rynkowe: wielkość banków, kapitał zagraniczny dr Grzegorz Kotliński, Katedra Bankowości AE w Poznaniu.
Wstęp do geofizycznej dynamiki płynów. Semestr VI. Wykład
UKŁADY SZEREGOWO-RÓWNOLEGŁE
Przykładowe zastosowania równania Bernoulliego i równania ciągłości przepływu 1. Pomiar ciśnienia Oznaczając S - punkt spiętrzenia (stagnacji) strugi v=0,
Jaki jest następny wyraz ciągu: 1, 2, 4, 8, 16, …?
1. Wprowadzenie do nauki o języku A1NJ
Klasyfikacja systemów
Dyskretny szereg Fouriera
Transformacja Z (13.6).
Pytania konkursowe.
Tytuł prezentacji Warszawa, r..
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Projektowanie Stron WWW
Przyjazne Społeczeństwo Informacyjne Information Society Technologies Dzień Informacyjny IST PTI, Krajowy Punkt Kontaktowy 5PR UE
Obserwatory zredukowane
Kalendarz 2011 Real Madryt Autor: Bartosz Trzciński.
KALENDARZ 2011r. Autor: Alicja Chałupka klasa III a.
The GNU Image Manipulation Program
Galeria zdjęć Projekt edukacyjny „Wiem, co jem” realizowany w ramach
1/34 HISTORIA BUDOWY /34 3/34 6 MAJA 2011.
Podstawy adresowania hostów w sieciach komputerowych
Plan prezentacji Zarys projektu Geneza tematu
Podstawy działania wybranych usług sieciowych
Analiza wpływu regulatora na jakość regulacji (1)
Analiza wpływu regulatora na jakość regulacji
Lekcja 13 Strona 15. Lekcja 13 Strona 16 Lekcja 13 Strona 17 Vertical primary and secondary Tesla coil Jacobs ladder.
MATURA 2007 raport ZESPÓŁ SZKÓŁ I PLACÓWEK KSZTAŁCENIA ZAWODOWEGO.
Kalendarz 2011r. styczeń pn wt śr czw pt sb nd
1.
Innowacyjne metody napawania
11. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
  Prof.. dr hab.. Janusz A. Dobrowolski Instytut Systemów Elektronicznych, Politechnika Warszawska.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
-17 Oczekiwania gospodarcze – Europa Wrzesień 2013 Wskaźnik > +20 Wskaźnik 0 a +20 Wskaźnik 0 a -20 Wskaźnik < -20 Unia Europejska ogółem: +6 Wskaźnik.
1 Jak by tu po-współpracować z innymi ? a może coś jeszcze… Word 2007.
+21 Oczekiwania gospodarcze – Europa Grudzień 2013 Wskaźnik > +20 Wskaźnik 0 do +20 Wskaźnik 0 do -20 Wskaźnik < -20 Unia Europejska ogółem: +14 Wskaźnik.
(C) Jarosław Jabłonka, ATH, 5 kwietnia kwietnia 2017
EcoCondens Kompakt BBK 7-22 E.
W2 Modelowanie fenomenologiczne I
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
Obliczalność czyli co da się policzyć i jak Model obliczeń sieci liczące dr Kamila Barylska.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VI Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
GRAMATYKA ŁATWA I PRZYJEMNA.
Kalendarz 2020.
Elementy geometryczne i relacje
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
8. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Zapis prezentacji:

WARSZTAT INFORMATYCZNY HUMANISTY: NARZĘDZIA PRACY Z KORPUSEM TEKSTÓW 3003-WIH-OG 2010/2011 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje: pon 15.00-16.00, pok. 1 Strona internetowa: www.mswidz.republika.pl

Tematy Wprowadzenie do językoznawstwa korpusowego. Korpus jako źródło informacji lingwistycznej. Typy korpusów. Dostępne korpusy polskie. Homonimia jako problem praktyczny. Analizatory morfologiczne. Pojęcie znakowania. Koncepcje zbioru znaczników. Morfeusz. AMOR. Narzędzia obsługi korpusów. Wyszukiwarka Korpusu PWN. Holmes i korpus PWN. Poliqarp i Korpus IPI PAN. Narzędzia interpretacji składniowej. Gramatyka formalna języka polskiego i Świgra. Spejd – narzędzie przetwarzania powierzchniowego. Zadania praktyczne. Warsztat współczesnego leksykografa. 2

Spotkanie 7 Poliqarp.

Narzędzie do znakowania – tager Znakowanie Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): lokalizacja PoS morfologia składnia semantyka pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! 4

Korpus IPI PAN Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 5

Korpus IPI PAN Grant KBN numer 7 T11C 043 20 Instytut Podstaw Informatyki PAN (IPI PAN) 04.2001 – 03.2004 Książka dostępna jako pdf: http://nlp.ipipan.waw.pl/~adamp/Papers/2004- corpus/ 6

[Korpus SFPW (1967-1971) – 500 tys. słów] Korpus IPI PAN Korpus IPI PAN – jeden z dwóch publicznie dostępnych korpusów języka polskiego: [Korpus SFPW (1967-1971) – 500 tys. słów] Korpus PWN (wersja sieciowa) – 40 mln segmentów (7,5 mln) http://www.korpusy.net/index.php/ http://korpus.pl/ Korpus IPI PAN (2004) – 100 mln segmentów, znakowany morfosyntaktycznie, dostępny on-line: http://korpus.pl/poliqarp/poliqarp.php 7

Przetwarzanie korpusu Konwersja tekstów wejściowych do formatu XML. Podział tekstu na wypowiedzenia. Przejście do postaci binarnej. Segmentacja. Znakowanie. 8

Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski Podstawy teoretyczne Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski http://nlp.ipipan.waw.pl/~wolinski/morfeusz/znakowanie.pdf Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), 39-54. 9

Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. Podstawy teoretyczne Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem (termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. 10

Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Podstawy teoretyczne Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. 11

Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń Podstawy teoretyczne Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. 12

Kategorie gramatyczne Saloni, Świdziński: przypadek poprzyimkowość pozycja deprecjatywność liczba rodzaj osoba czas tryb stopień 13

Kategorie gramatyczne IPI PAN 14

Kategorie gramatyczne 15

Kategorie gramatyczne 16

Kategorie gramatyczne 17

PoS Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego (1974) Mamy leksem LX. Pytamy kolejno: (1) czy jest odmienny; (2) czy odmienia się przez przypadek; (3) czy odmienia się przez osobę; (4) czy odmienia się przez rodzaj; (5) czy odmienia się przez liczbę; (6) czy jest samodzielny składniowo; (7) czy pełni funkcję łączącą; (8) czy ma rząd. 18

PoS 19

PoS RZECZowniki PRZYMiotniki LICZebniki CZASowniki CZAS NIEWL — czasowniki niewłaściwe PART-PRZYS — partykuło-przysłówki SPOJ — spójniki PRZYIMki WYKrzykniki 20

Klasy gramatyczne (fleksyjne) 21

Klasy gramatyczne (fleksyjne) 22

Klasy gramatyczne (fleksyjne) 23

Formy podstawowe 24

Formy podstawowe 25

Formy podstawowe 26

Poliqarp: POLyinterpretation Indexing Query and Retrieval Processor Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: graficzna (Windows – wersje po 2000, GNU/Linux, tekstowa (GNU/Linux), internetowa. 27

Poliqarp Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa 2007. Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa 1958-70. 28

Poliqarp Zapytania o segmenty: małej mam pieniądze marek/i Kasztowość Wyrażenia regularne ”,” ”dom|domy” ”chłop[iy]” ”chłop.?” ”.*pisać” 29

Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] Poliqarp Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] [base=”.*pisa.*”] [orth=”semaforu|semafora”] 30

Poliqarp Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] 31

JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ Poliqarp Kwerendy: Przyimki złożone. JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ PRZEJECHAĆ – wprowadzane przyimki. Spójniki z aglutynantem. Aglutynant doczepiony wewnątrz zdania. Czasowniki wymagające zdania JAKOBY. 32

Poliqarp Zapytania o znaczniki morfosyntaktyczne: [pos=siebie] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] 33

Poliqarp 34

Poliqarp 35

Poliqarp 36