Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.

Slides:



Advertisements
Podobne prezentacje
Lingwistyka Matematyczna
Advertisements

INDEKSY I SORTOWANIE ZEWNĘTRZNE
Jak język angielski wpływa na współczesną polszczyznę ?
Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu
W ZBIORACH BIBLIOTEKI G Ł ÓWNEJ W ZBIORACH BIBLIOTEKI G Ł ÓWNEJ TEMATYCZNE WYSZUKIWANIE LITERATURY W KATALOGU ONLINE.
Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008
Budowa i funkcje elektronicznego katalogu biblioteki szkolnej
Fonetyka, ortografia, interpunkcja
® System do analizy tekstów ortograficznych Cezary Dołęga,
JĘZYK POLSKI KLASY IV - VI
Poprawność języka polskiego w Mazowieckim Urzędzie Wojewódzkim w Warszawie Warszawa, r.
Katalog komputerowy WebPac
Wyszukiwanie w repozytoriach tekstowych w języku polskim
Tworzenie stron w języku WML jest zbliżone do tworzenia stron w HTML. W obydwu przypadkach używa się do tego celu znaczników (tagów). Zadaniem znaczników.
Wyszukiwanie informacji
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Google – sposoby wyszukiwania
4. Wprowadzenie do nauki o języku A1NJ
5. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
CZASOWNIK- odmienna część mowy. Jego odmiana nazywa się KONIUGACJĄ
LIRYKA - podział ze względu na typ wyrażanych przez nią przeżyć
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Odmienne i nieodmienne części mowy
Słowniki Autor prezentacji
Opracował Wiesław Rychlicki na podstawie:
Opracował Wiesław Rychlicki na podstawie:
CZĘŚCI MOWY Lekcja gramatyki Szymon Szymura Klasa VI a klik.
VI KONFERENCJA EWALUACYJNA
ENCYKLOPEDIE I SŁOWNIKI
System generowania wzorów matematycznych MathML
Powtórka z polskiego dla klas 5-6
JĘZYK POLSKI klasa III.
WordNet WordNet to duża leksykalna baza języka angielskiego. Grupuje ona rzeczowniki, czasowniki, przymiotniki i przysłówki w zestawy kognitywnych (poznawczych)
KOMUNIKACJA ALTERNATYWNA - PIKTOGRAMY
11. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
NIEODMIENNE CZĘŚCI MOWY
ODMIENNE CZĘŚCI MOWY Aneta Woźniak.
Gramatyka - przydatna terminologia
Temat: Utrwalenie wiadomości o czasowniku.
Encyklopedie i słowniki jako źródła informacji
Podstawy programowania
Czy wiesz już wszystko o częściach mowy?
Opracowała: mgr Joanna Pastuszka Szkoła Podstawowa w LipowcuKościelnym
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Zagadnienia związane z plagiatem, prawo własności, styl tekstu Karol Ligmann Wydział Elektroniki, Telekomunikacji i Informatyki Komputerowe Systemy.
GRAMATYKA ŁATWA I PRZYJEMNA.
Encyklopedie i słowniki jako podstawowe źródło informacji Oprac
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
8. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
IPISIW Internetowa Platforma Informacyjna Sieci Instytutów Wschodnich.
Zygmunt Korzeniewski. Zasady poprawnego komunikowania są:  ułatwieniem,  przejawem kultury w kontaktach oficjalnych.
Wyszukiwanie informacji na dany temat w oparciu o warsztat informacyjny Pedagogicznej Biblioteki Wojewódzkiej w Warszawie (materiały pomocnicze do.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.
Części mowy Edyta Sawicka.
Media Cyfrowe  Media cyfrowe to dowolna forma (lub format) prezentacji i użytkowania treści (np. tekstowych, graficznych, audiowizualnych), które są.
Proseminarium doktoranckie 2015/2016, semestr letni WSPÓŁCZESNE NARZĘDZIA OPISU LINGWISTYCZNEGO POLSZCZYZNY Proseminarium doktoranckie 2015/2016, semestr.
Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.
Číslo přílohy: VY_32_INOVACE_ O7_Cz ęści mowy Autor: Škola: Mgr.Beta Tomanek Základní 3kola a Mateřská škola s polským jaz. vyuč. Předmět: Polský jazyk.
Przypisy. Przypisy to materiały uzupełniające tekst główny, ułatwiają zrozumienie poszczególnych fragmentów. Rodzaje przypisów: P. rzeczowe – objaśniają.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
CZASOWNIK- odmienna część mowy. Jego odmiana nazywa się KONIUGACJĄ
Hipertekst HTML WWW.
Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008
ZAIMEK sprawdzian gramatyczny dla klasy szóstej warsztaty językowe z języka polskiego – Janusz Aftyka.
Wstęp do Informatyki - Wykład 14
Zasady edycji tekstów.
Zapis prezentacji:

Spotkanie 5 Poliqarp.

Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja 2. PoS 3. morfologia 4. składnia 5. semantyka 6. pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! Znakowanie 2

Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 Korpus IPI PAN 3

Grant KBN numer 7 T11C Instytut Podstaw Informatyki PAN (IPI PAN) – Książka dostępna jako pdf: corpus/ Korpus IPI PAN 4

Korpus IPI PAN – jeden z dwóch publicznie dostępnych korpusów języka polskiego: [Korpus SFPW ( ) – 500 tys. słów] Korpus PWN (wersja sieciowa) – 40 mln słów (dziś: 100 mln): Korpus IPI PAN (2004) – 100 mln segmentów, znakowany morfosyntaktycznie, dostępny on-line: Korpus IPI PAN 5

1. Konwersja tekstów wejściowych do formatu XML. 2. Podział tekstu na wypowiedzenia. 3. Przejście do postaci binarnej. 4. Segmentacja. 5. Znakowanie. Przetwarzanie korpusu 6

Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), Podstawy teoretyczne 7

Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem (termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. Podstawy teoretyczne 8

Janusz Stanisław Bień Koncepcja słownikowej informacji morfologicznej i jej komputerowej weryfikacji Rozprawy Uniwersytetu Warszawskiego t Wydawnictwa Uniwersytetu Warszawskiego Warszawa, 1991 ISBN Podstawy teoretyczne 9

Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. Podstawy teoretyczne 10

Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. Podstawy teoretyczne 11

Saloni, Świdziński: przypadek poprzyimkowość pozycja deprecjatywność liczba rodzaj osoba czas tryb stopień Kategorie gramatyczne 12

IPI PAN Kategorie gramatyczne 13

Kategorie gramatyczne 14

Kategorie gramatyczne 15

Kategorie gramatyczne 16

Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego (1974) Mamy leksem LX. Pytamy kolejno: (1) czy jest odmienny; (2) czy odmienia się przez przypadek; (3) czy odmienia się przez osobę; (4) czy odmienia się przez rodzaj; (5) czy odmienia się przez liczbę; (6) czy jest samodzielny składniowo; (7) czy pełni funkcję łączącą; (8) czy ma rząd. PoS 17

18 PoS 18

RZECZowniki PRZYMiotniki LICZebniki CZASowniki CZAS NIEWL — czasowniki niewłaściwe PART-PRZYS — partykuło-przysłówki SPOJ — spójniki PRZYIMki WYKrzykniki PoS 19

Klasy gramatyczne (fleksyjne) 20

Klasy gramatyczne (fleksyjne) 21

Klasy gramatyczne (fleksyjne) 22

Formy podstawowe 23

Formy podstawowe 24

Formy podstawowe 25

Poliqarp: POLyinterpretation Indexing Query and Retrieval Processor Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: (a) graficzna (Windows – wersje po 2000, GNU/Linux, (b) tekstowa (GNU/Linux), (c) internetowa. Poliqarp 26

Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa Poliqarp 27

Zapytania o segmenty: małej mam pieniądze marek/i Kasztowość Wyrażenia regularne ”,” ”dom|domy” ”chłop[iy]” ”chłop.?”.*pisać Poliqarp 28

Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] [base=*pisa.] [base="(pod|nad|przy)jecha.*"] [orth=”semaforu|semafora”] Poliqarp 29

Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] Poliqarp 30

Zapytania o znaczniki morfosyntaktyczne: [pos=siebie] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] Poliqarp 31

Poliqarp 32

Poliqarp 33

Poliqarp 34

[1] RESTRUKTURYZACJA w różnych stylach. [2] Wypowiedzenia pytajne, wykrzyknikowe, niepytajne. [3] Myślnik i dywiz: leksemy złożone. [4] KTÓRY (zaimek względny): przyimki złożone. [5] JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ, PRZEJECHAĆ – wprowadzane przyimki. [6] Spójniki z aglutynantem. [7] Aglutynant doczepiony wewnątrz zdania. [8] Czasowniki wymagające zdania JAKOBY. 35 Poliqarp

[9] Poszukiwania kolokacji. [10] Frazeologizmy łączliwe: lista składników wymiennych. [11] Przymiotnik w stopniu wyższym: OD czy NIŻ? [12] Bezokoliczniki po DAĆ. [13] AŻ1 i AŻ2. 36 Poliqarp