Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.

Slides:



Advertisements
Podobne prezentacje
INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE
Advertisements

Jak szukać potrzebną pozycję w „Programie Mol”
Lingwistyka Matematyczna
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Jak korzystać z literatury popularnonaukowej
W ZBIORACH BIBLIOTEKI G Ł ÓWNEJ W ZBIORACH BIBLIOTEKI G Ł ÓWNEJ TEMATYCZNE WYSZUKIWANIE LITERATURY W KATALOGU ONLINE.
Budowa i funkcje elektronicznego katalogu biblioteki szkolnej
® System do analizy tekstów ortograficznych Cezary Dołęga,
JĘZYK POLSKI KLASY IV - VI
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Katalog komputerowy WebPac
Wyszukiwanie informacji
ENCYKLOPEDIE I SŁOWNIKI
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
6. Wprowadzenie do nauki o języku A1NJ
5. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Strategia skutecznego szukania informacji w Internecie
Gra Scrabble ® na urządzenie Nokia N800 Autor: Michał Filipowicz Promotor: dr inż. Jerzy Zaczek Konsultant: mgr inż. Krzysztof Rzecki.
Odmienne i nieodmienne części mowy
Słowniki Autor prezentacji
Czym są HTML i XHTML? Skrót HTML pochodzi od słów Hypertext Markup Language (język znakowania hipertekstu). Język HTML jest podstawą każdej strony WWW.
Opracował Wiesław Rychlicki na podstawie:
Opracował Wiesław Rychlicki na podstawie:
Opracował Wiesław Rychlicki na podstawie:
ENCYKLOPEDIE I SŁOWNIKI
Zasoby Internetowe Oxford University Press Niniejsza prezentacja opisuje Oxford Journals Collection. Podaje krótką charakterystykę kolekcji Oxford Journals.
BIBLIOTEKA WYŻSZEJ SZKOŁY ADMINISTRACJI I BIZNESU INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE.
System generowania wzorów matematycznych MathML
Słowniki i korpusy języka polskiego
Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium Programowania i Zastosowań Komputerów Marcin Hankiewicz.
Powtórka z polskiego dla klas 5-6
XML – eXtensible Markup Language
KOMUNIKACJA ALTERNATYWNA - PIKTOGRAMY
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład.
NIEODMIENNE CZĘŚCI MOWY
Droga poszukiwań informacji na dany temat oprac. M. Tofil Napisanie referatu, przygotowanie maturalnej prezentacji, wymaga zgromadzenia odpowiedniej ilości.
ODMIENNE CZĘŚCI MOWY Aneta Woźniak.
Dr Paweł Laidler, IAiSP UJ
Encyklopedie i słowniki jako źródła informacji
Zasoby internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford Dictionaries online. Mówi o tym, czym są Oxford Dictionaries.
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford English Dictionary online Mówi: czym jest Oxford English Dictionary.
Czy wiesz już wszystko o częściach mowy?
Opracowała: mgr Joanna Pastuszka Szkoła Podstawowa w LipowcuKościelnym
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
ZASADY KORZYSTANIA Z KATALOGU BIBLIOTECZNEGO
HTML (ang. HyperText Markup Language ) – język do tworzenia stron internetowych opierający się na znacznikach, czy inaczej je nazywając – tagach. Język.
GRAMATYKA ŁATWA I PRZYJEMNA.
Encyklopedie i słowniki jako podstawowe źródło informacji Oprac
Poznajemy zasoby internetu
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
8. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
OPIS BIBLIOGRAFICZNY PN-ISO 690
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
IPISIW Internetowa Platforma Informacyjna Sieci Instytutów Wschodnich.
Zasoby Internetowe Oxford University Press Niniejsza prezentacja opisuje Oxford Journals Collection. Podaje krótką charakterystykę kolekcji Oxford Journals.
Questia Biblioteka w internecie. Questia 2 3 Questia a EBSCO EBSCO – zawiera przede wszystkim artykuły z czasopism naukowych Questia – to przede wszystkim.
Wyszukiwanie informacji na dany temat w oparciu o warsztat informacyjny Pedagogicznej Biblioteki Wojewódzkiej w Warszawie (materiały pomocnicze do.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Pełnosprawny Student IX Kraków, 3 listopada 2015 r. Akademicka Biblioteka Cyfrowa Międzyuczelniana biblioteka materiałów dostępnych w wersjach elektronicznych.
misji dyplomatycznych i urzędów konsularnych akredytowanych w RP
Części mowy Edyta Sawicka.
Bibliografia. Uporządkowany spis książek i artykułów, który wydawany jest osobno lub dołączany do prac naukowych i popularnonaukowych. Bibliografia ma.
1 Międzywydziałowe Centrum Języków Obcych. 2 Zajęcia językowe odbywają się w grupach o różnych poziomach, zależnie od stopnia opanowania języka obcego.
Číslo přílohy: VY_32_INOVACE_ O7_Cz ęści mowy Autor: Škola: Mgr.Beta Tomanek Základní 3kola a Mateřská škola s polským jaz. vyuč. Předmět: Polský jazyk.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Język html Julia Cudak. Wykorzystanie Język html wykorzystuje się obecnie do tworzenia stron internetowych. Pozwala on opisać strukturę informacji zawartych.
Poradnik: Wirtualna Biblioteka Nauki - Jak szukać literatury na wybrany temat w Bibliotece i Centrum Informacji Naukowej PMWSZ w Opolu.
Wstęp do Informatyki - Wykład 14
Zapis prezentacji:

Lingwistyka korpusowa

korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit. «główna część budowli; w architekturze pałacowej: część centralna budynku o charakterze reprezentacyjnym; w architekturze sakralnej: część nawowa kościoła» 4. techn. «główna, tworząca całość, część jakiegoś urządzenia, maszyny, przyrządu itp.; kadłub» Korpus obrabiarki, okrętu. 5. wojsk. «duża jednostka taktyczna składająca się z kilku dywizji lub brygad; wchodzi w skład armii lub może działać samodzielnie» Korpus zmechanizowany. Korpus piechoty, kawalerii. FR. Korpus oficerów, korpus oficerski «ogół oficerów wchodzących w skład dowództwa wojskowego» FR.Korpus kadetów «szkoła wojskowa, początkowo szkoła oficerska, później średnia szkoła ogólnokształcąca, przygotowująca kandydatów do szkół oficerskich; w Polsce istniała do roku 1956» 2 Korpusy

FR. polit. Korpus dyplomatyczny «ogół przedstawicieli państw obcych akredytowanych przy rządzie danego kraju; personel dyplomatyczny oraz wszyscy członkowie obcych misji dyplomatycznych korzystających z przywilejów i immunitetów» FR. Korpus konsularny «ogół konsulów w określonym państwie lub miejscowości; szefowie placówek konsularnych oraz członkowie personelu konsularnego korzystający z przywilejów i immunitetów» (wg KSJP) 3 Korpusy

korpus [...] 6 Korpus tekstów to zbiór książek, czasopism, artykułów itp. przeznaczony do jakichś prac lub badań. Termin specjalistyczny. …komputerowy korpus języka polskiego. (wg ISJP) 4 Korpusy

Korpus to dowolny zbiór tekstów. Korpus to dowolny zbiór tekstów, w którym czegoś szukamy. Korpus to dowolny zbiór tekstów będący podstawą badań (np. naukowych). Korpus narodowy??? 5 Korpusy

Klasyfikacje: Rozmiar: wielki – średni – mały Waga: zasadniczy – pomocniczy Cel: podstawowy – przykładowy (sample) Zakres: ogólny – szczegółowy Status: naukowy (kulturowy) – komercyjny Korpusy 6

LOB CorpusLancaster – Oslo/Bergen Geoffrey Leech, Stig Johansson BNC Oxford, Lancaster, Longman PELCRAPolish and English Language Corpora for Research and Applications COBUILD Korpus PWN IPI PAN Korpusy 7

Inne języki Český Narodní Korpus Korpus niemiecki Berlińskiej Akademii Nauk (DWDS) Korpusy IDS (Institut für Deutsche Sprache) Национальый Корпус Русского Языка korpus PJM korpusy francuskie korpusy hiszpańskie korpusy portugalskie ………………………… Polski Korpus Narodowy??? Korpusy 8

● LOB The Lancaster/Oslo-Bergen Corpus Approximately 1,000,000 words of British written English dating from The corpus is made up of 15 different genre categories. Available as orthographic text, and tagged with the CLAWS1 part-of-speech tagging system. The Leeds- Lancaster Treebank and Lancaster Parsed Corpus are analyzed subsamples of the LOB corpus Korpusy

●BNC (British National Corpus) 10 Korpusy

●PELCRA 11 Korpusy

12 London and Glasgow 1987 Korpusy

13 Korpusy

14 Korpusy

Korpus PWN Wydawnictwo Naukowe PWN przygotowało i udostępniło sieciową wersję Korpusu Języka Polskiego PWN wielkości 40 milionów słów. Korpus składa się z fragmentów 386 różnych książek, 977 numerów 185 różnych gazet i czasopism, 84 nagranych rozmów, 207 stron internetowych oraz kilkuset ulotek reklamowych. Pełna wersja sieciowa korpusu jest dostępna odpłatnie (40 mln), a bezpłatnie wersja demonstracyjna wielkości ponad 7,5 miliona słów. [Stan z 2003] 15 Korpusy

16 Korpusy

[nieaktualne]Korpus IPI PAN 2. wydanie Korpusu IPI PAN (marzec 2006) 2.all.250.bin.tar.bz2 — pełny Korpus IPI PAN, czyli ponad 250 mln. segmentów. 2.all.250.bin.tar.bz2 2.sample.30.bin.tar.bz2 — próbka Korpusu IPI PAN dostępna na stronie ponad 30 mln. segmentów. Niniejsza wersja sample jest korpusem różnorodnym o następującym składzie: 2.sample.30.bin.tar.bz2http://korpus.pl/ ◦ proza współczesna: ponad 10% ◦ proza dawna: prawie 10% ◦ teksty książkowe niebeletrystyczne (głównie naukowe): 10% ◦ prasa: 50% ◦ stenogramy sejmowe i senackie (w tym z komisji śledczej): 15% ◦ ustawy: 5% 17 Korpusy

18 Korpusy

Korpus PWN: przeglądarka Korpus PWN: (Sherlock) Holmes[na płytce] Morfeusz Korpus IPIPAN: Poliqarp[na płytce] NKJPhttp://nkjp.pl/ Słownik gramatyczny języka polskiego sgjp 19 Różności

Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja 2. PoS 3. morfologia 4. składnia 5. semantyka 6. pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! Znakowanie 20

Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 Korpus IPI PAN 21

Grant KBN numer 7 T11C Instytut Podstaw Informatyki PAN (IPI PAN) – Książka dostępna jako pdf: corpus/ Korpus IPI PAN 22

Korpus IPI PAN (2004) NKJP ( ) Korpus IPI PAN, NKJP 23

1. Konwersja tekstów wejściowych do formatu XML. 2. Podział tekstu na wypowiedzenia. 3. Przejście do postaci binarnej. 4. Segmentacja. 5. Znakowanie. Przetwarzanie korpusu 24

Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), Podstawy teoretyczne 25

Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem (termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. Podstawy teoretyczne 26

Janusz Stanisław Bień Koncepcja słownikowej informacji morfologicznej i jej komputerowej weryfikacji Rozprawy Uniwersytetu Warszawskiego t Wydawnictwa Uniwersytetu Warszawskiego Warszawa, 1991 ISBN Podstawy teoretyczne 27

Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. Podstawy teoretyczne 28

Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. Podstawy teoretyczne 29

Saloni, Świdziński: przypadek poprzyimkowość pozycja deprecjatywność liczba rodzaj osoba czas tryb stopień Kategorie gramatyczne 30

IPI PAN Kategorie gramatyczne 31

Kategorie gramatyczne 32

Kategorie gramatyczne 33

Kategorie gramatyczne 34

Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego (1974) Mamy leksem LX. Pytamy kolejno: (1) czy jest odmienny; (2) czy odmienia się przez przypadek; (3) czy odmienia się przez osobę; (4) czy odmienia się przez rodzaj; (5) czy odmienia się przez liczbę; (6) czy jest samodzielny składniowo; (7) czy pełni funkcję łączącą; (8) czy ma rząd. PoS 35

36 PoS 36

RZECZowniki PRZYMiotniki LICZebniki CZASowniki CZAS NIEWL — czasowniki niewłaściwe PART-PRZYS — partykuło-przysłówki SPOJ — spójniki PRZYIMki WYKrzykniki PoS 37

Klasy gramatyczne (fleksyjne) 38

Klasy gramatyczne (fleksyjne) 39

Klasy gramatyczne (fleksyjne) 40

Formy podstawowe 41

Formy podstawowe 42

Formy podstawowe 43

Poliqarp: POLyinterpretation Indexing Query and Retrieval Processor Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: (a) graficzna (Windows – wersje po 2000, GNU/Linux, (b) tekstowa (GNU/Linux), (c) internetowa. Poliqarp 44

Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa Poliqarp 45

Zapytania o segmenty: małej mam pieniądze marek/i Kasztowość Wyrażenia regularne ”,” ”dom|domy” ”chłop[iy]” ”chłop.?”.*pisać Poliqarp 46

Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] [base=*pisa.] [base="(pod|nad|przy)jecha.*"] [orth=”semaforu|semafora”] Poliqarp 47

Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] Poliqarp 48

Zapytania o znaczniki morfosyntaktyczne: [pos=siebie] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] Poliqarp 49

Poliqarp 50

Poliqarp 51

Poliqarp 52

[1] RESTRUKTURYZACJA w różnych stylach. [2] Wypowiedzenia pytajne, wykrzyknikowe, niepytajne. [3] Myślnik i dywiz: leksemy złożone. [4] KTÓRY (zaimek względny): przyimki złożone. [5] JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ, PRZEJECHAĆ – wprowadzane przyimki. [6] Spójniki z aglutynantem. [7] Aglutynant doczepiony wewnątrz zdania. [8] Czasowniki wymagające zdania JAKOBY. 53 Poliqarp

[9] Poszukiwania kolokacji. [10] Frazeologizmy łączliwe: lista składników wymiennych. [11] Przymiotnik w stopniu wyższym: OD czy NIŻ? [12] Bezokoliczniki po DAĆ. [13] AŻ1 i AŻ2. 54 Poliqarp