Narodowy Korpus Języka Polskiego

Slides:



Advertisements
Podobne prezentacje
I część 1.
Advertisements

Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Wyniki działalności naukowej pracownika w latach Uniwersytet Jagielloński w Krakowie.
Powierzchnie reklamowe na terenach MTP
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Liczby pierwsze.
Wyszukiwarki internetowe
NOWA MATURA Z JĘZYKA ROSYJSKIEGO
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Nowoczesne technologie ICT w upowszechnianiu.
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
Wikiźródła – oddolna cyfryzacja
Joanna Dziak Urszula Długaj Halina Skrzypiec
Wykorzystanie Platformy Moodle w dydaktyce języków obcych
KONKURS WIEDZY O SZTUCE
Pracownia Ewaluacji Jakości Kształcenia
Definicja (ang. Domain Name System, system nazw domenowych)
0 BIBLIOTEKI XXI WIEKU. CZY PRZETRWAMY? Ogólnopolska konferencja bibliotekarzy Łódź, czerwca 2006.
ENCYKLOPEDIE I SŁOWNIKI
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Wstęp do geofizycznej dynamiki płynów. Semestr VI. Wykład
Zrozumieć „myślenie przestrzenią”.
UKŁADY SZEREGOWO-RÓWNOLEGŁE
Google – sposoby wyszukiwania
Technologie informacyjne MCE Pudełko. Zakładanie strony internetowej Technologie informacyjne Marek Pudełko.
Jaki jest następny wyraz ciągu: 1, 2, 4, 8, 16, …?
Dyskretny szereg Fouriera
Przykład wykorzystania komercyjnych i niekomercyjnych źródeł informacji w pracy Biblioteki Chemicznej ZUT Agnieszka Bajda
Efektywność zdawania egzaminu zawodowego w ZSP w Bytowie w roku szkolnym 2008/2009.
Wprowadzenie do JSP Copyright © Politecnico di Milano September 2003 Translation: Kamil Żyła, Politechnika Lubelska.
„KORZYŚCI Z INWESTOWANIA NA TERENACH KSSE”
Nowoczesne technologie w edukacji Andrzej Matuła
Sekwencyjne bloki funkcjonalne
Kalendarz 2011 Real Madryt Autor: Bartosz Trzciński.
Kalendarz 2011 Oto ciekawy kalendarz, który zaprojektował
KALENDARZ 2011r. Autor: Alicja Chałupka klasa III a.
Agenda Co to jest Scopus ? Author Identifier SCOPUS i scientometria.
Sponsorzy konferencji: Patronat konferencji: : Organizator: : Partnerzy konferencji: Koordynacja i dbanie o spójność terminologiczną w dużych projektach.
UTWORZENIE SPÓJNEJ ANTYTERRORYSTYCZNEJ STRATEGII INFORMACYJNEJ
Tanzania: między tradycją a nowoczesnością
Podstawy automatyki 2011/2012Systemy sterowania - struktury –jakość sterowania Mieczysław Brdyś, prof. dr hab. inż.; Kazimierz Duzinkiewicz, dr hab. inż.
Lekcja 13 Strona 15. Lekcja 13 Strona 16 Lekcja 13 Strona 17 Vertical primary and secondary Tesla coil Jacobs ladder.
Kalendarz 2011r. styczeń pn wt śr czw pt sb nd
Innowacyjne metody napawania
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Nowoczesne systemy informacyjno-komunikacyjne dla Miast
Bezpieczeństwo w Krakowie na tle dużych miast
(C) Jarosław Jabłonka, ATH, 5 kwietnia kwietnia 2017
1 1.
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford Index. Mówi: czym jest Oxford Index jak może Ci pomóc jak.
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
IBUK Libra WIRTUALNA CZYTELNIA
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford English Dictionary online Mówi: czym jest Oxford English Dictionary.
CO TO JEST DZIEŃ JĘZYKÓW OBCYCH ? Począwszy od roku 2001, 26 września obchodzony jest Europejski Dzień Języków, dzień mający przypominać o korzyściach.
d Oferujemy Oferujemy A.Indywidualne podejście do każdego studenta/ki B.Solidną naukę języka i nacisk na praktyczne umiejętności językowe C.Profesjonalną.
Doc. dr W. Zborowska Zakład Gospodarki Rynkowej Katedra Gospodarki Narodowej Wydział Zarządzania UW Zmiany struktury sektorowej gospodarki.
Korpusy Instytutu Języka Polskiego UW.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Kalendarz 2020.
Szczęśliwego Nowego roku!!!
Elementy geometryczne i relacje
Dr Zofia Skrzypczak Wydział Zarządzania UW 1. 2 Koszty produkcji.
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
200-lecie UW 40-lecie WLS UW Propozycja obchodów marzec czerwiec 2016.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.
1. Rozpocznij wyszukiwanie wpisując w googlach poszukiwany temat lub słowa klucze pokrewne temu tematowi 2. np. „historia hip-hopu” lub „subkultury młodzieżowe”
IBUK Libra WIRTUALNA CZYTELNIA
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Zapis prezentacji:

Narodowy Korpus Języka Polskiego Marek Łaziński www.nkjp.pl M.Lazinski@uw.edu.pl, Marek.Lazinski@pwn.com.pl

Co to jest korpus? Korpus to zbiór tekstów, w którym czegoś szukamy. Korpus narodowy to zbiór tekstów dobranych tak, by reprezentowały przeciętne zwyczaje językowe społeczeństwa. Korpus równoległy prezentuje równolegle zdania z dwóch języków.

Dobry korpus musi być duży (miliony słów) zróżnicowany i reprezentatywny bogato anotowany (znakowany) przeszukiwany programem, który pozwala szukać konkordancji lekesmów, form gramatycznych, konstrukcji składniowych oraz kolokacji (typowych skojarzeń tekstowych) łatwo dostępny (w sieci)

Korpusy wczoraj i dziś 1967: pierwsze korpusy angielskie - Brown University Corpus (Kucera, Francis) 1987: pierwszy angielski słownik oparty na korpusie - Collins Cobuild English Dictionary (Sinclair) 1990-95: British National Corpus (100 mln słów) Niemieckie korpusy IDS (Mannheim) i DWDS (Berlin) 1994: Ústav Českého národního korpusu na Uniwersytecie Karola. Dziś w krajach korpusy narodowe bułgarski, chorwacki, czeski, polski, rosyjski, słowacki, słoweński.

Polskie korpusy przed 2008 r. Instytut Podstaw Informatyki oraz Instytut Języka Polskiego PAN – korpus duży (250 mln słów), w całości dostępny w sieci, dokładnie anotowany, umożliwia wyszukiwanie skomplikowanych konstrukcji. Wydawnictwo Naukowe PWN – korpus średniej wielkości (100 mln słów), dobrze zróżnicowany. Uniwersytet Łódzki (zespół PELCRA ) – korpus średniej wielkości (100 mln słów), w całości dostępny w sieci.

Słowniki PWN oparte na korpusach Inny słownik języka polskiego Wielki słownik polsko-angielski i angielsko-polski PWN Oxford, Wielki słownik polsko-niemiecki Definicje korpusowe When a dog wags its tail, it repeatedly waves its tail from side to side (Cobuid CED) wag = to shake up and down or move from side to side (OW) Jeśli ktoś ciemięży ludzi, to wykorzystując swoją władzę [...] nakłada na nich zbyt ciężkie obowiązki. (ISJP) ciemiężyć - pozbawiać swobody, nakładać ciężary, zmuszać do czegoś; prześladować, gnębić, uciskać (USJP)

Narodowy Korpus Języka Polskiego www.nkjp.pl Jest projektem badawczym MNiSW. Łączy doświadczenia wszystkich instytucji tworzących wcześniej polskie korpusy oraz pracowników UW. Do końca roku 2010 zgromadzi miliard słów ze skomplikowaną wyszukiwarką. Podkorpus 300 milionów będzie dokładnie zrównoważony gatunkowo i stylistycznie według badań czytelnictwa w Polsce. Wśród 30 mln słów tekstów mówionych będą 3 mln konwersacji nagranych w naturalnych warunkach.

Obecnie w NKJP 500 mln słów z ponad 1000 książek i kilku tysięcy gazet (prawie 300 tytułów) Teksty zróżnicowane w oparciu o badania czytelnictwa w Polsce Wyszukiwarka Poliqarp pozwalająca szukać „pustych” kategorii gramatycznych Wyszukiwarka PELCRA z modułem kolokacji

Wśród 500 mln słów... Przyimek w (najczęstsze słowo) występuje 13.500.000 razy – 2,5% Wojna występuje 130.000 razy, a pokój (w dwóch znaczeniach – 64.000 razy Cieszyć się występuje 66.500 razy, a martwić się 14.500 Groch – 2.000 razy Kapusta – 7.000 razy Groch z kapustą – 80 razy

Podprojekty NKJP Słowa tygodnia (dnia) - częstsze w gazetach w danym tygodniu (dniu) niż w okresie porównawczym: www.gazetylokalne.pl Korpus równoległy polsko-rosyjski Narzędzia do: rozpoznawania i ujednoznaczniania form fleksyjnych w tekście rozpoznawania znaczeń homonimów identyfikacji nazw własnych

Co można sprawdzić w korpusie? Poprawność gramatyczną i ortograficzną form i połączeń Typowe użycia i konteksty (skojarzenia słów) Częstość słów i konstrukcji Dzieje słów (pierwsze użycia) Skrzydlate słowa (Kto to powiedział?)

[pos="praet|fin" & aspect=perf & orth="na.*"][]{,2}[orth=na]

Czasowniki dk z prefiksem na- odległe najwyżej o 2 wyrazy od przyimka na

Wyszukiwarka kolokacji

Kolokacje kawy w NKJP

Kolokacje herbaty w NKJP

Kawa czy herbata? NKJP: kawa 9653, herbata: 15828 szklanka: 779, filiżanka: 248 BNC: coffe 6782, tea: 8030 cup 11965, glass 9438 (http://www.natcorp.ox.ac.uk/index.xml) Wortschatz: Kaffee 3548, Tee 1554 (kolok. Tasse) (http://wortschatz.uni-leipzig.de/) DWDS: Tee 2604, Kaffee 4443 (http://www.dwds.de/textbasis/kerncorpus) ČNK: čaj 3763, káva 4630 NKRJa: kofe 7898, čaj 24050 čaška 5522, stakan 11286

Korpusy równoległe ENPC - korpus angielsko-norweski www.hf.uio.no/ilos/forskning/forskningsprosjekter/enpc (niedostępny w sieci) Korpus Hansard kanadyjskich debat parlamentarnych po angielsku i po francusku (projekt TransSearch: www.tsrali.com) Korpus aktów prawnych Unii Europejskiej (do instalacji): langtech.jrc.it/JRC-Acquis Korpus angielsko-rosyjski, -słoweński, -chorwacki i inne w ramach korpusów narodowych

Home w TransSearch (nie ma maison)

Strona korpusu ParaSol

Strona wyszukiwania ParaSol

Wyszukiwanie – szklanka

Szklanka herbaty i filiżanka kawy W czeskich przekładach szklance i stakanowi odpowiadają: sklenice, sklenka, sklenička, číš, šálek. Czasem herbacie odpowiada kawa. На столе , за которым сидел во время моего прошлого визита жирный , на куче перепачканных бумаг стояли стаканы из-под чая... (Bułhakow: Mistrz i Małgorzta) Na stole, na którym siedział przedtem otyły, na stercie poplamionych papierów stały szklanki po herbacie. Na stole, u kterého prve seděl tlusťoch, stály šálky od kávy. Wypiłem resztki herbaty i wydrapałem łyżeczką cukier z dna szklanki. Dopil jsem kavu a ližičkou vybral zbytky cukru ze dna šálku.

Kolega

Polski rozkaźnik i rosyjski bezokolicznik

Korpus polsko-rosyjski Będzie umieszczony (jako korpus rosyjsko-polski) na stronach NKRJa obok rosyjsko-angielskiego i –niemieckiego, a także na stronach Uniwersytetu Baszkirskiego w Ufie. Polski interfejs będzie na stronach NKJP, polonistyki i rusycystyki UW. Na pierwszym etapie pracy serwer z tekstami będzie po stronie rosyjskiej, w Polsce stworzymy później serwer lustrzany. W Polsce projekt działa jako grant MNiSW.

Tagowanie, lematyzacja, dezambiguacja i dopasowanie zdań <RUS>В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северо-восточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед| угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн| африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн} лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед| египет=S,муж,неод=вин,ед}.</RUS> <POL>W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim [wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f] leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3].</POL> <orth>leży</orth>: <lex disamb="1"> <base>leżeć</base> <ctag>fin:sg:ter:imperf</ctag></lex> <base>leż</base>, <ctag>subst:sg:gen:f</ctag> <base>leż</base>, <ctag>subst:sg:dat:f</ctag> <base>leża</base>, <ctag>subst:sg:gen:f</ctag> <base>leża</base>, <ctag>subst:sg:dat:f</ctag> <base>leże</base>, <ctag>subst:pl:gen:n</ctag> Wpadki lematyzacyjne: dopieroż <dopierożyć>, (w) terenie <Terenia>

Problemy w gromadzeniu korpusu Skanowanie, tagowanie i dezambiguacja tekstu są pracochłonne. Najbardziej pracochłonne jest przepisywanie tekstów mówionych. Jednak najwięcej czasu zajmuje przekonanie wydawców lub autorów do przekazania tekstu i wydania zgody na wykorzystanie w korpusie. Mimo że udostępniamy jedynie cytaty niewiele większe niż ilustracja słownikowa, to na przechowywanie całości tekstu na własnych serwerach i znakowanie go musimy mieć zgodę.

Jak można pomóc NKJP? Zgadzam się na wykorzystanie mojego tekstu/ przekładu [...] w Narodowym Korpusie Języka Polskiego (Korpusie Polsko-Rosyjskim) i oraz na wykorzystanie cytatów z tego tekstu w celach dydaktycznych, badawczych i leksykograficznych. Teksty Korpusu nikomu nie będą udostępnione jako integralne utwory. W Internecie lub mogą być udostępnione jedynie krótkie cytaty pozwalające określić znaczenie, typową łączliwość oraz cechy gramatyczne wyrazów i konstrukcji w jednym lub W dwóch językach. Teksty będą przechowywane wyłącznie w celu znakowania morfosyntaktycznego i zindeksowania w programie wyszukującym w instytucjach budujących NKJP i KPR: na Wydziale Polonistyki i w Instytucie Rusycystyki UW, w Instytucie Podstaw Informatyki i Instytucie Języka Polskiego PAN, Katedrze Anglistyki Uniwersytetu Łódzkiego oraz Wydawnictwie Naukowym PWN.