Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Sponsorzy konferencji: Patronat konferencji: : Organizator: : Partnerzy konferencji: Narodowy Korpus Języka Polskiego Marek Łaziński

Podobne prezentacje


Prezentacja na temat: "Sponsorzy konferencji: Patronat konferencji: : Organizator: : Partnerzy konferencji: Narodowy Korpus Języka Polskiego Marek Łaziński"— Zapis prezentacji:

1 Sponsorzy konferencji: Patronat konferencji: : Organizator: : Partnerzy konferencji: Narodowy Korpus Języka Polskiego Marek Łaziński

2 2/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Co to jest korpus? Korpus to zbiór tekstów, w którym czegoś szukamy. Korpus narodowy to zbiór tekstów dobranych tak, by reprezentowały przeciętne zwyczaje językowe społeczeństwa. Korpus równoległy prezentuje równolegle zdania z dwóch języków.

3 3/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Dobry korpus musi być duży (miliony słów) zróżnicowany i reprezentatywny bogato anotowany (znakowany) przeszukiwany programem, który pozwala szukać konkordancji lekesmów, form gramatycznych, konstrukcji składniowych oraz kolokacji (typowych skojarzeń tekstowych) łatwo dostępny (w sieci)

4 4/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Korpusy wczoraj i dziś 1967: pierwsze korpusy angielskie - Brown University Corpus (Kucera, Francis) 1987: pierwszy angielski słownik oparty na korpusie - Collins Cobuild English Dictionary (Sinclair) : British National Corpus (100 mln słów) Niemieckie korpusy IDS (Mannheim) i DWDS (Berlin) 1994: Ústav Českého národního korpusu na Uniwersytecie Karola. Dziś w krajach korpusy narodowe bułgarski, chorwacki, czeski, polski, rosyjski, słowacki, słoweński.

5 5/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Polskie korpusy przed 2008 r. Instytut Podstaw Informatyki oraz Instytut Języka Polskiego PAN – korpus duży (250 mln słów), w całości dostępny w sieci, dokładnie anotowany, umożliwia wyszukiwanie skomplikowanych konstrukcji. Wydawnictwo Naukowe PWN – korpus średniej wielkości (100 mln słów), dobrze zróżnicowany. Uniwersytet Łódzki (zespół PELCRA ) – korpus średniej wielkości (100 mln słów), w całości dostępny w sieci.

6 6/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Słowniki PWN oparte na korpusach Inny słownik języka polskiego Wielki słownik polsko-angielski i angielsko-polski PWN Oxford, Wielki słownik polsko-niemiecki Definicje korpusowe –When a dog wags its tail, it repeatedly waves its tail from side to side (Cobuid CED) –wag = to shake up and down or move from side to side (OW) –Jeśli ktoś ciemięży ludzi, to wykorzystując swoją władzę [...] nakłada na nich zbyt ciężkie obowiązki. (ISJP) –ciemiężyć - pozbawiać swobody, nakładać ciężary, zmuszać do czegoś; prześladować, gnębić, uciskać (USJP)

7 7/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Narodowy Korpus Języka Polskiego Jest projektem badawczym MNiSW. Łączy doświadczenia wszystkich instytucji tworzących wcześniej polskie korpusy oraz pracowników UW. Do końca roku 2010 zgromadzi miliard słów ze skomplikowaną wyszukiwarką. Podkorpus 300 milionów będzie dokładnie zrównoważony gatunkowo i stylistycznie według badań czytelnictwa w Polsce. Wśród 30 mln słów tekstów mówionych będą 3 mln konwersacji nagranych w naturalnych warunkach.

8 8/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Obecnie w NKJP 500 mln słów z ponad 1000 książek i kilku tysięcy gazet (prawie 300 tytułów) Teksty zróżnicowane w oparciu o badania czytelnictwa w Polsce Wyszukiwarka Poliqarp pozwalająca szukać pustych kategorii gramatycznych Wyszukiwarka PELCRA z modułem kolokacji

9 9/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Wśród 500 mln słów... Przyimek w (najczęstsze słowo) występuje razy – 2,5% Wojna występuje razy, a pokój (w dwóch znaczeniach – razy Cieszyć się występuje razy, a martwić się Groch – razy Kapusta – razy Groch z kapustą – 80 razy

10 10/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Podprojekty NKJP Słowa tygodnia (dnia) - częstsze w gazetach w danym tygodniu (dniu) niż w okresie porównawczym: Korpus równoległy polsko-rosyjski Narzędzia do: –rozpoznawania i ujednoznaczniania form fleksyjnych w tekście –rozpoznawania znaczeń homonimów –identyfikacji nazw własnych

11 11/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Co można sprawdzić w korpusie? Poprawność gramatyczną i ortograficzną form i połączeń Typowe użycia i konteksty (skojarzenia słów) Częstość słów i konstrukcji Dzieje słów (pierwsze użycia) Skrzydlate słowa (Kto to powiedział?)

12 12/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 [pos="praet|fin" & aspect=perf & orth="na.*"][]{,2}[orth=na]

13 13/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Czasowniki dk z prefiksem na- odległe najwyżej o 2 wyrazy od przyimka na

14 14/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Wyszukiwarka kolokacji

15 15/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Kolokacje kawy w NKJP

16 16/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Kolokacje herbaty w NKJP

17 17/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Kawa czy herbata? NKJP: kawa 9653, herbata: szklanka: 779, filiżanka: 248 BNC: coffe 6782, tea: 8030 cup 11965, glass 9438 (http://www.natcorp.ox.ac.uk/index.xml) Wortschatz: Kaffee 3548, Tee 1554 (kolok. Tasse) (http://wortschatz.uni-leipzig.de/) DWDS: Tee 2604, Kaffee 4443 (http://www.dwds.de/textbasis/kerncorpus) ČNK: čaj 3763, káva 4630 NKRJa: kofe 7898, čaj čaška 5522, stakan 11286

18 18/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Korpusy równoległe ENPC - korpus angielsko-norweski /enpc (niedostępny w sieci) Korpus Hansard kanadyjskich debat parlamentarnych po angielsku i po francusku (projekt TransSearch: Korpus aktów prawnych Unii Europejskiej (do instalacji): langtech.jrc.it/JRC-Acquis Korpus angielsko-rosyjski, -słoweński, -chorwacki i inne w ramach korpusów narodowych

19 19/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Home w TransSearch (nie ma maison)

20 20/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Strona korpusu ParaSol

21 21/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Strona wyszukiwania ParaSol

22 22/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Wyszukiwanie – szklanka

23 23/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Szklanka herbaty i filiżanka kawy W czeskich przekładach szklance i stakanowi odpowiadają: sklenice, sklenka, sklenička, číš, šálek. Czasem herbacie odpowiada kawa. На столе, за которым сидел во время моего прошлого визита жирный, на куче перепачканных бумаг стояли стаканы из- под чая... (Bułhakow: Mistrz i Małgorzta) Na stole, na którym siedział przedtem otyły, na stercie poplamionych papierów stały szklanki po herbacie. Na stole, u kterého prve seděl tlusťoch, stály šálky od kávy. Wypiłem resztki herbaty i wydrapałem łyżeczką cukier z dna szklanki. Dopil jsem kavu a ližičkou vybral zbytky cukru ze dna šálku.

24 24/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Kolega

25 25/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Polski rozkaźnik i rosyjski bezokolicznik

26 26/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Korpus polsko-rosyjski Będzie umieszczony (jako korpus rosyjsko-polski) na stronach NKRJa obok rosyjsko-angielskiego i – niemieckiego, a także na stronach Uniwersytetu Baszkirskiego w Ufie. Polski interfejs będzie na stronach NKJP, polonistyki i rusycystyki UW. Na pierwszym etapie pracy serwer z tekstami będzie po stronie rosyjskiej, w Polsce stworzymy później serwer lustrzany. W Polsce projekt działa jako grant MNiSW.

27 27/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Tagowanie, lematyzacja, dezambiguacja i dopasowanie zdań В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северо- восточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед| угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн| африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн} лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед| египет=S,муж,неод=вин,ед}. W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim [wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f] leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3]. leży : leżeć fin:sg:ter:imperf leż, subst:sg:gen:f leż, subst:sg:dat:f leża, subst:sg:gen:f leża, subst:sg:dat:f leże, subst:pl:gen:n Wpadki lematyzacyjne: dopieroż, (w) terenie

28 28/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Problemy w gromadzeniu korpusu Skanowanie, tagowanie i dezambiguacja tekstu są pracochłonne. Najbardziej pracochłonne jest przepisywanie tekstów mówionych. Jednak najwięcej czasu zajmuje przekonanie wydawców lub autorów do przekazania tekstu i wydania zgody na wykorzystanie w korpusie. Mimo że udostępniamy jedynie cytaty niewiele większe niż ilustracja słownikowa, to na przechowywanie całości tekstu na własnych serwerach i znakowanie go musimy mieć zgodę.

29 29/20 Rynek tłumaczeń i lokalizacji w Polsce, Kraków, marca 2010 Jak można pomóc NKJP? Zgadzam się na wykorzystanie mojego tekstu/ przekładu [...] w Narodowym Korpusie Języka Polskiego (Korpusie Polsko- Rosyjskim) i oraz na wykorzystanie cytatów z tego tekstu w celach dydaktycznych, badawczych i leksykograficznych. Teksty Korpusu nikomu nie będą udostępnione jako integralne utwory. W Internecie lub mogą być udostępnione jedynie krótkie cytaty pozwalające określić znaczenie, typową łączliwość oraz cechy gramatyczne wyrazów i konstrukcji w jednym lub W dwóch językach. Teksty będą przechowywane wyłącznie w celu znakowania morfosyntaktycznego i zindeksowania w programie wyszukującym w instytucjach budujących NKJP i KPR: na Wydziale Polonistyki i w Instytucie Rusycystyki UW, w Instytucie Podstaw Informatyki i Instytucie Języka Polskiego PAN, Katedrze Anglistyki Uniwersytetu Łódzkiego oraz Wydawnictwie Naukowym PWN.


Pobierz ppt "Sponsorzy konferencji: Patronat konferencji: : Organizator: : Partnerzy konferencji: Narodowy Korpus Języka Polskiego Marek Łaziński"

Podobne prezentacje


Reklamy Google