Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Korpusy Instytutu Języka Polskiego UW.

Podobne prezentacje


Prezentacja na temat: "Korpusy Instytutu Języka Polskiego UW."— Zapis prezentacji:

1 Korpusy Instytutu Języka Polskiego UW.
Korpus Polsko-Rosyjski i Korpus Języka Młodzieży Marek Łaziński IPIPAN,

2 Korpus Polsko-Rosyjski UW
30 mln słów w dwóch językach Literatura piękna, prasa, teksty prawne i religijne (Biblia) Pełna anotacja morfosyntaktyczna Wyszukiwanie form, leksemów i kategorii Pierwszy ogólnodostępny korpus równoległy tej wielkości w Polsce Wygodny interfejs okienkowy

3 Instytucje i zespół Projekt IJP oraz IR UW Instytucje współpracujące:
NKJP NKRJa (ruscorpora.ru) Baszkirski Uniwersytet Pedagogiczny w Ufie (czasowo) Zespół Marek Łaziński (kierownik projektu IJP UW), Magdalena Kuratczyk, (IR UW), Natalia Godlewska, Paweł Godlewski i Krzysztof Osiecki (informatycy), Elena Slobodjan (Ufa), Boris Orechow (Ufa, czasowo) Grant NCN NN

4 Struktura – loci cummunes
Ideą korpusu było włączenie tekstów ważnych dla kultury obu narodów i wzajemnego postrzegania 90% to teksty literackie, w tym m.in. Sołżenicyn, W. Jerofiejew, Sapkowski, Chmielewska Prasa współczesna – 1%, książki non-fiction i teksty prawne – 5%, przekłady Biblii – 4% Na żadnym portalu biblijnym nie ma jednocześnie przekładów polskich i rosyjskich Biblii 50% oryginałów polskich, 33% rosyjskich i 17% przekładów z trzeciego języka

5 Przygody z akwizycją – ciekawostki historyczne
Duża część rosyjskiej klasyki XIX wieku (Dostojewski, Tołstoj itd.) była tłumaczona na polski dopiero w latach 30-yxh XX wieku przez młodych tłumaczy. Majątkowe prawa autorskie do tych przekładów jeszcze długo nie wygasną . Pierwszy tekst literatury polskiej, o który poprosili rosyjscy partnerzy był Faraon; w Polsce prawie zapomniany, w Rosji ceniony jako ważna powieść o władzy (ulubiona powieść Stalina).

6 Przechowywanie danych
Relacyjna baza danych Informacja o słowach, zdaniach, tekstach oraz o odpowiedniości zdań w wyrównanych tekstach. Zapytania w języku SQL

7 Schemat bazy 7

8 Alignment i anotacja Teksty wyrównano w programie ABBY Aligner.
Anotacja i dezambiguacja tekstów polskich - TAKIPI Anotacja tekstów rosyjskich tagger MyStem bez dezambiguacji. Wyszukiwanie polskie leksemu dama zwaraca np. odciski palców obu dam, ale: Dam panu znać. Wyszukiwanie rosyjskie дама zwaraca обеих дам i Я вам дам знать.

9 Wyszukiwanie W wyszukiwaniu słów i ich z operatorami logicznymi połączeń można nałożyć warunki pozytywne lub negatywne na oba języki. Wyszukiwanie morfologiczne w tekście polskim uproszczone do kategorii szkolnych w prostym wyborze okienkowym Nawet czas przeszły (sekwencyjny) wyszukujemy jako jedno słowo Można też wybrać tagi TAKIPI

10 Zapytanie: русский - nierosyjski|Rosjanin(ka)

11 Wyniki: русский - nie rosyjski|Rosjanin(ka)

12 Zapytanie: bezokolicznik

13 Przyszłośc KP-R Projekt zakończony.
Brak środków na rozwój, a nawet usprawnienie interfejsu. Nie wykluczamy integracji korpusu z innymi projektami równoległymi.

14 Korpus Języka Młodzieży Warszawskiej
Korpus naturalnej mowy oraz tekstów pisanych młodzieży wielkości 500 tys. słów. Powstał w projekcie Laboratorium Języka Młodzieży w ramach programu MNiSW Ścieżki Kopernika Oprócz korpusu: Sieciowy słownik slangu Uproszczona wyszukiwarka NKJP w szkołach Scenariusze lekcji z wykorzystaniem korpusów laboratoriumjezykowe.uw.edu.pl

15 Lekcje z NKJP Oblicza buntu – bunt Artura w Tangu Mrożka
Obraz wiejskiej wspólnoty w Chłopach Castingowe dzieci. Kształcimy nasze umiejętności językowe „Ważne jak rzeczy się nazywają” – o słowach-kluczach w Hebanie Kapuścińskiego Analizujemy konkordancje wyrazów inny i obcy. Szukamy znaczących skojarzeń Pupa i gęba – słowa kluczowe Ferdydurke. Dlaczego w tekście Ferdydurke wyrazy gęba i pupa występują bardzo często (gęba 130 razy, pupa 89) i są podstawą wielu różnych związków frazeologicznych, podczas gdy w słownikach frazeologizmy gęby są częste, a pupy rzadkie?

16 Zespół Izabela Winiarska-Górska (kierownik projektu), Marek Łaziński (koordynator merytoryczny korpusu i słownika), doktoranci IJP UW Obsługa informatyczna - Jarosław Strojek 12 10-osobowych zespołów szkolnych z gimnazjów i liceów mazowieckich wraz z opiekunami polonistami M.in. LO Dąbrowskiego, Hoffmanowej, szkoły STO

17 Struktura KJMW Rozmowy nagrywane przez uczniów 250 tys. słów (w tej chwili zindeksowane 85 tys.) Tekstów pisane młodzieży: gazetki szkolne, blogi, prace pisemne 200 tys. słów. Korpus porównawczy powieści dla młodzieży XX wieku – 1 mln słów.

18 Transkrypcja i anotacja
Transkrypcja w edytorze KJM opracowanym na potrzeby projektu. Teksty transkrybowane częściowo przez młodzież, tagowane przez doktorantów IJP. Tagowanie TAKIPI z dodatkiem tagów dla słów slangowych, nowych i zapożyczeń. Rozmówcy charakteryzowani danymi socjologicznymi: wiek, płeć, typ i nazwa szkoły.

19 Wyszukiwarka Okienkowa nakładka na Poliqarpa.
Kreator zapytań umożliwia wybór kategorii gramatycznej w okienku i transponuje tak sformułowane zapytanie na zapytanie w wierszu poleceń. Oprócz podstawowego pytania o segmenty kreator umożliwia tworzenie statystyki oraz ograniczanie wypowiedzi dodanych socjologicznych.

20 Dziś i jutro Wyszukiwarka dostępna dziś tylko lokalnie, niebawem na serwerze UW (bez zapytań statystycznych). W 85 tys. słów rozmów dostępnych dziś: 51 tys. dziewczyny, 31 tys. chłopcy 28 tys. słów gimnazjaliści, 47 tys. licealiści

21 Transkrypcja w edytorze

22 Ten sam fragment w wyszukiwaniu kubek

23 Kreator zapytania Okienkowa nakładka na Poliqarpa.
Kreator zapytań umożliwia wybór kategorii gramatycznej w okienku i transponuje tak sformułowane zapytanie na zapytanie w wierszu poleceń. Oprócz podstawowego pytania o segmenty kreator umożliwia tworzenie statystyki oraz ograniczanie wypowiedzi dodanych socjologicznych.

24 Słowa slangowe [tag=new]

25 Rozmówki gimnazjalne - quiz
Faszynistka Melanżować Mok Nocowanka Spojlerować Swag Treściówka Zgonować Zmianoholiczka

26 Rozmówki gimnazjalne Faszynistka – ‚blogerka modowa’
Melanżować – ‚imprezować’ Mok – ‚próbny egzamin’ Nocowanka – ‚impreza lub wizyta z nocowaniem’ Spojlerować – ‚opowiadać treść filmu, książki’ Swag – ‚szpan, lans’ Treściówka – ‚sprawdzian z treści lektur’ Zgonować – ‚umrzeć, przenośnie też stracić przytomność po alkoholu’ Zmianoholiczka – ‚dziewczyna lubiąca zmiany w ubiorze ’

27 „Polityka” o KJMW „Zaczęło się od „beki”. Czyli niewinnego „ubawu”. Słowa, które jeszcze dekadę temu oznaczało po prostu zabawną sytuację, kupę śmiechu. Dziś beka to już nie to samo. Raczej kpina, szyderstwo. […] Beka przeszła więc na ciemną stronę polszczyzny. Tę diagnozę potwierdza „Laboratorium językowe”, ciekawy program naukowy prowadzony na Uniwersytecie Warszawskim. Uczniowie mazowieckich gimnazjów i liceów gromadzą cytaty ze swojego codziennego języka, pomagając zebrać, uporządkować, a potem zdefiniować to, czym nie zdążyli się jeszcze zająć językoznawcy.” B. Chaciński: Gdy epitet staje się bluzgiem: polityka.pl/tygodnikpolityka/ludzieistyle/ ,1,gdy- zwykly-epitet-staje-sie-bluzgiem.read.

28 Przyszłość KJMW Choć program ministerialny się skończył, to prace trwają siła rozpędu. Zbieramy i transkrybujemy rozmowy. Nie wykluczamy integracji KJMW z innymi projektami polskimi i obcymi. Może nowy NKJP? Słownik miał stanowić tylko uzupełnienie bez ambicji wydawniczych, ale nie wykluczamy dalszego opracowania.


Pobierz ppt "Korpusy Instytutu Języka Polskiego UW."

Podobne prezentacje


Reklamy Google