Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Korpusy Instytutu Języka Polskiego UW.
Korpus Polsko-Rosyjski i Korpus Języka Młodzieży Marek Łaziński IPIPAN,
2
Korpus Polsko-Rosyjski UW
30 mln słów w dwóch językach Literatura piękna, prasa, teksty prawne i religijne (Biblia) Pełna anotacja morfosyntaktyczna Wyszukiwanie form, leksemów i kategorii Pierwszy ogólnodostępny korpus równoległy tej wielkości w Polsce Wygodny interfejs okienkowy
3
Instytucje i zespół Projekt IJP oraz IR UW Instytucje współpracujące:
NKJP NKRJa (ruscorpora.ru) Baszkirski Uniwersytet Pedagogiczny w Ufie (czasowo) Zespół Marek Łaziński (kierownik projektu IJP UW), Magdalena Kuratczyk, (IR UW), Natalia Godlewska, Paweł Godlewski i Krzysztof Osiecki (informatycy), Elena Slobodjan (Ufa), Boris Orechow (Ufa, czasowo) Grant NCN NN
4
Struktura – loci cummunes
Ideą korpusu było włączenie tekstów ważnych dla kultury obu narodów i wzajemnego postrzegania 90% to teksty literackie, w tym m.in. Sołżenicyn, W. Jerofiejew, Sapkowski, Chmielewska Prasa współczesna – 1%, książki non-fiction i teksty prawne – 5%, przekłady Biblii – 4% Na żadnym portalu biblijnym nie ma jednocześnie przekładów polskich i rosyjskich Biblii 50% oryginałów polskich, 33% rosyjskich i 17% przekładów z trzeciego języka
5
Przygody z akwizycją – ciekawostki historyczne
Duża część rosyjskiej klasyki XIX wieku (Dostojewski, Tołstoj itd.) była tłumaczona na polski dopiero w latach 30-yxh XX wieku przez młodych tłumaczy. Majątkowe prawa autorskie do tych przekładów jeszcze długo nie wygasną . Pierwszy tekst literatury polskiej, o który poprosili rosyjscy partnerzy był Faraon; w Polsce prawie zapomniany, w Rosji ceniony jako ważna powieść o władzy (ulubiona powieść Stalina).
6
Przechowywanie danych
Relacyjna baza danych Informacja o słowach, zdaniach, tekstach oraz o odpowiedniości zdań w wyrównanych tekstach. Zapytania w języku SQL
7
Schemat bazy 7
8
Alignment i anotacja Teksty wyrównano w programie ABBY Aligner.
Anotacja i dezambiguacja tekstów polskich - TAKIPI Anotacja tekstów rosyjskich tagger MyStem bez dezambiguacji. Wyszukiwanie polskie leksemu dama zwaraca np. odciski palców obu dam, ale: Dam panu znać. Wyszukiwanie rosyjskie дама zwaraca обеих дам i Я вам дам знать.
9
Wyszukiwanie W wyszukiwaniu słów i ich z operatorami logicznymi połączeń można nałożyć warunki pozytywne lub negatywne na oba języki. Wyszukiwanie morfologiczne w tekście polskim uproszczone do kategorii szkolnych w prostym wyborze okienkowym Nawet czas przeszły (sekwencyjny) wyszukujemy jako jedno słowo Można też wybrać tagi TAKIPI
10
Zapytanie: русский - nierosyjski|Rosjanin(ka)
11
Wyniki: русский - nie rosyjski|Rosjanin(ka)
12
Zapytanie: bezokolicznik
13
Przyszłośc KP-R Projekt zakończony.
Brak środków na rozwój, a nawet usprawnienie interfejsu. Nie wykluczamy integracji korpusu z innymi projektami równoległymi.
14
Korpus Języka Młodzieży Warszawskiej
Korpus naturalnej mowy oraz tekstów pisanych młodzieży wielkości 500 tys. słów. Powstał w projekcie Laboratorium Języka Młodzieży w ramach programu MNiSW Ścieżki Kopernika Oprócz korpusu: Sieciowy słownik slangu Uproszczona wyszukiwarka NKJP w szkołach Scenariusze lekcji z wykorzystaniem korpusów laboratoriumjezykowe.uw.edu.pl
15
Lekcje z NKJP Oblicza buntu – bunt Artura w Tangu Mrożka
Obraz wiejskiej wspólnoty w Chłopach Castingowe dzieci. Kształcimy nasze umiejętności językowe „Ważne jak rzeczy się nazywają” – o słowach-kluczach w Hebanie Kapuścińskiego Analizujemy konkordancje wyrazów inny i obcy. Szukamy znaczących skojarzeń Pupa i gęba – słowa kluczowe Ferdydurke. Dlaczego w tekście Ferdydurke wyrazy gęba i pupa występują bardzo często (gęba 130 razy, pupa 89) i są podstawą wielu różnych związków frazeologicznych, podczas gdy w słownikach frazeologizmy gęby są częste, a pupy rzadkie?
16
Zespół Izabela Winiarska-Górska (kierownik projektu), Marek Łaziński (koordynator merytoryczny korpusu i słownika), doktoranci IJP UW Obsługa informatyczna - Jarosław Strojek 12 10-osobowych zespołów szkolnych z gimnazjów i liceów mazowieckich wraz z opiekunami polonistami M.in. LO Dąbrowskiego, Hoffmanowej, szkoły STO
17
Struktura KJMW Rozmowy nagrywane przez uczniów 250 tys. słów (w tej chwili zindeksowane 85 tys.) Tekstów pisane młodzieży: gazetki szkolne, blogi, prace pisemne 200 tys. słów. Korpus porównawczy powieści dla młodzieży XX wieku – 1 mln słów.
18
Transkrypcja i anotacja
Transkrypcja w edytorze KJM opracowanym na potrzeby projektu. Teksty transkrybowane częściowo przez młodzież, tagowane przez doktorantów IJP. Tagowanie TAKIPI z dodatkiem tagów dla słów slangowych, nowych i zapożyczeń. Rozmówcy charakteryzowani danymi socjologicznymi: wiek, płeć, typ i nazwa szkoły.
19
Wyszukiwarka Okienkowa nakładka na Poliqarpa.
Kreator zapytań umożliwia wybór kategorii gramatycznej w okienku i transponuje tak sformułowane zapytanie na zapytanie w wierszu poleceń. Oprócz podstawowego pytania o segmenty kreator umożliwia tworzenie statystyki oraz ograniczanie wypowiedzi dodanych socjologicznych.
20
Dziś i jutro Wyszukiwarka dostępna dziś tylko lokalnie, niebawem na serwerze UW (bez zapytań statystycznych). W 85 tys. słów rozmów dostępnych dziś: 51 tys. dziewczyny, 31 tys. chłopcy 28 tys. słów gimnazjaliści, 47 tys. licealiści
21
Transkrypcja w edytorze
22
Ten sam fragment w wyszukiwaniu kubek
23
Kreator zapytania Okienkowa nakładka na Poliqarpa.
Kreator zapytań umożliwia wybór kategorii gramatycznej w okienku i transponuje tak sformułowane zapytanie na zapytanie w wierszu poleceń. Oprócz podstawowego pytania o segmenty kreator umożliwia tworzenie statystyki oraz ograniczanie wypowiedzi dodanych socjologicznych.
24
Słowa slangowe [tag=new]
25
Rozmówki gimnazjalne - quiz
Faszynistka Melanżować Mok Nocowanka Spojlerować Swag Treściówka Zgonować Zmianoholiczka
26
Rozmówki gimnazjalne Faszynistka – ‚blogerka modowa’
Melanżować – ‚imprezować’ Mok – ‚próbny egzamin’ Nocowanka – ‚impreza lub wizyta z nocowaniem’ Spojlerować – ‚opowiadać treść filmu, książki’ Swag – ‚szpan, lans’ Treściówka – ‚sprawdzian z treści lektur’ Zgonować – ‚umrzeć, przenośnie też stracić przytomność po alkoholu’ Zmianoholiczka – ‚dziewczyna lubiąca zmiany w ubiorze ’
27
„Polityka” o KJMW „Zaczęło się od „beki”. Czyli niewinnego „ubawu”. Słowa, które jeszcze dekadę temu oznaczało po prostu zabawną sytuację, kupę śmiechu. Dziś beka to już nie to samo. Raczej kpina, szyderstwo. […] Beka przeszła więc na ciemną stronę polszczyzny. Tę diagnozę potwierdza „Laboratorium językowe”, ciekawy program naukowy prowadzony na Uniwersytecie Warszawskim. Uczniowie mazowieckich gimnazjów i liceów gromadzą cytaty ze swojego codziennego języka, pomagając zebrać, uporządkować, a potem zdefiniować to, czym nie zdążyli się jeszcze zająć językoznawcy.” B. Chaciński: Gdy epitet staje się bluzgiem: polityka.pl/tygodnikpolityka/ludzieistyle/ ,1,gdy- zwykly-epitet-staje-sie-bluzgiem.read.
28
Przyszłość KJMW Choć program ministerialny się skończył, to prace trwają siła rozpędu. Zbieramy i transkrybujemy rozmowy. Nie wykluczamy integracji KJMW z innymi projektami polskimi i obcymi. Może nowy NKJP? Słownik miał stanowić tylko uzupełnienie bez ambicji wydawniczych, ale nie wykluczamy dalszego opracowania.
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.