Korpusy Instytutu Języka Polskiego UW.

Slides:



Advertisements
Podobne prezentacje
Nowa” Matura 2015 Języki obce
Advertisements

Reforma wychowania fizycznego – mity a rzeczywistość
GIMNAZJUM NR ul. Szarych Szeregów 6
NOWA MATURA Z JĘZYKA ROSYJSKIEGO
W ZBIORACH BIBLIOTEKI G Ł ÓWNEJ W ZBIORACH BIBLIOTEKI G Ł ÓWNEJ TEMATYCZNE WYSZUKIWANIE LITERATURY W KATALOGU ONLINE.
Matura 2015 Omówienie zmian w arkuszu maturalnym na poziomie podstawowym, rozszerzonym i dwujęzycznym. Matura ustna.
OPERATORY WYSZUKIWAWCZE
Zagadnienia: Podstawy prawne egzaminu maturalnego Standardy wymagań egzaminacyjnych Struktura egzaminu pisemnego i ustnego z języka obcego nauczanego.
PHP vs. ASP PHP – lider wydajności wśród języków skryptowych.
Zespół Szkół w Podgrodziu 2010/11. Zespół Szkół w Podgrodziu Publiczna Szkoła Podstawowa Publiczne Gimnazjum Publiczne Przedszkole.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
UCZYMY SIĘ UCZYĆ Nauka języków obcych nieodłącznie związana jest z systematycznym zapamiętywaniem wielu informacji. Wiadomo, że zrobienie notatek w zeszycie.
ENCYKLOPEDIE I SŁOWNIKI
Zestawienie wyników egzaminu
Google – sposoby wyszukiwania
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
RODZAJE WYDAWNICTW INFORMACYJNYCH
SŁOWNIKI.
Egzamin gimnazjalny od roku 2012 Podstawa prawna: Rozporządzenie MEN z r. w sprawie warunków i sposobu oceniania, klasyfikowania i promowania.
Egzamin gimnazjalny 2013 Języki obce
POZIOM PODSTAWOWY POZIOM ROZSZERZONY CZAS TRWANIA120 MIN150 POZIOM TRUDNOŚCI B1B2(+)
Projekt LOG-IN Wspólne działania szkoleniowe z zakresu zastosowania nowych mediów i technologii w nauczaniu języków obcych ukierunkowane na tworzenie innowacyjnych.
Analizuje się wyniki sprawdzianu i egzaminu gimnazjalnego.
Mariusz Polarczyk, Zofia Kasprzak
ENCYKLOPEDIE I SŁOWNIKI
Egzamin gimnazjalny – zasady r.szk. 2013/14
Strategia rozwoju SBP na lata Sprawozdanie Maria Burchard ZG SBP.
Ćwiczenia technik efektywnego uczenia się Spotkanie 4
Techniki efektywnego uczenia – ćwiczenia cd. zajęć 3 Zajęcia 5
E-Akademia Przyszłości to projekt realizowany przez Wydawnictwa Szkolne i Pedagogiczne S.A. Jest współfinansowany ze środków Europejskiego Funduszu Społecznego.
Analiza wyników sprawdzianu ‘2013
Wrzesień Rok 2010   Test diagnostyczny składał się z pięciu zadań i sprawdzał umiejętności: • rozumienie ze słuchu • rozumienie tekstu czytanego • umiejętność.
Maksymalnie za część humanistyczną testu można było uzyskać 20 punktów.
ANALIZA EGZAMINU GIMNAZJALNEGO 2013 GIMNAZJUM IM
w Publicznym Gimnazjum nr 1 w Łodzi
NOWA FORMUŁA SPRAWDZIANU SZÓSTOKLASISTY
Zajęcia prowadzone w ramach EFS Szkoła Podstawowa Nr 15 w Tarnowie
UWAGA: Aby zmienić obraz na tym slajdzie, zaznacz go i usuń. Następnie kliknij ikonę Obrazy w symbolu zastępczym, aby wstawić własny obraz. WYNIKI SPRAWDZIANU.
IBUK Libra WIRTUALNA CZYTELNIA
Informacja o maturze w 2015 roku. Matura od 2015 roku Lista przedmiotów obowiązkowych nie ulega zmianie w porównaniu do obecnie obowiązujących: język.
Pierwsze zebranie rodziców 19 września 2014 r.. 1. Przedstawienie nowozatrudnionych nauczycieli. 2. Koncepcja dalszego rozwoju szkoły. 3. Wyniki egzaminu.
Termin sprawdzianu: 1 kwietnia 2015 r. (środa), godz
Wyniki próbnego egzaminu gimnazjalnego z języków obcych 2008.
Sprawdzian w klasie szóstej jest:  powszechny  obowiązkowy  warunkiem ukończenia szkoły podstawowej.
ANALIZA EGZAMINU GIMNAZJALNEGO 2014 GIMNAZJUM IM. JANA PAWŁA II W BOGUSZYCACH.
Informacje na temat matury z języka polskiego od 2015 roku.
Termin realizacji: XI 2013 – VI 2014
SPRAWDZIAN Z JĘZYKA ANGIELSKIEGO W KLASIE SZÓSTEJ Czy powinien wzbudzać nasze obawy?
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Sprawdzian z języka angielskiego w klasie szóstej
INFORMACJE O SPRAWDZIANIE SZÓSTOKLASISTY. Sprawdzian szóstoklasisty jest egzaminem powszechnym i obowiązkowym. W roku 2015 sprawdzian w klasie VI szkoły.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Projekt badawczy uczniów klasy 3d III LO w Poznaniu Realizacja: Paulina Dominiak, Magdalena Michalak, Natalia Świątek.
Wyszukiwanie informacji w Internecie Marcin Wojnowski.
Analiza wyników egzaminu gimnazjalnego w części matematyczno- przyrodniczej z zakresu przedmiotów przyrodniczych w roku szkolnym 2014/2015.
Prezentacja programu PowerPoint
PRZEKŁAD PODEJŚCIE TEKSTOWE - J.C. Margot - J.-R. Ladmiral - H. Meschonnic PRZEKŁAD PODEJŚCIE TEKSTOWE - J.C. Margot - J.-R. Ladmiral - H. Meschonnic opracowała.
Ewaluacja pracy szkoły – drogą do wszechstronnego rozwoju uczniów.
ANALIZA WYNIKÓW DIAGNOZY WSTĘPNEJ
Podstawowe informacje o egzaminie ósmoklasisty
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
IBUK Libra WIRTUALNA CZYTELNIA
Egzamin ósmoklasisty Język obcy nowożytny.
Próbny egzamin ÓSMOKLASISTy 2018/2019
Próbny Egzamin Ósmoklasisty
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Egzamin gimnazjalny z języka angielskiego
EGZAMIN I REKRUTACJA 2019/2020.
Pakiet edukacyjny „Przeszłość to dziś” Zakres podstawowy i rozszerzony
Zapis prezentacji:

Korpusy Instytutu Języka Polskiego UW. Korpus Polsko-Rosyjski i Korpus Języka Młodzieży Marek Łaziński IPIPAN, 23.02.2015

Korpus Polsko-Rosyjski UW 30 mln słów w dwóch językach Literatura piękna, prasa, teksty prawne i religijne (Biblia) Pełna anotacja morfosyntaktyczna Wyszukiwanie form, leksemów i kategorii Pierwszy ogólnodostępny korpus równoległy tej wielkości w Polsce Wygodny interfejs okienkowy http://www.pol-ros.polon.uw.edu.pl/

Instytucje i zespół Projekt IJP oraz IR UW Instytucje współpracujące: NKJP NKRJa (ruscorpora.ru) Baszkirski Uniwersytet Pedagogiczny w Ufie (czasowo) Zespół Marek Łaziński (kierownik projektu IJP UW), Magdalena Kuratczyk, (IR UW), Natalia Godlewska, Paweł Godlewski i Krzysztof Osiecki (informatycy), Elena Slobodjan (Ufa), Boris Orechow (Ufa, czasowo) Grant NCN NN104056638 2010-2013

Struktura – loci cummunes Ideą korpusu było włączenie tekstów ważnych dla kultury obu narodów i wzajemnego postrzegania 90% to teksty literackie, w tym m.in. Sołżenicyn, W. Jerofiejew, Sapkowski, Chmielewska Prasa współczesna – 1%, książki non-fiction i teksty prawne – 5%, przekłady Biblii – 4% Na żadnym portalu biblijnym nie ma jednocześnie przekładów polskich i rosyjskich Biblii 50% oryginałów polskich, 33% rosyjskich i 17% przekładów z trzeciego języka

Przygody z akwizycją – ciekawostki historyczne Duża część rosyjskiej klasyki XIX wieku (Dostojewski, Tołstoj itd.) była tłumaczona na polski dopiero w latach 30-yxh XX wieku przez młodych tłumaczy. Majątkowe prawa autorskie do tych przekładów jeszcze długo nie wygasną . Pierwszy tekst literatury polskiej, o który poprosili rosyjscy partnerzy był Faraon; w Polsce prawie zapomniany, w Rosji ceniony jako ważna powieść o władzy (ulubiona powieść Stalina).

Przechowywanie danych Relacyjna baza danych Informacja o słowach, zdaniach, tekstach oraz o odpowiedniości zdań w wyrównanych tekstach. Zapytania w języku SQL

Schemat bazy 7

Alignment i anotacja Teksty wyrównano w programie ABBY Aligner. Anotacja i dezambiguacja tekstów polskich - TAKIPI Anotacja tekstów rosyjskich tagger MyStem bez dezambiguacji. Wyszukiwanie polskie leksemu dama zwaraca np. odciski palców obu dam, ale: Dam panu znać. Wyszukiwanie rosyjskie дама zwaraca обеих дам i Я вам дам знать.

Wyszukiwanie W wyszukiwaniu słów i ich z operatorami logicznymi połączeń można nałożyć warunki pozytywne lub negatywne na oba języki. Wyszukiwanie morfologiczne w tekście polskim uproszczone do kategorii szkolnych w prostym wyborze okienkowym Nawet czas przeszły (sekwencyjny) wyszukujemy jako jedno słowo Można też wybrać tagi TAKIPI

Zapytanie: русский - nierosyjski|Rosjanin(ka)

Wyniki: русский - nie rosyjski|Rosjanin(ka)

Zapytanie: bezokolicznik

Przyszłośc KP-R Projekt zakończony. Brak środków na rozwój, a nawet usprawnienie interfejsu. Nie wykluczamy integracji korpusu z innymi projektami równoległymi.

Korpus Języka Młodzieży Warszawskiej Korpus naturalnej mowy oraz tekstów pisanych młodzieży wielkości 500 tys. słów. Powstał w projekcie Laboratorium Języka Młodzieży w ramach programu MNiSW Ścieżki Kopernika 2013-2014. Oprócz korpusu: Sieciowy słownik slangu Uproszczona wyszukiwarka NKJP w szkołach Scenariusze lekcji z wykorzystaniem korpusów laboratoriumjezykowe.uw.edu.pl

Lekcje z NKJP Oblicza buntu – bunt Artura w Tangu Mrożka Obraz wiejskiej wspólnoty w Chłopach Castingowe dzieci. Kształcimy nasze umiejętności językowe „Ważne jak rzeczy się nazywają” – o słowach-kluczach w Hebanie Kapuścińskiego Analizujemy konkordancje wyrazów inny i obcy. Szukamy znaczących skojarzeń Pupa i gęba – słowa kluczowe Ferdydurke. Dlaczego w tekście Ferdydurke wyrazy gęba i pupa występują bardzo często (gęba 130 razy, pupa 89) i są podstawą wielu różnych związków frazeologicznych, podczas gdy w słownikach frazeologizmy gęby są częste, a pupy rzadkie?

Zespół Izabela Winiarska-Górska (kierownik projektu), Marek Łaziński (koordynator merytoryczny korpusu i słownika), doktoranci IJP UW Obsługa informatyczna - Jarosław Strojek 12 10-osobowych zespołów szkolnych z gimnazjów i liceów mazowieckich wraz z opiekunami polonistami M.in. LO Dąbrowskiego, Hoffmanowej, szkoły STO

Struktura KJMW Rozmowy nagrywane przez uczniów 250 tys. słów (w tej chwili zindeksowane 85 tys.) Tekstów pisane młodzieży: gazetki szkolne, blogi, prace pisemne 200 tys. słów. Korpus porównawczy powieści dla młodzieży XX wieku – 1 mln słów.

Transkrypcja i anotacja Transkrypcja w edytorze KJM opracowanym na potrzeby projektu. Teksty transkrybowane częściowo przez młodzież, tagowane przez doktorantów IJP. Tagowanie TAKIPI z dodatkiem tagów dla słów slangowych, nowych i zapożyczeń. Rozmówcy charakteryzowani danymi socjologicznymi: wiek, płeć, typ i nazwa szkoły.

Wyszukiwarka Okienkowa nakładka na Poliqarpa. Kreator zapytań umożliwia wybór kategorii gramatycznej w okienku i transponuje tak sformułowane zapytanie na zapytanie w wierszu poleceń. Oprócz podstawowego pytania o segmenty kreator umożliwia tworzenie statystyki oraz ograniczanie wypowiedzi dodanych socjologicznych.

Dziś i jutro Wyszukiwarka dostępna dziś tylko lokalnie, niebawem na serwerze UW (bez zapytań statystycznych). W 85 tys. słów rozmów dostępnych dziś: 51 tys. dziewczyny, 31 tys. chłopcy 28 tys. słów gimnazjaliści, 47 tys. licealiści

Transkrypcja w edytorze

Ten sam fragment w wyszukiwaniu kubek

Kreator zapytania Okienkowa nakładka na Poliqarpa. Kreator zapytań umożliwia wybór kategorii gramatycznej w okienku i transponuje tak sformułowane zapytanie na zapytanie w wierszu poleceń. Oprócz podstawowego pytania o segmenty kreator umożliwia tworzenie statystyki oraz ograniczanie wypowiedzi dodanych socjologicznych.

Słowa slangowe [tag=new]

Rozmówki gimnazjalne - quiz Faszynistka Melanżować Mok Nocowanka Spojlerować Swag Treściówka Zgonować Zmianoholiczka

Rozmówki gimnazjalne Faszynistka – ‚blogerka modowa’ Melanżować – ‚imprezować’ Mok – ‚próbny egzamin’ Nocowanka – ‚impreza lub wizyta z nocowaniem’ Spojlerować – ‚opowiadać treść filmu, książki’ Swag – ‚szpan, lans’ Treściówka – ‚sprawdzian z treści lektur’ Zgonować – ‚umrzeć, przenośnie też stracić przytomność po alkoholu’ Zmianoholiczka – ‚dziewczyna lubiąca zmiany w ubiorze ’

„Polityka” o KJMW „Zaczęło się od „beki”. Czyli niewinnego „ubawu”. Słowa, które jeszcze dekadę temu oznaczało po prostu zabawną sytuację, kupę śmiechu. Dziś beka to już nie to samo. Raczej kpina, szyderstwo. […] Beka przeszła więc na ciemną stronę polszczyzny. Tę diagnozę potwierdza „Laboratorium językowe”, ciekawy program naukowy prowadzony na Uniwersytecie Warszawskim. Uczniowie mazowieckich gimnazjów i liceów gromadzą cytaty ze swojego codziennego języka, pomagając zebrać, uporządkować, a potem zdefiniować to, czym nie zdążyli się jeszcze zająć językoznawcy.” B. Chaciński: Gdy epitet staje się bluzgiem: polityka.pl/tygodnikpolityka/ludzieistyle/1604567,1,gdy- zwykly-epitet-staje-sie-bluzgiem.read.

Przyszłość KJMW Choć program ministerialny się skończył, to prace trwają siła rozpędu. Zbieramy i transkrybujemy rozmowy. Nie wykluczamy integracji KJMW z innymi projektami polskimi i obcymi. Może nowy NKJP? Słownik miał stanowić tylko uzupełnienie bez ambicji wydawniczych, ale nie wykluczamy dalszego opracowania.