K ORPUS CHRONOLOGICZNY C HRONO P RESS JAKO ELEMENT INFRASTRUKTURY CLARIN-PL Prof. dr hab. Adam Pawłowski CLARIN-PL – polska infrastruktura badawcza dla.

Slides:



Advertisements
Podobne prezentacje
Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
Advertisements

Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
1 FRAZEOTRANSLACJA ORAZ JEJ ZNACZENIE W KSZTAŁCENIU I DOSKONALENIU TŁUMACZY MONIKA SUŁKOWSKA Instytut Języków Romańskich i Translatoryki Uniwersytet Śląski,
ŚREDNIOWIECZE A DZISIEJSZE CZASY. PODZIAŁ NA GRUPY SPOŁECZNE KIEDYŚ DZISIAJ -chłopi -bezdomni -mieszczanie/rzemieślnicy -normalni ludzie -szlachta/duchowni.
„Jak pomóc uczniom się uczyć i czerpać z tego radość?” opracowała: Krystyna Turska.
OBOWIĄZKI INFORMACYJNE BENEFICJENTA Zintegrowane Inwestycje Terytorialne Aglomeracji Wałbrzyskiej.
Rachunki regionalne Urząd Statystyczny w Katowicach Ośrodek Rachunków Regionalnych Ogólnopolska konferencja naukowa z okazji obchodów Dnia Statystyki Polskiej.
Podstawy Przedsiębiorczości Wykład 4h + Ćwiczenia 4h Rafał Paśko PWSW Przemyśl.
„e-Gdańsk – europejska metropolia on-line” Projekt Współfinansowany przez Unię Europejską z Europejskiego Funduszu Rozwoju Regionalnego.
BYĆ PRZEDSIĘBIORCZYM - nauka przez praktykę Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Przestrzenne zróżnicowanie potencjału innowacyjnego w Polsce Dr Robert Guzik Uniwersytet Jagielloński Instytut Geografii i Gospodarki Przestrzennej Zakład.
Portale społecznościowe. Serwis społecznościowy  to serwis internetowy, który istnieje w oparciu o zgromadzoną wokół niego społeczność. Tworzy tak zwane.
Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego Benchmarking – narzędzie efektywnej kontroli zarządczej.
OPERATORZY LOGISTYCZNI 3 PL I 4PL NA TLE RYNKU TSL Prof. zw.dr hab. Włodzimierz Rydzkowski Uniwersytet Gdańsk, Katedra Polityki Transportowej.
Rozliczanie kosztów działalności pomocniczej
Olsztyn, 27 czerwca 2012 Propozycja zmian kryteriów merytorycznych dla Osi I Przedsiębiorczość RPO WiM w ramach Poddziałania
Środki językowe w reklamie Analiza wybranych tekstów reklamowych.
Przyjmowanie i obsługa wniosków LGD Lokalna Grupa Działania Wadoviana 8 września 2009.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ekonometria Wykład 1 Uwarunkowania modelowania ekonometrycznego. Uogólniona metoda najmniejszych kwadratów dr hab. Mieczysław Kowerski.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Prof. Marek Wichroski Kierownik Zakładu Historii Medycyny i Filozofii Warszawskiego Uniwersytetu Medycznego.
31 maja 2016r. 1 Regionalne badanie nastrojów społecznych wokół UEFA EURO 2012™ Prezentacja wyników badania z mieszkańcami Gdańska, Poznania,
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
INFRASTRUKTURA SPORTOWA W LATACH OBIEKTÓW SPORTOWYCH.
Co potrafię w przyjaźni z komputerem?.  Z jakich elementów się składa? Z jakich elementów się składa?  Do czego służy? Do czego służy?  Jakie programy.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Wprowadzenie Celem naszej prezentacji jest przypomnienie podstawowych informacji na temat bezpiecznego powrotu do domu i nie tylko. A więc zaczynamy…;)
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
Metodologia opracowywania powiatowej mapy zagrożeń oraz powiatowego programu poprawy bezpieczeństwa – warsztaty Wrocław, 28 października 2010 r. Projekt.
Wyniki badania - Infolinia jako kanał komunikacji z klientem Aby zobaczyć prezentację badania należy wybrać przycisk F5. Poruszanie się pomiędzy.
MOŻLIWOŚCI EKSPERYMENTALNO- TEORETYCZNEGO MODELOWANIA PROCESU SPALANIA ODPADÓW W WARSTWIE RUCHOMEJ ORAZ OPTYMALIZACJI PRACY SPALARNI ODPADÓW Realizowane.
Ewolucja S tandardu L eśnej M apy N umerycznej III Krajowa Konferencja pt. „System Informacji Przestrzennej w Lasach Państwowych – stan i perspektywy wdrażania.
BYĆ PRZEDSIĘBIORCZYM - nauka przez praktykę Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
OPTYMALNY CEL I PODSTAWY ROZWOJU SZKOŁY. PRZEDE WSZYSTKIM DZISIEJSZA SZKOŁA POWINNA PRZYGOTOWYWAĆ DO ŻYCIA W DRUGIEJ POŁOWIE XXI WIEKU.
E-sądy po polsku IV EDYCJA Badanie i ranking stron internetowych sądów okręgowych i apelacyjnych oraz Sądu Najwyższego i Trybunału Konstytucyjnego 3 kwietnia.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Równowaga rynkowa w doskonałej konkurencji w krótkim okresie czasu Równowaga rynkowa to jest stan, kiedy przy danej cenie podaż jest równa popytowi. p.
Cyfrowa Polska szansą dla rozwoju sektora ICT 1 Agnieszka Suska Naczelnik Departament Funduszy Strukturalnych Ministerstwo Administracji i Cyfryzacji Gdańsk,
ANALIZA DANYCH DO OPRACOWANIA MAP TEMATYCZNYCH HALINA KLIMCZAK INSTYTUT GEODEZJI I GEOINFORMATYKI UNIWERSYTET PRZYRODNICZY WE WROCŁAWIU.
Metoda kartogramów. Definicja Metoda służy do przedstawiania średniej intensywności zjawiska w granicach określonych pól odniesienia. Wartości obliczane.
WYNIKI ANKIETY INTERNETOWEJ Opracowanie wyników: Dr Jarosław Załęcki Mgr Maciej Brosz „Współtwórz swoje miasto. Wysokościowce w Gdańsku”
Badanie dynamiki zjawisk dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Dzieci i szkolnictwo w Mali. Warunki życia dzieci Jednym z największych problemów w kraju jest bardzo wysoki współczynnik umieralności dzieci do 5. roku.
Komunikacja interpersonalna to wymiana informacji mi ę dzy jej uczestnikami. Komunikacja interpersonalna to wymiana informacji mi ę dzy jej uczestnikami.
„Gdański model aktywizacji społeczności lokalnych” Gdańsk, 27 kwietnia 2009.
Kryteria formalne specyficzne i kryteria premiujące w ramach konkursu nr RPLU IZ /16 Ewa Pachowska – Kurzepa Departament Wdrażania EFS.
Finansowanie wybranych działań w parkach narodowych przy udziale środków funduszu leśnego - zakres merytoryczny Warszawa, 06 kwietnia 2016 r.
Przyszłość bibliotek cyfrowych Możliwe scenariusze Remigiusz Lis Biblioteka Śląska- Śląska Biblioteka Cyfrowa.
Analiza spektralna. Laser i jego zastosowanie.
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
 Informatyk jest to osoba, która wykształciła się na specjalistę w dziedzinie nowych technologii, posiadająca wiedzę i umiejętności na temat ogółu metod.
Wieloaspektowa analiza czasowo- kosztowa projektów ze szczególnym uwzględnieniem kryterium jakości rozwiązań projektowych AUTOR: ANNA MARCINKOWSKA PROMOTOR:
Program na rzecz Przedsiębiorczości i Innowacji (EIP) Aleksander Bąkowski Krajowy Punkt Kontaktowy Programów Badawczych UE Instytut Podstawowych Problemów.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Liceum Ogólnokształcące w ZSP w Drawsku Pomorskim Opiekun: Sylwia Tomaszewska MAŁA MANUFAKTURA spółka jawna.
# Analiza cech taksacyjnych drzewostanów przy wykorzystaniu technologii LIDAR 1 15 Sep 2010 Analiza cech taksacyjnych drzewostanów przy wykorzystaniu technologii.
Definiowanie i planowanie zadań typu P 1.  Planowanie zadań typu P  Zadania typu P to zadania unikalne służące zwykle dokonaniu jednorazowej, konkretnej.
Każdy człowiek ma prawo do... - problem łamania praw człowieka w Azji.
Ogólne pojęcie prawa. Prawa człowieka- zespół praw i wolności, kt ó re przysługują każdemu człowiekowi bez względu na rasę, płeć, język, wyznanie, przekonania.
Strategia RIT Subregionu Zachodniego Województwa Śląskiego – RIT.
Podstawy automatyki I Wykład /2016
Podstawy informatyki Zygfryd Głowacz.
Stan wykonania celów rzeczowo – finansowych
dr Robert Kowalczyk, PWSZ Płock
Zapis prezentacji:

K ORPUS CHRONOLOGICZNY C HRONO P RESS JAKO ELEMENT INFRASTRUKTURY CLARIN-PL Prof. dr hab. Adam Pawłowski CLARIN-PL – polska infrastruktura badawcza dla nauk społecznych i humanistycznych Wrocław maja 2016

1. Kontekst 2. Analiza sekwencyjna w badaniach korpusowych 3. Korpus chronologiczny a „zwykłe” korpusy 4. Charakterystyka korpusu ChronoPress 5. ChronoPress w działaniu 6. Porównanie z innymi narzędziami (KORP, Google) Prof. Adam Pawłowski, Uniwersytet Wrocławski Plan prezentacji

1. Lawinowy przyrost tekstów cyfrowych 2. Powolna digitalizacja zasobów drukowanych 3. Wielość nośników i formatów 4. Presja ewolucyjna w społeczeństwie wiedzy 5. Rozwój rynku inteligentnych usług informacyjnych 6. Rozwój metod automatycznego przetwarzania tekstu 7. Czy jest miejsce na matematykę i statystykę? 8. Powstanie humanistyki cyfrowej i nowe pojmowanie lektury Prof. Adam Pawłowski, Uniwersytet Wrocławski Kontekst

Prof. Adam Pawłowski, Uniwersytet Wrocławski Podejście ilościowe a humanistyka cyfrowa Humanistyka cyfrowa Ochrona dziedzictwa Dostęp w nowym medium Efektywne metody badań

Prof. Adam Pawłowski, Uniwersytet Wrocławski Podejście ilościowe a humanistyka cyfrowa Humanistyka cyfrowa Ochrona dziedzictwa Dostęp w nowym medium Efektywne metody badań

1. Uchwycić wymiar ilościowy postrzeżeń jakościowych. 2. Dać zobiektywizowaną miarę porównawczą dla różnych zjawisk. 3. Dokonać syntezy dużej ilości informacji niedostępnych w liniowym procesie czytania. 4. Zaproponować predykcję zjawisk. Cel stosowania automatyzacji przetwarzania języka Prof. Adam Pawłowski, Uniwersytet Wrocławski

1. Uchwycić wymiar ilościowy postrzeżeń jakościowych. 2. Dać zobiektywizowaną miarę porównawczą dla różnych zjawisk. 3. Dokonać syntezy dużej ilości informacji niedostępnych w liniowym procesie czytania. 4. Zaproponować predykcję zjawisk. Cel stosowania automatyzacji przetwarzania języka Prof. Adam Pawłowski, Uniwersytet Wrocławski

1. Metoda reprezentacyjna (indukcja). 2. Obliczanie parametrów i wskaźników. – zaleta: prostota – wada: utrata informacji (nadmierna redukcja) 3. Tworzenie modeli funkcyjnych. 4. Redukcja wymiarów zalety: redukcja wielkiej ilości informacji, transdyscyplinarność wniosków wada: brak przejrzystości, niska intuicyjność wniosków Przetwarzanie języka metodami ścisłymi Prof. Adam Pawłowski, Uniwersytet Wrocławski

P ODEJŚCIE SEKWENCYJNE – POZIOM TEKSTOWY Prof. Adam Pawłowski, Uniwersytet Wrocławski Źródło Próbkowanie i digitalizacja sekwencja tekstu U1U1 U2U2 U3U3 UnUn Segmentacja na jednostki czas syntagmatyczny x1x1 x2x2 x3x3 xnxn Szereg tekstowy

P ODEJŚCIE SEKWENCYJNE : WIELE TEKSTÓW Prof. Adam Pawłowski, Uniwersytet Wrocławski Szereg leksykalny Korpusy Źródła Próbkowanie i digitalizacja czas C1C1 C2C2 C3C3 CnCn L1L1 L2L2 L3L3 LnLn Szereg czasowy x1x1 x2x2 x3x3 xnxn czas/porządek

K ORPUS CHRONOLOGICZNY Korpus chronologiczny Korpus chronologiczny charakteryzuje się ścisłym, wyrażonym za pomocą metadanych, uporządkowaniem sekwencyjnym tworzących go tekstów. Zachowana jest spójność formalna (ortografia i znaczenia) Zachowana jest ciągłość w dostatecznie długim okresie. Przykłady: Korpusy autorskie, korpusy prasy, korpusy systematycznie pojawiających się tekstów politycznych lub społecznych. Potencjalnie każdy wielki korpus. Korpus diachroniczny Istotą nie jest stabilność, lecz zmiana. Brak spójności formalnej (dopuszcza się nawet wiele języków). Ciągłość w długim okresie nie jest niezbędna (czas jest podporządkowany zmianie, a nie odwrotnie).

Szeregiem czasowym nazywamy sekwencję obserwacji realizacji zmiennej losowej na osi czasu. Wartości zmiennej mogą reprezentować obserwacje jednostkowe lub interwałowe (odcinki czasowe). Obserwowana zmienna losowa może być reprezentacją (kwantyfikacją) dowolnej cechy badanego systemu lub obiektu. Wybiera się jednak cechy relewantne, czyli istotne z jakiegoś powodu. A NALIZA SEKWENCYJNA – DEFINICJE Prof. Adam Pawłowski, Uniwersytet Wrocławski

Szereg czasowy może zawierać 3 składowe: T – tendencja główna (trend) P – oscylacje periodyczne E – składowa losowa (szum) Model szeregu zwykle ma postać addytywną: TS = T + P + E W badaniu szeregów leksykalnych wartości TS zawarte są w pewnym przedziale, dlatego szeregi takie w zasadzie są stacjonarne. M ODEL KLASYCZNY Prof. Adam Pawłowski, Uniwersytet Wrocławski

Każda składowa estymowana jest nieco inaczej: – dla tendencji głównej funkcje monotoniczne – dla oscylacji periodycznych f. periodyczne – dla słabych składowych periodycznych modele szeregów typu autoregresji (AR), ruchomej średniej (MA) lub mieszane A NALIZA S ZEREGU CZASOWEGO Prof. Adam Pawłowski, Uniwersytet Wrocławski

K ONSTRUKCJA KATEGORII CZASU Różne perspektywy: – strukturalna (linearność vs kolistość) – antropologiczna (czas polityczny, astronomiczny, kulturowy, cywilizacyjny) – metodologiczna (trend, oscylacje periodyczne, schemat katastrofy, element losowy)

K ONSTRUKCJA KATEGORII CZASU Różne perspektywy: – strukturalna (linearność vs kolistość) – antropologiczna (czas polityczny, astronomiczny, kulturowy, cywilizacyjny) – metodologiczna (trend, oscylacje periodyczne, schemat katastrofy, element losowy)

K ONSTRUKCJA KATEGORII CZASU 1. Czas astronomiczny (cykle naturalne) Leksemy związane z cyklicznymi zmianami pór roku i towarzyszącymi im zjawiskami. Przykładem są prace polowe, zjawiska pogodowe oraz pochodne (np. epidemie, akcje prewencyjne, katastrofy naturalne). 2. Czas polityczny (cykle polityczne i ekonomiczne) Tutaj wybory (także te fasadowe), posiedzenia ciał kolegialnych, terminy uchwalania / ogłaszania aktów prawnych etc. 3. Czas kulturowy (cykle kulturowe) Święta, rocznice, inne obrzędy lub powtarzające się rytuały kulturowe. Mogą mieć charakter oficjalny lub prywatny. 4. Czas cywilizacyjny (trend) Długotrwałe zmiany zakłócane tyko chwilowo.

S CHEMAT OSCYLACJI Leksem żniwa ChronoPress, frekwencje znormalizowane,

S CHEMAT OSCYLACJI Leksem mittens (rękawiczka) frekwencje znormalizowane, Google Books

S CHEMAT OSCYLACJI Leksem święto ChronoPress, frekwencje znormalizowane,

S CHEMAT OSCYLACJI Leksem Stalin ChronoPress, frekwencje znormalizowane,

S CHEMAT OSCYLACJI Leksemy Katowice i Stalinogród ChronoPress, frekwencje znormalizowane,

S CHEMAT OSCYLACJI Leksem tsunami Google Books, frekwencje znormalizowane

ChronoPress: stan obecny i perspektywy Rozbudowa pionowa (kolejne okresy) –> –> –> Rozbudowa pozioma (nowe języki): – nowe kanały transmisji (np. ścieżki dźwiękowe) – nowe style (np. teksty polityczne) – inne języki Włączanie w bazę nowych funkcjonalności Okres: Objętość: ok próbek /rok (łącznie ok ) Stan wykonania: 100% (część próbek „na kuracji”) Reprezentatywność: prasa oficjalna

ChronoPress: zawartość LpTytułSłów na mcProc.Numerów/mcSłów/nrPrób/mcRok 1Trybuna Ludu % Trybuna Robotnicza60005% Gazeta Robotnicza (L)60005% Sztandar Młodych % Żołnierz Wolności % Gromada60005% Chłopska Droga60005% Zielony Sztandar60005% Przekrój % Życie Warszawy (L)60005% Tygodnik Powszechny % Przyjaciółka % Kobieta i Życie00% Ekspres Wieczorny00% Przegląd sportowy00%0000 Suma %

NrTytułSłów na mcProc.Numerów/mcSłów/nrPrób/mcRok 1Głos Ludu120007% Robotnik120007% Rzeczpospolita120007% Trybuna Robotnicza/Śl. (L)60004% Dziennik Polski60004% Nowe Życie60004% Walka Młodych60004% Pionier (L)60004% Gazeta Lubelska60004% Słowo Pomorskie 11Kurier Szczeciński 12Wolna Łódź 13 Wiadomości Szczecińskie Pionier Szczeciński 14Wiadomości Bydgoskie 15Polska Zbrojna120007% Zwyciężymy120007% Orzeł Biały60004% Wolna Polska60004% Wolność120007% Chłopi60004% Chłopska Droga60004% Wieś 23Zielony Sztandar60004% Przekrój120007% Życie Warszawy (L)60004% Tygodnik Powszechny120007% Gość Niedzielny (Ekspres Wieczorny)00%0000 (Przegląd sportowy)00%0000 Suma % ChronoPress: zawartość 1945

ChronoPress: narzędzia Preselekcja Przeglądarka próbek Analiza ilościowa – histogram Zipfa, – histogram długości średnich Szeregi czasowe Eksploracja danych – lista frekwencyjne – konkordancja – mapa toponimów Stylometria (w planach)

N ARZĘDZIA chronopress.clarin-pl.eu/ spraakbanken.gu.se/ books.google.com/ngrams/

DZIĘKUJĘ ZA UWAGĘ Uwaga: żaden fragment niniejszej prezentacji ekranowej (tekst, grafika, logotypy) nie może być powielany lub rozpowszechniany w żadnej formie i w żaden sposób bez uprzedniego zezwolenia ich twórcy. Wszelkie znaki graficzne, nazwy własne, logotypy i inne dane są chronione prawem autorskim i należą do ich właścicieli.