K ORPUS CHRONOLOGICZNY C HRONO P RESS JAKO ELEMENT INFRASTRUKTURY CLARIN-PL Prof. dr hab. Adam Pawłowski CLARIN-PL – polska infrastruktura badawcza dla nauk społecznych i humanistycznych Wrocław maja 2016
1. Kontekst 2. Analiza sekwencyjna w badaniach korpusowych 3. Korpus chronologiczny a „zwykłe” korpusy 4. Charakterystyka korpusu ChronoPress 5. ChronoPress w działaniu 6. Porównanie z innymi narzędziami (KORP, Google) Prof. Adam Pawłowski, Uniwersytet Wrocławski Plan prezentacji
1. Lawinowy przyrost tekstów cyfrowych 2. Powolna digitalizacja zasobów drukowanych 3. Wielość nośników i formatów 4. Presja ewolucyjna w społeczeństwie wiedzy 5. Rozwój rynku inteligentnych usług informacyjnych 6. Rozwój metod automatycznego przetwarzania tekstu 7. Czy jest miejsce na matematykę i statystykę? 8. Powstanie humanistyki cyfrowej i nowe pojmowanie lektury Prof. Adam Pawłowski, Uniwersytet Wrocławski Kontekst
Prof. Adam Pawłowski, Uniwersytet Wrocławski Podejście ilościowe a humanistyka cyfrowa Humanistyka cyfrowa Ochrona dziedzictwa Dostęp w nowym medium Efektywne metody badań
Prof. Adam Pawłowski, Uniwersytet Wrocławski Podejście ilościowe a humanistyka cyfrowa Humanistyka cyfrowa Ochrona dziedzictwa Dostęp w nowym medium Efektywne metody badań
1. Uchwycić wymiar ilościowy postrzeżeń jakościowych. 2. Dać zobiektywizowaną miarę porównawczą dla różnych zjawisk. 3. Dokonać syntezy dużej ilości informacji niedostępnych w liniowym procesie czytania. 4. Zaproponować predykcję zjawisk. Cel stosowania automatyzacji przetwarzania języka Prof. Adam Pawłowski, Uniwersytet Wrocławski
1. Uchwycić wymiar ilościowy postrzeżeń jakościowych. 2. Dać zobiektywizowaną miarę porównawczą dla różnych zjawisk. 3. Dokonać syntezy dużej ilości informacji niedostępnych w liniowym procesie czytania. 4. Zaproponować predykcję zjawisk. Cel stosowania automatyzacji przetwarzania języka Prof. Adam Pawłowski, Uniwersytet Wrocławski
1. Metoda reprezentacyjna (indukcja). 2. Obliczanie parametrów i wskaźników. – zaleta: prostota – wada: utrata informacji (nadmierna redukcja) 3. Tworzenie modeli funkcyjnych. 4. Redukcja wymiarów zalety: redukcja wielkiej ilości informacji, transdyscyplinarność wniosków wada: brak przejrzystości, niska intuicyjność wniosków Przetwarzanie języka metodami ścisłymi Prof. Adam Pawłowski, Uniwersytet Wrocławski
P ODEJŚCIE SEKWENCYJNE – POZIOM TEKSTOWY Prof. Adam Pawłowski, Uniwersytet Wrocławski Źródło Próbkowanie i digitalizacja sekwencja tekstu U1U1 U2U2 U3U3 UnUn Segmentacja na jednostki czas syntagmatyczny x1x1 x2x2 x3x3 xnxn Szereg tekstowy
P ODEJŚCIE SEKWENCYJNE : WIELE TEKSTÓW Prof. Adam Pawłowski, Uniwersytet Wrocławski Szereg leksykalny Korpusy Źródła Próbkowanie i digitalizacja czas C1C1 C2C2 C3C3 CnCn L1L1 L2L2 L3L3 LnLn Szereg czasowy x1x1 x2x2 x3x3 xnxn czas/porządek
K ORPUS CHRONOLOGICZNY Korpus chronologiczny Korpus chronologiczny charakteryzuje się ścisłym, wyrażonym za pomocą metadanych, uporządkowaniem sekwencyjnym tworzących go tekstów. Zachowana jest spójność formalna (ortografia i znaczenia) Zachowana jest ciągłość w dostatecznie długim okresie. Przykłady: Korpusy autorskie, korpusy prasy, korpusy systematycznie pojawiających się tekstów politycznych lub społecznych. Potencjalnie każdy wielki korpus. Korpus diachroniczny Istotą nie jest stabilność, lecz zmiana. Brak spójności formalnej (dopuszcza się nawet wiele języków). Ciągłość w długim okresie nie jest niezbędna (czas jest podporządkowany zmianie, a nie odwrotnie).
Szeregiem czasowym nazywamy sekwencję obserwacji realizacji zmiennej losowej na osi czasu. Wartości zmiennej mogą reprezentować obserwacje jednostkowe lub interwałowe (odcinki czasowe). Obserwowana zmienna losowa może być reprezentacją (kwantyfikacją) dowolnej cechy badanego systemu lub obiektu. Wybiera się jednak cechy relewantne, czyli istotne z jakiegoś powodu. A NALIZA SEKWENCYJNA – DEFINICJE Prof. Adam Pawłowski, Uniwersytet Wrocławski
Szereg czasowy może zawierać 3 składowe: T – tendencja główna (trend) P – oscylacje periodyczne E – składowa losowa (szum) Model szeregu zwykle ma postać addytywną: TS = T + P + E W badaniu szeregów leksykalnych wartości TS zawarte są w pewnym przedziale, dlatego szeregi takie w zasadzie są stacjonarne. M ODEL KLASYCZNY Prof. Adam Pawłowski, Uniwersytet Wrocławski
Każda składowa estymowana jest nieco inaczej: – dla tendencji głównej funkcje monotoniczne – dla oscylacji periodycznych f. periodyczne – dla słabych składowych periodycznych modele szeregów typu autoregresji (AR), ruchomej średniej (MA) lub mieszane A NALIZA S ZEREGU CZASOWEGO Prof. Adam Pawłowski, Uniwersytet Wrocławski
K ONSTRUKCJA KATEGORII CZASU Różne perspektywy: – strukturalna (linearność vs kolistość) – antropologiczna (czas polityczny, astronomiczny, kulturowy, cywilizacyjny) – metodologiczna (trend, oscylacje periodyczne, schemat katastrofy, element losowy)
K ONSTRUKCJA KATEGORII CZASU Różne perspektywy: – strukturalna (linearność vs kolistość) – antropologiczna (czas polityczny, astronomiczny, kulturowy, cywilizacyjny) – metodologiczna (trend, oscylacje periodyczne, schemat katastrofy, element losowy)
K ONSTRUKCJA KATEGORII CZASU 1. Czas astronomiczny (cykle naturalne) Leksemy związane z cyklicznymi zmianami pór roku i towarzyszącymi im zjawiskami. Przykładem są prace polowe, zjawiska pogodowe oraz pochodne (np. epidemie, akcje prewencyjne, katastrofy naturalne). 2. Czas polityczny (cykle polityczne i ekonomiczne) Tutaj wybory (także te fasadowe), posiedzenia ciał kolegialnych, terminy uchwalania / ogłaszania aktów prawnych etc. 3. Czas kulturowy (cykle kulturowe) Święta, rocznice, inne obrzędy lub powtarzające się rytuały kulturowe. Mogą mieć charakter oficjalny lub prywatny. 4. Czas cywilizacyjny (trend) Długotrwałe zmiany zakłócane tyko chwilowo.
S CHEMAT OSCYLACJI Leksem żniwa ChronoPress, frekwencje znormalizowane,
S CHEMAT OSCYLACJI Leksem mittens (rękawiczka) frekwencje znormalizowane, Google Books
S CHEMAT OSCYLACJI Leksem święto ChronoPress, frekwencje znormalizowane,
S CHEMAT OSCYLACJI Leksem Stalin ChronoPress, frekwencje znormalizowane,
S CHEMAT OSCYLACJI Leksemy Katowice i Stalinogród ChronoPress, frekwencje znormalizowane,
S CHEMAT OSCYLACJI Leksem tsunami Google Books, frekwencje znormalizowane
ChronoPress: stan obecny i perspektywy Rozbudowa pionowa (kolejne okresy) –> –> –> Rozbudowa pozioma (nowe języki): – nowe kanały transmisji (np. ścieżki dźwiękowe) – nowe style (np. teksty polityczne) – inne języki Włączanie w bazę nowych funkcjonalności Okres: Objętość: ok próbek /rok (łącznie ok ) Stan wykonania: 100% (część próbek „na kuracji”) Reprezentatywność: prasa oficjalna
ChronoPress: zawartość LpTytułSłów na mcProc.Numerów/mcSłów/nrPrób/mcRok 1Trybuna Ludu % Trybuna Robotnicza60005% Gazeta Robotnicza (L)60005% Sztandar Młodych % Żołnierz Wolności % Gromada60005% Chłopska Droga60005% Zielony Sztandar60005% Przekrój % Życie Warszawy (L)60005% Tygodnik Powszechny % Przyjaciółka % Kobieta i Życie00% Ekspres Wieczorny00% Przegląd sportowy00%0000 Suma %
NrTytułSłów na mcProc.Numerów/mcSłów/nrPrób/mcRok 1Głos Ludu120007% Robotnik120007% Rzeczpospolita120007% Trybuna Robotnicza/Śl. (L)60004% Dziennik Polski60004% Nowe Życie60004% Walka Młodych60004% Pionier (L)60004% Gazeta Lubelska60004% Słowo Pomorskie 11Kurier Szczeciński 12Wolna Łódź 13 Wiadomości Szczecińskie Pionier Szczeciński 14Wiadomości Bydgoskie 15Polska Zbrojna120007% Zwyciężymy120007% Orzeł Biały60004% Wolna Polska60004% Wolność120007% Chłopi60004% Chłopska Droga60004% Wieś 23Zielony Sztandar60004% Przekrój120007% Życie Warszawy (L)60004% Tygodnik Powszechny120007% Gość Niedzielny (Ekspres Wieczorny)00%0000 (Przegląd sportowy)00%0000 Suma % ChronoPress: zawartość 1945
ChronoPress: narzędzia Preselekcja Przeglądarka próbek Analiza ilościowa – histogram Zipfa, – histogram długości średnich Szeregi czasowe Eksploracja danych – lista frekwencyjne – konkordancja – mapa toponimów Stylometria (w planach)
N ARZĘDZIA chronopress.clarin-pl.eu/ spraakbanken.gu.se/ books.google.com/ngrams/
DZIĘKUJĘ ZA UWAGĘ Uwaga: żaden fragment niniejszej prezentacji ekranowej (tekst, grafika, logotypy) nie może być powielany lub rozpowszechniany w żadnej formie i w żaden sposób bez uprzedniego zezwolenia ich twórcy. Wszelkie znaki graficzne, nazwy własne, logotypy i inne dane są chronione prawem autorskim i należą do ich właścicieli.