ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW wt , pok. 1 Konsultacje: wt , pok. 1 Strona internetowa:
Spotkanie 3 Sherlock (Holmes).
Korpus PWN (1) 3 Dostęp: (wersja demonstracyjna) Korpus Języka Polskiego PWN, płyta CD, Warszawa 2003 (7 mln: PWN + „Rzeczpospolita”) Pełny korpus sieciowy (oferta komercyjna)
Korpus PWN (2) 4
Wyszukiwarki (1) 5 Wyszukiwarki: --- Dla klientów PWN on-line (wersja demonstracyjna) na płycie (wersja 7 mln) --- Dla leksykografów PWN Sherlock
Wyszukiwarki (2) 6
Wyszukiwarki (3) 7
o Grant KBN nr 5 H01D : Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik:Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko o Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf 8 Grant, AMOR, Składak
Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa Grant, AMOR, Składak
Zadanie: opracowanie oprogramowania do obsługi wielkich korpusów tekstów polskich. Odbiorca: leksykograf. Podstawa empiryczna: zrównoważony wycinek Korpusu PWN (2-7 mln słów). Narzędzia: przeszukiwanie tekstu, nie znakowanie. Wyniki kwerendy: dostępne natychmiast. 10 Sherlock - Holmes (1)
Obsługa korpusu: segmentacja tekstu na wypowiedzenia analiza gramatyczna słów (także: lematyzacja) analiza gramatyczna nieznanych słów na podstawie zakończeń ujednoznacznianie jakościowe 11 Sherlock - Holmes (2)
Produkt końcowy: narzędzia ujednoznaczniania morfologicznego publikacje 12 Sherlock - Holmes (3)
Narzędzia [tagger] ZDANIA AMOR [slowotworca] NIEZNANE REGULY FREQ Weszły one w skład aplikacji Sherlock (środowisko Linux). Holmes – program wizualizacji wyników w środowisku Windows. 13 Sherlock - Holmes (4)
Publikacje M. Rudolf, Metody automatycznej analizy korpusu tekstów polskich. Uniwersytet Warszawski. Wydział Polonistyki, Warszawa Stron 152. M. Świdziński, M. Derwojedowa, M. Rudolf, „Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich”. BPTJ LVIII, Warszawa J. Rabiega-Wiśniewska, M. Rudolf, „Towards a Bi-Modular Analyzer of Large Polish Corpora”. [W:] Investigations into Formal Slavic Linguistics. Contributions of the FDSL IV, Frankfurt am Main Sherlock - Holmes (5)
Program ujednoznaczniania automatycznego = tagger. Praktycznie: wygenerowanie wszystkich interpretacji odrzucenie interpretacji niewłaściwych 15 Ujednoznacznianie (1)
Metody ujednoznaczniania: statystyczne regułowe lingwistyczne (z regułami usuwania interpretacji) W naszym projekcie – metody lingwistyczne. Por. K. Oliva, „Linguistics-Based PoS-Tagging of Czech: Disambiguation of se as a Test Case”. [W:] Investigations into..., Ujednoznacznianie (2)
Przebieg analizy: segmentacja tekstu na wypowiedzenia (program ZDANIA) analiza morfologiczna (program AMOR z zadanym słownikiem gramatycznym; J. Rabiega-Wiśniewska. analiza nieznanych słów (program NIEZNANE) wczytanie i posortowanie reguł lingwistycznych, wielokrotne wypróbowywanie każdej reguły dla danego wypowiedzenia (program REGULY) 17 Ujednoznacznianie (3)
Wyszukiwanie: Program korzysta jedynie z informacji dostępnych w plikach, w czasie przeszukiwania nie jest przeprowadzana żadna dodatkowa analiza 18 Ujednoznacznianie (4)
Przykładowe reguły: REGUŁA Dwie formy finitywne czasownika muszą być rozdzielone znakiem interpunkcyjnym lub spójnikiem. REGUŁA Słowo z jest formą przyimka tylko wtedy, kiedy następuje po nim forma dopełniacza lub narzędnika. REGUŁA Słowo zaraz jest formą partykuły. REGUŁA Przymiotnik i sąsiadujący z nim rzeczownik są uzgodnione pod względem przypadka, liczby i rodzaju. 19 Ujednoznacznianie (5)
Zbiór 110 reguł (z zadanym ręcznie stopniem niezawodności): ogólne leksykalne frekwencyjne heurystyczne 20 Ujednoznacznianie (6)
Pokaz: Myśl łatwo powstająca natychmiast przepływa w inną lub znika Kuriata To tak jakby ktoś z pięćdziesiąt razy dziennie biegał tam i z powrotem na czwarte piętro. Kowalewski Czułam, że mi zaraz łzy trysną z oczu, bo już mnie kurcz chwycił za gardło. Bocheński Istnieją skuteczne metody, głównie chemiczne, zwalczania chorób i szkodników roślin, a tym samym ograniczania szkód. Fereniec 21 Ujednoznacznianie (7)
22 Holmes (1)
23 Holmes (2)
24 Holmes (3)
25 Holmes (4)
26 Holmes (5)
27 Kwerendy (1) [ 1] charakterystykaprzyimek [ 2] następny leksem godzina [* ] tylko pierwsze wystąpienie leksemu w warunku pierwszym [ 1] charakterystykarzeczownik [ 2] następnyleksem o [ 3] następny charakterystykaprzymiotnik, miejscownik [ 4] następny charakterystykarzeczownik, miejscownik
28 Kwerendy (2) [ 1] leksembowiem [ 2] poprzednisłowo, [ 1] wzorzecanty* [ 2] następnycharakterystykarzeczownik [ * ] tylko pierwsze wystąpienie leksemu w warunku drugim [ 1] charakterystykaliczebnik_ zbiorowy [ 2] następnycharakterystykarzeczownik [ 3] ten sam nie leksemdziecko
[1] RESTRUKTURYZACJA w różnych stylach. [2] Wypowiedzenia pytajne, wykrzyknikowe, niepytajne. [3] Myślnik i dywiz: leksemy złożone. [4] KTÓRY (zaimek względny): przyimki złożone. [5] JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ, PRZEJECHAĆ – wprowadzane przyimki. [6] Spójniki z aglutynantem. [7] Aglutynant doczepiony wewnątrz zdania. [8] Czasowniki wymagające zdania JAKOBY. 29 Dalsze poszukiwania (1)
[9] Poszukiwania kolokacji. [10] Frazeologizmy łączliwe: lista składników wymiennych. [11] Przymiotnik w stopniu wyższym: OD czy NIŻ? [12] Bezokoliczniki po DAĆ. [13] AŻ1 i AŻ2. 30 Dalsze poszukiwania (2)