Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.

Podobne prezentacje


Prezentacja na temat: "ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego."— Zapis prezentacji:

1 ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl wt 15.30-16.30, pok. 1 Konsultacje: wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl

2 Spotkanie 3 Sherlock (Holmes).

3 Korpus PWN (1) 3 Dostęp: http://korpus.pwn.pl/ (wersja demonstracyjna) http://korpus.pwn.pl/ Korpus Języka Polskiego PWN, płyta CD, Warszawa 2003 (7 mln: PWN + „Rzeczpospolita”) Pełny korpus sieciowy (oferta komercyjna)

4 Korpus PWN (2) 4

5 Wyszukiwarki (1) 5 Wyszukiwarki: --- Dla klientów PWN on-line (wersja demonstracyjna) na płycie (wersja 7 mln) --- Dla leksykografów PWN Sherlock

6 Wyszukiwarki (2) 6

7 Wyszukiwarki (3) 7

8 o Grant KBN nr 5 H01D 019 20: Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik:Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko o Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf 8 Grant, AMOR, Składak

9 Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa 2004 9 Grant, AMOR, Składak

10 Zadanie: opracowanie oprogramowania do obsługi wielkich korpusów tekstów polskich. Odbiorca: leksykograf. Podstawa empiryczna: zrównoważony wycinek Korpusu PWN (2-7 mln słów). Narzędzia: przeszukiwanie tekstu, nie znakowanie. Wyniki kwerendy: dostępne natychmiast. 10 Sherlock - Holmes (1)

11 Obsługa korpusu: segmentacja tekstu na wypowiedzenia analiza gramatyczna słów (także: lematyzacja) analiza gramatyczna nieznanych słów na podstawie zakończeń ujednoznacznianie jakościowe 11 Sherlock - Holmes (2)

12 Produkt końcowy: narzędzia ujednoznaczniania morfologicznego publikacje 12 Sherlock - Holmes (3)

13 Narzędzia [tagger] ZDANIA AMOR [slowotworca] NIEZNANE REGULY FREQ Weszły one w skład aplikacji Sherlock (środowisko Linux). Holmes – program wizualizacji wyników w środowisku Windows. 13 Sherlock - Holmes (4)

14 Publikacje M. Rudolf, Metody automatycznej analizy korpusu tekstów polskich. Uniwersytet Warszawski. Wydział Polonistyki, Warszawa 2004. Stron 152. M. Świdziński, M. Derwojedowa, M. Rudolf, „Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich”. BPTJ LVIII, Warszawa 2003. 187-199. J. Rabiega-Wiśniewska, M. Rudolf, „Towards a Bi-Modular Analyzer of Large Polish Corpora”. [W:] Investigations into Formal Slavic Linguistics. Contributions of the FDSL IV, Frankfurt am Main 2003. 363-372. 14 Sherlock - Holmes (5)

15 Program ujednoznaczniania automatycznego = tagger. Praktycznie: wygenerowanie wszystkich interpretacji odrzucenie interpretacji niewłaściwych 15 Ujednoznacznianie (1)

16 Metody ujednoznaczniania: statystyczne regułowe lingwistyczne (z regułami usuwania interpretacji) W naszym projekcie – metody lingwistyczne. Por. K. Oliva, „Linguistics-Based PoS-Tagging of Czech: Disambiguation of se as a Test Case”. [W:] Investigations into..., 299-314. 16 Ujednoznacznianie (2)

17 Przebieg analizy: segmentacja tekstu na wypowiedzenia (program ZDANIA) analiza morfologiczna (program AMOR z zadanym słownikiem gramatycznym; J. Rabiega-Wiśniewska. analiza nieznanych słów (program NIEZNANE) wczytanie i posortowanie reguł lingwistycznych, wielokrotne wypróbowywanie każdej reguły dla danego wypowiedzenia (program REGULY) 17 Ujednoznacznianie (3)

18 Wyszukiwanie: Program korzysta jedynie z informacji dostępnych w plikach, w czasie przeszukiwania nie jest przeprowadzana żadna dodatkowa analiza 18 Ujednoznacznianie (4)

19 Przykładowe reguły: REGUŁA Dwie formy finitywne czasownika muszą być rozdzielone znakiem interpunkcyjnym lub spójnikiem. REGUŁA Słowo z jest formą przyimka tylko wtedy, kiedy następuje po nim forma dopełniacza lub narzędnika. REGUŁA Słowo zaraz jest formą partykuły. REGUŁA Przymiotnik i sąsiadujący z nim rzeczownik są uzgodnione pod względem przypadka, liczby i rodzaju. 19 Ujednoznacznianie (5)

20 Zbiór 110 reguł (z zadanym ręcznie stopniem niezawodności): ogólne leksykalne frekwencyjne heurystyczne 20 Ujednoznacznianie (6)

21 Pokaz: Myśl łatwo powstająca natychmiast przepływa w inną lub znika Kuriata To tak jakby ktoś z pięćdziesiąt razy dziennie biegał tam i z powrotem na czwarte piętro. Kowalewski Czułam, że mi zaraz łzy trysną z oczu, bo już mnie kurcz chwycił za gardło. Bocheński Istnieją skuteczne metody, głównie chemiczne, zwalczania chorób i szkodników roślin, a tym samym ograniczania szkód. Fereniec 21 Ujednoznacznianie (7)

22 22 Holmes (1)

23 23 Holmes (2)

24 24 Holmes (3)

25 25 Holmes (4)

26 26 Holmes (5)

27 27 Kwerendy (1) [ 1] charakterystykaprzyimek [ 2] następny leksem godzina [* ] tylko pierwsze wystąpienie leksemu w warunku pierwszym [ 1] charakterystykarzeczownik [ 2] następnyleksem o [ 3] następny charakterystykaprzymiotnik, miejscownik [ 4] następny charakterystykarzeczownik, miejscownik

28 28 Kwerendy (2) [ 1] leksembowiem [ 2] poprzednisłowo, [ 1] wzorzecanty* [ 2] następnycharakterystykarzeczownik [ * ] tylko pierwsze wystąpienie leksemu w warunku drugim [ 1] charakterystykaliczebnik_ zbiorowy [ 2] następnycharakterystykarzeczownik [ 3] ten sam nie leksemdziecko

29 [1] RESTRUKTURYZACJA w różnych stylach. [2] Wypowiedzenia pytajne, wykrzyknikowe, niepytajne. [3] Myślnik i dywiz: leksemy złożone. [4] KTÓRY (zaimek względny): przyimki złożone. [5] JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ, PRZEJECHAĆ – wprowadzane przyimki. [6] Spójniki z aglutynantem. [7] Aglutynant doczepiony wewnątrz zdania. [8] Czasowniki wymagające zdania JAKOBY. 29 Dalsze poszukiwania (1)

30 [9] Poszukiwania kolokacji. [10] Frazeologizmy łączliwe: lista składników wymiennych. [11] Przymiotnik w stopniu wyższym: OD czy NIŻ? [12] Bezokoliczniki po DAĆ. [13] AŻ1 i AŻ2. 30 Dalsze poszukiwania (2)


Pobierz ppt "ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego."

Podobne prezentacje


Reklamy Google