ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.

Slides:



Advertisements
Podobne prezentacje
Katarzyna Szypuła-Sajon
Advertisements

LEKTORATY.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prezentacja Organizacja informacji o zasobach w katalogu komputerowym
Wyszukiwarki internetowe
Wyszukiwanie i zapisywanie informacji
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
Joanna Dziak Urszula Długaj Halina Skrzypiec
POLSKIE TOWARZYSTWO FONETYCZNE Analiza, synteza i rozpoznawanie mowy w lingwistyce, technice i medycynie Szczyrk 2003 System Thetos w serwisie tekstów.
® System do analizy tekstów ortograficznych Cezary Dołęga,
JĘZYK POLSKI KLASY IV - VI
Katalog komputerowy WebPac
Wyższa Szkoła Informatyki i Zarządzania
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Studia Podyplomowe „Polski Język Migowy” III edycja Instytut Języka Polskiego Uniwersytet Warszawski
Zrozumieć „myślenie przestrzenią”.
1. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
2. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Automatyczna analiza i synteza derywacyjna tekstu polskiego
6. Wprowadzenie do nauki o języku A1NJ
1. Wprowadzenie do nauki o języku A1NJ
OPIS PRZEDMIOTU (ZAJĘĆ)
TEQUILA\ TELEWYKŁADY W OCZACH STUDENTÓW wyniki ilościowe ankiety audytoryjnej zrealizowanej w latach akademickich: 2004/ / /2007 mgr Joanna.
E-learning jako element warsztatu informacyjnego współczesnej biblioteki Joanna Rudna Biblioteka WydziałuTechniki Morskiej ZUT.
Rok: 2007/2008 Autor: Zuzia Didyk i Justyna Wajda
Gra Scrabble ® na urządzenie Nokia N800 Autor: Michał Filipowicz Promotor: dr inż. Jerzy Zaczek Konsultant: mgr inż. Krzysztof Rzecki.
Odmienne i nieodmienne części mowy
Mariusz Polarczyk, Zofia Kasprzak
SurfSafe Polskie usługi bezpieczeństwa treści internetowych klasy operatorskiej Grzegorz Wróbel, Michał Przytulski.
Powtórka z polskiego dla klas 5-6
STAĆ CIĘ NA INNOWACJE System CRM w Focus Telecom Polska - cechy i funkcjonalność usługi Autor: Tomasz Paprocki.
11. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
Aby wejść na stronę główną Centrum Kształcenia Ustawicznego w Białymstoku, wpisz adres strony: (Rys.1.)
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
SPECJALNOŚĆ: Oprogramowanie Systemowe
BAZA PUBLIKACJI PRACOWNIKÓW, DOKTORANTÓW I STUDENTÓW AMW
IBUK Libra WIRTUALNA CZYTELNIA
Podstawy programowania
C++.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
HTML (ang. HyperText Markup Language ) – język do tworzenia stron internetowych opierający się na znacznikach, czy inaczej je nazywając – tagach. Język.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Modelowanie Kognitywne
Zbiór danych zapisanych zgodnie z określonymi regułami. W węższym znaczeniu obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
8. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
System operacyjny „DOS”, „MS-DOS” oraz wybrane komendy.
ANALIZA SKŁADNIOWA.
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
9. Wiedza o języku Studia Podyplomowe „Polski Język Migowy” 2013/2014
Zygmunt Korzeniewski. Zasady poprawnego komunikowania są:  ułatwieniem,  przejawem kultury w kontaktach oficjalnych.
Wizualizacja danych 0. Informacje wstępne Leszek J Chmielewski Wydział Zastosowań Informatyki i Matematyki SGGW lchmiel.pl.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Części mowy Edyta Sawicka.
1 Nawigacja w Internecie Ewa Półtorak Zakład Kształcenia na Odległość Instytut Języków Romańskich i Translatoryki Uniwersytetu Śląskiego.
Nie kradnij i nie daj się okraść!. Naszym zadaniem było… opracować: - Jak zgodnie z prawem korzystać z dostępnych w sieci materiałów – tekstów, zdjęć,
Proseminarium doktoranckie 2015/2016, semestr letni WSPÓŁCZESNE NARZĘDZIA OPISU LINGWISTYCZNEGO POLSZCZYZNY Proseminarium doktoranckie 2015/2016, semestr.
Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.
Číslo přílohy: VY_32_INOVACE_ O7_Cz ęści mowy Autor: Škola: Mgr.Beta Tomanek Základní 3kola a Mateřská škola s polským jaz. vyuč. Předmět: Polský jazyk.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Pomorski Uniwersytet Medyczny w Szczecinie
IV Konferencja Naukowo-Techniczna "Nowoczesne technologie w projektowaniu, budowie.
Wskaż wybrany krok lub kliknij Enter aby dowiedzieć się więcej.
System operacyjny „DOS”, „MS-DOS” oraz wybrane komendy.
IBUK Libra WIRTUALNA CZYTELNIA
Zapis prezentacji:

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW wt , pok. 1 Konsultacje: wt , pok. 1 Strona internetowa:

Spotkanie 3 Sherlock (Holmes).

Korpus PWN (1) 3 Dostęp: (wersja demonstracyjna) Korpus Języka Polskiego PWN, płyta CD, Warszawa 2003 (7 mln: PWN + „Rzeczpospolita”) Pełny korpus sieciowy (oferta komercyjna)

Korpus PWN (2) 4

Wyszukiwarki (1) 5 Wyszukiwarki: --- Dla klientów PWN on-line (wersja demonstracyjna) na płycie (wersja 7 mln) --- Dla leksykografów PWN Sherlock

Wyszukiwarki (2) 6

Wyszukiwarki (3) 7

o Grant KBN nr 5 H01D : Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik:Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko o Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf 8 Grant, AMOR, Składak

Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa Grant, AMOR, Składak

Zadanie: opracowanie oprogramowania do obsługi wielkich korpusów tekstów polskich. Odbiorca: leksykograf. Podstawa empiryczna: zrównoważony wycinek Korpusu PWN (2-7 mln słów). Narzędzia: przeszukiwanie tekstu, nie znakowanie. Wyniki kwerendy: dostępne natychmiast. 10 Sherlock - Holmes (1)

Obsługa korpusu: segmentacja tekstu na wypowiedzenia analiza gramatyczna słów (także: lematyzacja) analiza gramatyczna nieznanych słów na podstawie zakończeń ujednoznacznianie jakościowe 11 Sherlock - Holmes (2)

Produkt końcowy: narzędzia ujednoznaczniania morfologicznego publikacje 12 Sherlock - Holmes (3)

Narzędzia [tagger] ZDANIA AMOR [slowotworca] NIEZNANE REGULY FREQ Weszły one w skład aplikacji Sherlock (środowisko Linux). Holmes – program wizualizacji wyników w środowisku Windows. 13 Sherlock - Holmes (4)

Publikacje M. Rudolf, Metody automatycznej analizy korpusu tekstów polskich. Uniwersytet Warszawski. Wydział Polonistyki, Warszawa Stron 152. M. Świdziński, M. Derwojedowa, M. Rudolf, „Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich”. BPTJ LVIII, Warszawa J. Rabiega-Wiśniewska, M. Rudolf, „Towards a Bi-Modular Analyzer of Large Polish Corpora”. [W:] Investigations into Formal Slavic Linguistics. Contributions of the FDSL IV, Frankfurt am Main Sherlock - Holmes (5)

Program ujednoznaczniania automatycznego = tagger. Praktycznie: wygenerowanie wszystkich interpretacji odrzucenie interpretacji niewłaściwych 15 Ujednoznacznianie (1)

Metody ujednoznaczniania: statystyczne regułowe lingwistyczne (z regułami usuwania interpretacji) W naszym projekcie – metody lingwistyczne. Por. K. Oliva, „Linguistics-Based PoS-Tagging of Czech: Disambiguation of se as a Test Case”. [W:] Investigations into..., Ujednoznacznianie (2)

Przebieg analizy: segmentacja tekstu na wypowiedzenia (program ZDANIA) analiza morfologiczna (program AMOR z zadanym słownikiem gramatycznym; J. Rabiega-Wiśniewska. analiza nieznanych słów (program NIEZNANE) wczytanie i posortowanie reguł lingwistycznych, wielokrotne wypróbowywanie każdej reguły dla danego wypowiedzenia (program REGULY) 17 Ujednoznacznianie (3)

Wyszukiwanie: Program korzysta jedynie z informacji dostępnych w plikach, w czasie przeszukiwania nie jest przeprowadzana żadna dodatkowa analiza 18 Ujednoznacznianie (4)

Przykładowe reguły: REGUŁA Dwie formy finitywne czasownika muszą być rozdzielone znakiem interpunkcyjnym lub spójnikiem. REGUŁA Słowo z jest formą przyimka tylko wtedy, kiedy następuje po nim forma dopełniacza lub narzędnika. REGUŁA Słowo zaraz jest formą partykuły. REGUŁA Przymiotnik i sąsiadujący z nim rzeczownik są uzgodnione pod względem przypadka, liczby i rodzaju. 19 Ujednoznacznianie (5)

Zbiór 110 reguł (z zadanym ręcznie stopniem niezawodności): ogólne leksykalne frekwencyjne heurystyczne 20 Ujednoznacznianie (6)

Pokaz: Myśl łatwo powstająca natychmiast przepływa w inną lub znika Kuriata To tak jakby ktoś z pięćdziesiąt razy dziennie biegał tam i z powrotem na czwarte piętro. Kowalewski Czułam, że mi zaraz łzy trysną z oczu, bo już mnie kurcz chwycił za gardło. Bocheński Istnieją skuteczne metody, głównie chemiczne, zwalczania chorób i szkodników roślin, a tym samym ograniczania szkód. Fereniec 21 Ujednoznacznianie (7)

22 Holmes (1)

23 Holmes (2)

24 Holmes (3)

25 Holmes (4)

26 Holmes (5)

27 Kwerendy (1) [ 1] charakterystykaprzyimek [ 2] następny leksem godzina [* ] tylko pierwsze wystąpienie leksemu w warunku pierwszym [ 1] charakterystykarzeczownik [ 2] następnyleksem o [ 3] następny charakterystykaprzymiotnik, miejscownik [ 4] następny charakterystykarzeczownik, miejscownik

28 Kwerendy (2) [ 1] leksembowiem [ 2] poprzednisłowo, [ 1] wzorzecanty* [ 2] następnycharakterystykarzeczownik [ * ] tylko pierwsze wystąpienie leksemu w warunku drugim [ 1] charakterystykaliczebnik_ zbiorowy [ 2] następnycharakterystykarzeczownik [ 3] ten sam nie leksemdziecko

[1] RESTRUKTURYZACJA w różnych stylach. [2] Wypowiedzenia pytajne, wykrzyknikowe, niepytajne. [3] Myślnik i dywiz: leksemy złożone. [4] KTÓRY (zaimek względny): przyimki złożone. [5] JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ, PRZEJECHAĆ – wprowadzane przyimki. [6] Spójniki z aglutynantem. [7] Aglutynant doczepiony wewnątrz zdania. [8] Czasowniki wymagające zdania JAKOBY. 29 Dalsze poszukiwania (1)

[9] Poszukiwania kolokacji. [10] Frazeologizmy łączliwe: lista składników wymiennych. [11] Przymiotnik w stopniu wyższym: OD czy NIŻ? [12] Bezokoliczniki po DAĆ. [13] AŻ1 i AŻ2. 30 Dalsze poszukiwania (2)