Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008

Slides:



Advertisements
Podobne prezentacje
Lingwistyka Matematyczna
Advertisements

Wprowadzenie do narzędzi CAT
JAK PRACOWAĆ Z TEKSTEM LITERACKIM ?
Budowa i funkcje elektronicznego katalogu biblioteki szkolnej
Procesor tekstu Word część 2
Komputerowa edycja tekstu – materiały na zajęcia z metodyki nauczania informatyki Ewa Kołczyk.
Tworzenie stron w języku WML jest zbliżone do tworzenia stron w HTML. W obydwu przypadkach używa się do tego celu znaczników (tagów). Zadaniem znaczników.
Edytor tekstu.
(ang. Hypertext Markup Language) - język znaczników hipertekstowych.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
PHP wprowadzenie.
Poznajemy edytor tekstu Word
Uczymy się właściwie korzystać z encyklopedii i słowników.
CZASOWNIK- odmienna część mowy. Jego odmiana nazywa się KONIUGACJĄ
Budowa i układ strony dokumentu
Strategia skutecznego szukania informacji w Internecie
Poznajemy klawiaturę Opracował Piotr Krupa.
Technologie Informatyczne dla socjologów
Kod Graya.
Odmienne i nieodmienne części mowy
Czym są HTML i XHTML? Skrót HTML pochodzi od słów Hypertext Markup Language (język znakowania hipertekstu). Język HTML jest podstawą każdej strony WWW.
Podstawy redagowania dokumentów tekstowych
Opracował Wiesław Rychlicki na podstawie:
Opracował Wiesław Rychlicki na podstawie:
Strona formalna tekstu
Edytor tekstu MS WORD.
Opracowanie Anna Madeksza nauczyciel bibliotekarz
Wprowadzenie do edytorów tekstu.
Aplikacje OCR dla Biznesu i do domu
Wskazówki dotyczące pisania tekstów
Ćwiczenia z Worda
Poznajemy edytor tekstu Word
Poznajemy edytor tekstu Microsoft Word
XML – eXtensible Markup Language
Edytor tekstu Word.
Tworzenie stron internetowych www World Wide Web
Formatowanie tekstu w Microsoft Word
Ujarzmić Worda Agnieszka Terebus.
Wprowadzenie do HTML Informatyka Cele lekcji: Wiadomości:
Podstawy programowania
Podstawowe zasady pisania tekstu za pomocą klawiatury komputera
Dofinansowano ze środków Ministra Kultury i Dziedzictwa Narodowego
Znaki specjalne Co i jak + brak przykładów.  Aby wstawić symbol lub znak specjalny należy na karcie Wstawianie w grupie Symbole kliknąć na przycisk Symbol.
PHP Formularze Damian Urbańczyk. Do czego służą? Formularze to bardzo ważne elementy stron internetowych, dzięki nim dochodzi do wymiany danych pomiędzy.
Encyklopedie i słowniki jako podstawowe źródło informacji Oprac
ZASADY WPROWADZANIA TEKSTU DO KOMPUTERA Magdalena Szorc Mirosław Brozio
Kolumny, tabulatory, tabele, sortowanie
Najczęściej popełniane błędy formalne w pracy dyplomowej
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Temat Prezentacji : ZNACZNIKI META TAGS wyk.H. Kozłowski.
Poziom rozszerzony Opracowała Anna Horodelska Na podstawie standardów wymagań Centralnej Komisji Egzaminacyjnej w Warszawie.
Podstawy programowania
TEMAT: ACCESS - KWERENDY.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
WITAM. Dziś poznacie kilka dodatkowych opcji, jakie posiada Microsoft Word z pakietu Office Zapraszam do Prezentacji.
„Filtry i funkcje bazodanowe w EXCELU”
Excel 2007 dla średniozaawansowanych Zajęcia z Prowadzący: Artur Kołos.
1. Rozpocznij wyszukiwanie wpisując w googlach poszukiwany temat lub słowa klucze pokrewne temu tematowi 2. np. „historia hip-hopu” lub „subkultury młodzieżowe”
Dariusz Nikiel. Klawisza ENTER używamy w celu zakończenia akapitu, a nie na końcu każdej linijki tekstu lub zdania. Klawisza ENTER używamy w celu zakończenia.
CZASOWNIK- odmienna część mowy. Jego odmiana nazywa się KONIUGACJĄ
Wprowadzenie do edytorów tekstu.
Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
W przypadku studiów pierwszego stopnia praca dyplomowa może mieć formę projektu,
Wstęp do Informatyki - Wykład 14
Logo afiliacji autora Tytuł referatu (minimalna wysokość czcionki 37pkt) Imię, nazwisko i afiliacja autora/ów (minimalna wysokość czcionki 27pkt) Wprowadzenie.
Logo afiliacji autora Tytuł referatu (minimalna wysokość czcionki 36pkt) Imię, nazwisko i afiliacja autora/ów (minimalna wysokość czcionki 25pkt) Wprowadzenie.
Poznajemy edytor tekstu Word
Zasady edycji tekstów.
Zapis prezentacji:

Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008 PolUKR Polsko-Ukraiński Korpus Równoległy http://corpus.domeczek.pl 2004 - … Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008

Czy można mówić o lingwistyce korpusowej? Metodologia, a nie osobna branża lingwistyki Rodzaje korpusów: „surowy/łysy” – adnotowany: morfosyntaktycznie, semantycznie, banki drzew (składnia) jednojęzyczny - dwu-/wielojęzyczne równoległe - porównawcze korpus referencyjny (benchmark korpus): BNC, ?IPI PAN

Czym jest korpus równoległy? Zbiór par tekstów (eng. bitexts) w dwóch językach Запропонована модель виглядає доволі переконливо... Proponowany model wygląda dość przekonująco...

Czemu służy korpus równoległy baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy baza danych dla konfrontatywnej analizy lingwistycznej punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych

Statystyki ogółem polskie ukraińskie Teksty 70 35 Wyrazy 359 926 179 087 180 120 Znaki 3 863 564 1 449 376 2 407 034 kilobajty 3941 1492 2439

Wyszukiwanie (obecnie) Aktualny sposób wyszukiwania bazuje na wyrażeniach regularnych PERL Poszukiwany ciąg należy ująć w znaki "/". Np.: /zimna wojna/ znajdzie wyłącznie akapity zawierające dokładnie tę frazę. Aby uelastycznić kryteria wyszukiwania, można skorzystać z następujących znaków specjalnych: . odpowiada każdemu znakowi (z wyjątkiem znaku nowej linii) І alternatywa; ) koniec fragmentu ciągu [ i ] początek i koniec oznaczania klasy znaków ? 1 albo 0 wystąpień; * 0 albo więcej wystąpień + 1 albo więcej wystąpień \s dowolny znak spacji, interpunkcji \w dowolna litera, liczba, znak podkreślenia \b koniec wyrazu, \ escape

Przykłady formuł wyszukiwania /jako/  „jako” /jako\s/  „jako, niejako, dwojako” /\bjako/  „jakość’ /norma\./  „norma” przed kropką

Metodologia tworzenia korpusu zbieranie tekstów (Katarzyna Kotyńska, Anna Łazar, Helena Krasowska) jeżeli są w postaci papierowej, to: skanowanie, czyszczenie skanów od obrazków i czarnych pasków, numeracji stron; OCRowanie, redakcja poOCRowa; konwertowanie do tekstowego formatu (FineReader --> Word); wyrównywanie kolumn, wyczyszczenie od znaków podziałów stron, przypisów dolnych, znaków przeniesienia wyrazów; jeszcze raz wyczytywanie błędów (FineReader wyświetla tylko miejsca, które są "podejrzane" dla niego samego); sprawdzenie podziału na akapity (czy w ogóle są, czy nie są podwójne); konwertowanie czcionek do wspólnego formatu (przyjęliśmy Unicode/UTF-8); konwertowanie z MSWord .doc na .txt dodawanie metadanych (tytuł, autor, tłumacz, rok napisania, rok i miejsce wydania oryginału, gatunek literacki, itd. ok. 20 pozycji); konwertowanie z .txt do .xml dodawanie do serwera

Co się dzieje na serwerze Metadane są wpisywane automatycznie do bazy danych MySQL i potem pobierane z niej przy korzystaniu z korpusu Wyrównywanie tekstów na poziomie akapitów, oznaczonych w tekstach <p>-</p> Dynamicznie, zakładając, że ilość akapitów w tekstach jest jednakowa i każdy akapit w tekście oryginalnym ma odpowiednik w tekście tłumaczonym Oprogramowanie: Magdalena Turska

W opracowywaniu: a) Dodawanie informacji gramatycznych polski ukraiński sprowadzanie do wspólnego formatu metadanych gramatycznych (tagset) NB: stopnie porównania dla przymiotników i przysłówków ukraińskich b) Wyrównanie na poziomie zdań problem podziału na zdania (skróty) demonstracja programu Text Align 1.1.1.1 Hunalign (wymaga słownika oraz lematyzacji dla w miarę akceptowalnych wyników)

Źródła informacji morfosyntaktycznej Język polski: tager TаKIPI, IPI PAN + Politechnika Wrocławska, ok. 200 tys. słów (Marcin Woliński, Adam Radziszewski i in.) Lematyzator, morfologiczny analizator, ujednoznaczniacz (dezambiguator) Język ukraiński: słownik gramatyczny ULIF NANU, 250 tys. słów (Igor Szewczenko, Ołeksandr Rabulec) Lematyzator, morfologiczny analizator, brak ujednoznacznienia (dezambiguacji)

Ukraiński tekst nietagowany Львів розташований на етнічних українських землях і є одним з головних нервових вузлів ук­раїнського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.

Ukraiński: tagi wejściowe z lematami Львів<JDJAJIJK><Львів 0|Львів 0|Лев 1|Лев 1|> розташований<BDBAV?><розташований 0|розташований 0|розташувати 0|> на<N0N0Z0PF><на 4|на 3|на 2|на 1|> етнічних<AVATAX><етнічний 0|етнічний 0|етнічний 0|> українських<AVATAXJIGIJKGKJMGM><український 0|український 0|український 0|Український 0|Український 0|Український 0|> землях<FM><земля 2|> і<SSSCN0Z0><і 1|і 3|і 2|> є<UPUOUNUKUMUL><бути 0|бути 0|бути 0|бути 0|бути 0|бути 0|> одним<HUHQHERQRERU><один 0|один 0|один 0|оден 0|оден 0|оден 0|> з<PE><з 0|> головних<AVATAX><головний 0|головний 0|головний 0|> нервових<AVATAX><нервовий 0|нервовий 0|нервовий 0|> вузлів<MIMI><вузол 2|вузол 1|> українського<ANADABJDJBKB><український 0|український 0|український 0|Український 0|Український 0|Українське 0|> народу<MBMCMBMC><народ 0|народ 0|нарід 0|нарід 0|>, найважливішим<AQAEAU><найважливіший 0|найважливіший 0|найважливіший 0|> клапаном<ME><клапан 0|> його<FGODOBODOB><йога 0|воно 0|воно 0|він 0|він 0|> серця<NKNHNBNN><серце 0|серце 0|серце 0|серце 0|>, вічним<AQAEAU><вічний 0|вічний 0|вічний 0|> збудником<MEME><збудник 1|збудник 2|> честолюбства<NB><честолюбство 0|>, гордості<FCFBFF><гордість 0|гордість 0|гордість 0|> й<SSSCZ0><й 1|й 2|> потягу<MFMCMGMBMCMFMGFDGD><потяг 2|потяг 2|потяг 2|потяг 1|потяг 1|потяг 1|потяг 1|потяга 0|Потяга 0|> до<NGNFNENDNCNBNANHNINJNKNLNMNNPB><до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 1|> волі<UOFCFBFFGCGBGFGFGCGBGHGNNFMF><воліти 0|воля 0|воля 0|воля 0|Воля 2|Воля 2|Воля 2|Воля 1|Воля 1|Воля 1|Воля 1|Воля 1|воло 0|віл 0|>.

Przykłady kodów gramatycznych ULIF (384) Znaczenie gramatyczne Kod (tag) Przykład Czasownik, bezokolicznik, aspekt dokonany, strona czynna VA прочитати Imiesłów przymiotnikowy, rodzaj męski, liczba pojedyncza, mianownik, aspekt dokonany, czas przeszły, czynny BA зрослий Przymiotnik niezmienny AZ ультра Rzeczownik, ogólny, rodzaj żeński, liczba pojedyncza, celownik FC квітці Predykatyw (słowo orzeczeniowe) X0 слід

Polski tekst nietagowany W dzisiejszym posiedzeniu komisji uczestniczy ekspert komisji pan profesor Jan Gajewski.