Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Slides:



Advertisements
Podobne prezentacje
Lingwistyka Matematyczna
Advertisements

Wprowadzenie do narzędzi CAT
Rafał Hryniów Tomasz Pieciukiewicz
NOWA MATURA Z JĘZYKA ROSYJSKIEGO
Dwujęzyczne, dwukulturowe, dwumodalne:
Sztuczna Inteligencja Analiza języka naturalnego Tłumaczenie maszynowe
WPROWADZENIE DO BAZ DANYCH
Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008
11 RDF Wertykalne zastosowania XML-a. 22 RDF - Wprowadzenie Problemy Sieć jest nieczytelna dla programów komputerowych. Sieć zawiera zbyt wiele informacji.
Budowa i funkcje elektronicznego katalogu biblioteki szkolnej
PHP vs. ASP PHP – lider wydajności wśród języków skryptowych.
Metody badawcze w socjologii – ciąg dalszy
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Inteligentne Systemy Informacyjne
GeoTrackerPast Web tracking in 4 dimensions. Informacje Temat: System wyszukiwania haseł w Internecie(?) Promotor: dr Mikołaj Morzy Skład: – Tomasz Szymanowski.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Uniwersytet Jagielloński
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
II Spotkanie Polskiej Grupy Użytkowników VTLS Virtua 16 – 17 czerwca 2008, Biblioteka Uniwersytecka w Warszawie Magdalena Rowińska Centrum NUKAT
Strategia skutecznego szukania informacji w Internecie
Poznajemy klawiaturę Opracował Piotr Krupa.
UDC online XV Ogólnopolskie Warsztaty JHP BN i UKD 2013, 13 września 2013 r. Jolanta Hys, Joanna Kwiatkowska.
Mariusz Polarczyk, Zofia Kasprzak
BIBLIOTEKA WYŻSZEJ SZKOŁY ADMINISTRACJI I BIZNESU INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE.
Wanda Klenczon Biblioteka Narodowa
BĄDŹ TWÓRCZY Z TIK Wykorzystujemy i modyfikujemy zasoby sieciowe. Selekcjonujemy i sprawdzamy wiarygodność informacji z Internetu. Rozwijamy nasze zainteresowania.
Portal Systemu Jakości Kształcenia
XML – eXtensible Markup Language
Elżbieta Fiedziukiewicz
Microsoft Office Publisher
Prof. Aleksander Surdej
Wprowadzenie do HTML Informatyka Cele lekcji: Wiadomości:
Encyklopedie i słowniki jako źródła informacji
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford Index. Mówi: czym jest Oxford Index jak może Ci pomóc jak.
Zasoby internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford Dictionaries online. Mówi o tym, czym są Oxford Dictionaries.
IBUK Libra WIRTUALNA CZYTELNIA
Podstawy programowania
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford English Dictionary online Mówi: czym jest Oxford English Dictionary.
W W W Łukasz Stochniał.
Koha po polsku – prace tłumaczeniowe
Nieograniczone źródło informacji
Wyszukiwanie informacji w internecie
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Temat 1: Ogólne cechy języka PHP
Projektowanie Aplikacji Internetowych Artur Niewiarowski Wydział Fizyki, Matematyki i Informatyki Politechnika Krakowska.
Szczęśliwego Nowego roku!!!
Zasady korzystania z Internetu
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Podstawy języka skryptów
System międzybibliotecznych wypożyczeń elektronicznych Academica i jego rola w bibliotekach publicznych Academica System międzybibliotecznych wypożyczeń.
Programowanie w językach skryptowych
Formatowanie dokumentów
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Podstawy programowania
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
PRZEKŁADOZNAWSTWO 1) Początki okresu językoznawczego
CLARIN-PL enWordNet - rozszerzony angielski wordnet Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Języki obce.
Hipertekst HTML WWW.
Wydział Matematyki, Informatyki i Architektury Krajobrazu
Natalia Kotsyba Zebranie naukowe IS PAN 2.XII.2008
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Wstęp do Informatyki - Wykład 14
IBUK Libra WIRTUALNA CZYTELNIA
Ovid LinkSolver.
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Zapis prezentacji:

Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych Natalia Kotsyba Instytut Slawistyki PAN Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych „Polsko-Ukraińskie Warsztaty Leksykograficzne” Instytut Badań Interdyscyplinarnych Uniwersytet Warszawski Warszawa, 24 listopada 2008 r.

Plan prezentacji O korpusach ogólnie, metodologia tworzenia Korpusy w Polsce i Ukrainie PolUKR – Polsko-Ukraiński Korpus Równoległy Zastosowanie korpusów w leksykografii

Czy można mówić o lingwistyce korpusowej? Metodologia, a nie osobna branża lingwistyki Rodzaje korpusów: „surowy/łysy” - adnotowany jednojęzyczny - dwu-/wielojęzyczne równoległe - porównawcze korpus referencyjny (benchmark korpus): BNC, ?IPI PAN

Czym jest korpus równoległy? Zbiór par tekstów (eng. bitexts) w dwóch językach Запропонована модель виглядає доволі переконливо... Proponowany model wygląda dość przekonująco...

Gdzie można znaleźć informację o korpusach i ich zastosowaniu? korpusowa lista mailingowa przy Uniwersytecie w Oslo (corpora mailing list) http://mailman.uib.no/listinfo/corpora opis korpusowych resursów w świecie http://aclweb.org/aclwiki/index.php?title=List_of_resources_by_language polska lingwistyczna lista mailingowa http://bach.ipipan.waw.pl/mailman/listinfo/ling

Jak zrobić samemu korpus? Multilingual Corpus Tool kit (Scott Piao) Xaira 1.23 (Beta wersja 1.24), BNC, Oxford Brak takiego oprogramowania dla tworzenia korpusów równoległych, moduły: programy pamięci maszynowej (Translation Memory), np. Omega TM, darmowy alignery, np. Vanilla i Hunalign wyszukiwarki, np. ParaConc, komercyjne

Korpusy języka polskiego FREQ, wydział lingwistyki stosowanej UW (lata 1960-te) 600 tys. Korpus PWN (półkomercyjny) 8 mln; 100 mln Korpus IPI PAN, 250 mln “Narodowy” korpus JP (Uniwersytet Łódzki) = Korpus “Krakowski” (teksty do XVII w.) wewnętrzne korpusy na potrzeby osobnych projektów Projekt Narodowego korpusu języka polskiego (2007-2009)

Korpus IPI PAN http://korpus.pl Adam Przepiórkowski 100 mln słów (слововживань) 15 mln “zrównoważonej” próbki XML, XCES adnotacja morfosyntaktyczna dezambiguacja gramatyczna (ujednoznacznienie) szkice banku drzew (SPEJD) wyszukiwarka Poliqarp, 2 wersje

Zasoby języka ukraińskiego Korpus ULIF: ulif. org.ua (użytek wewnętrzny), książka Володимир Широков і ін. "Корпусна лінгвістика", Київ, "Довіра", 2005 Koncepcja Narodowego Korpusu Języka Ukraińskiego, Орися Демська-Кульчицька, "Основи Національного корпусу української мови", Київ 2005, (teoria) Konkordancje utworu Iwana Franki "Перехресні стежки", Sołomija Buk i Andrij Rowenczak (publikacja www) Biblioteka elektroniczna utworów Iwana Franki i próbka korpusu "Для домашнього вогнища"/"Dla ogniska domowego" Oresty Tymczyszyn (na razie nie ma w internecie) PolUKR (Instytut Slawistyki PAN, 2005-...) Natalia Kotsyba i Magdalena Turska (http://corpus.domeczek.pl)

Oprócz tego ukraiński język (a także polski) można znaleźć w: Regensburg Parallel Corpus of Slavic languages, Ruprecht von Wandelfels, Uniwersytet w Ratysbonie http://www-cgi.uni-regensburg.de/Fakultaeten/Slavistik/Corpus/parallel/parallel.html otwarty dla użytku publicznego niekomercyjnego dla użytkowników zarejestrowanych prawie wszystkie języki słowiańskie (oprócz górno- i dolnołużyckiego) informacja gramatyczna dodana dla czeskiego i polskiego, a także angielskiego i niemieckiego każdy z języków ma osobny zestaw znaczników gramatycznych, wykorzystywany w korpusach narodowych/większych tych języków zawiera niewiele materiału tekstowego nierównomierny podział między językami

Polsko-Ukraiński Korpus Równoległy http://corpus.domeczek.pl baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy baza danych dla konfrontatywnej analizy lingwistycznej punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych

Statystyki ogółem polskie ukraińskie Teksty 70 35 Wyrazy 359 926 179 087 180 120 Znaki 3 863 564 1 449 376 2 407 034 kilobajty 3941 1492 2439

Wyszukiwanie (obecnie) opiera się na wyrażeniach regularnych PERL poszukiwany wyraz otoczony znakami “/”, np. /idea narodowa/ znaki specjlane: І alternatywa; ) koniec fragmentu ciągu [ i ] początek i koniec oznaczania klasy znaków ? 1 albo 0 wystąpień; * 0 albo więcej wystąpień + 1 albo więcej wystąpień \s dowolny znak spacji, punktuacji \w dowolna litera, liczba, znak podkreślenia \b koniec wyrazu, \ escape

Przykłady formuł wyszukiwania /jako/  „jako” /jako\s/  „jako, niejako, dwojako” /\bjako/  „jakość’ /norma\./  „norma” przed kropką

w opracowywaniu Dodawanie informacji gramatycznych (polski, ukraiński) sprowadzenie do wspólnego formatu metadanych gramatycznych (tagset) -- opracowany algorytm, częściowo realizowany, NB: stopnie porównania dla przymiotników i przysłówków ukraińskich Wyrównanie na poziomie zdań (obecnie jest poziom akapitów <p>-</p>) problem podziału na zdania Hunalign (wymaga słownik oraz lematyzację dla w miarę akceptowalnych wyników)

Zastosowanie PolUKR jako część integrowanego sieciowego środowiska edytorskiego: II korpus i II konkordancer słowniki objaśniające korpus porównawczy sieciowy system edytowania haseł

польсько-український корпус польський корпус і словник український корпус і словник реєстр слів реєстр слів словник

Interfejs narzędzia redakcyjnego також на наступні роки потреби нового підходу до проблеми задоволення житлових потреб біля Клепарського ринку дві жінки підійшли ззаду до мешканки, котра робила покупки підійти 1. (до когось/чогось) наблизитися 2. (до когось/чогось) пасувати np. ключ не підійшов 3. (до когось/чогось) з певної точки зору 4. піднятися (про дріжджове тісто)

Przykładowe hasło polskie PODEJŚĆ - PODCHODZIĆ (za słownikiem PWN) 1. «posunąć się (pójść, rzadziej: pojechać) w jakimś kierunku, zbliżyć się do kogoś lub czegoś» 2. «posunąć się pod górę; wspiąć się» 3. zwykle dk «postąpić wobec kogoś podstępnie, chytrze, zdradziecko; oszukać kogoś» 4. częściej ndk «zbliżać się do kogoś lub czegoś ostrożnie, ukradkiem, zwykle w celu dokonania napaści lub podpatrzenia; tropić» 5. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)»

ПІДІЙТИ док. - ПІДХОДИТИ недок. (za słownikiem Biłodida) - ідучи, наближатися до кого-, чого-небудь; - наближатися підїжджаючи, підпливаючи, підлітаючи і т.ін. до кого-, чого-небудь; - прибувати куди-небудь; - приступати до чого-небудь, братися за яку-небудь справу; - виявляти своє ставлення до чого-небудь, оцінюючи; - уміти привернути, прихилити кого-небудь до себе, завоювати довір’я - звернутися до кого-небудь з прoханням, пропозицією, вимогою і т.ін наближатися, наставати (про час, події, явища і т.ін.) розміщуватися близько чого-небудь, бути в безпосередньому сусідстві з чимсь, межувати з ним 6. - бути придатним, прийнятним, відповідаючи яким-небудь вимогам - бути відповідним - личити - пристосовyватися, підроблятися 7. переміщатися, підніматися догори 8. ідучи, пройти яку-небудь відстань 9. збільшуючись в об’ємі, підійматися (про тісто) 10. насичуватись чим-небудь Сніг підійшов водою.

Analiza konkordancji Zapytanie do korpusu IPI PAN [base=”podejść”] meta created>1960 zwróciło 244 próbki tekstów. Zdecydowana większość użyć (ok. 80%) była w znaczeniu 1; w najbliższej dystrybucji wskazywano docelowe miejsce ruchu „podejść do + nazwa przedmiotowa” (np. do furtki, do koszyka, do nas; bliżej = do mówiącego). Podobnie z zapytaniem [base=”podchodzić”] meta created>1960 - 203 próbki, proporcje te same

Próbki do hasła „podchodzić” 1. Grzegorz Kaliciak: - Mieliśmy grać to co zawsze. I choć Pogoń bardzo poważnie podeszła do meczu, to my jesteśmy lepiej przygotowani. Mieliśmy wprawdzie drobny kryzys po meczu w Parmą, ale to już przeszłość. => NOWE ZNACZENIE „mieć nastawienie” (nieakcjonalny, relacyjny) – ok. 20% użyć 2. W okolicy miasta Mechelen musieli awaryjnie lądować. Podchodzący do lądowania samolot nie uszedł uwagi belgijskich żołnierzy pełniących służbę na znajdującym się nieopodal posterunku granicznym. => NOWE ZNACZENIE „zaczynać” (niepełnoznaczny, modyfikator fazowy) 3. Z drugiej zaś strony Nathan, Michael, Shawn i Wanya z powodzeniem wcielają w czyn swoje indywidualne pomysły; na przykład podchodzące pod śpiew a cappella wokalizy. Innymi słowy: Boyz II Men nagrali sprytny, inteligentny, dość dobry album, który świadczy o tym <Dziennik Polski, X. 2000> => 2 4. Na 5 pytań odpowiedział gładko, zapewniwszy sobie gwarantowany 1000 zł. Niestety, pytanie za 2000 zł, dotyczące El Greco, "nie podeszło ". => NOWE ZNACZENIE, „pasować, odpowiadać” (nieakcjonalny, relacyjny, porównawczy)

Przykładowe hasło po analizie PODEJŚĆ - PODCHODZIĆ (za słownikiem PWN) 1. «posunąć się (pójść, rzadziej: pojechać) w jakimś kierunku, zbliżyć się do kogoś lub czegoś» 2. «posunąć się pod górę; wspiąć się» 3. zwykle dk «postąpić wobec kogoś podstępnie, chytrze, zdradziecko; oszukać kogoś» 4. częściej ndk «zbliżać się do kogoś lub czegoś ostrożnie, ukradkiem, zwykle w celu dokonania napaści lub podpatrzenia; tropić» 5. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)» PODEJŚĆ - PODCHODZIĆ (analiza konkordancji i klasyfikacja semantyczna) 1. «posunąć się (pójść, rzadziej: pojechać) w jakimś kierunku, zbliżyć się do kogoś lub czegoś» akcjonalny ruchu 2. «mieć nastawienie do czegoś» nieakcjonalny relacyjny 3. «oszukać kogoś» złożony predykat akcjonalny mentalny + kauzacja 4. «pasować, odpowiadać» nieakcjonalny, relacyjny 5. «zaczynać» niepełnoznaczny modyfikator fazowy 6. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)» nieakcjonalny stanowy

Przykładowe hasło po analizie ПІДІЙТИ док. - ПІДХОДИТИ недок. (za słownikiem Biłodida) - ідучи, наближатися до кого-, чого-небудь; - наближатися підїжджаючи, підпливаючи, підлітаючи і т.ін. до кого-, чого-небудь; - прибувати куди-небудь; - приступати до чого-небудь, братися за яку-небудь справу; - виявляти своє ставлення до чого-небудь, оцінюючи; - уміти привернути, прихилити кого-небудь до себе, завоювати довір’я - звернутися до кого-небудь з прoханням, пропозицією, вимогою і т.ін наближатися, наставати (про час, події, явища і т.ін.) 5. розміщуватися близько чого-небудь, бути в безпосередньому сусідстві з чимсь, межувати з ним 6. - бути придатним, прийнятним, відповідаючи яким-небудь вимогам; бути відповідним , личити , пристосовyватися, підроблятися 7. переміщатися, підніматися догори 8. ідучи, пройти яку-небудь відстань 9. збільшуючись в об’ємі, підійматися (про тісто) 10. насичуватись чим-небудь Сніг підійшов водою. ПІДІЙТИ док. – ПІДХОДИТИ недок. (analiza konkordancji i klasyfikacja semantyczna) наближатися – akcjonalny ruchu мати ставлення– nieakcjonalny relacji пасувати – nieakcjonalny rel. починати(ся) – niepełnoznaczny modyfikator fazowy бути близько чого-небудь – nieakcjonalny relacyjny lokalizujący збільшуючись в об’ємі, підійматися (про тісто) – nieakcjonalny stanowy насичуватись чим-небудь (рідиною) - nieakcjonalny stanowy

Kojarzenie haseł pol. > ukr. PODEJŚĆ - PODCHODZIĆ (analiza konkordancji i klasyfikacja semantyczna) 1. «posunąć się w jakimś kierunku, zbliżyć się do kogoś lub czegoś»  підійти - підходити 1 2. «mieć nastawienie do czegoś» nieakcjonalny, relacyjny  підійти - підходити 2 3. «oszukać kogoś» = złożony predykat akcjonalny mentalny, z kauzacją propozycji  ошукати – ошукувати 1, надурити – надурювати 1 4. «pasować, odpowiadać» nieakcjonalny, relacyjny  підійти - підходити 3 5. «zaczynać» niepełnoznaczny modyfikator fazowy  починати 6. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)»  підійти - підходити 5

Kojarzenie haseł ukr. > pol. ПІДІЙТИ док. – ПІДХОДИТИ недок. (za słownikiem Biłodida) наближатися akcjonalny ruchu  podchodzić 1 мати ставлення nieakcjonalny relacji  podchodzić 2 пасувати nieakcjonalny rel.  podchodzić 4 починати(ся) niepełnoznaczny modyfikator fazowy  zaczynać się бути близько чого-небудь nieakcjonalny relacyjny lokalizujący  znajdować się blisko збільшуючись в об’ємі, підійматися (про тісто) nieakcjonalny stanowy  rosnąć 7 насичуватись чим-небудь (рідиною) nieakcjonalny stanowy  podchodzić 6

Kilka najbardziej udanych przykładów zastosowania korpusów Wielojęzyczny korpus równoległy OPUS (Joerg Tiedemann): http://urd.let.rug.nl/tiedeman/OPUS/ Zalety: szybkie generowanie słowników wielojęzycznych Problemy: ograniczenie materiałowe homonimia i wieloznaczność

Zastosowanie, c.d. Porównywalne Technologia "Web as corpus", projekt Wacky "rewizja" słówników dwujęczycznych (Andriano Ferraresi i in.) Zalety: dużo wiarygodnego i współczesnego (up-to-date) materiału Problemy: słownik nie jest generowany automatycznie, korpus jest materiałem wspomagającym (reference), dużo pracy „ręcznej” dla leksykografów

Zastosowanie, c.d. Korpus Ratysboński Zastosowanie w gramatycznych studiach konfrontatywnych (wyniki można uwzględnić w słownikach też) modalność epistemiczna w językach słowiańskich (Johan van der Auwera, Ewa Schalley & Jan Nuyt, "Epistemic possibility in a Slavonic parallel corpus―a pilot study")

Demonstracja pracy z korpusami PolUKR Regensburg Parallel Corpus OPUS Korpus IPI PAN