Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego

Slides:



Advertisements
Podobne prezentacje
I część 1.
Advertisements

Lingwistyka Matematyczna
Wstęp do Informatyki, część 1
Klasyfikacja roczna w roku szkolnym 2012/2013
Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Uniwersytecki System Obsługi Studiów
Absolwent PW staje się użytkownikiem samodzielnym języka obcego: 1.potrafi sprawnie komunikować się w sprawach ogólnych i zawodowych 2.posiada umiejętność
mgr inż. Tomasz Kocejko Katedra Inżynierii Biomedycznej WETI PG
PODSTAWY MARKETINGU Ćwiczenia nr 1.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Egzamin maturalny w 2012 roku.1 Egzamin maturalny w 2012 roku Warszawa,12 września 2012 r.
NOWA MATURA Z JĘZYKA ROSYJSKIEGO
Rodzaje i cele bibliotek
Sztuczna Inteligencja Analiza języka naturalnego Tłumaczenie maszynowe
Uniwersytet Warszawski Ucz się od najlepszych!. Uniwersytet dziś czyli nasza oferta.
Joanna Dziak Urszula Długaj Halina Skrzypiec
PREZENTACJA ZASOBÓW INFORMACYJNYCH BAZY GŁÓWNEGO URZĘDU STATYSTYCZNEGO URZĄD STATYSTYCZNY W ŁODZI Łódź, 10 grudnia 2010 r.
Wykorzystanie Platformy Moodle w dydaktyce języków obcych
KONKURS WIEDZY O SZTUCE
Języki formalne i gramatyki
Pojęcia podstawowe, historia komputera, rodzaje komputerów.
Seminarium dyplomowe dr inż. Ewa Więcek-Janka
Życiorys mgr inż. Krystyna Dziubich Katedra Architektury Systemów Komputerowych WETI PG Urodzona: r. Wykształcenie: studia uzupełniające.
Wyszukiwanie informacji
0 BIBLIOTEKI XXI WIEKU. CZY PRZETRWAMY? Ogólnopolska konferencja bibliotekarzy Łódź, czerwca 2006.
ENCYKLOPEDIE I SŁOWNIKI
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
1. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
5. Wprowadzenie do nauki o języku A1NJ
1. Wprowadzenie do nauki o języku A1NJ
Transformacja Z (13.6).
Przykład wykorzystania komercyjnych i niekomercyjnych źródeł informacji w pracy Biblioteki Chemicznej ZUT Agnieszka Bajda
Kurs CMKP Podstawy zdrowia publicznego
I NKJO wchodzi w skład Zespołu Nauczycielskich Kolegiów Języków Obcych
MATEMATYCZNE MODELOWANIE SYSTEMÓW
Nowoczesne formy kształcenia w Uniwersytecie Pedagogicznym w Krakowie.
Kluczowe liczby w projekcie budżetu na 2014 rok i w projekcie Wieloletniej Prognozy Finansowej na lata Warszawa 15 listopada 2013 r. MIASTO STOŁECZNE.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
KALENDARZ 2011r. Autor: Alicja Chałupka klasa III a.
1/34 HISTORIA BUDOWY /34 3/34 6 MAJA 2011.
Plan prezentacji Zarys projektu Geneza tematu
XML – eXtensible Markup Language
Języki i środowiska programowania systemów rozproszonych, Wykład 01, Slajd Języki i środowiska programowania systemów rozproszonych Wykładowca:
Techniki działań terrorystycznych kryteria zaliczenia
Kalendarz 2011r. styczeń pn wt śr czw pt sb nd
Społeczna odpowiedzialność biznesu
Gramatyki i translatory
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład.
© GfK 2012 | Title of presentation | DD. Month
SPECJALNOŚĆ: Oprogramowanie Systemowe
Język francuski na świecie
Język francuski na świecie
Encyklopedie i słowniki jako źródła informacji
BAZA PUBLIKACJI PRACOWNIKÓW, DOKTORANTÓW I STUDENTÓW AMW
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
IBUK Libra WIRTUALNA CZYTELNIA
Historia Administracji Ćwiczenia I.
Wyszukiwanie informacji w internecie
Cele: 1. wyposażenie studenta w umiejętności porównywania i wartościowania zamierzeń edukacyjnych w poszczególnych systemach oświatowych, 2. zrozumienie.
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Kalendarz 2020.
Języki formalne i gramatyki Copyright, 2005 © Jerzy R. Nawrocki Teoretyczne podstawy.
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
8. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Spotkanie 5 Wstęp do GFJP: jak to chodzi....  Definicja pewnego zbioru wyrażeń (np. zbioru „język polski”).  Różne aparaty: ST, EST, GB, GPSG, HPSG,…
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
1 Międzywydziałowe Centrum Języków Obcych. 2 Zajęcia językowe odbywają się w grupach o różnych poziomach, zależnie od stopnia opanowania języka obcego.
Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.
Zapis prezentacji:

KORPUS JAKO PODSTAWA ZDYSCYPLINOWANEGO OPISU LINGWISTYCZNEGO Proseminarium doktoranckie 2011/2012 Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje: środa 14.00-15.00, pok. 1 Strona internetowa: www.mswidz.republika.pl

Wstęp do lingwistyki korpusowej. Spotkanie 1 Wstęp do lingwistyki korpusowej.

Program na dziś O sobie. Cele. Przedmiot. Hasła. Tematy. Szkic historii lingwistyki Korpusy. Narzędzia i produkty. 3

O sobie Specjalność: lingwistyka (polonistyczna). Zainteresowania zawodowe: składnia dystrybucyjna języka polskiego (Saloni, Z., Świdziński, M.: Składnia współczesnego języka polskiego. Warszawa 1981, 1985, 1987, 1998, 2001, 2006); gramatyka formalna (Świdziński, M.: Gramatyka formalna języka polskiego. Warszawa 1992). językoznawstwo korpusowe (projekt „Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów”, 2001-2004). Inicjator i kierownik Zakładu Językoznawstwa Komputerowego (1991-2009). Nie informatyk, ale raczej technik niż humanista... 4

Cele Cel: wprowadzenie w warsztat współczesnej lingwistyki. Zawartość treściowa: pokaz narzędzi przetwarzania korpusu tekstów polskich – rozpoznawania słów, rozwiązywania homonimii, przeszukiwania korpusów, interpretacji składniowej. Nasze zajęcia: moje opowiadanie, wykłady gości; referowanie; trening i rozwiązywanie zadań badawczych (w ideale – Waszych...). 5

Cele Zaliczenie: zal za obecność lub ocena za aktywność: referowanie, dyskusję problemów lingwistycznych, rozwiązywanie zadań, weryfikacje wyników analiz lub, ocena za rozmowę końcową. 6

Literatura Derwojedowa, M., Rudolf, M., Świdziński, M.: „Dehomonimizacja i desynkretyzacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich”. [W:] Biuletyn Polskiego Towarzystwa Językoznawczego LVIII, Warszawa 2002. 187-199. Korpus_IPI_PAN: http://korpus.pl/ Korpus_PWN: http://korpus.pwn.pl/ Marciniak, M. (red.): Anotowany korpus dialogów telefonicznych. Akademicka Oficyna Wydawnicza EXIT: Warszawa 2010. Narodowy Korpus Języka Polskiego: http://nkjp.pl/ Przepiórkowski, A.: Korpus IPI PAN. Wersja wstępna. IPI PAN: Warszawa 2004. 7

Literatura Rudolf, M.: Metody automatycznej analizy korpusu tekstów polskich. Uniwersytet Warszawski – Wydział Polonistyki: Warszawa 2004. Świdziński, M., Gramatyka formalna jezyka polskiego. WUW: Warszawa 1992 (dostępna w wersji elektronicznej). Świdziński, M.: „Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy”. [W:] LingVaria, nr 1. Kraków 2006. 23-32. Świdziński, M., Rudolf, M.: „Narzędzia informatyczne obsługi wielkich korpusów tekstów: wyszukiwarka Holmes”. [W:] Biuletyn Polskiego Towarzystwa Językoznawczego LXII, Warszawa 2006. Woliński, M.: Komputerowa weryfikacja gramatyki Świdzińskiego. Niepublikowana rozprawa doktorska. IPI PAN: Warszawa 2004. 8

Przedmiot „[językoznawstwo XXI stulecia] to [...] lingwistyka korpusowa. Rozwija się ona już od jakiegoś czasu; wynikła w sposób naturalny z dość szczęśliwego splotu różnorodnych okoliczności; zdominowała inne nurty i odmiany językoznawstwa nieodwracalnie. Nie można być dziś językoznawcą i nie otrzeć się o nią choćby jako użytkownik narzędzi. A skoro tak, to warto wejść w ten świat z wyboru, zadań bowiem jest moc i będzie ich coraz więcej. W świecie jest na tę najnowszą lingwistykę, nie na dowolną, mnóstwo pieniędzy – i zajmują się nią całe rzesze; to dowodzi, że coś jest na rzeczy, że czemuś to służy...” [Świdziński, M.: „Lingwistyka korpusowa w Polsce – źródła, stan, perspektywy”. [W:] LingVaria, nr 1. Kraków 2006. 23-32.] 9

Hasła Co to jest: przetwarzanie tekstu (NLP), korpus reprezentatywny / zrównoważony / oportunistyczny, Korpus IPIPAN / Korpus PWN, homonimia / synkretyzm, tekst znakowany, tagowanie / POS-tagging / tagset, analizator morfologiczny, lematyzacja / dehomonimizacja / desynkretyzacja, rozwiązywanie homonimii słabe / mocne / jakościowe / ilościowe, wyszukiwarka / search engine / Poliqarp, gramatyka formalna, parser, homonimia strukturalna. 10

Tematy Wprowadzenie do językoznawstwa korpusowego. Korpus jako źródło informacji lingwistycznej. Typy korpusów. Dostępne korpusy polskie. Homonimia jako problem praktyczny. Analizatory morfologiczne. Pojęcie znakowania. Koncepcje zbioru znaczników. Morfeusz. AMOR. Narzędzia obsługi korpusów. Wyszukiwarka Korpusu PWN. Holmes i korpus PWN. Poliqarp i Korpus IPI PAN. Narzędzia interpretacji składniowej. Gramatyka formalna języka polskiego i Świgra. Zadania praktyczne. Warsztat współczesnego leksykografa. 11

Szkic historii lingwistyki Lingwistyka do początków XX wieku – filologia: analiza tekstów minionych epok, egzegeza, interpretacje historyczne (etymologia), pochodzenie, pokrewieństwo języków. Lingwistyka powstała w XX wieku! Trzy rewolucje: strukturalna, forrmalna („kopernikańska”), informatyczna. 12

Szkic historii lingwistyki Lingwistyka I połowy XX wieku – strukturalizm (F. de Saussure, J.N. Baudouin de Courtenay, M. Kruszewski, O. Jespersen, N. Trubeckoj, L. Hjelmslev, L. Tesniére, J. Kuryłowicz, L. Bloomfield, Z. S. Harris): opis struktury, nie genezy. Język naturalny: dwuklasowy system semiotyczny służący danej populacji do komunikacji uniwersalnej. Lingwistyka formalna: opisy „typu matematycznego” – twierdzenia, dowody, rachunki. Opis na papierze!!! Wynik: definicja drzew struktury. Język naturalny: zbiór wszystkich wyrażeń poprawnych i tylko takich. Generatywizm: N. Chomsky, Syntactic Structures (1957). Inne formalizmy: GPSG, HPSG, DCG, wiele innych. 13

Szkic historii lingwistyki Lingwistyka informatyczna: zadania inżynierskie – budowa korpusu, automatyczna analiza tekstu, przetwarzanie tekstów, przeszukiwanie itp. Opis jest urządzeniem – na przykład programem komputerowym. Wynik: określony podzbiór korpusu, lista składników spełniających zadane warunki, rzeczywiste drzewa struktury dla danego wyrażenia (parsing trees). Pojęcie implementacji opisu (formalnego). Lingwistyka korpusowa. 14

Korpusy korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit. «główna część budowli; w architekturze pałacowej: część centralna budynku o charakterze reprezentacyjnym; w architekturze sakralnej: część nawowa kościoła» 4. techn. «główna, tworząca całość, część jakiegoś urządzenia, maszyny, przyrządu itp.; kadłub» Korpus obrabiarki, okrętu. 5. wojsk. «duża jednostka taktyczna składająca się z kilku dywizji lub brygad; wchodzi w skład armii lub może działać samodzielnie» Korpus zmechanizowany. Korpus piechoty, kawalerii. FR. Korpus oficerów, korpus oficerski «ogół oficerów wchodzących w skład dowództwa wojskowego» FR.Korpus kadetów «szkoła wojskowa, początkowo szkoła oficerska, później średnia szkoła ogólnokształcąca, przygotowująca kandydatów do szkół oficerskich; w Polsce istniała do roku 1956» 15

Korpusy FR. polit. Korpus dyplomatyczny «ogół przedstawicieli państw obcych akredytowanych przy rządzie danego kraju; personel dyplomatyczny oraz wszyscy członkowie obcych misji dyplomatycznych korzystających z przywilejów i immunitetów» FR. Korpus konsularny «ogół konsulów w określonym państwie lub miejscowości; szefowie placówek konsularnych oraz członkowie personelu konsularnego korzystający z przywilejów i immunitetów» (wg KSJP) 16

Korpusy (wg ISJP) korpus [...] 6 Korpus tekstów to zbiór książek, czasopism, artykułów itp. przeznaczony do jakichś prac lub badań. Termin specjalistyczny. …komputerowy korpus języka polskiego. (wg ISJP) 17

Korpusy Korpus to dowolny zbiór tekstów. Korpus to dowolny zbiór tekstów, w którym czegoś szukamy. Korpus to dowolny zbiór tekstów będący podstawą badań (np. naukowych). Korpus narodowy??? 18

Korpusy Klasyfikacje: Rozmiar: wielki – średni – mały Waga: zasadniczy – pomocniczy Cel: podstawowy – przykładowy (sample) Zakres: ogólny – szczegółowy Status: naukowy (kulturowy) – komercyjny 19

Korpusy LOB Corpus Lancaster – Oslo/Bergen 1970-1978 Geoffrey Leech, Stig Johansson BNC 1991-1995 Oxford, Lancaster, Longman PELCRA Polish and English Language Corpora for Research and Applications COBUILD http://korpus.pwn.pl/ Korpus PWN http://korpus.pl/ Korpus IPI PAN 20

Polski Korpus Narodowy??? Korpusy Inne języki Český Narodní Korpus Korpus niemiecki Berlińskiej Akademii Nauk (DWDS) Korpusy IDS (Institut für Deutsche Sprache) Национальый Корпус Русского Языка korpusy francuskie? korpusy hiszpańskie? korpusy portugalskie? Polski Korpus Narodowy??? 21

Korpusy The Lancaster/Oslo-Bergen Corpus Approximately 1,000,000 words of British written English dating from 1960. The corpus is made up of 15 different genre categories. Available as orthographic text, and tagged with the CLAWS1 part-of-speech tagging system. The Leeds- Lancaster Treebank and Lancaster Parsed Corpus are analyzed subsamples of the LOB corpus. For further information see the corpus manual (1978) and the tagged corpus manual (1986). (There is a local on-line copy of the tagged corpus manual at Lancaster.) http://khnt.hit.uib.no/icame/manuals/lob/INDEX.HTM http://www.natcorp.ox.ac.uk/ 22 22

Korpusy ● BNC (British National Corpus) 23 23

Korpusy ● PELCRA http://pelcra.pl/ 24

Korpusy London and Glasgow 1987 25 25

Korpusy 26 26

Korpusy 27 27

Korpusy http://korpus.pwn.pl/ Korpus PWN Wydawnictwo Naukowe PWN przygotowało i udostępniło sieciową wersję Korpusu Języka Polskiego PWN wielkości 40 milionów słów. Korpus składa się z fragmentów 386 różnych książek, 977 numerów 185 różnych gazet i czasopism, 84 nagranych rozmów, 207 stron internetowych oraz kilkuset ulotek reklamowych. Pełna wersja sieciowa korpusu jest dostępna odpłatnie (40 mln), a bezpłatnie wersja demonstracyjna wielkości ponad 7,5 miliona słów. 28

Korpusy 29

Korpusy http:/korpus.pl/ Korpus IPI PAN 2. wydanie Korpusu IPI PAN (marzec 2006) 2.all.250.bin.tar.bz2 — pełny Korpus IPI PAN, czyli ponad 250 mln. segmentów. 2.sample.30.bin.tar.bz2 — próbka Korpusu IPI PAN dostępna na stronie http://korpus.pl/; ponad 30 mln. segmentów. Niniejsza wersja sample jest korpusem różnorodnym o następującym składzie: proza współczesna: ponad 10% proza dawna: prawie 10% teksty książkowe niebeletrystyczne (głównie naukowe): 10% prasa: 50% stenogramy sejmowe i senackie (w tym z komisji śledczej): 15% ustawy: 5% 30

Korpusy 31

Narzędzia i produkty Korpus PWN: przeglądarka http://korpus.pwn.pl/ Korpus PWN: (Sherlock) Holmes Morfeusz http://nlp.ipipan.waw.pl/~wolinski/morfeusz/ Korpus IPIPAN: Poliqarp http://korpus.pl/ Świgra http://nlp.ipipan.waw.pl/~wolinski/swigra/ Komputerowy słownik języka polskiego Słownik gramatyczny języka polskiego http://nlp.ipipan.waw.pl/~wolinski/sgjp/ 32

Podsumowanie Lingwistyka XXI wieku – korpusowa. Korpus – zbiór tekstów wymagających narzędzi obsługi. Polszczyzna – dobrze opisana gramatycznie. Istnieją narzędzia do pracy z korpusem tekstów polskich. Istnieją narzędzia analizy morfologicznej i składniowej. Współczesny leksykograf musi być lingwistą korpusowym. 33