Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki

Slides:



Advertisements
Podobne prezentacje
Maciej Piasecki Politechnika Wrocławska Instytut Informatyki
Advertisements

X Ogólnopolska Konferencja Automatyzacja Bibliotek Publicznych Modele współpracy bibliotek publicznych – czy razem możemy więcej, szybciej, lepiej? Warszawa.
Prezentacja Organizacja informacji o zasobach w katalogu komputerowym
Agnieszka Lewandowska, Cezary Mazurek, Marcin Werla
SYSTEM ZARZĄDZANIA DANYMI PCSS 2003/2004 START.
Uwierzytelnianie i autoryzacja dostępu do portali
11 RDF Wertykalne zastosowania XML-a. 22 RDF - Wprowadzenie Problemy Sieć jest nieczytelna dla programów komputerowych. Sieć zawiera zbyt wiele informacji.
POLSKIE TOWARZYSTWO FONETYCZNE Analiza, synteza i rozpoznawanie mowy w lingwistyce, technice i medycynie Szczyrk 2003 System Thetos w serwisie tekstów.
Dokumentowanie wymagań w języku XML
Pamięć semantyczna Część pamięci długotrwałej, w której przechowuje się podstawowe znaczenie słów i pojęć.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Inteligentne Systemy Informacyjne
Życiorys mgr inż. Krystyna Dziubich Katedra Architektury Systemów Komputerowych WETI PG Urodzona: r. Wykształcenie: studia uzupełniające.
DOROBEK NAUKOWY I DYDAKTYCZNY PRACOWNIKÓW WYŻSZYCH UCZELNI W BAZACH DANYCH I BIBLIOTEKACH CYFROWYCH WYSZUKIWANIE I OCENA.
Wzorce projektowe w J2EE
Modele baz danych - spojrzenie na poziom fizyczny
Multimedialne bazy danych
Projekt LOG-IN Wspólne działania szkoleniowe z zakresu zastosowania nowych mediów i technologii w nauczaniu języków obcych ukierunkowane na tworzenie innowacyjnych.
Wypożyczalnia NARZĘDZI
Rozproszony Katalog Bibliotek REGIONALNE SIECI WSPÓŁPRACY Lilia Marcinkiewicz STRATEGIE, NARZĘDZIA, REALIZACJEKsiążnica Pomorska IX Ogólnopolska.
Bazy danych z zakresu genomiki, biotechnologii i jakości produktów pochodzenia zwierzęcego Jolanta Oprządek, Grażyna Sender, Magdalena Sobczyńska, Łukasz.
Technologia informacyjna
OTWARCIE NOWEJ SIEDZIBY INSTYTUTU PODSTAW INFORMATYKI PAN
Wirtualna baza SQL zgodna z SQL Server SQL as a Service
Federacja Bibliotek Cyfrowych: Stan obecny i kierunki rozwoju
Digitalizacja obiektów muzealnych
POLSKA PLATFORMA TECHNOLOGICZNA PMU – PODUKCJA MASZYN I URZADZEŃ
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Prezentacja inicjatyw Śląskiego Klastra ICT
Plan rozwoju Biblioteki Wyższej Szkoły Humanistyczno-Ekonomicznej w Łodzi Centrum Badań i Rozwoju Kształcenia WSHE.
Zaprojektowanie i wykonanie prototypowego systemu obiegu dokumentów (workflow) dla Dziekanatu Wydziału z wykorzystaniem narzędzi open-source i cloud computing.
Moduł: Informatyka w Zarządzaniu
POŚREDNIK Jak reprezentowana jest informacja w komputerze? liczby – komputer został wymyślony jako zaawansowane urządzenie służące do wykonywania.
WordNet WordNet to duża leksykalna baza języka angielskiego. Grupuje ona rzeczowniki, czasowniki, przymiotniki i przysłówki w zestawy kognitywnych (poznawczych)
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
SPECJALNOŚĆ: Oprogramowanie Systemowe
Podstawy programowania
WALDEMAR KAMRAT POLITECHNIKA GDAŃSKA
 Uczeń posługuje się bardzo podstawowym zasobem środków językowych (leksykalnych, gramatycznych, ortograficznych oraz fonetycznych), umożliwiającym realizację.
PROCESY W SYSTEMACH SYSTEMY I PROCESY.
Toruń 28/ Finansowanie w ramach aktywności 2.3 (Budowa infrastruktury dla nauki) – Konkurs 2.3/1/2013/POIG Okres realizacji: –
H YBRYDOWY MODEL FUNKCJONOWANIA BIBLIOTEKI WYŻSZEJ UCZELNI EKONOMICZNEJ (N A PRZYKŁADZIE B IBLIOTEKI G ŁÓWNEJ UEK) Danuta Domalewska, Aureliusz Potempa.
Toruń 28/ Usługodawcy dostępni poprzez PIONIER.Id mogą pochodzić z dwóch źródeł: – bezpośrednio z PIONIER.Id – z eduGAIN za pośrednictwem PIONIER-id.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
RePolis Repozytorium Publikacji Naukowych Politechniki Śląskiej.
CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki,
Biblioteki cyfrowe i repozytoria
Dokumentacja obsługi programów Kamil Smużyński Piotr Kościński.
ZINTEGROWANE SYSTEMY ZARZĄDZANIA
Piotr Czapiewski Wydział Informatyki ZUT. Web Services Description Language.
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Ergonomia procesów informacyjnych
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
Czy katalogowanie ma przyszłość? Dwugłos względnie uporządkowany Jadwiga Woźniak-Kasperek Małgorzata Kisilowska Instytut Informacji Naukowej i Studiów.
Sprawozdanie Projekt celowy „Wdrożenie protokołu LDAP w akademicko-naukowych sieciach komputerowych” Jerzy Żenkiewicz Uczelniane Centrum Informatyczne.
Moduł e-Kontroli Grzegorz Dziurla.
Pomorski System Wsparcia i Współpracy Organizacji Pozarządowych cele, narzędzie.
SYRIUSZ – KONFERENCJA PSZ 2011 Dr inż. Jan Gąsienica-Samek – CRZL, kierownik projektu 1.12 Dr inż. Jan Gąsienica-Samek Kierownik projektu 1.12 Centrum.
Źródła informacji. Społeczeństwo informacyjne społeczeństwo charakteryzujące się przygotowaniem i zdolnością do użytkowania systemów informatycznych,
Colloqia Jerzy Skowronek Dedicata, Warszawa, 22 maja 2015 Anna Rogowska Archiwum Państwowe w Kielcach Dostęp online do archiwów zjednoczonej Europy na.
Możliwości rozwoju szkolnictwa zawodowego i edukacji przedszkolnej RPO WŚ
LEŚNE CENTRUM INFORMACJI - PLATFORMA INFORMACYJNA MONITORINGU ŚRODOWISKA PRZYRODNICZEGO PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW EUROPEJSKIEGO FUNDUSZU ROZWOJU.
PROBLEMATYKA INFRASTRUKTUR INFORMACJI PRZESTRZENNEJ W POLSCE JERZY GAŹDZICKI POLSKIE TOWARZYSTWO INFORMACJI PRZESTRZENNEJ.
Przewodnik
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego E-podręczniki i e-materiały* do kształcenia ogólnego nie zastąpienie,
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Hipertekst HTML WWW.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
między starymi a nowymi czasami
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

CLARIN – rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl 2013-04-17

Projekt CLARIN CLARIN = Część Cel Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Projekt CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne

Projekt CLARIN CLARIN ERIC Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Projekt CLARIN CLARIN ERIC konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) członkowie Austria Bułgaria Czechy Dania Estonia Holandia Niemcy Dutch Language Union (organizacja międzypaństwowa) obserwatorzy Norwegia

Podstawowe pojęcia Zasoby językowe Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Podstawowe pojęcia Zasoby językowe opisy języka naturalnego, które są sformalizowane w różnym stopniu zbiory danych i bazy danych opisujące język naturalny oraz jego użycie Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Zasoby językowe Korpusy (duże zbiory) dokumentów tekstowych i nagrań mowy: przykłady użycia (fragmenty, wypowiedzi lub całe dokumenty) anotowane - opisane pod względem lingwistycznym w sformalizowany sposób (np. pod względem gramatycznym, czy też znaczenia) Słowniki morfologiczne, własności gramatycznych słów, nazw własnych, leksykony semantyczne, leksykalne sieci semantyczne, wielojęzyczne słowniki itd. Gramatyki Inne zasoby np. schematy anotacji oraz metadanych, funkcje podobieństwa semantycznego słów, listy częstościowe, modele językowe itd.

Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Narzędzia językowe Analizatory morfologiczne — rozpoznające znane słowa i przypisujące im opis własności gramatycznych Programy do ujednoznaczniania znaczeń słów w tekście Parsery dokonujące analizy składniowej oraz semantycznej tekstu Programy do rozpoznawania mowy i pisma ręcznego Programy do analizy znaczenia i struktury znaczeniowej tekstu rozpoznawanie i klasyfikacja nazw własnych rozpoznawanie powiązań anaforycznych rozpoznawanie sytuacji itd.

Narzędzia językowe - przykład Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Narzędzia językowe - przykład Autorzy filmu stawiają tezę, że pierwszym człowiekiem, który postawił nogę na wierzchołku Ziemi był George Mallory. Autor film stawiać teza , że pierwszy człowiek , który postawić noga na wierzchołek Ziemia być George Mallory . Autor[subst.nom.pl.m1] film[subst.gen.sg.m3] stawiać[fin.pl.m1] teza[subst.gen.sg.f] , że[conj] pierwszy[adj.dat.sg.m1] człowiek[subst.dat.sg.m1] … Autorzy filmu stawiają tezę, że pierwszym człowiekiem, który postawił nogę na wierzchołku Ziemi[Astro_Object] był George Mallory[Person]. Autorzy filmu[NP] stawiają tezę, że [pierwszym człowiekiem, który postawił nogę na wierzchołku Ziemi] był George Mallory.

Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy – różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

Infrastruktura językowa Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Infrastruktura językowa

Funkcje infrastruktury Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Funkcje infrastruktury Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami (np. ISOcat, RELcat) wirtualne kolekcje oparte na metadanych Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania

Centra CLARIN Typ A – centrum infrastrukturalne Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Centra CLARIN Typ A – centrum infrastrukturalne dostawca podstaw technologicznych i usług potrzebnych do podstawowego funkcjonowania sieci CLARIN np. gromadzenia i agregacji metadanych, dostarczanie unikalnych identyfikatorów zasobów i narzędzi, itp., Typ B – centrum technologii językowych podstawowy składnik sieci usługi, narzędzia, zasoby i aplikacje związane z przetwarzaniem języka naturalnego Typ C – centrum metadanych umożliwiają automatczny dostęp do opisów zasobów (ale nie same zasoby) Typ K – centrum wiedzy dostęp do wiedzy i ekspertów wsparcie użytkowników CLARIN

Aplikacje – przykłady Ułatwienie dostępu Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL Aplikacje – przykłady Ułatwienie dostępu połączony katalog metadanych federacyjne wyszukiwanie w korpusach tekstu i mowy Gromadzenie i zarządzanie danymi tworzenie własnych kolekcji rozszerzanie istniejących wykorzystanie istniejących archiwów Rozszerzenie wyszukiwania w zasobach automatyczna generacja metadanych w oparciu o narzędzia językowe Wydobywanie informacji i wiedzy automatyczna generacja zestawień analiza statystyczna oparta na faktach wydobytych z korpusu

CLARIN-PL Konsorcjum CLARIN-PL: polska część infrastruktury CLARIN Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL CLARIN-PL Konsorcjum CLARIN-PL: polska część infrastruktury CLARIN Centrum Technologii Językowych CLARIN-PL zlokalizowane na Politechnice Wrocławskiej budowane w ramach Grupy Naukowej G4.19 zapewniające funkcje sieciowe infrastruktury CLARIN udostępniające repozytorium zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników – naukowców Korpusy Uzupełnienie brakujących elementów podstawowej technologii językowej dla języka polskiego Wybrane zasoby dwujęzyczne

CLARIN-PL Typowy schemat przetwarzania wypowiedzi Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL CLARIN-PL Typowy schemat przetwarzania wypowiedzi Rozpoznanie struktury dokumentu i wydobycie tekstu Segmentacja: na tokeny, zdania oraz jednostki bardziej złożone Analiza morfologiczna Ujednoznacznianie morfo-syntaktyczne (tagowanie) Ujednoznacznianie sensu słów (znaczeń leksykalnych) Płytka analiza składniowa (płytki parsing) (opcjonalnie) Rozpoznawanie wyrażeń wielowyrazowych, w tym jednostek identyfikujących, np. nazw własnych. Rozpoznawanie związków w tekście, np. anafory, koreferencji, relacji semantycznych, sytuacji. Głęboka analiza składniowa (głęboki parsing) Głęboka analiza semantyczna (częściowo) Analiza pragmatyczna (w tym struktury dyskursu)

CLARIN-PL: wybrane zadania Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL CLARIN-PL: wybrane zadania System długoterminowego przechowywania danych cyfrowych Korpusy: mowy, transkrypcji mowy, historyczny i dwujęzyczne Narzędzia do zaawansowanego przeszukiwania korpusów mowy i tekstu oraz wydobywania wiedzy lingwistycznej z korpusów Leksykalne zasoby semantyczne: bardzo duży dwujęzyczny wordnet, wyrażenia wielowyrazowe, nazwy własne oraz ramy walencyjne (struktury argumentowe) Płytkie i głębokie parsery semantyczne dla języka polskiego Wydobywanie informacji: rozpoznawanie nazw własnych, odniesień do czasu, anafory, relacji oraz sytuacji Narzędzia do automatycznego streszczania Narzędzia do wydobywania wiedzy z tekstu (Text Mining) ukierunkowane na zastosowania w naukach humanistycznych i społecznych – współpraca z użytkownikami

CLARIN-PL: projekt Okres: 2013-2015 Partnerzy: Konferencja i3’2013 Poznań 2013-04-17 CLARIN-PL CLARIN-PL: projekt Okres: 2013-2015 Partnerzy: Politechnika Wrocławska, Instytut Informatyki (lider) Instytut Podstaw Informatyki Polskiej Akademii Nauk Instytut Slawistyki Polskiej Akademii Nauk Polsko-Japońska Wyższa Szkoła Technik Komputerowych Uniwersytet Łódzki Uniwersytet Wrocławski

Dziękuję bardzo za uwagę