CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki,

Slides:



Advertisements
Podobne prezentacje
Maciej Piasecki Politechnika Wrocławska Instytut Informatyki
Advertisements

Ewa Skrenty Uczelniane Centrum Informatyczne UMK
Zastosowanie LDAP w obsłudze katalogów bibliotecznych
LDAP, Toruń Indeksowanie ogólnopolskich zasobów LDAP Maja Górecka-Wolniewicz, UCI UMK Zadanie 26.
Usługa powszechnej archiwizacji PLATON-U4
Wprowadzenie do usługi Warsztaty dla użytkowników Usługi Powszechnej Archiwizacji Maciej Brzeźniak, Gracjan Jankowski, PCSS.
Wykonawca główny: Włoska Agencja Narodowa Wykonawcy współuczestniczący: Austriacka Agencja Narodowa Grecka Agencja Narodowa Polska Agencja Narodowa Idea.
ADAM Active Directory w trybie aplikacyjnym
Jarosław Sokolnicki Zbigniew Szcześniewski Microsoft
Agnieszka Lewandowska, Cezary Mazurek, Marcin Werla
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
SYSTEM ZARZĄDZANIA DANYMI PCSS 2003/2004 START.
Dokumentowanie wymagań w języku XML
Temat: Doświadczenie z wdrożenia usług elektronicznych w województwie podlaskim w latach na przykładzie Wojewódzkiego Centrum Zarządzania Siecią
Proxy WWW cache Prowadzący: mgr Marek Kopel
Longhorn - Usługi terminalowe
Internetowy System Udostępniania Obrazów i Produktów Fotogrametrycznych PROPOZYCJA PROJEKTU STUDENCKIEGO W KATEDRZE SYSTEMÓW GEOINFORMATYCZNYCH WYDZIAŁU.
Artur Szmigiel Paweł Zarębski Kl. III i
Seminarium eduroam – UMK, Tomasz Wolniewicz UCI UMK Formalne aspekty eduroam Tomasz Wolniewicz UCI UMK.
Modele baz danych - spojrzenie na poziom fizyczny
Alliance 8300 Zintegrowany system zarządzania bezpieczeństwem
dLibra – Środowisko dla Biblioteki Cyfrowej
Multimedialne bazy danych
Dropbox.
eFaktura w DHL Express Poland
Rozwój aplikacji przy wykorzystaniu ASP.NET
IT Asset Management Service
Cecylia Szymanska - Ban | Education Lead Microsoft.
Systemy zarządzania treścią Wykład 1
WinPakSE/PE Zintegrowany System Ochrony Obiektów
Federacja Bibliotek Cyfrowych: Stan obecny i kierunki rozwoju
Digitalizacja obiektów muzealnych
Jaka jest wydajność najszybszego superkomputera na świecie? Gflopów procesorów Intel EM64T Xeon X56xx 2930 MHz (11.72 GFlops) GB.
Użytkowanie komputerów
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Rozdział 1: Wprowadzenie do systemu Windows 2000 i podstaw sieci
Sieciowe Systemy Operacyjne
Zaprojektowanie i wykonanie prototypowego systemu obiegu dokumentów (workflow) dla Dziekanatu Wydziału z wykorzystaniem narzędzi open-source i cloud computing.
Moduł: Informatyka w Zarządzaniu
Internetowe surfowanie
System synchronizacji oraz współdzielenia plików pomiędzy wieloma użytkownikami oraz urządzeniami poprzez sieć Internet Rafał Olszewski Promotor: Mgr inż.
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
SPECJALNOŚĆ: Oprogramowanie Systemowe
Narzędzia klienta usługi archiwizacji Warsztaty „Usługa powszechnej archiwizacji” Michał Białoskórski, CI TASK Bartłomiej Balcerek, WCSS.
Toruń 28/ Terminologia używana w Regulaminie Zadania Operatora PIONIER.Id Zadania operatora regionalnego Ważniejsze zapisy dotyczące członków.
Toruń 28/ Metadane SAML opisują, w jaki sposób ma być realizowana komunikacja pomiędzy IdP i SP Metadane są typowo prezentowane w postaci XML.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Toruń 28/ Finansowanie w ramach aktywności 2.3 (Budowa infrastruktury dla nauki) – Konkurs 2.3/1/2013/POIG Okres realizacji: –
Toruń 28/ Usługodawcy dostępni poprzez PIONIER.Id mogą pochodzić z dwóch źródeł: – bezpośrednio z PIONIER.Id – z eduGAIN za pośrednictwem PIONIER-id.
Treści multimedialne - kodowanie, przetwarzanie, prezentacjaOdtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Andrzej Majkowski 1 informatyka +. 2 Bezpieczeństwo protokołu HTTP Paweł Perekietka.
FTP i www Informatyka Zakres podstawowy 1 Zebrał i opracował : Maciej Belcarz 11.
RePolis Repozytorium Publikacji Naukowych Politechniki Śląskiej.
System międzybibliotecznych wypożyczeń elektronicznych Academica i jego rola w bibliotekach publicznych Academica System międzybibliotecznych wypożyczeń.
Biblioteki cyfrowe i repozytoria
Dokumentacja obsługi programów Kamil Smużyński Piotr Kościński.
Piotr Czapiewski Wydział Informatyki ZUT. Web Services Description Language.
Podstawy programowania
INTERNET jako „ocean informacji”
Podział sieci komputerowych
SIECI KOMPUTEROWE JAN STOSIO KLASA 1 E Sieć komputerowa – zbiór komputerów i innych urządzeń połączonych ze sobą kanałami komunikacyjnymi. Sieć komputerowa.
WYŻSZA SZKOŁA INFORMATYKI I ZARZĄDZANIA z siedzibą w Rzeszowie WYDZIAŁ INFORMATYKI STOSOWANEJ VPN TYPU KLIENT-SERWER, KONFIGURACJA NA MICROSOFT ISA 2006.
Źródła informacji. Społeczeństwo informacyjne społeczeństwo charakteryzujące się przygotowaniem i zdolnością do użytkowania systemów informatycznych,
Elementy przeglądarki internetowej Pasek menu Pasek kart Pasek adresowy Pasek wyszukiwania Okno z zawartością strony internetowej Zakładki (ulubione)
Analiza, projekt i częściowa implementacja systemu wspomagania pracy Referatu Reprografii Promotor: mgr inż. Dariusz OlczykWykonała: Katarzyna Ściwiarska.
Hipertekst HTML WWW.
Aplikacje i usługi internetowe
- Krajowe Repozytorium Obiektów Nauki i Kultury
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej

CLARIN  CLARIN =  Common Language Resources and Technology Infrastructure  Wspólne zasoby językowe i infrastruktura technologiczna  Część  europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures)  Polskiej Mapy Drogowej Infrastruktury Badawczej  Cel  połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej  Obszar działania: nauki humanistyczne i społeczne Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

CLARIN  CLARIN ERIC  konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium)  Członkowie założyciele  Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa)  Pozostali członkowie  Grecja, Litwa, Portugalia, Szwecja  Obserwatorzy  Norwegia Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Podstawowe pojęcia  Zasoby językowe  zbiory danych i bazy danych opisujące język naturalny oraz jego użycie  sformalizowany opis wybranych aspektów języka naturalnego  Narzędzia językowe  programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego  automatyczna analiza struktur językowych, np. analiza składniowa  zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych  Technologia językowa = zasoby + narzędzia + infrastruktura  Infrastruktura językowa  wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Bariery w dostępie  Fizyczna  narzędzia i zasoby nie są dostępne w sieci  Informacyjna  brak opisu narzędzi i zasobów  brak katalogów i możliwości łatwego odnalezienia  Technologiczna  brak standardów, możliwości łączenia elementów technologii  brak wspólnej platformy – różnorodność rozwiązań technologicznych  brak sprzętu o określonych parametrach  Wiedzy  wymagane umiejętności programistyczne  wymagana wiedza z zakresu inżynierii języka naturalnego  Prawna  licencje ograniczające dostęp i wykorzystanie  szczególnie w odniesieniu do korpusów Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Infrastruktura językowa Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Usługi CLARIN  Wspólna europejska sieć technologii językowej  tj. narzędzi i zasobów językowych oraz aplikacji  Centrum Technologii Językowych CLARIN-PL  repozytorium do przechowywania i udostępniania zasobów językowych  usługi do analizy tekstów i mowy na różnych poziomach  aplikacje badawcze, np. do półautomatycznej anotacji semantycznej tekstu lub semantycznego porównywania korpusów  Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do przeszukiwania NKJP  Centrum Wiedzy – zapewniające wsparcie dla użytkowników CLARIN Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Wspólna europejska sieć technologii językowych  Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci  Jeden system trwałych identyfikatorów dla zasobów  Połączona sieć centrów  centralne przeszukiwanie treści: Federated Content Search  bezpieczeństwo danych (certyfikaty i kopie danych)  Wspólny standard metadanych  centralne wyszukiwanie po wszystkich zasobach  Virtual Language Observatory  wspólny słownik atrybutów, wartości i relacji w meta-danych  wirtualne kolekcje Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

CLARIN ERIC: usługi centralne Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Wyszukiwanie zasobów po meta- danych w formacie CMDI Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Wyszukiwanie zasobów po meta- danych w formacie CMDI Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL  Fasetowe wyszukiwanie  Atrybuty i ich zakresy wartości są odczytywane z meta-danych  Wspólny standard: CMDI (Componet Metadata Infrastructure)

Centralne przeszukiwanie treści Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Centrum Technologii Językowych CLARIN-PL  Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19  Zapewnia funkcje sieciowe infrastruktury CLARIN  Udostępnia  repozytorium  usługi do analizy tekstu (i mowy) w języku polskim  zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami  wsparcie dla użytkowników – naukowców, jako Centrum Wiedzy Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Funkcje CTJ CLARIN-PL  Rozproszona identyfikacja i autoryzacja użytkowników  oparta na federacjach narodowych  zasada jednego konta i jednego logowania  Odpowiedni system składowania (repozytoryjny)  trwałość danych (system archiwizacji)  jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers)  metadane o złożonej strukturze (CMDI)  zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry), RELcat  wirtualne kolekcje oparte na metadanych  Integracja zasobów i usług  w oparciu o usługi sieciowe (Web Services)  dostęp poprzez aplikacje sieciowe  brak konieczności ściągania i instalowania Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Repozytorium DSpace  Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe  Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC  Wsparcie dla systemu CNRI Handle System [handle.net]  pozwala na swobodną zmianę adresów/serwerów  Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Repozytorium DSpace  Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak eduGain  AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł)  Polska federacja to Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Polska federacja uwierzytelniania Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Polska federacja uwierzytelniania  Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego  Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER  Warunki techniczne Federacji:   Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji  Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji  Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Usługi sieciowe  Narzędzia językowe  aplikacje zbudowane w różnorodnych technologiach  złożony proces instalacji  różnorodne interfejsy  trudność w tworzeniu potoków przetwarzania  „Wszystko jest usługą sieciową”  Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy  UI – przeglądarka internetowa  Aplikacje dostępowe oparte o przeglądarki internetowe  Łączenie usług w potoki  Wizualizacja Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Usługi sieciowe - architektura 20  Wydajność  przetwarzanie równoległe  chmura prywatne, skalowanie  Identyfikatory plików na wej./wyj. narzędzi

 Elastyczność  złożone potoki przetwarzania  narzędzia z obszaru maszynowego uczenia Usługi sieciowe - choreografia 21

Usługi sieciowe  Zaimplementowane usługi  Konwersja: any2txt  Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon  Generacja wektorów cech: fextor  Klasyfikacja: stylo, cluto, SVM  Komunikacja (pliki, URL, ), integracja z DSpace  Prace  Konwertery, monitorowanie  Aplikacje pod konkretne zastosowania  Możliwości podpięcia innych narzędzi  Wirtualna maszyna w centrum + proste API  Przekierowanie do zewnętrznych usług (WebLicht, Multiservice) 22

Zintegrowane środowisko Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL  Repozytorium jest zintegrowane z narzędziami NLP  Proste przygotowanie korpusu dla narzędzi typu Inforex  Ten sam użytkownik do wszystkich narzędzi i do DSpace Potok przetwarzania WS1WS2WS3 D-SPACE Narzędzia NLP API Dane tymczasoweZasoby / dane Wywołanie z DSpace Inforex Dane przygotowane

Zintegrowane środowisko  Jak skorzystać z DSpace Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Aplikacje badawcze Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Aplikacje badawcze  Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych  Techniki załadowania własnych danych  Bezpośrednie załadowanie plików w interfejsie webowym  Lokalny plik, URL  Różnorodność formatów  txt – różnorodne kodowanie znaków  doc, docx (pptx, xlslx), odt, rtf, html, pdf  zip  Uprzednie załadowanie plików do repozytorium – zalecane  Identyfikacja poprzez trwały identyfikator  Wstępnie przetworzone  Zasoby obliczeniowe są zawsze ograniczone Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

Dziękuję bardzo za uwagę

Usługi sieciowe - chmura prywatna  Zalety  Konsolidacja serwerów  Elastyczne wykorzystanie zasobów  Ułatwione zarządzanie wieloma serwerami  Zwiększenie niezawodności  Szybkie tworzenie nowych środowisk testowych i deweloperskich  Zapewnienie ciągłości działania  Problemy  Przetwarzanie NLP jest zasobożerne  Źle współdzielone zasoby  pamięć  przepustowość sieci/dysków  Sposób przetwarzania: centralizacja, przetwarzanie na żądanie

Repozytorium DSpace  Metadane: CMDI w Clarin-PL Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL