CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej
CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
CLARIN CLARIN ERIC konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) Członkowie założyciele Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa) Pozostali członkowie Grecja, Litwa, Portugalia, Szwecja Obserwatorzy Norwegia Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy – różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Infrastruktura językowa Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Usługi CLARIN Wspólna europejska sieć technologii językowej tj. narzędzi i zasobów językowych oraz aplikacji Centrum Technologii Językowych CLARIN-PL repozytorium do przechowywania i udostępniania zasobów językowych usługi do analizy tekstów i mowy na różnych poziomach aplikacje badawcze, np. do półautomatycznej anotacji semantycznej tekstu lub semantycznego porównywania korpusów Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do przeszukiwania NKJP Centrum Wiedzy – zapewniające wsparcie dla użytkowników CLARIN Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Wspólna europejska sieć technologii językowych Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci Jeden system trwałych identyfikatorów dla zasobów Połączona sieć centrów centralne przeszukiwanie treści: Federated Content Search bezpieczeństwo danych (certyfikaty i kopie danych) Wspólny standard metadanych centralne wyszukiwanie po wszystkich zasobach Virtual Language Observatory wspólny słownik atrybutów, wartości i relacji w meta-danych wirtualne kolekcje Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
CLARIN ERIC: usługi centralne Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Wyszukiwanie zasobów po meta- danych w formacie CMDI Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Wyszukiwanie zasobów po meta- danych w formacie CMDI Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Fasetowe wyszukiwanie Atrybuty i ich zakresy wartości są odczytywane z meta-danych Wspólny standard: CMDI (Componet Metadata Infrastructure)
Centralne przeszukiwanie treści Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Centrum Technologii Językowych CLARIN-PL Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19 Zapewnia funkcje sieciowe infrastruktury CLARIN Udostępnia repozytorium usługi do analizy tekstu (i mowy) w języku polskim zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników – naukowców, jako Centrum Wiedzy Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Funkcje CTJ CLARIN-PL Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry), RELcat wirtualne kolekcje oparte na metadanych Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Repozytorium DSpace Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Repozytorium DSpace Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak eduGain AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł) Polska federacja to Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Polska federacja uwierzytelniania Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Polska federacja uwierzytelniania Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER Warunki techniczne Federacji: Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Usługi sieciowe Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania „Wszystko jest usługą sieciową” Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy UI – przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki internetowe Łączenie usług w potoki Wizualizacja Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Usługi sieciowe - architektura 20 Wydajność przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików na wej./wyj. narzędzi
Elastyczność złożone potoki przetwarzania narzędzia z obszaru maszynowego uczenia Usługi sieciowe - choreografia 21
Usługi sieciowe Zaimplementowane usługi Konwersja: any2txt Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon Generacja wektorów cech: fextor Klasyfikacja: stylo, cluto, SVM Komunikacja (pliki, URL, ), integracja z DSpace Prace Konwertery, monitorowanie Aplikacje pod konkretne zastosowania Możliwości podpięcia innych narzędzi Wirtualna maszyna w centrum + proste API Przekierowanie do zewnętrznych usług (WebLicht, Multiservice) 22
Zintegrowane środowisko Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL Repozytorium jest zintegrowane z narzędziami NLP Proste przygotowanie korpusu dla narzędzi typu Inforex Ten sam użytkownik do wszystkich narzędzi i do DSpace Potok przetwarzania WS1WS2WS3 D-SPACE Narzędzia NLP API Dane tymczasoweZasoby / dane Wywołanie z DSpace Inforex Dane przygotowane
Zintegrowane środowisko Jak skorzystać z DSpace Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Aplikacje badawcze Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Aplikacje badawcze Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym Lokalny plik, URL Różnorodność formatów txt – różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip Uprzednie załadowanie plików do repozytorium – zalecane Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone Zasoby obliczeniowe są zawsze ograniczone Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL
Dziękuję bardzo za uwagę
Usługi sieciowe - chmura prywatna Zalety Konsolidacja serwerów Elastyczne wykorzystanie zasobów Ułatwione zarządzanie wieloma serwerami Zwiększenie niezawodności Szybkie tworzenie nowych środowisk testowych i deweloperskich Zapewnienie ciągłości działania Problemy Przetwarzanie NLP jest zasobożerne Źle współdzielone zasoby pamięć przepustowość sieci/dysków Sposób przetwarzania: centralizacja, przetwarzanie na żądanie
Repozytorium DSpace Metadane: CMDI w Clarin-PL Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL