Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki,

Podobne prezentacje


Prezentacja na temat: "CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki,"— Zapis prezentacji:

1 CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej

2 CLARIN  CLARIN =  Common Language Resources and Technology Infrastructure  Wspólne zasoby językowe i infrastruktura technologiczna  Część  europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures)  Polskiej Mapy Drogowej Infrastruktury Badawczej  Cel  połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej  Obszar działania: nauki humanistyczne i społeczne Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

3 CLARIN  CLARIN ERIC  konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium)  Członkowie założyciele  Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa)  Pozostali członkowie  Grecja, Litwa, Portugalia, Szwecja  Obserwatorzy  Norwegia Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

4 Podstawowe pojęcia  Zasoby językowe  zbiory danych i bazy danych opisujące język naturalny oraz jego użycie  sformalizowany opis wybranych aspektów języka naturalnego  Narzędzia językowe  programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego  automatyczna analiza struktur językowych, np. analiza składniowa  zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych  Technologia językowa = zasoby + narzędzia + infrastruktura  Infrastruktura językowa  wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

5 Bariery w dostępie  Fizyczna  narzędzia i zasoby nie są dostępne w sieci  Informacyjna  brak opisu narzędzi i zasobów  brak katalogów i możliwości łatwego odnalezienia  Technologiczna  brak standardów, możliwości łączenia elementów technologii  brak wspólnej platformy – różnorodność rozwiązań technologicznych  brak sprzętu o określonych parametrach  Wiedzy  wymagane umiejętności programistyczne  wymagana wiedza z zakresu inżynierii języka naturalnego  Prawna  licencje ograniczające dostęp i wykorzystanie  szczególnie w odniesieniu do korpusów Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

6 Infrastruktura językowa Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

7 Usługi CLARIN  Wspólna europejska sieć technologii językowej  tj. narzędzi i zasobów językowych oraz aplikacji  Centrum Technologii Językowych CLARIN-PL  repozytorium do przechowywania i udostępniania zasobów językowych  usługi do analizy tekstów i mowy na różnych poziomach  aplikacje badawcze, np. do półautomatycznej anotacji semantycznej tekstu lub semantycznego porównywania korpusów  Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do przeszukiwania NKJP  Centrum Wiedzy – zapewniające wsparcie dla użytkowników CLARIN Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

8 Wspólna europejska sieć technologii językowych  Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci  Jeden system trwałych identyfikatorów dla zasobów  Połączona sieć centrów  centralne przeszukiwanie treści: Federated Content Search  bezpieczeństwo danych (certyfikaty i kopie danych)  Wspólny standard metadanych  centralne wyszukiwanie po wszystkich zasobach  Virtual Language Observatory  wspólny słownik atrybutów, wartości i relacji w meta-danych  wirtualne kolekcje Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

9 CLARIN ERIC: usługi centralne Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

10 Wyszukiwanie zasobów po meta- danych w formacie CMDI Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

11 Wyszukiwanie zasobów po meta- danych w formacie CMDI Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL  Fasetowe wyszukiwanie  Atrybuty i ich zakresy wartości są odczytywane z meta-danych  Wspólny standard: CMDI (Componet Metadata Infrastructure)

12 Centralne przeszukiwanie treści Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

13 Centrum Technologii Językowych CLARIN-PL  Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19  Zapewnia funkcje sieciowe infrastruktury CLARIN  Udostępnia  repozytorium  usługi do analizy tekstu (i mowy) w języku polskim  zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami  wsparcie dla użytkowników – naukowców, jako Centrum Wiedzy Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

14 Funkcje CTJ CLARIN-PL  Rozproszona identyfikacja i autoryzacja użytkowników  oparta na federacjach narodowych  zasada jednego konta i jednego logowania  Odpowiedni system składowania (repozytoryjny)  trwałość danych (system archiwizacji)  jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers)  metadane o złożonej strukturze (CMDI)  zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry), RELcat  wirtualne kolekcje oparte na metadanych  Integracja zasobów i usług  w oparciu o usługi sieciowe (Web Services)  dostęp poprzez aplikacje sieciowe  brak konieczności ściągania i instalowania Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

15 Repozytorium DSpace  Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe  Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC  Wsparcie dla systemu CNRI Handle System [handle.net]  pozwala na swobodną zmianę adresów/serwerów  Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

16 Repozytorium DSpace  Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak eduGain  AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł)  Polska federacja to https://aai.pionier.net.pl/ Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

17 Polska federacja uwierzytelniania Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

18 Polska federacja uwierzytelniania  Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego  Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER  Warunki techniczne Federacji:  https://aai.pionier.net.pl/dokumenty/PIONIER_Id_Tech.pdf  Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji  Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji  Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

19 Usługi sieciowe  Narzędzia językowe  aplikacje zbudowane w różnorodnych technologiach  złożony proces instalacji  różnorodne interfejsy  trudność w tworzeniu potoków przetwarzania  „Wszystko jest usługą sieciową”  Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy  UI – przeglądarka internetowa  Aplikacje dostępowe oparte o przeglądarki internetowe  Łączenie usług w potoki  Wizualizacja Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

20 Usługi sieciowe - architektura 20  Wydajność  przetwarzanie równoległe  chmura prywatne, skalowanie  Identyfikatory plików na wej./wyj. narzędzi

21  Elastyczność  złożone potoki przetwarzania  narzędzia z obszaru maszynowego uczenia Usługi sieciowe - choreografia 21

22 Usługi sieciowe  Zaimplementowane usługi  Konwersja: any2txt  Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon  Generacja wektorów cech: fextor  Klasyfikacja: stylo, cluto, SVM  Komunikacja (pliki, URL, ), integracja z DSpace  Prace  Konwertery, monitorowanie  Aplikacje pod konkretne zastosowania  Możliwości podpięcia innych narzędzi  Wirtualna maszyna w centrum + proste API  Przekierowanie do zewnętrznych usług (WebLicht, Multiservice) 22

23 Zintegrowane środowisko Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL  Repozytorium jest zintegrowane z narzędziami NLP  Proste przygotowanie korpusu dla narzędzi typu Inforex  Ten sam użytkownik do wszystkich narzędzi i do DSpace Potok przetwarzania WS1WS2WS3 D-SPACE Narzędzia NLP API Dane tymczasoweZasoby / dane Wywołanie z DSpace Inforex Dane przygotowane

24 Zintegrowane środowisko  Jak skorzystać z DSpace Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

25 Aplikacje badawcze Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

26 Aplikacje badawcze  Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych  Techniki załadowania własnych danych  Bezpośrednie załadowanie plików w interfejsie webowym  Lokalny plik, URL  Różnorodność formatów  txt – różnorodne kodowanie znaków  doc, docx (pptx, xlslx), odt, rtf, html, pdf  zip  Uprzednie załadowanie plików do repozytorium – zalecane  Identyfikacja poprzez trwały identyfikator  Wstępnie przetworzone  Zasoby obliczeniowe są zawsze ograniczone Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL

27 Dziękuję bardzo za uwagę

28 Usługi sieciowe - chmura prywatna  Zalety  Konsolidacja serwerów  Elastyczne wykorzystanie zasobów  Ułatwione zarządzanie wieloma serwerami  Zwiększenie niezawodności  Szybkie tworzenie nowych środowisk testowych i deweloperskich  Zapewnienie ciągłości działania  Problemy  Przetwarzanie NLP jest zasobożerne  Źle współdzielone zasoby  pamięć  przepustowość sieci/dysków  Sposób przetwarzania: centralizacja, przetwarzanie na żądanie

29 Repozytorium DSpace  Metadane: CMDI w Clarin-PL Warsztaty CLARIN-PL Warszawa IV 2015 CLARIN-PL


Pobierz ppt "CLARIN-PL Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki,"

Podobne prezentacje


Reklamy Google