Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

CLARIN-PL CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut.

Podobne prezentacje


Prezentacja na temat: "CLARIN-PL CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut."— Zapis prezentacji:

1 CLARIN-PL CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G

2 XV OZ Socjologiczny Szczecin CLARIN-PL Projekt CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne

3 XV OZ Socjologiczny Szczecin CLARIN-PL Projekt CLARIN CLARIN ERIC - konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) Członkowie Austria Bułgaria Czechy Dania Estonia Holandia Niemcy Polska Dutch Language Union (organizacja międzypaństwowa) Obserwatorzy Norwegia

4 XV OZ Socjologiczny Szczecin CLARIN-PL Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

5 XV OZ Socjologiczny Szczecin CLARIN-PL Zasoby językowe Korpusy (duże zbiory) dokumentów tekstowych i nagrań mowy: przykłady użycia (fragmenty, wypowiedzi lub całe dokumenty) anotowane - opisane pod względem lingwistycznym w sformalizowany sposób (np. pod względem gramatycznym, czy też znaczenia) Słowniki morfologiczne, własności gramatycznych słów, nazw własnych, leksykony semantyczne, leksykalne sieci semantyczne, wielojęzyczne słowniki itp. Gramatyki (sformalizowane) Inne zasoby np. schematy anotacji oraz metadanych, funkcje podobieństwa semantycznego słów, listy częstościowe, modele językowe itd.

6 XV OZ Socjologiczny Szczecin CLARIN-PL Narzędzia językowe Analizatory morfologiczne – rozpoznające znane słowa i przypisujące im opis własności gramatycznych Programy do ujednoznaczniania znaczeń słów w tekście Parsery (analizatory struktury) dokonujące analizy składniowej oraz semantycznej tekstu Programy do rozpoznawania mowy i pisma ręcznego Programy do analizy znaczenia i informacji wyrażonej w tekście rozpoznawanie i klasyfikacja nazw własnych rozpoznawanie powiązań anaforycznych rozpoznawanie sytuacji itp.

7 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013)

8 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości

9 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi

10 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg

11 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby

12 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe

13 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie

14 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna

15 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne

16 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas)

17 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie)

18 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen)

19 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower)

20 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(S1, S2), poprzedza(S1,S2)

21 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(S1, S2), poprzedza(S1,S2) wiedza nadawcy: ??

22 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(S1, S2), poprzedza(S1,S2) wiedza nadawcy: ?? powiązania z informacją w pozostałej części tekstu: ??, np. uszczegółowienie

23 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – narzędzia Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe. (Onet.pl za Deutsche Welle, 30 V 2013) analiza morfologiczna: formy podstawowe, cechy morfologiczne zagrożenie zagrożenie subst:sg:acc:n płytka analiza składniowa, np. frazy i zależności rozpoznawanie odniesień do obiektów (bytów nazwanych): miejscowości, drogi, części dróg, służby rozpoznawanie relacji semantycznych: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) rozpoznawanie sytuacji: zagrożenie powodziowe, zamknięcie rozpoznawanie relacji czasowych rozpoznanie relacji między fragmentami tekstu odniesienie do bazy wiedzy kontekstowej

24 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – stan bieżący 1.Analiza morfologiczna: formy podstawowe, cechy morfologiczne 2.Ujednoznacznienie opisów gramatycznych słów 3.Płytka analiza składniowa, np. frazy i zależności 4.Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5.Ujednoznacznienie znaczeń słów w tekście 6.Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7.Ocena nastawienia emocjonalnego i rozpoznanie opinii 8.Rozpoznawanie relacji semantycznych 9.Rozpoznawanie sytuacji 10.Rozpoznawanie relacji czasowych 11.Rozpoznanie relacji między fragmentami tekstu 12.Analiza struktury dyskursu 13.Pełna interpretacja znaczenia tekstu Architektura technologii językowych – połączenie modułów

25 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – CLARIN-PL 1.Analiza morfologiczna: formy podstawowe, cechy morfologiczne 2.Ujednoznacznienie opisów gramatycznych słów 3.Płytka analiza składniowa, np. frazy i zależności 4.Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5.Ujednoznacznienie znaczeń słów w tekście 6.Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7.Ocena nastawienia emocjonalnego i rozpoznanie opinii 8.Rozpoznawanie relacji semantycznych 9.Rozpoznawanie sytuacji 10.Rozpoznawanie relacji czasowych 11.Analiza struktury dyskursu 12.Rozpoznanie relacji między fragmentami tekstu 13.Pełna interpretacja znaczenia tekstu Architektura technologii językowych – połączenie modułów

26 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza relacji znaczeniowych płaca wynagrodzenie 0, pensja 0, zarobek 0, uposażenie 0, emerytura 0, zatrudnienie 0, dochód 0, renta 0, wynagradzanie 0, składka 0, wydajność pracy 0, czynsz 0,22524 stopa procentowa 0, inflacja 0, oprocentowanie0, zasiłek 0, świadczenie 0, podwyżka 0, wydatek 0, premia 0,210519

27 XV OZ Socjologiczny Szczecin CLARIN-PL Analiza relacji znaczeniowych ojczyzna naród0, lud0, kraj0, rzeczpospolita 0, kraina 0, wolność 0, królestwo 0, ludzkość 0, państwo 0, religia 0, państwowość 0, chwała0, honor0, wiara0, potęga0, potomek0,0979 imperium0, zbawiciel0, patriotyzm0, bóg0,

28 XV OZ Socjologiczny Szczecin CLARIN-PL Przykładowe zastosowania Wyszukiwanie wielowyrazowych terminów lub nazw w dowolnej formie gramatycznej w różnych wersjach (pełnej, skróconej, częściowych akronimów) powiązanie akronimów z terminami i nazwami z uwzględnieniem wszystkich odwołań do terminu ograniczenie wyszukiwania jedynie do tekstów określonego charakteru Poglądowa mapa kolekcji dokumentów grupy oparte na podobieństwie zawartości krótkie poglądowe streszczenia Wydobywanie cechy przypisywanych do obiektów, pojęć atrybuty opinie wartościujące

29 XV OZ Socjologiczny Szczecin CLARIN-PL Przykładowe zastosowania Automatyczne wydobywanie słownika typowego dla danej dziedzinie wyrazy i wielowyrazowe terminy, zwroty, nazwy itd. rozpoznanie kontekstów znaczeniowych w jakich są używane wyrazy powiązania znaczeniowe grupy tematyczne powiązanie słownictwa z grupami ludzi Rozpoznawanie współwystępowania obiektów w związkach lub sytuacjach analiza statystyczna rozpoznanych powiązań i sytuacji – w wielkiej skali na klastrach obliczeniowych automatyczne wydobywanie sieci społecznościowych Analiza struktury dyskursu rozpoznawanie aktów dialogu (mowy) schematy i odniesienia do stereotypów

30 XV OZ Socjologiczny Szczecin CLARIN-PL Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy – różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

31 XV OZ Socjologiczny Szczecin CLARIN-PL Infrastruktura językowa

32 XV OZ Socjologiczny Szczecin CLARIN-PL Funkcje infrastruktury Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami (np. ISOcat, RELcat) wirtualne kolekcje oparte na metadanych Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania

33 XV OZ Socjologiczny Szczecin CLARIN-PL Aplikacje – przykłady Ułatwienie dostępu połączony katalog metadanych federacyjne wyszukiwanie w korpusach tekstu i mowy Gromadzenie i zarządzanie danymi tworzenie własnych kolekcji rozszerzanie istniejących wykorzystanie istniejących archiwów Rozszerzenie wyszukiwania w zasobach automatyczna generacja metadanych w oparciu o narzędzia językowe Wydobywanie informacji i wiedzy automatyczna generacja zestawień analiza statystyczna oparta na faktach wydobytych z korpusu

34 XV OZ Socjologiczny Szczecin CLARIN-PL Konsorcjum CLARIN-PL: polska część infrastruktury CLARIN Centrum Technologii Językowych CLARIN-PL Politechnice Wrocławskiej, Grupa Naukowa G4.19 zapewniające funkcje sieciowe infrastruktury CLARIN udostępniające repozytorium zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników – naukowców Korpusy Uzupełnienie brakujących elementów podstawowej technologii językowej dla języka polskiego Wybrane zasoby dwujęzyczne

35 XV OZ Socjologiczny Szczecin CLARIN-PL CLARIN-PL: projekt Okres: Partnerzy: Politechnika Wrocławska, Instytut Informatyki (lider) Instytut Podstaw Informatyki Polskiej Akademii Nauk Instytut Slawistyki Polskiej Akademii Nauk Polsko-Japońska Wyższa Szkoła Technik Komputerowych Uniwersytet Łódzki Uniwersytet Wrocławski

36 CLARIN-PL Dziękuję bardzo za uwagę


Pobierz ppt "CLARIN-PL CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut."

Podobne prezentacje


Reklamy Google