Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Maciej Piasecki Politechnika Wrocławska Instytut Informatyki

Podobne prezentacje


Prezentacja na temat: "Maciej Piasecki Politechnika Wrocławska Instytut Informatyki"— Zapis prezentacji:

1 CLARIN – infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego
Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19

2 Projekt CLARIN CLARIN = Część Cel
XV OZ Socjologiczny Szczecin CLARIN-PL Projekt CLARIN CLARIN = Common Language Resources and Technology Infrastructure Wspólne zasoby językowe i infrastruktura technologiczna Część europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) Polskiej Mapy Drogowej Infrastruktury Badawczej Cel połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej Obszar działania: nauki humanistyczne i społeczne

3 XV OZ Socjologiczny Szczecin 2013-09-12
CLARIN-PL Projekt CLARIN CLARIN ERIC - konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) Członkowie Austria Bułgaria Czechy Dania Estonia Holandia Niemcy Polska Dutch Language Union (organizacja międzypaństwowa) Obserwatorzy Norwegia

4 Podstawowe pojęcia Zasoby językowe
XV OZ Socjologiczny Szczecin CLARIN-PL Podstawowe pojęcia Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych

5 XV OZ Socjologiczny Szczecin 2013-09-12
CLARIN-PL Zasoby językowe Korpusy (duże zbiory) dokumentów tekstowych i nagrań mowy: przykłady użycia (fragmenty, wypowiedzi lub całe dokumenty) anotowane - opisane pod względem lingwistycznym w sformalizowany sposób (np. pod względem gramatycznym, czy też znaczenia) Słowniki morfologiczne, własności gramatycznych słów, nazw własnych, leksykony semantyczne, leksykalne sieci semantyczne, wielojęzyczne słowniki itp. Gramatyki (sformalizowane) Inne zasoby np. schematy anotacji oraz metadanych, funkcje podobieństwa semantycznego słów, listy częstościowe, modele językowe itd.

6 XV OZ Socjologiczny Szczecin 2013-09-12
CLARIN-PL Narzędzia językowe Analizatory morfologiczne – rozpoznające znane słowa i przypisujące im opis własności gramatycznych Programy do ujednoznaczniania znaczeń słów w tekście Parsery (analizatory struktury) dokonujące analizy składniowej oraz semantycznej tekstu Programy do rozpoznawania mowy i pisma ręcznego Programy do analizy znaczenia i informacji wyrażonej w tekście rozpoznawanie i klasyfikacja nazw własnych rozpoznawanie powiązań anaforycznych rozpoznawanie sytuacji itp.

7 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013)

8 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości

9 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi

10 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg

11 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby

12 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe

13 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie

14 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna

15 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne

16 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas)

17 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie)

18 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen)

19 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower)

20 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(S1, S2), poprzedza(S1,S2)

21 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(S1, S2), poprzedza(S1,S2) wiedza nadawcy: ??

22 Analiza tekstu – przykład
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – przykład „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) obiekty: miejscowości, drogi, części dróg, służby sytuacje: zagrożenie powodziowe, zamknięcie relacje: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) sytuacje: S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??, źródło=??) S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot= boczny pas, czas=??) przyczyna(S1, S2), poprzedza(S1,S2) wiedza nadawcy: ?? powiązania z informacją w pozostałej części tekstu: ??, np. uszczegółowienie

23 Analiza tekstu – narzędzia
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – narzędzia „Ze względu na zagrożenie powodziowe policja zamknęła boczny pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.” (Onet.pl za Deutsche Welle, 30 V 2013) analiza morfologiczna: formy podstawowe, cechy morfologiczne <orth>zagrożenie</orth> <lex disamb="1"><base>zagrożenie</base><ctag>subst:sg:acc:n </ctag></lex> płytka analiza składniowa, np. frazy i zależności rozpoznawanie odniesień do obiektów (bytów nazwanych): miejscowości, drogi, części dróg, służby rozpoznawanie relacji semantycznych: przyczyna, przestrzenne elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower) rozpoznawanie sytuacji: zagrożenie powodziowe, zamknięcie rozpoznawanie relacji czasowych rozpoznanie relacji między fragmentami tekstu odniesienie do bazy wiedzy kontekstowej

24 Analiza tekstu – stan bieżący
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – stan bieżący Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów Ujednoznacznienie znaczeń słów w tekście Rozpoznawanie odniesień do obiektów (bytów nazwanych) Ocena nastawienia emocjonalnego i rozpoznanie opinii Rozpoznawanie relacji semantycznych Rozpoznawanie sytuacji Rozpoznawanie relacji czasowych Rozpoznanie relacji między fragmentami tekstu Analiza struktury dyskursu Pełna interpretacja znaczenia tekstu Architektura technologii językowych – połączenie modułów

25 Analiza tekstu – CLARIN-PL
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza tekstu – CLARIN-PL Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów Ujednoznacznienie znaczeń słów w tekście Rozpoznawanie odniesień do obiektów (bytów nazwanych) Ocena nastawienia emocjonalnego i rozpoznanie opinii Rozpoznawanie relacji semantycznych Rozpoznawanie sytuacji Rozpoznawanie relacji czasowych Analiza struktury dyskursu Rozpoznanie relacji między fragmentami tekstu Pełna interpretacja znaczenia tekstu Architektura technologii językowych – połączenie modułów

26 Analiza relacji znaczeniowych
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza relacji znaczeniowych płaca wynagrodzenie 0,453229 pensja 0,370166 zarobek 0,359917 uposażenie 0,303791 emerytura 0,279672 zatrudnienie 0,270655 dochód 0,264029 renta 0,248828 wynagradzanie 0,239462 składka 0,227758 wydajność pracy 0,225918 czynsz 0,22524 stopa procentowa 0,224882 inflacja 0,219127 oprocentowanie 0,218563 zasiłek 0,216317 świadczenie 0,215161 podwyżka 0,213452 wydatek 0,210603 premia 0,210519

27 Analiza relacji znaczeniowych
XV OZ Socjologiczny Szczecin CLARIN-PL Analiza relacji znaczeniowych ojczyzna naród 0,168143 lud 0,132219 kraj 0,132182 rzeczpospolita 0,128922 kraina 0,118424 wolność 0,116838 królestwo 0,114325 ludzkość 0,111024 państwo 0,104643 religia 0,104022 państwowość 0,103556 chwała 0,102265 honor 0,101467 wiara 0,100979 potęga 0, potomek 0,0979 imperium 0, zbawiciel 0, patriotyzm 0,097074 bóg 0,

28 Przykładowe zastosowania
XV OZ Socjologiczny Szczecin CLARIN-PL Przykładowe zastosowania Wyszukiwanie wielowyrazowych terminów lub nazw w dowolnej formie gramatycznej w różnych wersjach (pełnej, skróconej, częściowych akronimów) powiązanie akronimów z terminami i nazwami z uwzględnieniem wszystkich odwołań do terminu ograniczenie wyszukiwania jedynie do tekstów określonego charakteru Poglądowa mapa kolekcji dokumentów grupy oparte na podobieństwie zawartości krótkie poglądowe streszczenia Wydobywanie cechy przypisywanych do obiektów, pojęć atrybuty opinie wartościujące poszukać informacji nt e-Sociology

29 Przykładowe zastosowania
XV OZ Socjologiczny Szczecin CLARIN-PL Przykładowe zastosowania Automatyczne wydobywanie słownika typowego dla danej dziedzinie wyrazy i wielowyrazowe terminy, zwroty, nazwy itd. rozpoznanie kontekstów znaczeniowych w jakich są używane wyrazy powiązania znaczeniowe grupy tematyczne powiązanie słownictwa z grupami ludzi Rozpoznawanie współwystępowania obiektów w związkach lub sytuacjach analiza statystyczna rozpoznanych powiązań i sytuacji – w wielkiej skali na klastrach obliczeniowych automatyczne wydobywanie sieci społecznościowych Analiza struktury dyskursu rozpoznawanie aktów dialogu (mowy) schematy i odniesienia do stereotypów poszukać informacji nt e-Sociology

30 Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci
XV OZ Socjologiczny Szczecin CLARIN-PL Bariery w dostępie Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy – różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów

31 Infrastruktura językowa
XV OZ Socjologiczny Szczecin CLARIN-PL Infrastruktura językowa

32 Funkcje infrastruktury
XV OZ Socjologiczny Szczecin CLARIN-PL Funkcje infrastruktury Odpowiedni system składowania (repozytoryjny) trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami (np. ISOcat, RELcat) wirtualne kolekcje oparte na metadanych Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania Integracja zasobów i usług w oparciu o usługi sieciowe (Web Services) dostęp poprzez aplikacje sieciowe brak konieczności ściągania i instalowania

33 Aplikacje – przykłady Ułatwienie dostępu
XV OZ Socjologiczny Szczecin CLARIN-PL Aplikacje – przykłady Ułatwienie dostępu połączony katalog metadanych federacyjne wyszukiwanie w korpusach tekstu i mowy Gromadzenie i zarządzanie danymi tworzenie własnych kolekcji rozszerzanie istniejących wykorzystanie istniejących archiwów Rozszerzenie wyszukiwania w zasobach automatyczna generacja metadanych w oparciu o narzędzia językowe Wydobywanie informacji i wiedzy automatyczna generacja zestawień analiza statystyczna oparta na faktach wydobytych z korpusu

34 CLARIN-PL www.clarin-pl.eu
XV OZ Socjologiczny Szczecin CLARIN-PL CLARIN-PL Konsorcjum CLARIN-PL: polska część infrastruktury CLARIN Centrum Technologii Językowych CLARIN-PL Politechnice Wrocławskiej, Grupa Naukowa G4.19 zapewniające funkcje sieciowe infrastruktury CLARIN udostępniające repozytorium zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami wsparcie dla użytkowników – naukowców Korpusy Uzupełnienie brakujących elementów podstawowej technologii językowej dla języka polskiego Wybrane zasoby dwujęzyczne przykłady tego co jest: Słowosieć – wizualizacja, możliwość tworzenia sieci dziedzinowych - automatyzacja usługi sieciowe do przetwarzania Inforex do obsługi kolekcji dokumentów Poliqarp do wyszukiwania w korpusach

35 CLARIN-PL: projekt Okres: 2013-2015 Partnerzy:
XV OZ Socjologiczny Szczecin CLARIN-PL CLARIN-PL: projekt Okres: Partnerzy: Politechnika Wrocławska, Instytut Informatyki (lider) Instytut Podstaw Informatyki Polskiej Akademii Nauk Instytut Slawistyki Polskiej Akademii Nauk Polsko-Japońska Wyższa Szkoła Technik Komputerowych Uniwersytet Łódzki Uniwersytet Wrocławski

36 Dziękuję bardzo za uwagę


Pobierz ppt "Maciej Piasecki Politechnika Wrocławska Instytut Informatyki"

Podobne prezentacje


Reklamy Google