Zastosowania Słowosieci i systemu zasobów leksykalnych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl 2015-04-27
System leksykalnych zasobów językowych Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL System leksykalnych zasobów językowych Wielowarstwowy system zasobów oparty na Słowosieci jako centralnym zasobie spajającym Słowosieć 3.0 emo (PWr.) Wielki wordnet języka polskiego (leksykalna sięć semantyczna) Walenty (IPI PAN) leksykon składniowo-semantycznych struktur walencyjnych Leksykon strukturalnie opisanych wielowyrazowych jednostek leksykalnych (PWr.) Ontologie SUMO i MILO (Adam Peace) Półautomatyczne rzutowanie Słowosieci NELexicon 2.0 (PWr.) Słownik około 2,5 mln polskich nazw własnych rzutowanie Słowosieci na poziomie kategorii
Walenty (IPI PAN) CLARIN-PL //do usunięcia z wersji konferencyjnej Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Walenty (IPI PAN) //do usunięcia z wersji konferencyjnej
Zasób leksykalny Słowosieć jako słownik Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zasób leksykalny Słowosieć jako słownik Aplikacja webowa do przeglądania Aplikacja mobilna WordnetLoom Viewer do przeglądania wizualnego struktury
Udostępnianie Słowosieci Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Udostępnianie Słowosieci www.clarin-pl.eu Słowosieć online Słowosieć mobilna WordnetLoom- Viewer
Udostępnianie Słowosieci Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Udostępnianie Słowosieci www.plwordnet.pwr.wroc.pl/wordnet
Udostępnianie Słowosieci Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Udostępnianie Słowosieci WordnetLoom
Udostępnianie Słowosieci Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Udostępnianie Słowosieci Słowosieć mobilna
Zasób leksykalny Zasób referencyjny opisujący znaczenia leksykalne Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zasób leksykalny Zasób referencyjny opisujący znaczenia leksykalne Anotacja znaczeniami leksykalnymi w Korpusie PWr. 83 lematy 43 rzeczowniki i 40 czasowników przykłady użyć dla wszystkich znaczeń wszystkie wystąpienia ujednoznacznione reprezentują różne typy polisemii w sumie 188 znaczeń leksykalnych 7 979 wystąpień znaczeń Anotacja znaczeniami leksykalnymi w Składnicy
Ujednoznacznianie sensów słów Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Ujednoznacznianie sensów słów Proces aktywacji synsetów – Nienadzorowane podejście oparte o przetwarzanie grafu. budowla obronna rezydencja zamknięcie zatrzask furtka drzwi kurtka zapięcie garnitur posiadać Mam zamek w kurtce i garniturze. zamek-1 (budowla) mieć zamek-6 (suwak) zamek-2 (w drzwiach) strażnica baszta brama . . . . . .
Ujednoznacznianie sensów słów Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Ujednoznacznianie sensów słów „Surowe” wyjście WoSeDona – anotacje WSD dla słowa „zamek” w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach. <tok> <orth>zamek</orth> <lex disamb="1"> <base>zamek</base><ctag>subst:sg:acc:m3</ctag> </lex> <prop key="sense:ukb:syns_id">4190</prop> <prop key="sense:ukb:syns_rank">4190/0.1871610737 43594/0.1711723551 46716/0.1504792310 4189/0.1383621756 46718/0.1349534529 52769/0.1107446943 43596/0.1071270174</prop> <prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop> </tok> Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.
Przykład: analiza interesujących opisów Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Przykład: analiza interesujących opisów Znaczenie tekstu: temat, sytuacje, byty do których się odwołuje … „Obecny kryzys jest doskonałą okazją do podziału tzw. wspólnej Europy na obszary dwóch prędkości rozwoju. Niestety, dzieje się to przy bierności, a wręcz bezradności i bezczynności naszego rządu. Decyzje podjęte na szczycie strefy euro dokładnie przed tygodniem, bo w nocy z czwartku na piątek, świadczą bowiem o tym, że nie chodziło tylko o tzw. próbę ratowania Grecji. Prezydent Sarkozy przy wydatnym udziale pani Angeli Merkel w ostatnich tygodniach, mimo polskiej prezydencji, skutecznie eliminował ministra Rostowskiego z udziału w spotkaniach ministrów finansów tzw. eurogrupy. Polski rząd nie powinien dopuścić do sytuacji, w której większy wpływ na losy Europy będą miały państwa, które w głównej mierze doprowadziły do tej bardzo trudnej sytuacji gospodarczej, aniżeli Polska.” (Sejm, S. Ożóg, 28-07-2011)
Przykład: możliwe zastosowania Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Przykład: możliwe zastosowania Zebranie przykładów użycia „kryzys 2” Pogrupowanie ich według podobieństwa Wyznaczenie różnych charakterystycznych przykładów Wydzielenie podzbioru tekstów dotyczących „kryzys 2” Analiza grup lub typów tekstów dotyczących „kryzys 2” podobieństwo i różnice pomiędzy grupami tekstów Częstość wystąpienia znaczenia „kryzys 2” i/lub „kryzys 1” w tekstach Zmiany częstości w czasie znaczenia „kryzys 1” Osoby pojawiające się często w kontekście „kryzys 1” Wydźwięk (polaryzacja emocjonalna) poszczególnych tekstów dotyczących „kryzys 1” …
Stenogramy sejmowe szeregi czasowe kryzys 2 (pos) Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Stenogramy sejmowe szeregi czasowe kryzys 2 (pos) (Piotr Pęzik i inni, Uniwersytet Łódzki)
Stenogramy sejmowe szeregi czasowe Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Stenogramy sejmowe szeregi czasowe (Piotr Pęzik i inni, Uniwersytet Łódzki)
Stenogramy sejmowe szeregi czasowe klikalne punkty Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Stenogramy sejmowe szeregi czasowe klikalne punkty (Piotr Pęzik i inni, Uniwersytet Łódzki)
minister Jacek Rostowski, PO, 2009-05-22 Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Stenogramy sejmowe szeregi czasowe A przecież , jak mówiłem wcześniej , taki kryzys mógłby także zagrozić stabilności polskiego systemu bankowego. minister Jacek Rostowski, PO, 2009-05-22 (Piotr Pęzik i inni, Uniwersytet Łódzki)
Stenogramy sejmowe szeregi czasowe Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Stenogramy sejmowe szeregi czasowe (Piotr Pęzik i inni, Uniwersytet Łódzki)
poseł Leszek Miller, SLD, 2011-11-18 Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Stenogramy sejmowe szeregi czasowe Z tego, co usłyszałem w exposé, wynika, że kryzys gospodarczy nie stuka do naszych drzwi, nie łomocze - jest już w przedpokoju, powiesił płaszcz, założył kapcie i zaczyna czuć się jak u siebie w domu . poseł Leszek Miller, SLD, 2011-11-18 (Piotr Pęzik i inni, Uniwersytet Łódzki)
Stenogramy sejmowe szeregi czasowe Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Stenogramy sejmowe szeregi czasowe (Piotr Pęzik i inni, Uniwersytet Łódzki)
poseł Adam Szejnfeld, PO, 2011-03-7 Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Stenogramy sejmowe szeregi czasowe Taką potrzebą chwili na przykład uzasadnialiśmy zmiany, które weszły w 2009 r. i obowiązywały przez 2 lata w okresie tzw. - niektórzy tak to nazywają - pierwszej fali kryzysu . poseł Adam Szejnfeld, PO, 2011-03-7 (Piotr Pęzik i inni, Uniwersytet Łódzki)
Słowosieć jako podstawa opisu Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Słowosieć jako podstawa opisu Cechy semantyczne w maszynowym uczeniu się rozpoznawaniu i klasyfikacja nazw własnych oraz wyrażeń temporalnych: cechy oparte na hiperonimach w Klasyfikacja tekstów: synsety, hiperonimy oraz dziedziny wordnetowe Rozpoznawanie anafory: synsety i hiperonimy Miary podobieństwa znaczeniowego oparte na wordnecie miara( słowo, słowo) = wartość liczbowa (siła podobieństwa) kilkanaście typów miar oparte na długości i strukturze ścieżki łączącej synsety dla polisemicznych najbliższe dwa synsety
Zastosowania Łącznie ponad 720 zarejestrowanych użytkowników Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zastosowania Łącznie ponad 720 zarejestrowanych użytkowników Znacząca część to instytucje naukowe oraz firmy liczne zastosowania zagraniczne
Zastosowania naukowe i terapeutyczne Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zastosowania naukowe i terapeutyczne Korpus gestów referencyjnych (referential gestures) (Lis, 2012) klasyfikacja sztucznych synsetów czasownikowych Interfejs pomiędzy leksykonem a ontologią (Wróblewska et al., 2013) Słowniki ling.pl Open Multilingual Wordnet (Bond, 2013) WordTies – CLARIN Dania Wydobycie synonimów na potrzeby PanLex Analiza złożonych sieci Słowosieć jest wykorzystywana w leczeniu afazji
Zastosowania w przetwarzaniu Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zastosowania w przetwarzaniu Słowosieć jako część zestawu słowników w narzędziu do korekty językowej (Miłkowski, 2010) Miara podobieństwa oparta na Słowosieci w badaniach na otologiami (Lula and Paliwoda-P˛ekosz, 2009) Wydobywanie terminologii i grupowanie terminów (Mykowiecka and Marciniak, 2012) Wydobywanie słowników atrybutów opinii (Wawer and Gołuchowski, 2012) Wydobywanie relacji semantycznych (Gołuchowski and Przepiórkowski, 2012)
Zastosowania w przetwarzaniu Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zastosowania w przetwarzaniu Wydobywanie wiedzy z tekstów (Text Mining) cechy do opisu tekstu (Maciołek, 2010; Maciolek and Dobrowolski, 2013) Klasyfikacja tekstów (Maciołek, 2010), System odpowiadający na pytania w języku naturalnym Borsuk podobieństwo pytania do potencjalnej odpowiedzi Maszynowe tłumaczenie Google Translate
Zadeklarowane zastosowania Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zadeklarowane zastosowania Badania nad ontologiami i generowanie ontologii, leksykalizacja pojęć ontologicznych Badania nad polską leksyką Dydaktyka, w tym wiele prac magisterskich i samokształcenie Tłumaczenie tekstów i budowa słowników polsko-angielskich Konstrukcja tezaurusów Ujednoznacznianie wyjścia z parsera Wizualizacja danych Obliczanie podobieństwa dokumentów Indeksowanie dokumentów, opisywanie metadanymi lub tagowanie Klasyfikacja tekstów: fragmentów i dokumentów Konstrukcja chatbotów i systemów dialogowych W ramach systemu anty-plagiatowego Program do rozpoznawania języka
Zadeklarowane zastosowania Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zadeklarowane zastosowania Rozwój gramatyki języka polskiego (Polish Link Grammar) Kategoryzacja wyrażeń metaforycznych Wykorzystanie w ramach badań korpusowych, np. nad określonymi klasami słów Programy wspomagające pisanie dokumentów, tekstów Ocena trudności tekstu Ocena jakości tłumaczeń automatycznych Wyszukiwanie informacji, np. dodatkowe źródło wiedzy do systemu rekomendacyjnego modyfikacja zapytań do wyszukiwarki autouzupełnianie na stronie Wydobywanie wiedzy z tekstu i wydobywanie informacji Wydobywanie opinii i analiza opinii Analiza danych (Data Science)
Zadeklarowane zastosowania Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zadeklarowane zastosowania Wielojęzyczne ujednoznacznianie znaczeń (Multilingual Word Sense Disambiguation) Systemy rekomendacyjne Wyszukiwarki semantyczne, inteligentne wyszukiwarki Systemy wspomagające naukę języka Komunikacja z robotami w języku naturalnym Budowa wordnetów dla innych języków przykład i analogia Testowanie systemów analizujących język polski Badania leksykograficzne Punkt wyjścia do badań korpusowych badanie korpusowe nad rzeczownikami dwurodzajowymi Tworzenie poezji generatywnej Analiza zapożyczeń
Zadeklarowane zastosowania Premiera Słowosieci 3.0 Wrocław 27 IV 2016 CLARIN-PL Zadeklarowane zastosowania Conducting a cross-linguistic study on phonesthemes. Studia kontrastywne nad leksyką polską i angielską w ujęciu relacyjnym Tworzenie słowników do analizy nastawienia Systemy wizualizacji danych biznesowych Analiza semantyczna dokumentów Analiza sieci społecznościowych Symulacja sztucznej inteligencji Systemy wspomagające dyslektyków … Państwa zastosowania?
Dziękuję bardzo za uwagę www.clarin-pl.eu