CLARIN-PL Opis znaczeń leksykalnych Słowosieci za pomocą skojarzonych z nimi podstawowych uczuć, wartości podstawowych oraz polaryzacji nastawienia emocjonalnego Monika Zaśko-Zielińska Uniwersytet Wrocławski Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej
Tło Słowosieć staje się podstawowym i referencyjnym leksykalnym zasobem języka polskiego W dużym stopniu wyczerpujący opis znaczeń leksykalnych Dziesiątki tysięcy wizyt na stronie, ponad 720 zarejestrowanych użytkowników, dziesiątki różnych zastosowań Jedno, ale istotne ograniczenie - brak wsparcia dla coraz ważniejszych obszarów analizy nastawienia emocjonalnego powiązanego z wypowiedziami tekstowymi (żargonowo, kalka z angielskiego: analizą sentymentu) oraz analizą opinii (Opinion Mining) Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Założenia i cele Założenia Wordnety są traktowane jako referencyjne zasoby, co do których przyjmuje się, że nie zawierają błędów językowych Automatyczne oznaczenia nie jest właściwym rozwiązaniem Słowosieć jest zbyt duża na kompleksową, ręczną anotację w ramach realnego budżetu Cel Ręczna anotacja dużej części Słowosieci w zakresie polaryzacji nastawienia emocjonalnego oraz podstawowych emocji Około jednostek leksykalnych, 15% całości (tj. skala kilka razy większa niż w przypadku SentiWordNet) Projekt pilotażowy Późniejsza podstawa do dalszego automatycznego rozszerzenia Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Model anotacji: założenia Jednostki leksykalne jako elementy opisywane są podstawowymi elementami struktury Słowosieci np. relacje leksykalno-semantyczne są zdefiniowane dla jednostek glosy i przykłady użycia przypisane do jednostek itd. emocje i polaryzacja nastawienia wiążą się z konkretnym znaczeniem warunkowanym użyciem Perspektywa nadawcy opis polaryzacji nastawienia w oderwaniu od kontekstu jest bardzo trudny zbyt wiele czynników wpływa na percepcję polaryzacji nastawienia ukierunkowanie się na sens zamierzony przez nadawcę i zamierzoną polaryzację Emocje, które determinują źródło polaryzacji nastawienia Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Model anotacji: atrybuty Polaryzacja nastawienia emocjonalnego Emocje podstawowe Wartości podstawowe Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Model anotacji: atrybuty Polaryzacja nastawienia emocjonalnego charakter: neutralna vs pozytywna (+) lub negatywna (-) natężenie: mocne vs słabe wynikowe: pozytywne mocne, pozytywne słabe, neutralne, negatywne słabe, negatywne mocne Zapis w anotacji: +m, +s, n, -s, -m Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Model anotacji: emocje podstawowe Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Kompatybilność zbiór często używany w badaniach zastosowany w wielu zasobach, np. leksykon emocji NRC (Mohammad and Turney, 2013) and the SentiSense Affective Lexicon (Carrillo de Albornoz et al., 2012) Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Model anotacji: wartości uniwersalne Pozytywne użyteczność dobro drugiego człowieka prawda, wiedza piękno szczęście Negatywne nieużyteczność krzywda niewiedza błąd brzydota nieszczęście Premiera Słowosieć 3.0 Wrocław CLARIN-PL Wartości podstawowe są łączone często w polskiej tradycji lingwistycznej z opisem podstawowych emocji Np. (Puzynina, 1992)
Przykłady Premiera Słowosieć 3.0 Wrocław CLARIN-PL rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
Przykłady Premiera Słowosieć 3.0 Wrocław CLARIN-PL rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] pierwszy anotator emocje podstawowewartościnastawienie
Przykład Premiera Słowosieć 3.0 Wrocław CLARIN-PL rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] drugi anotator
Procedura anotacji 1.Sprawdzenie czy X jest nacechowane ze względu na polaryzację nastawienia lub neutralne; jeżeli jest neutralne, to pomijamy resztę kroków 2.Przypisanie podstawowych emocji i wartości uniwersalnych, które wydają się powiązane z X 3.Oznaczenie polaryzacji X jako negatywna (-), pozytywna (+) lub ambiwalentna (amb) 4.Ocenienie intensywności polaryzacji emocjonalnej X: mocna lub słaba 5.Przypisanie zdań przykładowych: Jedno dla X z pozytywną albo negatywną polaryzacją Dwa dla X z ambiwalentną polaryzacją Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: nacechowanie Procedura empiryczna jednostki o ekspresywności implicytnej w swoim znaczeniu odnoszące się do emocji np. nazwy stanów emocjonalnych wydzielanie eksplicytnych rzeczowników nacechowanych obecność zaimków wskazujących i dzierżawczych jako konkretyzujący sygnał nacechowania test na konkretność jednostki (Markowski, 1992) możliwość wystąpienia w kontekście ukonkretniających zaimków: ten, taki, twój, jakiś,ten. Test podstawieniowy TProszę pomyśleć o X TProszę pomyśleć o [zaimek ukonkretniający] X TProszę pomyśleć o X, który [zdanie podrzędne ukonkretniające] Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: nacechowanie Procedura empiryczna Analiza korpusowa (na Narodowym Korpusie Języka Polskiego) zastąpienie analizowanej jednostki ewidentnie pozytywnym/negatywnym synonimem nie zmienia znaczenia przykładu To jest troska o dobro wspólne To dbanie/dbałość o dobro wspólne; akceptowalność połączenia z przymiotnikiem nacechowanym negatywnie/pozytywnie wchodzenie w kolokację z czasownikiem, który łączy się (łączliwość kategorialna) tylko z nazwami zjawisk wartościowanych dodatnio Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: nacechowanie Procedura słownikowa W definicji znaczenia znajdujemy komponent pragmatyczny o jednoznacznie pozytywnym/negatywnym nacechowaniu, szatan – ‘z podziwem o człowieku bardzo zdolnym, sprytnym, odważnym bubek ‘z niechęcią o mężczyźnie mało wartym, ale mającym wygórowane mniemanie o sobie’ Analiza nacechowanie w strukturze Słowosieci Wytyczne odwołujące się do przypisanej już polaryzacji i typu relacji leksykalno-semantycznej Końcowa decyzja: jednostka leksykalna neutralna lub nacechowana Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: emocje i wartości Opis znaczenia jednostki skojarzonymi emocjami i wartościami uniwersalnymi Krok pomocniczy w stosunku do oceny polaryzacji nastawienia Przypisanie wartości uniwersalnych było opcjonalnym krokiem, ale rzadko pomijanym Anotatorzy przejawiali tendencję do opisywania złożonych emocji za pomocą kombinacji emocji podstawowych Idealna zgodność nie była oczekiwana, ale ostatecznie była wysoka, np. A1: {smutek, wstręt}; {nieużyteczność, niewiedza} A2: {smutek, złość, wstręt}; {nieużyteczność, niewiedza} Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: polaryzacja nastawienia 1.Test kongruencji (zgodności) 2.Test na dysonans 3.Test z kolokatorem 4.Test definicji słownikowych Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: test kongruencji Czy wszystkie użycia jednostki X w odnalezionych przykładach użycia mają nacechowanie pozytywne/negatywne Czy sąsiadujące z X przymiotniki, rzeczowniki, czasowniki nie wpływają na zmianę nacechowania, ale je potwierdzają? np. „Przyjaźń to lojalność, wierność i bezgraniczne oddanie”(nacechowanie pozytywne) Oczekujemy zróżnicowanych przykładów w przypadku niejednoznacznych Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: testy polaryzacji Test dysonansu Występowanie relacji antonimii właściwej pomiędzy jednostką analizowaną i inną jednostką o jednoznacznie określonej polaryzacji nastawienia emocjonalnego Np., nadzieja [pozytywna] –antonimia- rozczarowanie Testy z kolokatorem Analizujemy kolokacje danej jednostki leksykalnej pod kątem polaryzacji nastawienia Dokonujemy oceny siły tendencji wchodzenia w relacje kolokacji z pozytywnymi/negatywnymi Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: testy polaryzacji Test definicji słownikowych sprawdzamy, czy w definicji analizowanej jednostki wszystkie komponenty są jednoznacznie pozytywne, negatywne lub mieszane Np., pozytywne szatan – z podziwem o człowieku bardzo zdolnym, sprytnym, odważnym [Słowosieć glosa] Np., negatywne Bubek – z niechęcią o mężczyźnie mało wartym, ale mającym wygórowane mniemanie o sobie Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: oznaczenie natężenia nacechowania 1.Odległość od emocji przypisanych do jednostki leksykalnej Np.. dla niezadowolenia mamy smutek i złość - czy są one dla tej jednostki maksymalne czy jedynie zbliżamy się w stronę złości czy smutku, gdy jesteśmy niezadowoleni 2.Porównywanie badanej jednostki z innymi o podobnym znaczeniu: Jeśli jednostka A jest wyraźnie bardziej nacechowana od B, to A otrzymuje oznaczenie "m", a B "s" 3.Jeżeli dana jednostka leksykalna wydaje się mieć negatywną polaryzację, ale jest używana żartobliwie do określenia dziecka, to przypisujemy jej słabe natężenie 4.Przesunięcie w czasie: stan obecny i obecne natężenie Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Procedura: przykłady użycia Podwójna role ilustracja: anotacji i powiązanych aspektów znaczenia weryfikacja: wcześniej podjętych decyzji Ilustracja Dla jednostek nacechowanych pozytywnie lub negatywnie zapisanie przykładu w formie zdania, które zawiera analizowaną jednostkę i jest potwierdzeniem przypisanej anotacji, Dla niejednoznacznych [amb] – dwa zdania potwierdzające możliwość występowania w kontekście negatywnym i pozytywnym Źródło: wybrane lub utworzone Ukierunkowanie: Częste kolokacje rozważanej jednostki leksykalnej Nieoficjalne sytuacje, które nie są częste w słownikach Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Proces Zespół 6 anotatorów: 3 lingwistów i 3 psychologów jeden superanotator weryfikacja wcześniejszych decyzji Organizacja pracy Dwóch anotatorów na jedną jednostkę – pary mieszane i zmienne Pierwszy anotator: przypisuje podstawowe emocje, wartości uniwersalne, polaryzację nastawienia I przykłady drugi anotator: przetwarza te same jednostki leksykalne niezależnie recenzuje rezultaty pracy pierwszego może podjąć odmienne decyzje Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Proces: organizacja pracy Jeżeli drugi anotator się nie zgodził, raport był przesyłany do koordynatora (superanotatora) Jeżeli koordynator znalazł błąd anotatora, była wymagana ponowna analiza Niezgodności niewynikające z błędu były pozostawiane Jeżeli potencjalny błąd został znaleziony w Słowosieci, anotowanie danej jednostki leksykalnej było zawieszane do czasu korekty błędu przez zespół Słowosieci Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Proces: zakres Rzeczowniki podgrafy hyperonimiczne, które są bardziej znaczące dla polaryzacji nastawienia dziedzina: uczucia, odczucia i emocje [czuj]; dziedzina: ludzie [os] np. jednostki ze sztucznych synsetów: ‘człowiek charakteryzowany ze względu na cechy osobowości’, ‘człowiek charakteryzowany pod względem wieku’, ‘człowiek charakteryzowany ze względu na cechy fizyczne’, ‘człowiek charakteryzowany w odniesieniu do jego stanu majątkowego’ czy ‘człowiek charakteryzowany ze względu na kwalifikacje’, ‘człowiek oceniany pozytywnie’, ‘człowiek oceniany negatywnie’ dziedzina: cechy ludzi i zwierząt [cech] dziedzina (częściowo): zdarzenia [zdarz] np. zdarzenia oceniane negatywnie, rozrywka Przymiotniki: wybrane (dokończone na marzec 2015) Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Słowosieć 3.0 emo Premiera Słowosieć 3.0 Wrocław CLARIN-PL Pokrycie anotacji 27% przymiotnikowych jednostek leksykalnych 12% rzeczownikowych jednostek leksykalnych dziedziny, które są najbardziej spodziewane, że zawierają jednostki leksykalne nacechowane pod względem polaryzacji nastawienia emocjonalnego Statystyka Część mowy liczba-m [%]-s [%]n [%]+s [%]+m [%] amb [%] N ,298,7869,063,242,884,74 Adj ,8911,2258,859,215,605,24 Razem ,779,6965,275,463,894,92
Słowosieć 3.0 emo: przykład Premiera Słowosieć 3.0 Wrocław CLARIN-PL Niejednoznaczny: {starzec 1, staruszek 1, dziad 1, dziadek 1} w glosie: ##A1: {zaufanie, smutek, złość; dobro, wiedza, nieużyteczność, nieszczęście} amb [Chętnie pomagam temu starcowi, ponieważ zawsze opowiada mi niezwykłe historie z lat swej młodości.] [Ten starzec wyglądał coraz gorzej, było mi go żal.] ##A2: {zaufanie, smutek, wstręt; wiedza, nieużyteczność, brzydota} amb [W pierwszym rzędzie, tuż przed ołtarzem, zasiadł nobliwy starzec - gość biskupa.] [Jadwiga szukała sposobu, jak może pomóc sponiewieranemu, ubogiemu starcowi.]
Słowosieć 3.0 emo: przykład Premiera Słowosieć 3.0 Wrocław CLARIN-PL Niejednorodny synset: {starzec 1, staruszek 1, dziad 1, dziadek 1} w glosie: “stary mężczyzna” ##A1: {złość, wstręt; nieużyteczność, niewiedza} - m [Stary dziad nie powinien podrywać młodych dziewczyn.] ##A2: {wstręt; nieużyteczność, brzydota} - s [Jakiś dziad się dosiadł do naszego przedziału i wyciągnął śmierdzące kanapki z jajkiem.] ##A3: {wstręt; nieużyteczność, brzydota} - s [Kilkanaście lat minęło i zrobił się z niego stary dziad.]
Zgodność pomiędzy anotatorami Premiera Słowosieć 3.0 Wrocław CLARIN-PL Drugi anotator nie powinien podglądać wyników pracy pierwszego dopóki nie podjął decyzji Tylko w wypadku ewidentnych błędów koordynator prosił anotatora o przeanalizowanie znaczenia danej jednostki leksykalnej i przemyślenie decyzji Wszystkie ostateczne decyzje były zapisywane κ Fleissa (Fleiss, 1971) wyższa zgodność dla przymiotników wynika z uprzedniego doświadczenia z anotacji rzeczowników Część mowy liczba-m-sn+s+mamb N ,9610,9150, Adj
Podsumowanie Pierwszy istotny krok w kierunku anotacji Słowosieci w zakresie polaryzacji nastawienia emocjonalnego Osiągnięty rozmiar anotacji jest bardzo duży w porównaniu do innych ręcznie anotowanych zasobów Wydaje się dobrym punktem wyjścia do zastosowania algorytmów automatycznej anotacji opartych na propagacji pobudzenia w sieci Ponieważ Słowosieć była rozwijana niezależnie od Princeton WordNet, otwiera się interesująca możliwość porównania z anotacją podobnego charakteru dodaną w innych projektach Premiera Słowosieć 3.0 Wrocław CLARIN-PL
Dziękuję bardzo za uwagę