Wykorzystanie metody opartej na wzorcach w automatycznej analizie opinii konsumenckich Katarzyna Wójcik, Janusz Tuchowski Katedra Systemów Obliczeniowych Uniwersytet Ekonomiczny w Krakowie
Cel pracy Celem pracy jest omówienie i przedstawienie przykładu wykorzystania metody opartej na wzorcach w automatycznej analizie opinii konsumentów. Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Agenda Wprowadzenie teoretyczne Opis i wyniki badań empirycznych Charakterystyka opinii konsumentów Automatyczna analiza opinii konsumentów Podejścia do automatycznej analizy opinii konsumentów Wykorzystanie podejścia opartego na wzorcach w automatycznej analizie opinii konsumentów Opis i wyniki badań empirycznych Cel i etapy analizy Wykorzystane narzędzia Zbiór danych Opis procesu badawczego Uzyskane wyniki Wnioski i dalsze plany badawcze Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Wprowadzenie teoretyczne Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Opinie o produktach i usługach Opinie to specyficzny rodzaj danych tekstowych. Mają one subiektywny charakter - wyrażają stosunek autora wypowiedzi do przedmiotu opinii. Opinie można podzielić na trzy grupy według ich formatu: wady, zalety oraz podsumowanie wady i zalety dowolny W niektórych serwisach opinie słowne są wspierane oceną punktową lub gwiazdkami. Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Automatyczna analiza opinii konsumentów Automatyczna analiza opinii konsumenckich to ogół działań mających na celu zautomatyzowanie procesu wyszukiwania, ekstrakcji i analizy danych pochodzących ze specyficznych tekstów jakimi są opinie użytkowników. Automatyczna analiza opinii konsumenckich to działania z pogranicza przetwarzania języka naturalnego (NLP), lingwistyki komputerowej oraz eksploracyjnej analizy tekstu. Rodzaje automatycznej analizy opinii konsumenckich: Klasyfikacja opinii Analiza ukierunkowana na cechy produktu Analiza porównawcza produktów Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Podejścia do automatycznej analizy opinii konsumenckich Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Podejście oparte na wzorcach Wykorzystuje reguł bazujących na wyrażeniach regularnych Pozwala na identyfikację fraz modyfikujących sentyment: negacji (ang. negation) neutralizacji (ang. nullification) zastrzeżenia/ograniczenia (ang. limitation) wzmocnienia oraz innych charakterystycznych zwrotów używanych w opiniach Jest wstępem do analizy ukierunkowanej na cechy produktu Może być wykorzystane do analizy porównawczej produktów Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Badania empiryczne Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Cel badania Celem badania jest przedstawienie przykładu wykorzystania metody opartej na wzorcach w automatycznej analizie opinii konsumentów Wyniki uzyskane dla omawianej metody zostaną porównane z wynikami uzyskanymi przy wykorzystaniu innych metod Porównane zostaną również nakłady potrzebne przy wykorzystaniu różnych metod oraz dodatkowe korzyści wynikające z tego faktu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Etapy analizy Pozyskanie opinii Analiza podobieństwa opinii Konstrukcja słowników Konstrukcja reguł Analiza nacechowania opinii Porównanie wyników różnych eksperymentów Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Wykorzystane narzędzia Ekstrakcja opinii: język PHP Text mining: język R (pakiety tm, dendextend, stringr) Definicja wzorców: Spejd Analiza nacechowania: język JAVA Statystyczna analiza wyników: Excel Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Zbiór opinii Serwis internetowy Baza danych Pliki tekstowe 737 opinii w formie pierwszej (wady, zalety, posumowanie) Pochodzenie: Ceneo.pl Produkty: smartfony Samsung Galaxy S II, S III, S4 oraz S5 Ocena podsumowująca: gwiazdki w przedziale [0,5;5] z krokiem 0,5 Parser: DOM dla języka PHP Serwis internetowy Baza danych Pliki tekstowe Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykładowa opinia Samsung Galaxy S4 Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Spejd Spejd (ang. Shallow Parsing and Dezambiguation Engine – spade) to parser powierzchniowy służący do płytkiej analizy składniowej dostępny na warunkach GNU GPL (powszechnej licencji publicznej) Pozwala on na identyfikowanie konstrukcji składniowych i ujednoznacznianie wyników analizy morfologicznej Opracowany przez Instytut Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN) Korzysta z Narodowego Korpusu Języka Polskiego (NKJP) Nazwa: Polish: Składniowy Parser (Ewidentnie Jednocześnie Dezambiguator) English: Shallow Parsing and Eminently Judicious Disambiguation Celem płytkiego parsingu (inaczej powierzchniowego parsingu lub częściowego parsingu) jest uzyskanie częściowej struktury składniowej analizowanego zdania. W zdaniu wejściowym rozpoznawane są pewne wybrane struktury np. grupy rzeczownikowe, czy grupy czasownikowe, jednak nie jest rozpoznawana pełna ich struktura wewnętrzna ani nie są tez analizowane role, jakie grupy te pełnią w zdaniu. W przeciwieństwie do parsingu głębokiego (parsingu pełnego) celem analizy nie jest rozpoznanie całej struktury składniowej zdania. Strukturę rozpoznaną w wyniku parsingu można przedstawić w postaci drzewa. Dla takich samych zdań, drzewa struktury otrzymanej jako wynik parsingu płytkiego są mniej złożone od pełnych drzew struktury składniowej. Można zauważyć, że drzewo parsingu płytkiego to drzewo zbudowane z kilku najbliższych liściom (najbardziej szczegółowych) poziomów drzewa pełnego parsingu. W uproszczeniu: części mowy, a nie części zdania Identyfikacja wewnętrznych struktur w zdaniu bez analizy struktury całego zdania Spejd nie wymaga tekstu wstępnie przetworzonego – po stemmingu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Reguły Podstawą formalizmu Spejda jest kaskada gramatyk regularnych w postaci reguł Wbudowane reguły pozwalają na identyfikację zdań, tokenów, analizę morfologiczną oraz tagowanie Dodatkowy zestaw reguł odpowiada za identyfikację skrótów, dat oraz liczb pisanych w różny sposób Spejd korzysta z aplikacji Morfeusz do analizy morfologicznej i z aplikacji Pantera do tagowania tokenów Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Analiza porównawcza opinii Wykorzystano metodę opartą na macierzy częstości Macierz częstości występowała w formie podstawowej Do obliczenia odległości pomiędzy opiniami wykorzystana została odległość kątowa Wykorzystaną własną stoplistę Badanie powtórzono dwukrotnie, za drugim razem wykorzystując Spejda do stemmingu (sprowadzenia do rdzenia) Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Macierz częstości Przed redukcją do rdzenia Po redukcji do rdzenia A term-document matrix (6172 terms, 737 documents) Non-/sparse entries : 23529/4525235 Sparsity : 99,4% Maximal term length: 95 Weighting : term frequency (tf) A term-document matrix (3653 terms, 737 documents) Non-/sparse entries : 22614/2669647 Sparsity : 99,1% Maximal term length: 95 Weighting : term frequency (tf) Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Skalowanie wielowymiarowe Przed redukcją do rdzenia Po redukcji do rdzenia Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Słowniki Słowa z macierzy częstości posłużyły do konstrukcji słowników Wykorzystano jedynie słowa w wersji podstawowej Utworzono osobno słowniki wyrazów pozytywnych i negatywnych po około 200 słów każdy Słowniki przygotowano w dwóch wersjach: Sentyment o wartości 1 dla słów pozytywnych i -1 dla negatywnych Sentyment dodatni dla słów pozytywnych i ujemny dla negatywnych, wartość zależy od siły nacechowania, wartości całkowite od -10 do 10 bez 0 Wykorzystano dodatkowy atrybut sen zdefiniowany w programie Spejd Problematyczne słowa: wysoki/niski, szybko/wolno, długo/krótko W przeciwieństwie do twórców spejda, którzy dodawali do słownika słowa, których wersje podstawowe były już w słownik Około 6-8 tysięcy słów w każdym ze słowników Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Reguły Zastosowano dwa rodzaje reguł: modyfikujące sentyment pojedynczych słów grupujące słowa w nacechowane frazy Każda reguła ma następującą strukturę: Rule „Nazwa reguły” Left: lewy kontekst Match: dopasowanie Right: prawy kontekst Eval: operacje do wykonania Wyrażenia regularne + Poliqarp (zestaw narzędzi do przeszukiwanie dużych korpusów, współpracuje z NKJP, zapytania) Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Oznaczenia Operatory NKJP Operacje oparator znaczenie […] pojedynczy token atrybut~wartość istnieje atrybut o podajen watości NKJP leksem oznaczenie rzeczownik subst przymiotnik adj przysłówek adv czasownik forma nieprzeszła fin partykuło-przysłówek qub Operacje operacja działanie unify pozostawia tokeny o zgodnych warośćiach określonych atrybutów alter modyfikuje część tokenu lub wartość jego atrybuty group grupuje tokeny Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Rodzaje eksperymentów Lp. Oznaczenie Stemming Unifikacja sentymentu Reguły Słownik 1 S10 𝑁 [-10;10]\0 2 SU10 3 SU1 {-1;1} 4 SUR10 Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Rezultaty badań Lp. Oznaczenie Korelacja Istotność (p-value) Dokładność (2 grupy) Dokładność (3 grupy) 1 S10 0,358405 0,0000 80,86% 76,34% 2 SU10 0,388819 90,91% 76,93% 3 SU1 0,386515 90,77% 77,48% 4 SUR10 0,423316 91,59% 78,02% Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Dokładność klasyfikacji przy uwzględnieniu wzorców (reguł) – 2 grupy Użytkownik Negatywna Pozytywna Obliczenia 37,74% 4,24% 62,26% 95,76% Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Dokładność klasyfikacji przy uwzględnieniu wzorców (reguł) – 3 grupy Użytkownik Negatywna Neutralna Pozytywna Obliczenia 2,86% 5,00% 0,31% 68,57% 35,00% 13,55% 28,57% 60,00% 86,14% Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Różnice pomiędzy ocenami użytkowników, a obliczeniami Średnio zaniżone 0 0,7 Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Wnioski Zastosowanie wzorców zwiększa korelację pomiedzy wynikami oczekiwanymi, a uzyskanymi zwiększając jednocześnie nieznacznie dokładność klasyfikacji Zastosowana metoda lepiej klasyfikuje opinie pozytywne niż negatywne czy też neutralne Uwzględnienie siły nacechowanie poprawia jakość klasyfikacji Metoda oparta na wzorcach wymaga dużego nakładu pracy związanego z konstrukcją reguł Duży problem stanowią słowa mające różne nacechowanie w zależności od kontekstu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Dalsze plany badawcze Rozbudowa zbioru reguł Poszerzenie słowników sentymentu Wykorzysanie wzorców w analizie ukierunkowanej na cechy produktów Próba połączenia podejścia opartego na wzorcach z podejściem wykorzystującym wiedzę dziedzinową Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Dziękujemy za uwagę Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie