Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałWacław Sobolewski Został zmieniony 6 lat temu
1
Wykorzystanie metody opartej na wzorcach w automatycznej analizie opinii konsumenckich
Katarzyna Wójcik, Janusz Tuchowski Katedra Systemów Obliczeniowych Uniwersytet Ekonomiczny w Krakowie
2
Cel pracy Celem pracy jest omówienie i przedstawienie przykładu wykorzystania metody opartej na wzorcach w automatycznej analizie opinii konsumentów. Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
3
Agenda Wprowadzenie teoretyczne Opis i wyniki badań empirycznych
Charakterystyka opinii konsumentów Automatyczna analiza opinii konsumentów Podejścia do automatycznej analizy opinii konsumentów Wykorzystanie podejścia opartego na wzorcach w automatycznej analizie opinii konsumentów Opis i wyniki badań empirycznych Cel i etapy analizy Wykorzystane narzędzia Zbiór danych Opis procesu badawczego Uzyskane wyniki Wnioski i dalsze plany badawcze Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
4
Wprowadzenie teoretyczne
Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
5
Opinie o produktach i usługach
Opinie to specyficzny rodzaj danych tekstowych. Mają one subiektywny charakter - wyrażają stosunek autora wypowiedzi do przedmiotu opinii. Opinie można podzielić na trzy grupy według ich formatu: wady, zalety oraz podsumowanie wady i zalety dowolny W niektórych serwisach opinie słowne są wspierane oceną punktową lub gwiazdkami. Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
6
Automatyczna analiza opinii konsumentów
Automatyczna analiza opinii konsumenckich to ogół działań mających na celu zautomatyzowanie procesu wyszukiwania, ekstrakcji i analizy danych pochodzących ze specyficznych tekstów jakimi są opinie użytkowników. Automatyczna analiza opinii konsumenckich to działania z pogranicza przetwarzania języka naturalnego (NLP), lingwistyki komputerowej oraz eksploracyjnej analizy tekstu. Rodzaje automatycznej analizy opinii konsumenckich: Klasyfikacja opinii Analiza ukierunkowana na cechy produktu Analiza porównawcza produktów Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
7
Podejścia do automatycznej analizy opinii konsumenckich
Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
8
Podejście oparte na wzorcach
Wykorzystuje reguł bazujących na wyrażeniach regularnych Pozwala na identyfikację fraz modyfikujących sentyment: negacji (ang. negation) neutralizacji (ang. nullification) zastrzeżenia/ograniczenia (ang. limitation) wzmocnienia oraz innych charakterystycznych zwrotów używanych w opiniach Jest wstępem do analizy ukierunkowanej na cechy produktu Może być wykorzystane do analizy porównawczej produktów Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
9
Badania empiryczne Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
10
Cel badania Celem badania jest przedstawienie przykładu wykorzystania metody opartej na wzorcach w automatycznej analizie opinii konsumentów Wyniki uzyskane dla omawianej metody zostaną porównane z wynikami uzyskanymi przy wykorzystaniu innych metod Porównane zostaną również nakłady potrzebne przy wykorzystaniu różnych metod oraz dodatkowe korzyści wynikające z tego faktu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
11
Etapy analizy Pozyskanie opinii Analiza podobieństwa opinii
Konstrukcja słowników Konstrukcja reguł Analiza nacechowania opinii Porównanie wyników różnych eksperymentów Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
12
Wykorzystane narzędzia
Ekstrakcja opinii: język PHP Text mining: język R (pakiety tm, dendextend, stringr) Definicja wzorców: Spejd Analiza nacechowania: język JAVA Statystyczna analiza wyników: Excel Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
13
Zbiór opinii Serwis internetowy Baza danych Pliki tekstowe
737 opinii w formie pierwszej (wady, zalety, posumowanie) Pochodzenie: Ceneo.pl Produkty: smartfony Samsung Galaxy S II, S III, S4 oraz S5 Ocena podsumowująca: gwiazdki w przedziale [0,5;5] z krokiem 0,5 Parser: DOM dla języka PHP Serwis internetowy Baza danych Pliki tekstowe Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
14
Przykładowa opinia Samsung Galaxy S4
Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
15
Spejd Spejd (ang. Shallow Parsing and Dezambiguation Engine – spade) to parser powierzchniowy służący do płytkiej analizy składniowej dostępny na warunkach GNU GPL (powszechnej licencji publicznej) Pozwala on na identyfikowanie konstrukcji składniowych i ujednoznacznianie wyników analizy morfologicznej Opracowany przez Instytut Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN) Korzysta z Narodowego Korpusu Języka Polskiego (NKJP) Nazwa: Polish: Składniowy Parser (Ewidentnie Jednocześnie Dezambiguator) English: Shallow Parsing and Eminently Judicious Disambiguation Celem płytkiego parsingu (inaczej powierzchniowego parsingu lub częściowego parsingu) jest uzyskanie częściowej struktury składniowej analizowanego zdania. W zdaniu wejściowym rozpoznawane są pewne wybrane struktury np. grupy rzeczownikowe, czy grupy czasownikowe, jednak nie jest rozpoznawana pełna ich struktura wewnętrzna ani nie są tez analizowane role, jakie grupy te pełnią w zdaniu. W przeciwieństwie do parsingu głębokiego (parsingu pełnego) celem analizy nie jest rozpoznanie całej struktury składniowej zdania. Strukturę rozpoznaną w wyniku parsingu można przedstawić w postaci drzewa. Dla takich samych zdań, drzewa struktury otrzymanej jako wynik parsingu płytkiego są mniej złożone od pełnych drzew struktury składniowej. Można zauważyć, że drzewo parsingu płytkiego to drzewo zbudowane z kilku najbliższych liściom (najbardziej szczegółowych) poziomów drzewa pełnego parsingu. W uproszczeniu: części mowy, a nie części zdania Identyfikacja wewnętrznych struktur w zdaniu bez analizy struktury całego zdania Spejd nie wymaga tekstu wstępnie przetworzonego – po stemmingu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
16
Reguły Podstawą formalizmu Spejda jest kaskada gramatyk regularnych w postaci reguł Wbudowane reguły pozwalają na identyfikację zdań, tokenów, analizę morfologiczną oraz tagowanie Dodatkowy zestaw reguł odpowiada za identyfikację skrótów, dat oraz liczb pisanych w różny sposób Spejd korzysta z aplikacji Morfeusz do analizy morfologicznej i z aplikacji Pantera do tagowania tokenów Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
17
Analiza porównawcza opinii
Wykorzystano metodę opartą na macierzy częstości Macierz częstości występowała w formie podstawowej Do obliczenia odległości pomiędzy opiniami wykorzystana została odległość kątowa Wykorzystaną własną stoplistę Badanie powtórzono dwukrotnie, za drugim razem wykorzystując Spejda do stemmingu (sprowadzenia do rdzenia) Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
18
Macierz częstości Przed redukcją do rdzenia Po redukcji do rdzenia
A term-document matrix (6172 terms, 737 documents) Non-/sparse entries : 23529/ Sparsity : 99,4% Maximal term length: 95 Weighting : term frequency (tf) A term-document matrix (3653 terms, 737 documents) Non-/sparse entries : 22614/ Sparsity : 99,1% Maximal term length: 95 Weighting : term frequency (tf) Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
19
Skalowanie wielowymiarowe
Przed redukcją do rdzenia Po redukcji do rdzenia Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
20
Słowniki Słowa z macierzy częstości posłużyły do konstrukcji słowników
Wykorzystano jedynie słowa w wersji podstawowej Utworzono osobno słowniki wyrazów pozytywnych i negatywnych po około 200 słów każdy Słowniki przygotowano w dwóch wersjach: Sentyment o wartości 1 dla słów pozytywnych i -1 dla negatywnych Sentyment dodatni dla słów pozytywnych i ujemny dla negatywnych, wartość zależy od siły nacechowania, wartości całkowite od -10 do 10 bez 0 Wykorzystano dodatkowy atrybut sen zdefiniowany w programie Spejd Problematyczne słowa: wysoki/niski, szybko/wolno, długo/krótko W przeciwieństwie do twórców spejda, którzy dodawali do słownika słowa, których wersje podstawowe były już w słownik Około 6-8 tysięcy słów w każdym ze słowników Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
21
Reguły Zastosowano dwa rodzaje reguł:
modyfikujące sentyment pojedynczych słów grupujące słowa w nacechowane frazy Każda reguła ma następującą strukturę: Rule „Nazwa reguły” Left: lewy kontekst Match: dopasowanie Right: prawy kontekst Eval: operacje do wykonania Wyrażenia regularne + Poliqarp (zestaw narzędzi do przeszukiwanie dużych korpusów, współpracuje z NKJP, zapytania) Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
22
Oznaczenia Operatory NKJP Operacje oparator znaczenie […]
pojedynczy token atrybut~wartość istnieje atrybut o podajen watości NKJP leksem oznaczenie rzeczownik subst przymiotnik adj przysłówek adv czasownik forma nieprzeszła fin partykuło-przysłówek qub Operacje operacja działanie unify pozostawia tokeny o zgodnych warośćiach określonych atrybutów alter modyfikuje część tokenu lub wartość jego atrybuty group grupuje tokeny Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
23
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
24
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
25
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
26
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
27
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
28
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
29
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
30
Przykłady reguł Super sprzęt. Bateria trzyma naprawdę długo. System ładuje się szybko. Mam wystarczającą ilość miejsca na wszystkie moje filmy i zdjęcia. Jedynym mankamentem jest słaba jakość dźwięku. Głośniki są nie najlepszej jakości. Bardzo dobry ekran. Ponadto sprzęt nie przegrzewa się co miało miejsce w przypadku poprzedniego modelu który miałam. Obudowa też jest zdecydowanie lepsza. Sprawia wrażenie zdecydowanie trwalszej. Nie mam też żadnych zastrzeżeń co do klawiatury, ale marna jakość touch pada daje się momentami we znaki. Szczerze polecam. Teksty analizowane są zdanie po zdaniu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
31
Rodzaje eksperymentów
Lp. Oznaczenie Stemming Unifikacja sentymentu Reguły Słownik 1 S10 𝑁 [-10;10]\0 2 SU10 3 SU1 {-1;1} 4 SUR10 Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
32
Rezultaty badań Lp. Oznaczenie Korelacja Istotność (p-value) Dokładność (2 grupy) Dokładność (3 grupy) 1 S10 0,358405 0,0000 80,86% 76,34% 2 SU10 0,388819 90,91% 76,93% 3 SU1 0,386515 90,77% 77,48% 4 SUR10 0,423316 91,59% 78,02% Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
33
Dokładność klasyfikacji przy uwzględnieniu wzorców (reguł) – 2 grupy
Użytkownik Negatywna Pozytywna Obliczenia 37,74% 4,24% 62,26% 95,76% Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
34
Dokładność klasyfikacji przy uwzględnieniu wzorców (reguł) – 3 grupy
Użytkownik Negatywna Neutralna Pozytywna Obliczenia 2,86% 5,00% 0,31% 68,57% 35,00% 13,55% 28,57% 60,00% 86,14% Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
35
Różnice pomiędzy ocenami użytkowników, a obliczeniami
Średnio zaniżone 0 0,7 Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
36
Wnioski Zastosowanie wzorców zwiększa korelację pomiedzy wynikami oczekiwanymi, a uzyskanymi zwiększając jednocześnie nieznacznie dokładność klasyfikacji Zastosowana metoda lepiej klasyfikuje opinie pozytywne niż negatywne czy też neutralne Uwzględnienie siły nacechowanie poprawia jakość klasyfikacji Metoda oparta na wzorcach wymaga dużego nakładu pracy związanego z konstrukcją reguł Duży problem stanowią słowa mające różne nacechowanie w zależności od kontekstu Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
37
Dalsze plany badawcze Rozbudowa zbioru reguł
Poszerzenie słowników sentymentu Wykorzysanie wzorców w analizie ukierunkowanej na cechy produktów Próba połączenia podejścia opartego na wzorcach z podejściem wykorzystującym wiedzę dziedzinową Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
38
Dziękujemy za uwagę Katarzyna Wójcik, Janusz Tuchowski - Uniwersytet Ekonomiczny w Krakowie
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.