Wielowymiarowe metody analizy i wizualizacji danych
9 zmiennych – korelacje każdej z każdą
Współwystępowanie kategorii wykształcenia, miejsca zamieszkania i dochodu oraz miejsca zakupu ekożywności
Analiza skupień Analiza skupień jest techniką wielowymiarową pozwalającą wykrywać współzależności między obiektami. Związana jest ściśle z zagadnieniami klasyfikowania i porządkowania otaczającej nas rzeczywistości
Cele analizy skupień Eksploracja danych Kontrola danych Poszukiwanie obiektów nietypowych (odstających) Wykrycie wewnętrznej struktury obiektów Wykrywanie współzależności między zmiennymi Typologia Weryfikacja istniejącej typologii Propozycje klasyfikacji obiektów Redukcja danych Agregacja danych Wybór reprezentantów grup
Odwzorowanie obiektów w przestrzeni n - wymiarowej Obiekt opisany za pomocą n zmiennych X1, X2,…Xn przedstawiamy jako punkt x=(x1,…,xn) w przestrzeni n-wymiarowej Celem podziału na grupy jest, aby obiekty podobne (reprezentowane przez punkty znajdujące się blisko siebie w przestrzeni) znalazły się w tej samej grupie, a obiekty niepodobne (reprezentowane przez punkty leżące w dużej odległości w przestrzeni) znalazły się w różnych grupach
Analiza skupień (przykład obiektów dających podzielić się na 5 grup)
Problemy do rozstrzygnięcia Jak odwzorować obiekty w przestrzeni? Wybór zmiennych Normalizacja zmiennych Jak mierzyć odległości między obiektami? Jaką metodę grupowania zastosować?
Normalizacja Normalizacja ma na celu doprowadzenie obiektów lub zmiennych do porównywalnych wielkości. Problem ten dotyczy zmiennych mierzonych w różnych jednostkach (np. sztuki, czas, waluta). Przykład Rozważmy 3 obiekty i dwie zmienne: wiek osoby mierzony w latach i jej dochód mierzony w złotych lub tys. zł.
Przekształcenia liniowe zmiennych - (standaryzacja) , gdzie Współczynnik A nie wpływa na odległości między obiektami Współczynnik B pełni rolę czynnika skalującego. Szczególnie ważnym rodzajem przekształcenia jest standaryzacja
Metryka przestrzeni Odległość euklidesowa Odległość Minkowskiego Jej szczególnymi przypadkami są: odległość miejska (p=1) odległość euklidesowa (p=2) odległość Czebyszewa (p= ) ponadto kwadrat odległości euklidesowej
Optymalizacyjno-iteracyjne Metody grupowania Hierarchiczne tworzą drzewa binarne Optymalizacyjno-iteracyjne poprawiają wstępny podział w kolejnych iteracjach Pozostałe np. tworzą skupienia nierozłączne, niezupełne, rozmyte
Metody hierarchiczne Metody najczęściej stosowane w praktyce. Uzyskana hierarchia (jedne skupienia zawierają się w innych) pozwala na uzyskanie pełnej informacji o strukturze skupień. Ograniczenie tych metod to wymagania pamięci, co powoduje, że w przypadku dużych zbiorów danych nie mogą być stosowane. Metody hierarchiczne dzielimy na metody aglomeracyjne i podziałowe. Punktem wyjścia w metodach aglomeracyjnych jest określenie odległości pomiędzy obiektami. metody aglomeracyjne C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 5 5 -+---+ 6 6 -+ +-----------------------+ 7 7 -----+ +-------------------+ 3 3 -+---------------------------+ I 4 4 -+ I 1 1 -----------------------+-------------------------+ 2 2 -----------------------+ metody podziałowe
Metody aglomeracyjne Najbliższego sąsiedztwa Najdalszego sąsiedztwa Mediany Środka ciężkości Średniej odległości wewnątrz skupień Średniej odległości między skupieniami Minimalnej wariancji Warda
Porównanie sposobu wyznaczania odległości między skupieniami w wybranych metodach aglomeracyjnych metoda najbliższego sąsiedztwa metoda najdalszego sąsiedztwa metoda mediany metoda środka ciężkości metoda średniej grupowej
metoda najbliższego sąsiedztwa metoda najdalszego sąsiedztwa metoda mediany metoda średniej grupowej metoda środka ciężkości metoda Warda
Metody optymalizacyjno-iteracyjne (k-średnich) Ustalamy liczbę grup (k) Wybieramy (w sposób losowy lub ustalony z góry) k punktów przestrzeni, stanowiących tzw. zalążki środków ciężkości skupień (cluster seeds) Każdy z obiektów (i=1,...,n) przydzielamy do grupy o najbliższym dla niego środku ciężkości Dla (j=1,...,k) obliczamy nowe środki ciężkości jako średnie arytmetyczne wszystkich obiektów należących do danej grupy Powtarzamy kroki 3 i 4 aż do chwili, gdy nie następują przesunięcia obiektów między grupami
Metody optymalizacyjno-iteracyjne (k-średnich) Jednocześnie obliczana jest funkcja błędu podziału - ogólna suma kwadratów odległości wewnątrzgrupowych liczonych od środków ciężkości grup: tzn. gdzie d jest odległością euklidesową. W praktyce proces jest zbieżny po kilku lub kilkunastu iteracjach.
Ustalanie liczby skupień Liczbę skupień wybiera się na podstawie przesłanek merytorycznych albo szacuje się je metodami hierarchicznymi. Można dokonać obliczeń dla wszystkich wartości k z ustalonego przedziału: Możliwe są różne podejścia: Arbitralny sposób np. przyjmuje się współrzędne pierwszych k obiektów (nie zawierające braków danych) jako zalążki środków ciężkości . Losowy wybór środków ciężkości, przy czym może to być losowy wybór k obiektów ze zbioru danych albo losowy wybór k punktów przestrzeni niekoniecznie pokrywających się z położeniem obiektów. Wykorzystanie algorytmu optymalizującego w pewien sposób położenie początkowych środków ciężkości np. przez uwzględnianie k obiektów leżących daleko względem siebie. Przyjęcie jako początkowych środków ciężkości uzyskanych na podstawie podziału otrzymanego inna metodą, głównie jedną z metod hierarchicznych.
SKUPIENIE (CLUSTER) – układ podobnych obiektów SKUPIENIE (CLUSTER) – układ podobnych obiektów. Podobieństwo pary obiektów należących do danego skupienia jest większe niż podobieństwo obiektów należących do różnych grup. Skupienia są rozłączne – jeden obiekt należy tylko do jednej kategorii.
Środek ciężkości– punkt, którego współrzędne równe są wartościom średnim zmiennych, ale tylko dla obiektów należących do tego skupienia.
Procedura aglomeracyjna Macierz n obserwacji i p zmiennych jest znana. Konstruujemy macierz odległości: i,k=1,2,..,n dik – odległość między dwoma obiektami Szukamy pary obiektów najbardziej podobnych (o najmniejszej odległości). Łączymy je w pierwsze skupienie. Środek ciężkości tego skupienia wyznaczany jest jako średnia wartość każdej zmiennej dla tych dwóch obiektów.
2. Wymiar macierzy D redukujemy o 1. I znowu liczymy odległości… 3. Krok 1 i 2 powtarzamy do momentu, aż wszystkie obiekty znajdą się w jednym skupieniu.
Przykład: 10 uniwersytetów, opisanych przez 3 zmienne: X1 – liczba studentów (2005) X2 – liczba studentów studiów doktoranckich (2005) X3 – liczba profesorów (2005)
Standaryzacja – ponieważ zmienne wyrażone są w różnych jednostkach
KROK 1. macierz odległości D Najmniejszy dystans – dla obserwacji 5 i 8. To pierwsze skupienie. Powinien tu być wyznaczony środek ciężkości.
Dla każdej zmiennej należy obliczyć średnią z t wartości dla dwóch obserwacji – i to jest środek ciężkości tego nowopowstałego skupienia.
KROK 2. macierz odległości D z uwzględnieniem nowego skupienia
Teraz jest już 8 skupień. Łączymy dalej (kontynuujemy procedurę aglomeracyjną).
Ostatni etap procedury aglomeracyjnej ukazuje obserwację 9 jako obserwację odstająca (brak przynależności do jakiegokolwiek skupienia), pozostałe obserwacje są w jednym skupieniu. Macierz odległości D: Ostatnia odległość to 4,151 –między obserwacjami 1-8 i 10 oraz 9. To już koniec procedury – nareszcie wszystkie obiekty są w jednym skupieniu. Ale czy o to nam chodziło?
Jak wybrać liczbę skupień? Dendrogram – ilustruje łączenia obserwacji na poszczególnych poziomach (etapach) procedury aglomeracyjnej. ‘Ucinamy” ramiona w miejscu, gdzie zaczynają być dłuższe – oznacz to, ze nie ma wiązań i skupienia składają się z różniących się od siebie obserwacji. Ale to zawsze jest NASZA decyzja…
Skupienie 1: obserwacje 2, 4, 3, 10, 1, 7 Skupienie 3: obserwacja 9 Podobne? Pod jakim względem? Porównajmy średnie (group mean –średnia dla grupy; grand mean – średnia dla całości Grupa 1 (Skupienie 1: obserwacje 2, 4, 3, 10, 1, 7) Nic ciekawego ;-)
Najgorsza - średnia grupy dla każdej zmiennej o wiele niższa niż średnia dla całości zbioru Najlepsza - średnia grupy dla każdej zmiennej o wiele wyższa niż średnia dla całości zbioru
X1 X2 X3
Metoda k-średnich Tworzymy k skupień. Ze wszystkich danych wybieramy k punktów (wybór dowolny). To są pierwsze środki ciężkości. Każdy punkt powinien być dołączony do jednego ze środków ciężkości (najbliższego). Po dołączeniu obserwacji, liczymy środki ciężkości. Krok 2 i 3 powtarzamy do momentu, aż obiekty przestana się ‘przemieszczać’ między skupieniami.
A oraz E są losowo wybrane jako centra skupień. C ma bliżej do A niż do E, więc skupienie 2 zawiera A, B, C a skupienie 2 zawiera D oraz E (czerwone kropki oznaczają środki ciężkości skupień) . Teraz C ma bliżej środka ciężkości skupienia 2, będzie wiec przeniesione ze skupienia 1 do 2.
Przykład: 10 uniwersytetów, opisanych przez 3 zmienne: X1 – liczba studentów (2005) X2 – liczba studentów studiów doktoranckich (2005) X3 – liczba profesorów (2005)
Decydujemy się na 3 skupienia Decydujemy się na 3 skupienia. Ze względu na różne jednostki zmiennych, najpierw przeprowadzamy standaryzację. Pierwsze trzy obiekty to centra skupień.
Liczymy odległości obiektów od środka ciężkości Liczymy odległości obiektów od środka ciężkości. Przyłączamy obiekty do najbliższego im skupienia.
Mamy takie skupienia:
Dla każdego skupienia policzono środek ciężkości, a następnie odległość obiektów od środka ciężkości:
Teraz jest inna konfiguracja obiektów:
I znowu – liczymy odległości obiektów od środka ciężkości.
Mamy następujące skupienia:
I znowu – liczymy odległości obiektów od środka ciężkości.
A teraz takie skupienia:
I znowu – liczymy odległości obiektów od środka ciężkości. Te skupienia i poprzednie są takie same, konfiguracja obiektów już się więc nie zmieni. Nareszcie koniec
Mieliśmy 55 zmiennych!
Analiza czynnikowa zaletą jest możliwość odkrycia zmiennych bezpośrednio nieobserwowalnych, które wyjaśniają wzajemne powiązania między zmiennymi rzeczywistymi (obserwowalnymi). Identyfikacja ukrytych cech oznacza wyodrębnienie kryteriów segmentacji post hoc. może być użyta w celu konstrukcji map percepcji, ukazujących konfigurację badanych segmentów w przestrzeni wielowymiarowej.
Do podstawowych celów analizy czynnikowej zalicza się: W analizie czynnikowej przyjmuje się, że liczba obserwacji powinna co najmniej 5- krotnie przewyższać liczbę pierwotnych zmiennych. Do podstawowych celów analizy czynnikowej zalicza się: identyfikację ukrytych czynników wspólnych, redukcję wymiaru przestrzeni zmiennych, ortogonalizację przestrzeni, w której zlokalizowane są obiekty, identyfikację charakteru zmiennych, prezentację graficzną nowopowstałego układu.
Funkcje analizy czynnikowej redundancyjna – zmniejszenie liczby zmiennych bez istotnej straty informacji, poznawcza – formułowanie hipotez dotyczących istnienia i natury prawidłowości kształtujących związki między zjawiskami, weryfikacyjna – sprawdzenie poprawności powyższych hipotez, deskryptywna – opis zjawisk zdefiniowanych przez wyodrębnione czynniki, delimitacyjna – porządkowanie i usytuowanie obiektów w przestrzeni czynników.
Kiedy stosować? Gdy większość zmiennych jest skorelowana w statystycznie istotny sposób. miara adekwatności próby - wskaźnik KMO (Kaisera-Meyera-Olkina); umożliwia określenie stopnia, w jakim zmienne są ze sobą powiązane: Przyjmuje wartości od 0 do 1. Wartość > 0,6 jest przesłanką do stosowania analizy czynnikowej.
Kryteria wyboru liczby czynników metoda wartości własnej większej od jedności (λ>1) – powinna być stosowana wówczas, jeżeli liczba zmiennych jest większa od 20, w przeciwnym razie istnieje ryzyko wyodrębnienia zbyt małej liczby czynników. Reguła wartości własnej większej od 1 wynika stąd, że każdy czynnik powinien wyjaśniać zmienność przynajmniej jednej zmiennej.
Wartość własna 1 3,791 2 1,752 3 1,087 4 0,313 5 0,152 6 0,094
metoda odsetka wyjaśnionej wariancji; bierze się pod uwagę tylko te czynniki, które wyjaśniają łącznie 70, 80 lub 90% wariancji, a żaden następny nie tłumaczy więcej niż 5% wariancji. Udział wariancji wyjaśnianej przez kolejne czynniki (główne składowe) w całkowitej wariancji jest bowiem coraz mniejszy, przy czym największy jest udział wariancji pierwszej głównej składowej i to właśnie przez nią wyjaśniona jest największa część całkowitej zmienności.
% wyjaśnionej wariancji Wartość własna % wyjaśnionej wariancji 1 3,791 54,2 2 1,752 25,0 3 1,087 12,7 4 0,313 4,5 5 0,152 2,2 6 0,094 1,3 7 0,006 0,1
metoda testu osypiska (zaproponowanego przez Cattela); polega na sporządzeniu wykresu, w którym na osi odciętych zaznaczana jest liczba czynników, a na osi rzędnych – uzyskane wartości własne. Punkty załamania się krzywej wskazują na liczbę czynników.
Liczbę czynników określa się przed rotacją, zaś decyzje o liczbie czynników powinno się rozważyć w połączeniu z wiedzą merytoryczną o danym zagadnieniu, nie tylko na drodze mechanicznych wyborów. Miarą pomocną w rozwiązaniu tego zagadnienia są też wartości ładunków czynnikowych. Ładunki czynnikowe wyrażają stopień nasycenia zmiennej danym czynnikiem i stanowią - dla nieskorelowanych czynników - współczynniki korelacji pomiędzy zmienną pierwotną a poszczególnymi czynnikami. Im wyższa wartość ładunku czynnikowego, tym bardziej istotna jest ta zmienna dla danego czynnika. Wartości ładunków czynnikowych stanowią więc podstawę końcowej merytorycznej interpretacji wyników.
Rotacja varimax jest najczęściej stosowana Rotacja varimax jest najczęściej stosowana. Upraszcza ona interpretację czynników poprzez minimalizację liczby zmiennych potrzebnych do wyjaśnienia danego czynnika. Rotacja quartimax upraszcza interpretację zmiennych poprzez minimalizację czynników potrzebnych do wyjaśnienia danej zmiennej.
Wyniki analizy Charakterystyka Główna składowa 1 2 3 4 Wart.ład.czyn. Świeżość -0,062 0,903 0,168 0,076 Smak i zapach -0,837 0,031 -0,118 -0,282 Wygląd -0,187 -0,102 0,019 0,851 Wartość odżywcza 0,036 0,072 0,952 -0,097 Łatwość przygotowania -0,116 0,984 0,066 Cena -0,879 -0,069 -0,202 -0,179 Reklama 0,117 0,315 -0,363 0,796
Wyniki analizy – prezentacja graficzna
ANALIZA CONJOINT
Wybory Wybór partnera Wybór funduszu emerytalnego Wybór samochodu, szkoły Wybór gazety, programu telewizyjnego, strony internetowej, stacji radiowej Wybór kawy, piwa, czekolady
Motywy Co skłania ludzi do podejmowania określonych decyzji? Jak spośród różnorodnych przyczyn wyłowić te, które są istotne? W jaki sposób zdefiniować problem? Co tak naprawdę jest przedmiotem zainteresowania? W jaki sposób mierzyć? W jaki sposób przeformułować pytanie, by badanie dostarczyło przydatnych odpowiedzi? Jakie zastosować metody?
Pytania Można zapytać wprost: Czym kieruje się Pan(i) podczas zakupu… Czy był(a)by Pan(i) skłonna zapłacić więcej za produkt, który byłby/miałby… Czy był(a)by Pan(i) skłonna kupić… Można zrobić ankiety, fokusy, wywiady indywidualne Można eksperymentować: W warunkach naturalnych, na swojej firmie W warunkach laboratoryjnych, na próbie respondentów Można przy tym… zwariować ;-)
Skomplikowana rzeczywistość Na decyzję konsumenta wpływa wiele zmiennych Nie zbadamy wszystkich (ani zmiennych, ani konsumentów) Nie ma metod idealnych
Przykład problemu Czy konsumenci skłonni byliby zapłacić więcej za produkty wytworzone zgodnie z zasadami społecznej odpowiedzialności? Jakie znaczenie ma etykieta społecznej odpowiedzialności pośród innych cech produktu?
Fazy badania Definicje i zawężanie problemu: Konsument => student WSIiZ, zazwyczaj znajomy(a) uczestnika projektu Produkt => kawa Czynniki wpływu => cechy produktu Społeczna odpowiedzialność => etykieta na opakowaniu, informująca o tym, że kawa została wyprodukowana bez szkody dla ludzi lub środowiska naturalnego
Ogólny plan badania DECYZJA KAWA CECHA1 CECHA2 CECHA3 CECHA4 CECHA5 Konsument podejmuje decyzję o wyborze produktu na podstawie jego cech.
Ogólny plan analizy PREFERENCJE ZMIENNE NIEZALEŻNE ZMIENNA ZALEŻNA KAWA PREFERENCJE CECHA 1 CECHA 2 CECHA 3 CECHA 4 CECHA 5
Istota analizy conjoint Masz duży problem? Rozbij go na mniejsze!
Istota analizy conjoint Dekompozycja, czyli rozbicie całościowego wpływu wiązki zmiennych na indywidualny wpływ każdej z nich. Respondent zachowuje się pod wpływem zestawu zmiennych, postrzeganego całościowo – jak w warunkach naturalnych.
Jaka kawa? Jakie zmienne niezależne? CENA 10 zł 20 zł WAGA 100 g 250 g KRAJ Indie Kolumbia RODZAJ rozpuszczalna mielona ETYKIETA społecznej odpowiedzialności społeczna wewnętrzna społeczna zewnętrzna ekologiczna etykieta neutralna Liczba wszystkich wariantów = 2 x 2 x 2 x 2 x 4 = 64
Jakie preferencje? Jaka zmienna zależna? Sortowanie – od najbardziej do najmniej atrakcyjnej wersji produktu (od 1 do n, gdzie n jest liczbą wszystkich wariantów produktu) Przypisanie liczby punktów, wyrażającej atrakcyjność wariantu (np. z zakresu 1-100)
Idea Jak oszacować wpływ netto każdej zmiennej niezależnej, skoro jedne zmienne bywają ilościowe, porządkowe i nominalne, a całkowita liczba wariantów nie powinna zadręczyć respondenta.
Plan ortogonalny Sposób wyboru możliwie małej liczby wariantów do badania, o ile zmienne niezależne wpływają naprawdę niezależnie.
Analiza danych Dysponując informacją o tym, jakie cechy posiadają badane warianty, oraz o tym, jak respondenci ocenili każdy z tych wariantów, możemy łatwo oszacować wpływ netto każdej cechy na ocenę danego wariantu, korzystając z metody CONJOINT.
2. Informacja o preferencjach respondentów. Ogólny plan działania 1. Informacja o badanych wariantach, utworzonych w planie ortogonalnym. 2. Informacja o preferencjach respondentów. Kawa 1 1. Kawa 9 Kawa 2 2. Kawa 6 … … Kawa k k. Kawa 4
Wyniki Wpływ każdej ze zmiennych (= czynników) na preferencje badanych KAWA CECHA1 10% wpływu CECHA2 35% wpływu CECHA3 10% wpływu CECHA4 15% wpływu CECHA5 30% wpływu
Wyniki Wpływ każdej wartości danej zmiennej (= każdego poziomu danego czynnika) na preferencje badanych KAWA Kolumbia KRAJ Indie mielona RODZAJ rozpuszczalna
Wyniki Obliczanie atrakcyjności (= użyteczności) każdego wariantu CENA WAGA KRAJ RODZAJ + + + + 10 zł 250 g Kolumbia mielona + = ekologiczna KAWA DOSKONAŁA
Ograniczenia, warunki Brak interakcji między zmiennymi niezależnymi Brak założeń co do wielkości próby Zakładamy, że na decyzję respondenta wpływają wyłącznie cechy produktu
Możliwości Wyniki dla pojedynczego respondenta Wyniki dla grup respondentów Miary dopasowania modelu do rzeczywistości Symulowanie preferencji wobec wariantów, które nie brały udziału w badaniu Szacowanie udziałów w rynku dla różnych wariantów produktu Segmentacja respondentów
Conjoint w trzech krokach Wygenerować warianty według planu ortogonalnego. Zebrać dane i stworzyć bazę w odpowiednim formacie. Wykonać analizę.
Krok I – ORTHOPLAN Nr wariantu Cena Kraj Waga Rodzaj 1 20 zł Indie mielona 2 10 zł 250 g rozpuszczalna … k Kolumbia
Krok II – baza danych Id respond. Najbardziej atrakcyjny wariant Wariant … Najmniej atrakcyjny wariant 574398 4 8 11 1 9 543758 7 2 5 923568 10 6 285453 3
Krok III – CONJOINT Określić parametry analizy Kliknąć Poczekać na wyniki…