Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Współwystępowanie kategorii wykształcenia, miejsca zamieszkania i dochodu oraz miejsca zakupu ekożywności.

Podobne prezentacje


Prezentacja na temat: "Współwystępowanie kategorii wykształcenia, miejsca zamieszkania i dochodu oraz miejsca zakupu ekożywności."— Zapis prezentacji:

1

2

3

4

5 Współwystępowanie kategorii wykształcenia, miejsca zamieszkania i dochodu oraz miejsca zakupu ekożywności

6 6 Analiza skupień jest techniką wielowymiarową pozwalającą wykrywać współzależności między obiektami. Związana jest ściśle z zagadnieniami klasyfikowania i porządkowania otaczającej nas rzeczywistości Analiza skupień

7 7 Eksploracja danych Kontrola danych Poszukiwanie obiektów nietypowych (odstających) Wykrycie wewnętrznej struktury obiektów Wykrywanie współzależności między zmiennymi Typologia Weryfikacja istniejącej typologii Propozycje klasyfikacji obiektów Redukcja danych Agregacja danych Wybór reprezentantów grup

8 8 Obiekt opisany za pomocą n zmiennych X 1, X 2,…X n przedstawiamy jako punkt x=(x 1,…,x n ) w przestrzeni n-wymiarowej Celem podziału na grupy jest, aby obiekty podobne (reprezentowane przez punkty znajdujące się blisko siebie w przestrzeni) znalazły się w tej samej grupie, a obiekty niepodobne (reprezentowane przez punkty leżące w dużej odległości w przestrzeni) znalazły się w różnych grupach

9 9

10 10 Jak odwzorować obiekty w przestrzeni? Wybór zmiennych Normalizacja zmiennych Jak mierzyć odległości między obiektami? Jaką metodę grupowania zastosować?

11 11 Normalizacja ma na celu doprowadzenie obiektów lub zmiennych do porównywalnych wielkości. Problem ten dotyczy zmiennych mierzonych w różnych jednostkach (np. sztuki, czas, waluta). Przykład Rozważmy 3 obiekty i dwie zmienne: wiek osoby mierzony w latach i jej dochód mierzony w złotych lub tys. zł.

12 12, gdzie Współczynnik A nie wpływa na odległości między obiektami Współczynnik B pełni rolę czynnika skalującego. Szczególnie ważnym rodzajem przekształcenia jest standaryzacja

13 13 Odległość euklidesowa Odległość Minkowskiego Jej szczególnymi przypadkami są: odległość miejska (p=1) odległość euklidesowa (p=2) odległość Czebyszewa (p= ) ponadto kwadrat odległości euklidesowej

14 14 Hierarchiczne tworzą drzewa binarne Optymalizacyjno-iteracyjne poprawiają wstępny podział w kolejnych iteracjach Pozostałe np. tworzą skupienia nierozłączne, niezupełne, rozmyte

15 15 C A S E Label Num I I metody podziałowe metody aglomeracyjne Metody najczęściej stosowane w praktyce. Uzyskana hierarchia (jedne skupienia zawierają się w innych) pozwala na uzyskanie pełnej informacji o strukturze skupień. Ograniczenie tych metod to wymagania pamięci, co powoduje, że w przypadku dużych zbiorów danych nie mogą być stosowane. Metody hierarchiczne dzielimy na metody aglomeracyjne i podziałowe. Punktem wyjścia w metodach aglomeracyjnych jest określenie odległości pomiędzy obiektami.

16 16 1. Najbliższego sąsiedztwa 2. Najdalszego sąsiedztwa 3. Mediany 4. Środka ciężkości 5. Średniej odległości wewnątrz skupień 6. Średniej odległości między skupieniami 7. Minimalnej wariancji Warda

17 17 metoda najbliższego sąsiedztwa metoda najdalszego sąsiedztwa metoda mediany metoda środka ciężkości metoda średniej grupowej

18 metoda najbliższego sąsiedztwa metoda najdalszego sąsiedztwa metoda mediany metoda środka ciężkości metoda Warda metoda średniej grupowej

19 19 1. Ustalamy liczbę grup (k) 2. Wybieramy (w sposób losowy lub ustalony z góry) k punktów przestrzeni, stanowiących tzw. zalążki środków ciężkości skupień (cluster seeds) 3. Każdy z obiektów (i=1,...,n) przydzielamy do grupy o najbliższym dla niego środku ciężkości 4. Dla (j=1,...,k) obliczamy nowe środki ciężkości jako średnie arytmetyczne wszystkich obiektów należących do danej grupy 5. Powtarzamy kroki 3 i 4 aż do chwili, gdy nie następują przesunięcia obiektów między grupami

20 20 Jednocześnie obliczana jest funkcja błędu podziału - ogólna suma kwadratów odległości wewnątrzgrupowych liczonych od środków ciężkości grup: tzn. W praktyce proces jest zbieżny po kilku lub kilkunastu iteracjach. gdzie d jest odległością euklidesową.

21 21 Liczbę skupień wybiera się na podstawie przesłanek merytorycznych albo szacuje się je metodami hierarchicznymi. Można dokonać obliczeń dla wszystkich wartości k z ustalonego przedziału: Możliwe są różne podejścia: 1. Arbitralny sposób np. przyjmuje się współrzędne pierwszych k obiektów (nie zawierające braków danych) jako zalążki środków ciężkości. 2. Losowy wybór środków ciężkości, przy czym może to być losowy wybór k obiektów ze zbioru danych albo losowy wybór k punktów przestrzeni niekoniecznie pokrywających się z położeniem obiektów. 3. Wykorzystanie algorytmu optymalizującego w pewien sposób położenie początkowych środków ciężkości np. przez uwzględnianie k obiektów leżących daleko względem siebie. 4. Przyjęcie jako początkowych środków ciężkości uzyskanych na podstawie podziału otrzymanego inna metodą, głównie jedną z metod hierarchicznych.

22 SKUPIENIE (CLUSTER) – układ podobnych obiektów. Podobieństwo pary obiektów należących do danego skupienia jest większe niż podobieństwo obiektów należących do różnych grup. Skupienia są rozłączne – jeden obiekt należy tylko do jednej kategorii.

23 Środek ciężkości– punkt, którego współrzędne równe są wartościom średnim zmiennych, ale tylko dla obiektów należących do tego skupienia.

24 Procedura aglomeracyjna 1.Macierz n obserwacji i p zmiennych jest znana. Konstruujemy macierz odległości: i,k=1,2,..,n d ik – odległość między dwoma obiektami Szukamy pary obiektów najbardziej podobnych (o najmniejszej odległości). Łączymy je w pierwsze skupienie. Środek ciężkości tego skupienia wyznaczany jest jako średnia wartość każdej zmiennej dla tych dwóch obiektów.

25 2. Wymiar macierzy D redukujemy o 1. I znowu liczymy odległości… 3. Krok 1 i 2 powtarzamy do momentu, aż wszystkie obiekty znajdą się w jednym skupieniu.

26

27 Przykład: 10 uniwersytetów, opisanych przez 3 zmienne: X1 – liczba studentów (2005) X2 – liczba studentów studiów doktoranckich (2005) X3 – liczba profesorów (2005)

28 Standaryzacja – ponieważ zmienne wyrażone są w różnych jednostkach

29 KROK 1. macierz odległości D Najmniejszy dystans – dla obserwacji 5 i 8. To pierwsze skupienie. Powinien tu być wyznaczony środek ciężkości.

30 Dla każdej zmiennej należy obliczyć średnią z t wartości dla dwóch obserwacji – i to jest środek ciężkości tego nowopowstałego skupienia.

31 KROK 2. macierz odległości D z uwzględnieniem nowego skupienia

32 Teraz jest już 8 skupień. Łączymy dalej (kontynuujemy procedurę aglomeracyjną).

33 Ostatni etap procedury aglomeracyjnej ukazuje obserwację 9 jako obserwację odstająca (brak przynależności do jakiegokolwiek skupienia), pozostałe obserwacje są w jednym skupieniu. Macierz odległości D: Ostatnia odległość to 4,151 –między obserwacjami 1-8 i 10 oraz 9. To już koniec procedury – nareszcie wszystkie obiekty są w jednym skupieniu. Ale czy o to nam chodziło?

34 Jak wybrać liczbę skupień? Dendrogram – ilustruje łączenia obserwacji na poszczególnych poziomach (etapach) procedury aglomeracyjnej. Ucinamy ramiona w miejscu, gdzie zaczynają być dłuższe – oznacz to, ze nie ma wiązań i skupienia składają się z różniących się od siebie obserwacji. Ale to zawsze jest NASZA decyzja…

35 Skupienie 1: obserwacje 2, 4, 3, 10, 1, 7 Skupienie 2: obserwacje 5, 6, 8 Skupienie 3: obserwacja 9 Podobne? Pod jakim względem? Porównajmy średnie (group mean –średnia dla grupy; grand mean – średnia dla całości Grupa 1 (Skupienie 1: obserwacje 2, 4, 3, 10, 1, 7) Nic ciekawego ;-)

36 Najgorsza - średnia grupy dla każdej zmiennej o wiele niższa niż średnia dla całości zbioru Najlepsza - średnia grupy dla każdej zmiennej o wiele wyższa niż średnia dla całości zbioru

37 X1 X2 X3

38 Metoda k-średnich Tworzymy k skupień. 1.Ze wszystkich danych wybieramy k punktów (wybór dowolny). To są pierwsze środki ciężkości. 2.Każdy punkt powinien być dołączony do jednego ze środków ciężkości (najbliższego). 3.Po dołączeniu obserwacji, liczymy środki ciężkości. 4.Krok 2 i 3 powtarzamy do momentu, aż obiekty przestana się przemieszczać między skupieniami.

39 1.A oraz E są losowo wybrane jako centra skupień. 2.C ma bliżej do A niż do E, więc skupienie 2 zawiera A, B, C a skupienie 2 zawiera D oraz E (czerwone kropki oznaczają środki ciężkości skupień). 3.Teraz C ma bliżej środka ciężkości skupienia 2, będzie wiec przeniesione ze skupienia 1 do 2.

40 Przykład: 10 uniwersytetów, opisanych przez 3 zmienne: X1 – liczba studentów (2005) X2 – liczba studentów studiów doktoranckich (2005) X3 – liczba profesorów (2005)

41 Decydujemy się na 3 skupienia. Ze względu na różne jednostki zmiennych, najpierw przeprowadzamy standaryzację. Pierwsze trzy obiekty to centra skupień.

42 Liczymy odległości obiektów od środka ciężkości. Przyłączamy obiekty do najbliższego im skupienia.

43 Mamy takie skupienia:

44 Dla każdego skupienia policzono środek ciężkości, a następnie odległość obiektów od środka ciężkości:

45 Teraz jest inna konfiguracja obiektów:

46 I znowu – liczymy odległości obiektów od środka ciężkości.

47 Mamy następujące skupienia:

48 I znowu – liczymy odległości obiektów od środka ciężkości.

49 A teraz takie skupienia:

50 Te skupienia i poprzednie są takie same, konfiguracja obiektów już się więc nie zmieni. Nareszcie koniec I znowu – liczymy odległości obiektów od środka ciężkości.

51 Mieliśmy 55 zmiennych!

52

53 53 zaletą jest możliwość odkrycia zmiennych bezpośrednio nieobserwowalnych, które wyjaśniają wzajemne powiązania między zmiennymi rzeczywistymi (obserwowalnymi). Identyfikacja ukrytych cech oznacza wyodrębnienie kryteriów segmentacji post hoc. może być użyta w celu konstrukcji map percepcji, ukazujących konfigurację badanych segmentów w przestrzeni wielowymiarowej. Analiza czynnikowa

54 W analizie czynnikowej przyjmuje się, że liczba obserwacji powinna co najmniej 5- krotnie przewyższać liczbę pierwotnych zmiennych. Do podstawowych celów analizy czynnikowej zalicza się: identyfikację ukrytych czynników wspólnych, redukcję wymiaru przestrzeni zmiennych, ortogonalizację przestrzeni, w której zlokalizowane są obiekty, identyfikację charakteru zmiennych, prezentację graficzną nowopowstałego układu.

55 redundancyjna – zmniejszenie liczby zmiennych bez istotnej straty informacji, poznawcza – formułowanie hipotez dotyczących istnienia i natury prawidłowości kształtujących związki między zjawiskami, weryfikacyjna – sprawdzenie poprawności powyższych hipotez, deskryptywna – opis zjawisk zdefiniowanych przez wyodrębnione czynniki, delimitacyjna – porządkowanie i usytuowanie obiektów w przestrzeni czynników.

56 Gdy większość zmiennych jest skorelowana w statystycznie istotny sposób. miara adekwatności próby - wskaźnik KMO (Kaisera-Meyera-Olkina); umożliwia określenie stopnia, w jakim zmienne są ze sobą powiązane: Przyjmuje wartości od 0 do 1. Wartość > 0,6 jest przesłanką do stosowania analizy czynnikowej.

57 metoda wartości własnej większej od jedności (λ>1) – powinna być stosowana wówczas, jeżeli liczba zmiennych jest większa od 20, w przeciwnym razie istnieje ryzyko wyodrębnienia zbyt małej liczby czynników. Reguła wartości własnej większej od 1 wynika stąd, że każdy czynnik powinien wyjaśniać zmienność przynajmniej jednej zmiennej.

58 Wartość własna 13,791 21,752 31,087 40,313 50,152 60,094

59 metoda odsetka wyjaśnionej wariancji; bierze się pod uwagę tylko te czynniki, które wyjaśniają łącznie 70, 80 lub 90% wariancji, a żaden następny nie tłumaczy więcej niż 5% wariancji. Udział wariancji wyjaśnianej przez kolejne czynniki (główne składowe) w całkowitej wariancji jest bowiem coraz mniejszy, przy czym największy jest udział wariancji pierwszej głównej składowej i to właśnie przez nią wyjaśniona jest największa część całkowitej zmienności.

60 Wartość własna % wyjaśnionej wariancji 13,79154,2 21,75225,0 31,08712,7 40,3134,5 50,1522,2 60,0941,3 70,0060,1

61 metoda testu osypiska (zaproponowanego przez Cattela); polega na sporządzeniu wykresu, w którym na osi odciętych zaznaczana jest liczba czynników, a na osi rzędnych – uzyskane wartości własne. Punkty załamania się krzywej wskazują na liczbę czynników.

62

63 Liczbę czynników określa się przed rotacją, zaś decyzje o liczbie czynników powinno się rozważyć w połączeniu z wiedzą merytoryczną o danym zagadnieniu, nie tylko na drodze mechanicznych wyborów. Miarą pomocną w rozwiązaniu tego zagadnienia są też wartości ładunków czynnikowych. Ładunki czynnikowe wyrażają stopień nasycenia zmiennej danym czynnikiem i stanowią - dla nieskorelowanych czynników - współczynniki korelacji pomiędzy zmienną pierwotną a poszczególnymi czynnikami. Im wyższa wartość ładunku czynnikowego, tym bardziej istotna jest ta zmienna dla danego czynnika. Wartości ładunków czynnikowych stanowią więc podstawę końcowej merytorycznej interpretacji wyników.

64 Rotacja varimax jest najczęściej stosowana. Upraszcza ona interpretację czynników poprzez minimalizację liczby zmiennych potrzebnych do wyjaśnienia danego czynnika. Rotacja quartimax upraszcza interpretację zmiennych poprzez minimalizację czynników potrzebnych do wyjaśnienia danej zmiennej.

65 Charakterystyka Główna składowa 1234 Wart.ład.czyn. Świeżość-0,0620,9030,1680,076 Smak i zapach-0,8370,031-0,118-0,282 Wygląd-0,187-0,1020,0190,851 Wartość odżywcza0,0360,0720,952-0,097 Łatwość przygotowania0,036-0,1160,9840,066 Cena-0,879-0,069-0,202-0,179 Reklama0,1170,315-0,3630,796

66

67

68 Wybór partnera Wybór funduszu emerytalnego Wybór samochodu, szkoły Wybór gazety, programu telewizyjnego, strony internetowej, stacji radiowej Wybór kawy, piwa, czekolady

69 Co skłania ludzi do podejmowania określonych decyzji? Jak spośród różnorodnych przyczyn wyłowić te, które są istotne? W jaki sposób zdefiniować problem? Co tak naprawdę jest przedmiotem zainteresowania? W jaki sposób mierzyć? W jaki sposób przeformułować pytanie, by badanie dostarczyło przydatnych odpowiedzi? Jakie zastosować metody?

70 Można zapytać wprost: Czym kieruje się Pan(i) podczas zakupu… Czy był(a)by Pan(i) skłonna zapłacić więcej za produkt, który byłby/miałby… Czy był(a)by Pan(i) skłonna kupić… Można zrobić ankiety, fokusy, wywiady indywidualne Można eksperymentować: W warunkach naturalnych, na swojej firmie W warunkach laboratoryjnych, na próbie respondentów Można przy tym… zwariować ;-)

71 Na decyzję konsumenta wpływa wiele zmiennych Nie zbadamy wszystkich (ani zmiennych, ani konsumentów) Nie ma metod idealnych

72 Czy konsumenci skłonni byliby zapłacić więcej za produkty wytworzone zgodnie z zasadami społecznej odpowiedzialności? Jakie znaczenie ma etykieta społecznej odpowiedzialności pośród innych cech produktu?

73 Definicje i zawężanie problemu: Konsument => student WSIiZ, zazwyczaj znajomy(a) uczestnika projektu Produkt => kawa Czynniki wpływu => cechy produktu Społeczna odpowiedzialność => etykieta na opakowaniu, informująca o tym, że kawa została wyprodukowana bez szkody dla ludzi lub środowiska naturalnego

74 CECHA1 CECHA2 CECHA3 CECHA4 CECHA5 KAWA DECYZJA Konsument podejmuje decyzję o wyborze produktu na podstawie jego cech.

75 CECHA 1 CECHA 2 CECHA 3 CECHA 4 CECHA 5 KAWA ZMIENNE NIEZALEŻNE ZMIENNA ZALEŻNA PREFERENCJE

76 Masz duży problem? Rozbij go na mniejsze!

77 Dekompozycja, czyli rozbicie całościowego wpływu wiązki zmiennych na indywidualny wpływ każdej z nich. Respondent zachowuje się pod wpływem zestawu zmiennych, postrzeganego całościowo – jak w warunkach naturalnych.

78 CENA10 zł20 zł WAGA 100 g250 g RODZAJrozpuszczalnamielona KRAJIndieKolumbia ETYKIETA społecznej odpowiedzialności etykieta neutralna społeczna wewnętrzna ekologiczna społeczna zewnętrzna Liczba wszystkich wariantów = 2 x 2 x 2 x 2 x 4 = 64

79 Sortowanie – od najbardziej do najmniej atrakcyjnej wersji produktu (od 1 do n, gdzie n jest liczbą wszystkich wariantów produktu) Przypisanie liczby punktów, wyrażającej atrakcyjność wariantu (np. z zakresu 1-100)

80 Jak oszacować wpływ netto każdej zmiennej niezależnej, skoro jedne zmienne bywają ilościowe, porządkowe i nominalne, a całkowita liczba wariantów nie powinna zadręczyć respondenta.

81 Sposób wyboru możliwie małej liczby wariantów do badania, o ile zmienne niezależne wpływają naprawdę niezależnie.

82 Dysponując informacją o tym, jakie cechy posiadają badane warianty, oraz o tym, jak respondenci ocenili każdy z tych wariantów, możemy łatwo oszacować wpływ netto każdej cechy na ocenę danego wariantu, korzystając z metody CONJOINT.

83 1. Informacja o badanych wariantach, utworzonych w planie ortogonalnym. Kawa 1 Kawa 2 … Kawa k 2. Informacja o preferencjach respondentów. 1. Kawa 9 2. Kawa 6 … k. Kawa 4

84 CECHA1 CECHA2 CECHA3 CECHA4 CECHA5 KAWA Wpływ każdej ze zmiennych (= czynników) na preferencje badanych 10% wpływu 35% wpływu 30% wpływu 15% wpływu 10% wpływu

85 KAWA Wpływ każdej wartości danej zmiennej (= każdego poziomu danego czynnika) na preferencje badanych RODZAJ rozpuszczalna mielona KRAJ Indie Kolumbia

86 Obliczanie atrakcyjności (= użyteczności) każdego wariantu CENA 10 zł WAGA 250 g RODZAJ mielona KRAJ Kolumbia ekologiczna = KAWA DOSKONAŁA

87 Brak interakcji między zmiennymi niezależnymi Brak założeń co do wielkości próby Zakładamy, że na decyzję respondenta wpływają wyłącznie cechy produktu

88 Wyniki dla pojedynczego respondenta Wyniki dla grup respondentów Miary dopasowania modelu do rzeczywistości Symulowanie preferencji wobec wariantów, które nie brały udziału w badaniu Szacowanie udziałów w rynku dla różnych wariantów produktu Segmentacja respondentów

89 1. Wygenerować warianty według planu ortogonalnego. 2. Zebrać dane i stworzyć bazę w odpowiednim formacie. 3. Wykonać analizę.

90 Nr wariantu CenaKrajWagaRodzaj 120 złIndie100 gmielona 210 złIndie250 grozpuszczalna …………… k20 złKolumbia250 grozpuszczalna

91 Id respond. Najbardziej atrakcyjny wariant Wariant … Najmniej atrakcyjny wariant … … … …35

92 Określić parametry analizy Kliknąć Poczekać na wyniki…


Pobierz ppt "Współwystępowanie kategorii wykształcenia, miejsca zamieszkania i dochodu oraz miejsca zakupu ekożywności."

Podobne prezentacje


Reklamy Google