Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałSabina Pawlik Został zmieniony 5 lat temu
1
Problem: Agent ubezpieczeniowy postanowił dowiedzieć się, jakimi cechami odznacza się potencjalny nabywca polisy na życie. 1. Sprawdza, jakie charakterystyki (ich poziom) nabywcy determinują nabycie przez niego polisy: wiek, wykształcenie, miejsce zamieszkania, dochód, płeć itd. 2. Konstruuje profil nabywcy polisy
2
Problem: Pewna agencja modelek poszukuje kilku kandydatek.
1. Sprawdzamy, jakie charakterystyki (ich poziom) wpływa na wybór kandydatki na modelkę: wiek, wykształcenie, miejsce zamieszkania, długość nóg, długość włosów itd. 2. Budujemy profil potencjalnej kandydatki
3
Problem: Kandydat na Prezydent Warszawy postanowił dowiedzieć się, jakim poziomem kapitału (ludzkim, społecznym, kreatywnym) charakteryzują się jego mieszkańcy 1. Sprawdza, jakim poziomem wartości cech opisujących poszczególne składowe kapitału charakteryzują się mieszkańcy miasta np. wiek, wykształcenie, dochód, płeć itd. 2. Buduje profil mieszkańca
4
Metody taksonomiczne – służą do podziału zbioru obiektów (elementów badania) na pewne podzbiory nazywane grupami (skupieniami, klastrami) w taki sposób, aby stopień powiązania między obiektami w danej grupie był jak największy i jednocześnie jak najmniejszy z obiektami z pozostałych grup.
6
Obiekty – jednostki badania podlegające klasyfikacji Ω={O1, O2, …, On} Cecha – własności obiektów rozpatrywane z punktu widzenia zjawiska będącego kryterium klasyfikacji obiektów X:{X1, X2, …, Xk}
7
Podobieństwo – wspólność (zbieżność) pewnych właściwości dwu lub więcej obiektów. Jednorodność – właściwość zbioru obiektów składających się z jednostek podobnych. Klasa (grupa) – podzbiór zawierający obiekty podobne tj. wyróżnione na podstawie wspólnych właściwości.
8
Klasyfikacja ma trzy znaczenia: 1. czynność podziału 2
Klasyfikacja ma trzy znaczenia: 1. czynność podziału 2. efekt czynności podziału zbioru obiektów na grupy obiektów podobnych 3. decyzję, do której klasy zbioru zaliczyć dany obiekt
9
Warunki klasyfikacji: 1. A1˅A2˅…Ap=Ω 2. Ap˄Aq=0 3. Ap≠0 dodatkowo 4
Warunki klasyfikacji: 1. A1˅A2˅…Ap=Ω 2. Ap˄Aq=0 3. Ap≠0 dodatkowo 4. obiekty w tej samej grupie powinny być do siebie jak najbardziej podobne 5. obiekty nie należące do tej samej grupy powinny być jak najmniej do siebie podobne
10
Ogólna procedura badania taksonomicznego: I
Ogólna procedura badania taksonomicznego: I. Wstępna analiza i cel badania II. Wybór zmiennych i ich ocena III. Wybór metody i weryfikacja wyników IV. Merytoryczna ocena wyników
11
1. Wstępna analiza badanego systemu Cel badania, obiekty badania, jednostka czasu (przedział czasu) Czy nadal istnieje podział na Polskę A i B ze względu na poziom rozwoju ekonomicznego. Hipoteza: nadal istnieje 2. Dobór cech diagnostycznych i skale ich pomiaru Wybór cech diagnostycznych (wskaźników) – redukcja wstępnie zaproponowanych zmiennych potencjalnych do takich, które odznaczają się największą dyskryminacją
12
Lista zmiennych oceny kapitału zawodowego ludności w poszczególnych dzielnicach Warszawy:
Wskaźnik zatrudnienia Wskaźnik bezrobocia Udział osób wieku produkcyjnym Liczba działających firm na 1tys. mieszkańców Liczba udzielonych pożyczek na rozpoczęcie działalności gospodarczej na 1tys. mieszkańców Udział zadłużonych działających firm Itd. ! Można przedstawić nieograniczoną liczbę zmiennych ale …
13
Z zestawu cech potencjalnych wybieramy cechy diagnostyczne ale pamiętamy, aby w sposób możliwie pełny charakteryzowały one najważniejsze aspekty badanego zjawiska. Dobór poza statystyczny – w świetle wiedzy merytorycznej stanowią rzeczywiście najważniejsze charakterystyki (m. heurystyczne np. burza mózgów, m.delficka, ankieta, eksperci)
14
!! Wybór metody zależy od metody grupowania obiektów
2. Kryteria statystyczne (warunki formalne) A. duża zmienność cech względem obiektów (klasyczny współczynnik zmienności) B. słabe skorelowanie cech diagnostycznych i mocne z cechami nie wybranymi do analizy względem obiektów (współczynnik korelacji) lub słabe podobieństwo cech diagnostycznych i mocne z cechami nie wybranymi do analizy względem obiektów (miara odległość między cechami): Clk=1-|rlk|, Clk=1-rlk2 Clk=(1-rlk2)0,5) !! Wybór metody zależy od metody grupowania obiektów
15
B. Metody wyboru cech diagnostycznych:
Metoda parametryczna Z.Hellwiga Wyznaczamy macierz korelacji między potencjalnymi cechami diagnostycznymi. Kryterium klasyfikacji cech jest parametr r* (krytyczna wartość współczynnika korelacji). Sposób formalny – cechy ze wstępnej listy mogą być ze sobą podobne i tworzą one skupiska (podzbiory cech). Skupiska te zawierają jedną cechę centralną oraz wiele cech satelitarnych, jeżeli r> r*. Razem tworzą one zaś cechy systemowe. Cechy pozostające poza skupiskiem to cechy izolowane.
16
Algorytm znajdowania skupień cech:
W macierzy korelacji cech wyznacza się sumę, w wartości bezwzględnej, elementów dla każdej kolumny (lub wiersza). Wyszukuje się kolumnę o największej sumie wartości W danej kolumnie wyróżnia się te elementy, które spełniają nierówność r> r* i odpowiadające im wiersze. Cechę odpowiadającą wyróżnionej kolumnie uważa się za cechę centralną, a cechy odpowiadające wyróżnionym wierszom za cechy satelitarne. Z macierzy R skreśla się wyróżnione kolumny i wiersze i otrzymuje się zredukowaną macierz korelacji. Procedurę powtarzamy aż do wyczerpania zbioru cech !! Gdy r* jest bliskie jedności to dostajemy dużą liczbę skupień o małej liczebności
17
1 2 3 4 Krok I 1,00 0,07 0,02 0,18 0,14 0,11 0,76 0,36 Ʃ 1,27 1,32 1,52 2,05 r> r* 0,7 Wartość największa w wierszu 1 2 3 4 Krok II 1,00 0,07 0,02 0,18 0,14 0,11 -0,02 -0,14 0,76 0,36 Ʃ 1,27 1,32 1,52 2,05 Wartość największa w kolumnie Wyrzucamy
18
2. Metoda - Integralny wskaźnik pojemności informacji Z.Hellwiga
Do obliczeń wykorzystuje współczynniki korelacji między zmiennymi: 1. wektor współczynników korelacji R*(rj) między zmienną objaśnianą a zmiennymi objaśniającymi oraz 2. macierz współczynników korelacji R (rij) między zmiennymi objaśniającymi. Celem obliczeń jest znalezienie najlepszej kombinacji zmiennych objaśniających, czyli kombinacji o największym integralnym wskaźniku pojemności informacyjnej. Wybierane są zmienne objaśniające silnie skorelowane ze zmienną objaśnianą oraz słabo skorelowane między sobą.
19
Etapy wyliczeń: 1. obliczamy indywidualne wskaźniki pojemności informacyjnej dla wszystkich kombinacji: 2. obliczamy integralny wskaźnik pojemności informacyjnej dla wszystkich kombinacji: 3. wybieramy kombinację posiadającą największy integralny wskaźnik pojemności informacyjnej H. 4. zmienne z tej kombinacji powinny zostać wykorzystane do budowy przyszłego modelu. gdzie: k – numer kombinacji ( k=1, …, l), j – numer zmiennej w kombinacji (j=1, …, m)
20
Własności metody: ● im większe wartości tym słabiej skorelowane cechy diagnostyczne między sobą ● im większa wartość tym mocniej skorelowane cechy diagnostyczne z pozostałymi ● należy do przedziału <0, 1> ● wielowariantowość
21
3. Metoda odległości między cechami:
Klasyfikacja cech diagnostycznych z wykorzystaniem metod taksonomicznych W grupach cechy jak najbardziej podobne Z grup tych wybieramy reprezentantów grup typologicznych i uznajemy je jako cechy diagnostyczne
22
3. Zebranie danych statystycznych
X11 X12 X1k O2 O1 X= O3 XN1 XN2 XNK Może wystąpić konflikt wskazań poszczególnych cech tzn. że dla obiektu O1 cecha X ma mniejszą wartość jak dla obiektu O3 ale dla cechy Y …
23
Wagi dla cech: Ocena merytoryczna Ocena statystyczna: powinny być: ● unormowane <0,1>, ● przypisane wszystkim cechom diagnostycznym, ● im większa wartość wagi tym większe znaczenie danej cechy ●wskaźnik struktury ●stopień skorelowania ●zmienność cech
24
Rangi dla cech: 1. Uporządkowanie cech od najważniejszej do najmniej istotnej dla opisu zjawiska i przypisanie im rang będących wartościami kolejnych liczb naturalnych ! Nie można nadać tej samej rangi kilku cechom 2. Podział punktów względem cech tj. tyle punktów ile cech.
25
Porównywalność cech: A. Dane ilościowe (różne jednostki miar) ! Wybór metody zależy od stosowanej m.taksonomicznej oraz m.podobieństwa Standaryzacja – dla każdej cechy średnia jest równa zero, a odchylenie standardowe 1 Zakładamy, że każda cecha ma takie samo znaczenie.
26
2. Normalizacja (przekształcenie ilorazowe) – cechy zachowują zróżnicowaną wariancję 3. Unitaryzacja – cechy mają stały obszar zmienności <0, 1> B. Dla zmiennych dychotomicznych czy rangowych nie dokonujemy przekształceń
27
4. Ocena podobieństwa klasyfikowanych obiektów Do syntetycznej oceny podobieństwa obiektów opisywanych przez wiele cech służą różnie definiowane miary podobieństwa.
28
Ocena podobieństwa obiektów wielocechowych – w jakim stopniu porównywane obiekty są do siebie podobne ze względu na wartości opisujących je cech diagnostycznych 1. Miary odległości – im mniejsze wartości tym mniejsze różnice między w wartościami cech diagnostycznych w wyróżnionych obiektach a wiec większe podobieństwo tych jednostek dij=d(Oi,Oj) 2. Wskaźniki podobieństwa – im większe wartości tym większe podobieństwo porównywanych jednostek ze względu na opisujące je cechy cij=c(Oi,Oj) dij=1-cij
29
Sposób konstruowania miar podobieństwa obiektów zależy od charakteru cech opisujących klasyfikowane obiekty oraz od rodzaju skal pomiarowych cech !
30
Małgorzata Podogrodzka, SGH ISiD
Trzy główne skale pomiarowe: Skala interwałowa (stosunkowa) gdy: można ją uporządkować, można obliczyć o ile jeden element jest większy od drugiego i różnica (iloraz) tych elementów ma interpretację w świecie rzeczywistym (masa obiektu [kg], powierzchnia obiektu [m], czas [lata], prędkość [km/h]). Skala porządkowa gdy: można ją uporządkować, czyli ma znaczenie kolejność występowania elementów, nie da się w sensowny sposób określić różnicy ani ilorazu między dwiema wartościami (wykształcenie, kolejność zawodników na podium). Skala nominalna gdy: nie można jej uporządkować, czyli nie istnieje wynikające z natury danego zjawiska uporządkowanie, nie da się w sensowny sposób określić różnicy ani ilorazu między dwiema wartościami (płeć, kraj zamieszkania). Małgorzata Podogrodzka, SGH ISiD
31
Odległości między obiektami dla cech ilościowych
Metryka Euklidesowa: dij=[Ʃ(zik-zjk)2]0,5 dij=[Ʃwi∙(zik-zjk)2]0,5 Metryka miejska dij=Ʃ|zik-zjk| dij=Ʃwi∙|zik-zjk| ! O odległości decydują w większym stopniu cechy z większymi wagami
32
3. Współczynnik dywergencji P.I.Clarka
! Postuluje się, aby różnice współrzędnych obliczone z większych wartości miały większą wagę niż różnice obliczone z wartości mniejszych. B. Odległości między obiektami dla cech są rangowe - współczynnik dywergencji P.I.Clarka
33
B. Wskaźniki podobieństwa dla cech jakościowych (dychotomicznych)
Oi \ Oj 1 ogółem Kij(1) Kij(1,0) Kij(1) + Kij(1,0) Kij(0,1) Kij(0) Kij(0,1) + Kij(0) Kij(1) + Kij(0,1) Kij(1,0) + Kij(0) K Kij(1) – to taka liczba wariantów cech w obiektach Oi oraz Oj że xik=xjk=1 oraz Kij(0) gdzie xjk=xik=0 Kij(1,0) – to taka liczba wariantów cech w obiektach Oi oraz Oj że xik=1 a xjk=0 oraz Kij(0,1) gdzie xjk=0 oraz xik=1
34
b, c to parametry przyjmujące wartość:
b=0 lub 1, c=0,5 lub 1 lub 2 Zazwyczaj przyjmujemy b=1, c=1
35
C. Miary uniwersalne – różne rodzaje cech
1. Pomijamy ich charakter i traktujemy jako cechy ilościowe 2. Sprowadzamy wszystkie cechy do jednego ustalonego typu 3. Stosujemy uniwersalne miary podobieństwa, które stanowią wypadkową dla miar podobieństwa dla poszczególnych rodzajów cech cij=f(cij(1), cij(2), …, cij(k))
36
Uniwersalny wskaźnik podobieństwa - I.C.Gower
wskaźniki podobieństwa obiektów i-tego i j-tego ze względu na cechę X waga cechy X zależna od jej charakteru Jeżeli zmienne są typu zero-jedynkowego to: cijk=1 jeżeli obiekt (i) i obiekt (j) mają jednakowe stany cijk=0 jeżeli obiekt (i) i obiekt (j) mają różne stany a jeżeli zmienne są typu jakościowego to: cijk=1-(zik-zjk)/Rk Rk - rozstęp
37
4. Inne podejście Wyróżniono H cech opisujących każdy obiekt
4. Inne podejście Wyróżniono H cech opisujących każdy obiekt. Dla każdej z cech wyznaczamy oddzielnie wskaźnik podobieństwa obiektów, ale unormowany. Tym samym otrzymano H macierzy wskaźników podobieństwa. Zakładając, że cechy diagnostyczne są jednakowo ważne mamy: Jest to średnia ważona wskaźników podobieństwa dla poszczególnych cech. K to liczba wszystkich cech.
38
K2 oznacz liczbę pozostałych cech
5. Kolejna propozycja: K1 oznacz liczbę cech zero-jednynkowych oraz jakościowych, nieuporządkowanych według ich stopnia intensywności K2 oznacz liczbę pozostałych cech Gdzie K(ij) to liczba cech zero-jedynkowych oraz jakościowych nieuporządkowanych o identycznych wariantach w obiektach O(i) oraz O(j) dla pozostałych cech
39
Problem brakującej informacji:
Interpolacja i ekstrapolacja trendu Wnioskowanie na podstawie modelu regresji wielorakiej Metoda najbliższego sąsiedztwa Jeżeli się nie da, to wprowadzamy poprawkę do miary odległości (K/M)0,5 K>M gdzie K to wszystko wiemy o obiektach, M komplet informacji tylko dla M obiektów
40
Metody łączenia obiektów (grup obiektów):
1. Metoda pojedynczego wiązania (najbliższego sąsiedztwa). Odległość między dwoma skupieniami jest określona przez odległość między dwoma najbliższymi obiektami należącymi do różnych skupień. 2. Metoda pełnego wiązania (najdalszego sąsiedztwa). Odległość między skupieniami jest określana przez największą z odległości między dwoma obiektami należącymi do różnych skupień. Stosowana kiedy obiekty układają się w naturalne oddzielone grupki, a nie wzdłuż linii.
41
3. Metoda średnich połączeń
3. Metoda średnich połączeń. Odległość między dwoma skupieniami oblicza się jako średnią odległość między wszystkimi parami obiektów należących do dwóch różnych skupień. Metoda efektywna, jeżeli obiekty formują naturalnie oddzielone skupiska, a nie charakter linii. 4. Metoda średnich połączeń ważonych. Identyczna jak metoda średnich połączeń z tym, że uwzględnia się liczbę obiektów zawartych w grupie. Liczności skupień są wyraźnie nierówne.
42
5. Metoda środków ciężkości
5. Metoda środków ciężkości. Środek ciężkości skupienia jest średnim punktem w przestrzeni wielowymiarowej zdefiniowanej przez te wymiary. Odległość między dwoma skupieniami jest określona jako różnica między środkami ciężkości. 6. Metoda ważonych środków ciężkości (mediany). Identyczna jak poprzednia z tym, że w obliczeniach wprowadza się ważenie grup, aby uwzględnić różnice między liczebnościami obiektów w skupieniu. Znaczne różnice w liczbie obiektów w skupieniu. 7. Metoda Warda. Do wyznaczenia odległości między skupieniami wykorzystuje podejście analizy wariancji. tj. zmierza do minimalizacji sumy kwadratów odchyleń dowolnych dwóch skupień, które mogą zostać uformowane na każdym etapie. Metoda najbardziej efektywna, chociaż zmierza do tworzenia skupień o małej liczebności obiektów.
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.