Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

ANALIZA SKUPIEŃ (cluster analysis).

Podobne prezentacje


Prezentacja na temat: "ANALIZA SKUPIEŃ (cluster analysis)."— Zapis prezentacji:

1 ANALIZA SKUPIEŃ (cluster analysis)

2 Założenia Dane są zbiór obiektów będących przedmiotem klasyfikacji
zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji obserwacje K cech dla N obiektów tworzą macierz

3 Najczęstsze rozwiązanie 
Punkt wyjścia procedur klasyfikacji (grupowania) zbioru obiektów  zdefiniowanie miary nie/podobieństwa obiektów Najczęstsze rozwiązanie odległość OBIEKTÓW = miara ich niepodobieństwa

4 Odległość euklidesowa
Odległość miejska (Manhattan) Odległość Czebyszewa Odległość (metryka) Mahalanobisa !!!

5 ODLEGŁOŚĆ MIĘDZY ROZŁĄCZNYMI SKUPIENIEM * i **
Na podstawie odległości „rzeczywistych” obiektów (np. metoda najdalszego sąsiada, najbliższego sąsiada) Na podstawie odległości obiektów-reprezentantów (np. metoda środków ciężkości)

6 METODY KLASYFIKACJI Metody hierarchiczne (wynik – dendrogram)
Procedury aglomeracyjne Procedury podziału Metody niehierarchiczne metoda Hartigana metoda kul metoda kostek metoda podziału przestrzennego metoda taksonomii stochastycznej metoda k-średnich

7 SCHEMAT HIERARCHICZNYCH PROCEDUR GRUPOWANIA
Etap I: Poszukuje się pary skupień najmniej odległych, tzn. Etap II: Skupienia p oraz q łączy się w jedno skupienie, zachowując dla niego numer p, czyli p = p  q Etap III: Z macierzy D usuwane są kolumna i wiersz q (zmienia się wymiar na N-1)

8 Etap IV: Obliczane są odległości dpj między „nowym” skupieniem p a pozostałymi skupieniami i wstawiane są do macierzy D w miejsce kolumny/ wiersza p. Powrót do etapu I. Koniec procedury – wszystkie obiekty = jedno skupienie.

9 Wykorzystanie pakietu STATISTICA

10 Uruchamianie „Analizy skupień” w programie Statistica – wybierane opcje
Statystyka Wielowymiarowe techniki eksploracyjne Analiza skupień

11 Wybór metody grupowania. Możliwe są dwa zasadnicze warianty:
Aglomeracja (czyli wybór metody typu aglomeracyjnego) Grupowanie metodą k – średnich (metoda „optymalizacyjna”)

12 OPCJA „AGLOMERACJA” – DOSTĘPNE METODY
Metoda pojedynczego wiązania (najbliższego sąsiada) – łańcuchy obiektów Metoda pełnego wiązania (najdalszego sąsiada) – naturalne „kępki” obiektów Metoda średnich połączeń (średnia odległość) – „kępki” Metoda średnich połączeń ważonych (średnia odległość ważona liczebnością skupień Metoda środków ciężkości – odległość skupień = odległość środków ciężkości (centroidów) Metoda ważonych środków ciężkości Metoda Warda – szacowanie odległości skupień oparte na analizie wariancji (zmienność wewnątrz- i międzygrupowa)

13 Po wyborze opcji „Aglomeracja”
Opcja więcej

14 Po przeprowadzeniu obliczeń

15 ELEKTROMONTAZ-EXPORT
PRZYKŁAD W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 Marża zysku netto Stopa zwrotu z kapitału własnego Stopa zwrotu z aktywów Wskaźnik płynności bieżącej Rotacja należności Rotacja zapasów Rotacja zobowiązań Cykl konwersji gotówki Rotacja aktywów Stopa zadłużenia AGORA 0,173953 0,185656 0,146215 4,715732 42,6 12,2 56,4 -1,6 428,3 0,212441 D1 AMICA 0,054014 0,144399 0,062591 1,312957 56,2 41,8 90,3 7,7 310,7 0,566542 D2 APATOR -0,06608 -0,14414 -0,09858 2,563063 93,4 48,3 55,6 86,1 241,3 0,316047 D3 BORYSZEW 0,095637 0,216205 0,173361 2,733441 46,1 44,8 38,6 52,3 198,6 0,198164 D4 BUDIMEX 0,046151 0,063356 0,042277 1,405892 94,7 3,4 99,7 393 0,332709 D5 COMPLAND 0,036745 0,179994 0,072154 1,579703 100,9 20,2 97,2 23,9 183,3 0,599131 D6 DEBICA 0,067891 0,115578 0,089028 4,009911 52,8 36,7 60,9 274,5 0,229712 D7 KETY 0,085912 0,146131 0,096903 1,690597 95,4 56,9 104,7 47,6 319,2 0,336875 D8 KGHM -0,0413 -0,04896 -0,03479 2,647707 33,5 74,7 45,1 63,1 427,4 0,289449 D9 ORBIS 0,115218 0,094365 0,077172 3,146802 22 11,1 50,1 -17 537,5 0,18219 D10 PKNORLEN 0,037507 0,108105 0,060601 1,035782 25,6 40,2 67,8 -2 222,8 0,439429 D11 PROKOM 0,143999 0,219338 0,170678 3,353862 80,5 52,1 72,7 59,9 303,7 0,221851 D12 SWIECIE 0,099228 0,105598 0,087783 2,86967 84,3 21,5 45,2 60,6 406,9 0,168705 D13 TPSA 0,087148 0,107004 0,043481 0,981527 79,5 4,6 140,8 -56,7 721,5 0,593653 D14 CERSANIT 0,167806 0,180247 0,113679 1,257928 50 60 120,2 -10,2 531,4 0,369318 D15 IRENA 0,0566 0,066878 0,05093 2,07922 82,1 75,4 82,3 75,2 400,1 0,238472 D16 4MEDIA -0,22861 -0,89505 -0,24517 1,041146 137,3 28,5 139,3 26,5 335,7 0,726084 Z1 APEXIM 0,000954 0,002005 0,000533 3,224478 465,7 129,1 175,5 419,3 644,6 0,734331 Z2 BEEFSAN -0,01882 -0,38824 -0,07948 0,819011 18,7 21,1 50,8 -11 85,2 0,795284 Z3 BEST -0,57164 -0,61015 -0,39022 0,914175 38,4 0,3 111,6 -72,9 527,4 0,360449 Z4 BICK 0,017371 0,089293 0,046327 1,573102 62,2 13,2 60,4 15 135 0,481178 Z5 BYTOM -0,00878 -0,06482 -0,01129 1,158574 71,7 91,9 144,1 19,5 279,9 0,825838 Z6 CENTROZAP -0,08339 -0,34152 -0,11644 1,143437 118,8 37,3 151,8 4,3 257,8 0,659041 Z7 CLIF 0,046361 0,197192 0,011822 1,300614 467,2 1 942,2 -474 1411,8 0,940048 Z8 ELEKTROMONTAZ-EXPORT -0,06074 -0,09749 -0,03795 0,880182 166,6 251,6 -43,2 576,2 0,610691 Z9 ELEKTROMONTAZ-W-WA 0,033712 0,072253 0,052998 2,879765 83,2 31 49 65,2 229 0,266502 Z10 ELKOP 0,02443 0,043235 0,024748 1,680043 207,3 42,4 152,4 97,3 355,4 0,427605 Z11 ENERGOMONTAZ-POLNOC 0,020527 0,041052 0,025792 2,369938 99,2 75 77,8 96,4 286,5 0,371719 Z12 FAMEG 0,041461 0,069416 0,045936 1,859172 46,7 121,8 94,1 74,4 324,9 0,33825 Z13 IBSYSTEM -0,04653 -0,12638 -0,05998 1,024008 52,2 135,4 -1,1 279,3 0,525368 Z14 LETA 0,068761 0,254119 0,093481 0,676118 53,1 3,5 102,7 -46,1 264,8 0,632139 Z15

16

17

18

19 etap łączenia/ nr krawędzi (i)
Długość krawędzi d(i) / d(i-1) d(i) – d(i-1) 1 , 2 , 1,05 0,04 3 , 1,06 0,05 4 , 1,01 0,01 5 1,087814 1,15 0,14 6 1,289634 1,19 0,20 7 1,335727 1,04 8 1,449247 1,08 0,11 9 1,507871 0,06 10 1,556406 1,03 11 1,779411 1,14 0,22 12 1,834890 13 1,902711 0,07 14 2,078074 1,09 0,18 15 2,112621 1,02 0,03 16 2,257404 1,07 17 2,354639 0,10 18 2,542308 0,19 19 2,569906 20 2,622067 21 2,796135 0,17 22 3,159255 1,13 0,36 23 3,490557 1,10 0,33 24 3,891270 1,11 0,40 25 7,149348 1,84 3,26 26 7,863721 0,71 27 9,633989 1,23 1,77 28 12,43645 1,29 2,80 29 14,50333 1,17 2,07 30 17,27562 2,77

20 To warto jeszcze wiedzieć o metodach aglomeracyjnych!

21 Odchylenie standardowe
Nr przypadku Średnie Odchylenie standardowe D_AGORA 1,03557 1,161736 D_AMICA 0,04906 0,527579 D_APATOR -0,32413 0,614082 D_BORYSZ 0,61445 0,696321 D_BUDIM 0,02902 0,329358 D_COMPLAND 0,20430 0,412182 D_DEBICA 0,60701 0,889546 D_KETY 0,30424 0,420864 D_KGHM -0,19881 0,522548 D_ORBIS 0,41486 0,720458 D_PKNORL -0,11900 0,625328 D_PROKOM 0,86890 0,637737 D_SWIECIE 0,48284 0,401776 D_TPSA 0,01563 0,597181 D_CERSANIT 0,31210 0,823914 D_IRENA 0,16845 0,210806 Z_MEDIA -1,62315 1,459039 Z-APEX 0,89489 1,536227 Z_BEEFSAN -0,89224 0,472190 Z_BEST -2,36912 1,598446 Z_BICK -0,01535 0,336894 Z_BYTOM -0,33774 0,233982 Z_CENTRO -0,76281 0,580538 Z_CLIF 0,76733 1,586162 Z_ELEK_EX -0,36082 0,596843 Z_ELEK_WA 0,29904 0,395484 Z_ELKOP 0,21671 0,464600 Z_ENMONT 0,13958 0,171558 Z_FAMEG 0,02986 0,338894 Z_IBSYS -0,53293 0,257612 Z_LETA 0,08226 0,905589

22 Metoda k-średnich PROCEDURA:
wstępne losowe przyporządkowanie obiektów do skupień iteracyjne przenoszenie obiektów między skupieniami, by zminimalizować zmienność wewnątrzgrupową i zmaksymalizować zmienność międzygrupową.

23

24 Analiza wariancji Odległości euklidesowe skupień
Średnie wartości zmiennych w skupieniach Analiza wariancji

25 Analiza wariancji

26

27

28 FUNKCJA DYSKRYMINACYJNA

29 Wyprowadzenie

30

31 Rotacja należności w dniach Rotacja zapasów w dniach
Spółka Płynność bieżąca Rotacja należności w dniach Rotacja zapasów w dniach Elkop 0,79 97,3 11,5 Elektromontaż-Wwa 0,995 121,1 20 Energomontaż-Północ 1,249 135,9 85,2 Mostostal-Zabrze 0,794 45,4 1,5 Resbud 0,825 69,5 4,5 Mostostal-Płock 4,235 101,1 8,6 Polnord 1,233 153,3 15,9 Mostostal-Export 0,917 224,4 26,4 Bauma 0,722 161,1 20,9 LPP 1,436 47,2 118,8

32 Równanie funkcji dyskryminacyjnej:
Rotacja zapasów w dniach Rotacja należności w dniach Płynność bieżąca

33 Podstawa klasyfikacji
Spółka Wskaźnik płynności bieżącej Rotacja należności w dniach Rotacja zapasów w dniach Wartości funkcji Elkom 0,79 97,3 11,5 1,5298 Elektromontaż-Warszawa 0,995 121,1 20 0,4886 Energomontaż-Północ 1,249 135,9 85,2 -1,4802 Mostostal-Zabrze 0,794 45,4 1,5 3,0682 Resbud 0,825 69,5 4,5 2,3445 Mostostal-Płock 4,235 101,1 8,6 -2,8403 Polnord 1,233 153,3 15,9 -0,5680 Mostostal-Export 0,917 224,4 26,4 -2,2234 Bauma 0,722 161,1 20,9 -0,2259 LPP 1,436 47,2 118,8 -0,0607 Podstawa klasyfikacji

34 OCENA JAKOŚCI FUNKCJI DYSKRYMINACYJNEJ
Miara ogólnej zdolności dyskryminacyjnej modelu – współczynnik lambda Wilksa Wpływ dodatkowych zmiennych na zdolność dyskryminacyjną ……

35 Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (I)
Cząstkowy współczynnik Wilks’a wartość współczynnika lambda Wilksa dla modelu po wprowadzeniu do niego danej zmiennej wartość współczynnika lambda Wilksa dla modelu przed wprowadzeniem danej zmiennej. określa mnożnikową zmianę wartości statystyki lambda, spowodowaną wprowadzeniem do modelu danej zmiennej Xk. Wartość współczynnika zawiera się w przedziale <0, 1>

36 Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (II)
statystyka k Wilks’a (dla modelu!) Wartość jaką przyjęłaby statystyka lambda Wilks’a dla ogólnego modelu, gdyby wyłączyć z niego daną zmienną Xk. k  <0, 1>

37 Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (III)
współczynnik tolerancji Tk Rk oznacza współczynnik korelacji wielorakiej między daną zmienną Xk a pozostałymi zmiennymi w modelu (< 90%)

38 Łączna liczebność próby z danej populacji
Macierz klasyfikacji Rzeczywista przynależność obiektu Populacja, do której obiekt zaklasyfikowano na podstawie funkcji dyskryminacyjnej Łączna liczebność próby z danej populacji 0 1 n00 n01 n0 n10 n11 n1

39 Analiza dyskryminacyjna w pakiecie STATISTICA

40 Podsumowanie – zmienne w modelu
Zmiana Lambdy dla modelu po wprowadzeniu danej X Lambda dla modelu przed wprowadzeniem danej X

41

42 1.   Elkom 2,3866 0,8588 2.   Elektromontaż-Warszawa 4,2470 3,7612 3.   Energomontaż-Północ 7,7308 9,2169 4.   Mostostal-Zabrze -0,5321 -3,5995 5.   Resbud 0,8271 -1,5161 6.   Mostostal-Płock 8,8930 11,7354 7.   Polnord 6,1462 6,7174 8.   Mostostal-Export 9,4543 11,6824 9.   Bauma 5,7559 5,9853 10.        LPP 4,8476 4,9144

43

44


Pobierz ppt "ANALIZA SKUPIEŃ (cluster analysis)."

Podobne prezentacje


Reklamy Google