Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

ANALIZA SKUPIEŃ (cluster analysis). Założenia Dane są zbiór obiektów będących przedmiotem klasyfikacji zbiór K cech (zmiennych) charakteryzujących przestrzeń

Podobne prezentacje


Prezentacja na temat: "ANALIZA SKUPIEŃ (cluster analysis). Założenia Dane są zbiór obiektów będących przedmiotem klasyfikacji zbiór K cech (zmiennych) charakteryzujących przestrzeń"— Zapis prezentacji:

1 ANALIZA SKUPIEŃ (cluster analysis)

2 Założenia Dane są zbiór obiektów będących przedmiotem klasyfikacji zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji obserwacje K cech dla N obiektów tworzą macierz

3 Punkt wyjścia procedur klasyfikacji (grupowania) zbioru obiektów zdefiniowanie miary nie/podobieństwa obiektów Najczęstsze rozwiązanie odległość OBIEKTÓW = miara ich niepodobieństwa

4 Odległość miejska (Manhattan) Odległość Czebyszewa Odległość (metryka) Mahalanobisa !!! Odległość euklidesowa

5 ODLEGŁOŚĆ MIĘDZY ROZŁĄCZNYMI SKUPIENIEM * i ** Na podstawie odległości rzeczywistych obiektów (np. metoda najdalszego sąsiada, najbliższego sąsiada) Na podstawie odległości obiektów- reprezentantów (np. metoda środków ciężkości)

6 METODY KLASYFIKACJI Metody hierarchiczne (wynik – dendrogram) Procedury aglomeracyjne Procedury podziału Metody niehierarchiczne metoda Hartigana metoda kul metoda kostek metoda podziału przestrzennego metoda taksonomii stochastycznej metoda k-średnich

7 Etap I: Poszukuje się pary skupień najmniej odległych, tzn. Etap II: Skupienia p oraz q łączy się w jedno skupienie, zachowując dla niego numer p, czyli p = p q Etap III: Z macierzy D usuwane są kolumna i wiersz q (zmienia się wymiar na N-1) SCHEMAT HIERARCHICZNYCH PROCEDUR GRUPOWANIA

8 Etap IV: Obliczane są odległości d pj między nowym skupieniem p a pozostałymi skupieniami i wstawiane są do macierzy D w miejsce kolumny/ wiersza p. Powrót do etapu I. Koniec procedury – wszystkie obiekty = jedno skupienie.

9 Wykorzystanie pakietu STATISTICA

10 Uruchamianie Analizy skupień w programie Statistica – wybierane opcje Statystyka Wielowymiarowe techniki eksploracyjne Analiza skupień

11 Wybór metody grupowania. Możliwe są dwa zasadnicze warianty: Grupowanie metodą k – średnich (metoda optymalizacyjna) Aglomeracja (czyli wybór metody typu aglomeracyjnego)

12 OPCJA AGLOMERACJA – DOSTĘPNE METODY Metoda pojedynczego wiązania (najbliższego sąsiada) – łańcuchy obiektów Metoda pełnego wiązania (najdalszego sąsiada) – naturalne kępki obiektów Metoda średnich połączeń (średnia odległość) – kępki Metoda średnich połączeń ważonych (średnia odległość ważona liczebnością skupień Metoda środków ciężkości – odległość skupień = odległość środków ciężkości (centroidów) Metoda ważonych środków ciężkości Metoda Warda – szacowanie odległości skupień oparte na analizie wariancji (zmienność wewnątrz- i międzygrupowa)

13 Po wyborze opcji Aglomeracja Opcja więcej

14 Po przeprowadzeniu obliczeń

15 W1W2W3W4W5W6W7W8W9W10 Marża zysku netto Stopa zwrotu z kapitału własnego Stopa zwrotu z aktywów Wskaźnik płynności bieżącej Rotacja należności Rotacja zapasów Rotacja zobowiązań Cykl konwersji gotówki Rotacja aktywów Stopa zadłużenia AGORA0, , , , ,612,256,4-1,6428,30,212441D1 AMICA0, , , , ,241,890,37,7310,70,566542D2 APATOR-0, , ,098582, ,448,355,686,1241,30,316047D3 BORYSZEW0, , , , ,144,838,652,3198,60,198164D4 BUDIMEX0, , , , ,73,499,7-1,63930,332709D5 COMPLAND0, , , , ,920,297,223,9183,30,599131D6 DEBICA0, , , , ,844,836,760,9274,50,229712D7 KETY0, , , , ,456,9104,747,6319,20,336875D8 KGHM-0,0413-0, ,034792, ,574,745,163,1427,40,289449D9 ORBIS0, , , , ,150, ,50,18219D10 PKNORLEN0, , , , ,640,267,8-2222,80,439429D11 PROKOM0, , , , ,552,172,759,9303,70,221851D12 SWIECIE0, , , , ,321,545,260,6406,90,168705D13 TPSA0, , , , ,54,6140,8-56,7721,50,593653D14 CERSANIT0, , , , ,2-10,2531,40,369318D15 IRENA0,05660, ,050932, ,175,482,375,2400,10,238472D16 4MEDIA-0, , ,245171, ,328,5139,326,5335,70,726084Z1 APEXIM0, , , , ,7129,1175,5419,3644,60,734331Z2 BEEFSAN-0, , ,079480, ,721,150,8-1185,20,795284Z3 BEST-0, , ,390220, ,40,3111,6-72,9527,40,360449Z4 BICK0, , , , ,213,260, ,481178Z5 BYTOM-0, , ,011291, ,791,9144,119,5279,90,825838Z6 CENTROZAP-0, , ,116441, ,837,3151,84,3257,80,659041Z7 CLIF0, , , , ,21942, ,80,940048Z8 ELEKTROMONTAZ-EXPORT-0, , ,037950, ,641,8251,6-43,2576,20,610691Z9 ELEKTROMONTAZ-W-WA0, , , , , ,22290,266502Z10 ELKOP0,024430, , , ,342,4152,497,3355,40,427605Z11 ENERGOMONTAZ-POLNOC0, , , , ,27577,896,4286,50,371719Z12 FAMEG0, , , , ,7121,894,174,4324,90,33825Z13 IBSYSTEM-0, , ,059981, ,152,2135,4-1,1279,30,525368Z14 LETA0, , , , ,13,5102,7-46,1264,80,632139Z15 PRZYKŁAD

16

17

18

19 etap łączenia/ nr krawędzi (i) Długość krawędzid(i) / d(i-1)d(i) – d(i-1) 1, , ,050,04 3, ,060,05 4, ,010,01 5 1, ,150,14 6 1, ,190,20 7 1, ,040,05 8 1, ,080,11 9 1, ,040, , ,030, , ,140, , ,030, , ,040, , ,090, , ,020, , ,070, , ,040, , ,080, , ,010, , ,020, , ,070, , ,130, , ,100, , ,110, , ,843, , ,100, , ,231, ,436451,292, ,503331,172, ,275621,192,77

20 To warto jeszcze wiedzieć o metodach aglomeracyjnych!

21 Nr przypadku Średnie Odchylenie standardow e D_AGORA 1, , D_AMICA 0, , D_APATOR -0, , D_BORYSZ 0, , D_BUDIM 0, , D_COMPLAND 0, , D_DEBICA 0, , D_KETY 0, , D_KGHM -0, , D_ORBIS 0, , D_PKNORL -0, , D_PROKOM 0, , D_SWIECIE 0, , D_TPSA 0, , D_CERSANIT 0, , D_IRENA 0, , Z_MEDIA -1, , Z-APEX 0, , Z_BEEFSAN -0, , Z_BEST -2, , Z_BICK -0, , Z_BYTOM -0, , Z_CENTRO -0, , Z_CLIF 0, , Z_ELEK_EX -0, , Z_ELEK_WA 0, , Z_ELKOP 0, , Z_ENMONT 0, , Z_FAMEG 0, , Z_IBSYS -0, , Z_LETA 0, ,905589

22 PROCEDURA: 1.wstępne losowe przyporządkowanie obiektów do skupień 2.iteracyjne przenoszenie obiektów między skupieniami, by zminimalizować zmienność wewnątrzgrupową i zmaksymalizować zmienność międzygrupową. Metoda k-średnich

23

24 Odległości euklidesowe skupieńŚrednie wartości zmiennych w skupieniach Analiza wariancji

25

26

27

28 FUNKCJA DYSKRYMINACYJNA

29 Wyprowadzenie

30

31 Spółka Płynność bieżąca Rotacja należności w dniach Rotacja zapasów w dniach Elkop0,7997,311,5 Elektromontaż-Wwa0,995121,120 Energomontaż-Północ1,249135,985,2 Mostostal-Zabrze0,79445,41,5 Resbud0,82569,54,5 Mostostal-Płock4,235101,18,6 Polnord1,233153,315,9 Mostostal-Export0,917224,426,4 Bauma0,722161,120,9 LPP1,43647,2118,8

32 Równanie funkcji dyskryminacyjnej: Płynność bieżąca Rotacja należności w dniach Rotacja zapasów w dniach

33 Spółka Wskaźnik płynności bieżącej Rotacja należności w dniach Rotacja zapasów w dniach Wartości funkcji Elkom0,7997,311,51,5298 Elektromontaż-Warszawa0,995121,1200,4886 Energomontaż-Północ1,249135,985,2 -1,4802 Mostostal-Zabrze0,79445,41,53,0682 Resbud0,82569,54,52,3445 Mostostal-Płock4,235101,18,6-2,8403 Polnord1,233153,315,9-0,5680 Mostostal-Export0,917224,426,4-2,2234 Bauma0,722161,120,9-0,2259 LPP1,43647,2118,8-0,0607 Podstawa klasyfikacji

34 OCENA JAKOŚCI FUNKCJI DYSKRYMINACYJNEJ Miara ogólnej zdolności dyskryminacyjnej modelu – współczynnik lambda Wilksa Wpływ dodatkowych zmiennych na zdolność dyskryminacyjną ……

35 Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (I) Cząstkowy współczynnik Wilksa wartość współczynnika lambda Wilksa dla modelu po wprowadzeniu do niego danej zmiennej wartość współczynnika lambda Wilksa dla modelu przed wprowadzeniem danej zmiennej. określa mnożnikową zmianę wartości statystyki lambda, spowodowaną wprowadzeniem do modelu danej zmiennej X k. Wartość współczynnika zawiera się w przedziale

36 Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (II) statystyka k Wilksa (dla modelu!) Wartość jaką przyjęłaby statystyka lambda Wilksa dla ogólnego modelu, gdyby wyłączyć z niego daną zmienną X k. k

37 Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (III) współczynnik tolerancji T k R k oznacza współczynnik korelacji wielorakiej między daną zmienną X k a pozostałymi zmiennymi w modelu (< 90%)

38 Macierz klasyfikacji Rzeczywista przynależność obiektu Populacja, do której obiekt zaklasyfikowano na podstawie funkcji dyskryminacyjnej Łączna liczebność próby z danej populacji n 00 n 01 n0n0 1 n 10 n 11 n1n1

39 Analiza dyskryminacyjna w pakiecie STATISTICA

40 Podsumowanie – zmienne w modelu Zmiana Lambdy dla modelu po wprowadzeniu danej X Lambda dla modelu przed wprowadzeniem danej X

41

42 1. Elkom 2,38660, Elektromontaż- Warszawa 4,24703, Energomontaż- Północ 7,73089, Mostostal- Zabrze -0,5321-3, Resbud 0,8271-1, Mostostal-Płock 8,893011, Polnord 6,14626, Mostostal-Export 9,454311, Bauma 5,75595, LPP 4,84764,9144

43

44


Pobierz ppt "ANALIZA SKUPIEŃ (cluster analysis). Założenia Dane są zbiór obiektów będących przedmiotem klasyfikacji zbiór K cech (zmiennych) charakteryzujących przestrzeń"

Podobne prezentacje


Reklamy Google