ANALIZA SKUPIEŃ (cluster analysis).

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

I część 1.
Klasyfikacja danych Metoda hierarchiczne
Analiza współzależności zjawisk
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Analiza wariancji jednoczynnikowa
Ludwik Antal - Numeryczna analiza pól elektromagnetycznych –W10
Liczby pierwsze.
Internetowy system nauczania na odległość
Domy Na Wodzie - metoda na wlasne M
Bankowość spółdzielcza to bankowość bezpieczna
1 mgr inż. Sylwester Laskowski Opiekun Naukowy: prof. dr hab. inż. Andrzej P. Wierzbicki.
Dane dotyczące sprzedaży wody mineralnej
NOWE TECHNOLOGIE NA USŁUGACH EDUKACJI Publiczna Szkoła Podstawowa nr 3 w Grodkowie Zajęcia w ramach projektu NTUE.
UŁAMKI DZIESIĘTNE porównywanie, dodawanie i odejmowanie.
Badania biegłości oczami organizatora
Prezentacja poziomu rozwoju gmin, które nie korzystały z FS w 2006 roku. Eugeniusz Sobczak Politechnika Warszawska KNS i A Wykorzystanie Funduszy.
Fundusze nieruchomości jako inwestycja z celem zdobycia kapitału emerytalnego Karolina Oleszek.
BIOSTATYSTYKA I METODY DOKUMENTACJI
Algorytm Rochio’a.
METODY PODEJMOWANIA DECYZJI
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Proces analizy i rozpoznawania
Linear Methods of Classification
Wzory ułatwiające obliczenia
ANALIZA BADANIA STATYSTYCZNEGO
STATYSTYCZNA ANALIZA DANYCH
Średnie i miary zmienności
Matura 2005 Wyniki Jarosław Drzeżdżon Matura 2005 V LO w Gdańsku
ENERGETYKA POLSKA WYNIKI I WSKAŹNIKI FINANSOWE ELEKTROCIEPŁOWNI ZA 2005 ROK W PORÓWNANIACH Z WYNIKAMI I WSKAŹNIKAMI UŚREDNIONYMI SEKTORA I PODSEKTORA.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Analiza wariancji jednoczynnikowa
Analiza współzależności cech statystycznych
Ocena ogólnej sytuacji finansowej firmy metodą analizy finansowej na przykładzie przedsiębiorstwa REKOR PWSZ NYSA KIERUNEK – FINANSE i BANKOWOŚĆ SPECJALNOŚĆ.
Rozkłady wywodzące się z rozkładu normalnego standardowego
Analiza wariancji jednoczynnikowa.
„Rynek pracy w powiecie trzebnickim: struktura bezrobocia i miejsca pracy.”
1/34 HISTORIA BUDOWY /34 3/34 6 MAJA 2011.
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
AKASA Bank Sebastian Marchel Anna Karpińska Anna Matusiewicz
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
Analiza matury 2013 Opracowała Bernardeta Wójtowicz.
Obserwowalność i odtwarzalność
Podstawy statystyki, cz. II
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Spływ należności w Branży Elektrycznej
Wstępna analiza egzaminu gimnazjalnego.
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
VII EKSPLORACJA DANYCH
Wyniki badań dzieci 10 letnich z realizacji podstawy programowej z wychowania fizycznego po I etapie edukacyjnym- wrzesień 2013, luty- czerwiec 2014 Kuratorium.
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Seminarium licencjackie Beata Kapuścińska
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Nowy Jork Londyn Mleko, (1l) 0,81£ 0,94 £ Bochenek świeżego chleba (500g) 1,78 £ 0,96 £ Ryż (biały), (1kg) 2,01 £ 1,51 £ Jajka(12) 1,86 £ 2,27 £ Lokalny.
Kalendarz 2020.
STATYSTYKA Pochodzenie nazwy:
Współrzędnościowe maszyny pomiarowe
Elementy geometryczne i relacje
Strategia pomiaru.
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Koło Naukowe Metod Ilościowych
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Zapis prezentacji:

ANALIZA SKUPIEŃ (cluster analysis)

Założenia Dane są zbiór obiektów będących przedmiotem klasyfikacji zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji obserwacje K cech dla N obiektów tworzą macierz

Najczęstsze rozwiązanie  Punkt wyjścia procedur klasyfikacji (grupowania) zbioru obiektów  zdefiniowanie miary nie/podobieństwa obiektów Najczęstsze rozwiązanie  odległość OBIEKTÓW = miara ich niepodobieństwa

Odległość euklidesowa Odległość miejska (Manhattan) Odległość Czebyszewa Odległość (metryka) Mahalanobisa !!!

ODLEGŁOŚĆ MIĘDZY ROZŁĄCZNYMI SKUPIENIEM * i ** Na podstawie odległości „rzeczywistych” obiektów (np. metoda najdalszego sąsiada, najbliższego sąsiada) Na podstawie odległości obiektów-reprezentantów (np. metoda środków ciężkości)

METODY KLASYFIKACJI Metody hierarchiczne (wynik – dendrogram) Procedury aglomeracyjne Procedury podziału Metody niehierarchiczne metoda Hartigana metoda kul metoda kostek metoda podziału przestrzennego metoda taksonomii stochastycznej metoda k-średnich

SCHEMAT HIERARCHICZNYCH PROCEDUR GRUPOWANIA Etap I: Poszukuje się pary skupień najmniej odległych, tzn. Etap II: Skupienia p oraz q łączy się w jedno skupienie, zachowując dla niego numer p, czyli p = p  q Etap III: Z macierzy D usuwane są kolumna i wiersz q (zmienia się wymiar na N-1)

Etap IV: Obliczane są odległości dpj między „nowym” skupieniem p a pozostałymi skupieniami i wstawiane są do macierzy D w miejsce kolumny/ wiersza p. Powrót do etapu I. Koniec procedury – wszystkie obiekty = jedno skupienie.

Wykorzystanie pakietu STATISTICA

Uruchamianie „Analizy skupień” w programie Statistica – wybierane opcje Statystyka Wielowymiarowe techniki eksploracyjne Analiza skupień

Wybór metody grupowania. Możliwe są dwa zasadnicze warianty: Aglomeracja (czyli wybór metody typu aglomeracyjnego) Grupowanie metodą k – średnich (metoda „optymalizacyjna”)

OPCJA „AGLOMERACJA” – DOSTĘPNE METODY Metoda pojedynczego wiązania (najbliższego sąsiada) – łańcuchy obiektów Metoda pełnego wiązania (najdalszego sąsiada) – naturalne „kępki” obiektów Metoda średnich połączeń (średnia odległość) – „kępki” Metoda średnich połączeń ważonych (średnia odległość ważona liczebnością skupień Metoda środków ciężkości – odległość skupień = odległość środków ciężkości (centroidów) Metoda ważonych środków ciężkości Metoda Warda – szacowanie odległości skupień oparte na analizie wariancji (zmienność wewnątrz- i międzygrupowa)

Po wyborze opcji „Aglomeracja” Opcja więcej

Po przeprowadzeniu obliczeń

ELEKTROMONTAZ-EXPORT PRZYKŁAD W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 Marża zysku netto Stopa zwrotu z kapitału własnego Stopa zwrotu z aktywów Wskaźnik płynności bieżącej Rotacja należności Rotacja zapasów Rotacja zobowiązań Cykl konwersji gotówki Rotacja aktywów Stopa zadłużenia AGORA 0,173953 0,185656 0,146215 4,715732 42,6 12,2 56,4 -1,6 428,3 0,212441 D1 AMICA 0,054014 0,144399 0,062591 1,312957 56,2 41,8 90,3 7,7 310,7 0,566542 D2 APATOR -0,06608 -0,14414 -0,09858 2,563063 93,4 48,3 55,6 86,1 241,3 0,316047 D3 BORYSZEW 0,095637 0,216205 0,173361 2,733441 46,1 44,8 38,6 52,3 198,6 0,198164 D4 BUDIMEX 0,046151 0,063356 0,042277 1,405892 94,7 3,4 99,7 393 0,332709 D5 COMPLAND 0,036745 0,179994 0,072154 1,579703 100,9 20,2 97,2 23,9 183,3 0,599131 D6 DEBICA 0,067891 0,115578 0,089028 4,009911 52,8 36,7 60,9 274,5 0,229712 D7 KETY 0,085912 0,146131 0,096903 1,690597 95,4 56,9 104,7 47,6 319,2 0,336875 D8 KGHM -0,0413 -0,04896 -0,03479 2,647707 33,5 74,7 45,1 63,1 427,4 0,289449 D9 ORBIS 0,115218 0,094365 0,077172 3,146802 22 11,1 50,1 -17 537,5 0,18219 D10 PKNORLEN 0,037507 0,108105 0,060601 1,035782 25,6 40,2 67,8 -2 222,8 0,439429 D11 PROKOM 0,143999 0,219338 0,170678 3,353862 80,5 52,1 72,7 59,9 303,7 0,221851 D12 SWIECIE 0,099228 0,105598 0,087783 2,86967 84,3 21,5 45,2 60,6 406,9 0,168705 D13 TPSA 0,087148 0,107004 0,043481 0,981527 79,5 4,6 140,8 -56,7 721,5 0,593653 D14 CERSANIT 0,167806 0,180247 0,113679 1,257928 50 60 120,2 -10,2 531,4 0,369318 D15 IRENA 0,0566 0,066878 0,05093 2,07922 82,1 75,4 82,3 75,2 400,1 0,238472 D16 4MEDIA -0,22861 -0,89505 -0,24517 1,041146 137,3 28,5 139,3 26,5 335,7 0,726084 Z1 APEXIM 0,000954 0,002005 0,000533 3,224478 465,7 129,1 175,5 419,3 644,6 0,734331 Z2 BEEFSAN -0,01882 -0,38824 -0,07948 0,819011 18,7 21,1 50,8 -11 85,2 0,795284 Z3 BEST -0,57164 -0,61015 -0,39022 0,914175 38,4 0,3 111,6 -72,9 527,4 0,360449 Z4 BICK 0,017371 0,089293 0,046327 1,573102 62,2 13,2 60,4 15 135 0,481178 Z5 BYTOM -0,00878 -0,06482 -0,01129 1,158574 71,7 91,9 144,1 19,5 279,9 0,825838 Z6 CENTROZAP -0,08339 -0,34152 -0,11644 1,143437 118,8 37,3 151,8 4,3 257,8 0,659041 Z7 CLIF 0,046361 0,197192 0,011822 1,300614 467,2 1 942,2 -474 1411,8 0,940048 Z8 ELEKTROMONTAZ-EXPORT -0,06074 -0,09749 -0,03795 0,880182 166,6 251,6 -43,2 576,2 0,610691 Z9 ELEKTROMONTAZ-W-WA 0,033712 0,072253 0,052998 2,879765 83,2 31 49 65,2 229 0,266502 Z10 ELKOP 0,02443 0,043235 0,024748 1,680043 207,3 42,4 152,4 97,3 355,4 0,427605 Z11 ENERGOMONTAZ-POLNOC 0,020527 0,041052 0,025792 2,369938 99,2 75 77,8 96,4 286,5 0,371719 Z12 FAMEG 0,041461 0,069416 0,045936 1,859172 46,7 121,8 94,1 74,4 324,9 0,33825 Z13 IBSYSTEM -0,04653 -0,12638 -0,05998 1,024008 52,2 135,4 -1,1 279,3 0,525368 Z14 LETA 0,068761 0,254119 0,093481 0,676118 53,1 3,5 102,7 -46,1 264,8 0,632139 Z15

etap łączenia/ nr krawędzi (i) Długość krawędzi d(i) / d(i-1) d(i) – d(i-1) 1 ,8396853 2 ,8832518 1,05 0,04 3 ,9347008 1,06 0,05 4 ,9462611 1,01 0,01 5 1,087814 1,15 0,14 6 1,289634 1,19 0,20 7 1,335727 1,04 8 1,449247 1,08 0,11 9 1,507871 0,06 10 1,556406 1,03 11 1,779411 1,14 0,22 12 1,834890 13 1,902711 0,07 14 2,078074 1,09 0,18 15 2,112621 1,02 0,03 16 2,257404 1,07 17 2,354639 0,10 18 2,542308 0,19 19 2,569906 20 2,622067 21 2,796135 0,17 22 3,159255 1,13 0,36 23 3,490557 1,10 0,33 24 3,891270 1,11 0,40 25 7,149348 1,84 3,26 26 7,863721 0,71 27 9,633989 1,23 1,77 28 12,43645 1,29 2,80 29 14,50333 1,17 2,07 30 17,27562 2,77

To warto jeszcze wiedzieć o metodach aglomeracyjnych!

Odchylenie standardowe Nr przypadku Średnie Odchylenie standardowe D_AGORA 1,03557 1,161736 D_AMICA 0,04906 0,527579 D_APATOR -0,32413 0,614082 D_BORYSZ 0,61445 0,696321 D_BUDIM 0,02902 0,329358 D_COMPLAND 0,20430 0,412182 D_DEBICA 0,60701 0,889546 D_KETY 0,30424 0,420864 D_KGHM -0,19881 0,522548 D_ORBIS 0,41486 0,720458 D_PKNORL -0,11900 0,625328 D_PROKOM 0,86890 0,637737 D_SWIECIE 0,48284 0,401776 D_TPSA 0,01563 0,597181 D_CERSANIT 0,31210 0,823914 D_IRENA 0,16845 0,210806 Z_MEDIA -1,62315 1,459039 Z-APEX 0,89489 1,536227 Z_BEEFSAN -0,89224 0,472190 Z_BEST -2,36912 1,598446 Z_BICK -0,01535 0,336894 Z_BYTOM -0,33774 0,233982 Z_CENTRO -0,76281 0,580538 Z_CLIF 0,76733 1,586162 Z_ELEK_EX -0,36082 0,596843 Z_ELEK_WA 0,29904 0,395484 Z_ELKOP 0,21671 0,464600 Z_ENMONT 0,13958 0,171558 Z_FAMEG 0,02986 0,338894 Z_IBSYS -0,53293 0,257612 Z_LETA 0,08226 0,905589

Metoda k-średnich PROCEDURA: wstępne losowe przyporządkowanie obiektów do skupień iteracyjne przenoszenie obiektów między skupieniami, by zminimalizować zmienność wewnątrzgrupową i zmaksymalizować zmienność międzygrupową.

Analiza wariancji Odległości euklidesowe skupień Średnie wartości zmiennych w skupieniach Analiza wariancji

Analiza wariancji

FUNKCJA DYSKRYMINACYJNA

Wyprowadzenie

Rotacja należności w dniach Rotacja zapasów w dniach Spółka Płynność bieżąca Rotacja należności w dniach Rotacja zapasów w dniach Elkop 0,79 97,3 11,5 Elektromontaż-Wwa 0,995 121,1 20 Energomontaż-Północ 1,249 135,9 85,2 Mostostal-Zabrze 0,794 45,4 1,5 Resbud 0,825 69,5 4,5 Mostostal-Płock 4,235 101,1 8,6 Polnord 1,233 153,3 15,9 Mostostal-Export 0,917 224,4 26,4 Bauma 0,722 161,1 20,9 LPP 1,436 47,2 118,8

Równanie funkcji dyskryminacyjnej: Rotacja zapasów w dniach Rotacja należności w dniach Płynność bieżąca

Podstawa klasyfikacji Spółka Wskaźnik płynności bieżącej Rotacja należności w dniach Rotacja zapasów w dniach Wartości funkcji Elkom 0,79 97,3 11,5 1,5298 Elektromontaż-Warszawa 0,995 121,1 20 0,4886 Energomontaż-Północ 1,249 135,9 85,2 -1,4802 Mostostal-Zabrze 0,794 45,4 1,5 3,0682 Resbud 0,825 69,5 4,5 2,3445 Mostostal-Płock 4,235 101,1 8,6 -2,8403 Polnord 1,233 153,3 15,9 -0,5680 Mostostal-Export 0,917 224,4 26,4 -2,2234 Bauma 0,722 161,1 20,9 -0,2259 LPP 1,436 47,2 118,8 -0,0607 Podstawa klasyfikacji

OCENA JAKOŚCI FUNKCJI DYSKRYMINACYJNEJ Miara ogólnej zdolności dyskryminacyjnej modelu – współczynnik lambda Wilksa Wpływ dodatkowych zmiennych na zdolność dyskryminacyjną ……

Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (I) Cząstkowy współczynnik Wilks’a wartość współczynnika lambda Wilksa dla modelu po wprowadzeniu do niego danej zmiennej wartość współczynnika lambda Wilksa dla modelu przed wprowadzeniem danej zmiennej. określa mnożnikową zmianę wartości statystyki lambda, spowodowaną wprowadzeniem do modelu danej zmiennej Xk. Wartość współczynnika zawiera się w przedziale <0, 1>

Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (II) statystyka k Wilks’a (dla modelu!) Wartość jaką przyjęłaby statystyka lambda Wilks’a dla ogólnego modelu, gdyby wyłączyć z niego daną zmienną Xk. k  <0, 1>

Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (III) współczynnik tolerancji Tk Rk oznacza współczynnik korelacji wielorakiej między daną zmienną Xk a pozostałymi zmiennymi w modelu (< 90%)

Łączna liczebność próby z danej populacji Macierz klasyfikacji Rzeczywista przynależność obiektu Populacja, do której obiekt zaklasyfikowano na podstawie funkcji dyskryminacyjnej Łączna liczebność próby z danej populacji 0 1 n00 n01 n0 n10 n11 n1

Analiza dyskryminacyjna w pakiecie STATISTICA

Podsumowanie – zmienne w modelu Zmiana Lambdy dla modelu po wprowadzeniu danej X Lambda dla modelu przed wprowadzeniem danej X

1.   Elkom 2,3866 0,8588 2.   Elektromontaż-Warszawa 4,2470 3,7612 3.   Energomontaż-Północ 7,7308 9,2169 4.   Mostostal-Zabrze -0,5321 -3,5995 5.   Resbud 0,8271 -1,5161 6.   Mostostal-Płock 8,8930 11,7354 7.   Polnord 6,1462 6,7174 8.   Mostostal-Export 9,4543 11,6824 9.   Bauma 5,7559 5,9853 10.        LPP 4,8476 4,9144