Problem: Agent ubezpieczeniowy postanowił dowiedzieć się, jakimi cechami odznacza się potencjalny nabywca polisy na życie. 1. Sprawdza, jakie charakterystyki.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Ocena dokładności i trafności prognoz
Metody losowania próby
Klasyfikacja danych Metoda hierarchiczne
SYSTEMY WYSZUKIWANIA INFORMACJI
Analiza współzależności zjawisk
IV Tutorial z Metod Obliczeniowych
Metoda simpleks Simpleks jest uniwersalną metodą rozwiązywania zadań programowania liniowego. Jest to metoda iteracyjnego poprawiania wstępnego rozwiązania.
Analiza wariancji jednoczynnikowa
Skale pomiarowe – BARDZO WAŻNE
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
BUDOWA MODELU EKONOMETRYCZNEGO
Jak mierzyć asymetrię zjawiska?
Jak mierzyć zróżnicowanie zjawiska? Wykład 4. Miary jednej cechy Miary poziomu Miary dyspersji (zmienności, zróżnicowania, rozproszenia) Miary asymetrii.
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
Analiza współzależności
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
MIARY ZMIENNOŚCI Główne (wywołujące zmienność systematyczną)
Analiza współzależności
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Algorytm Rochio’a.
Analiza korelacji.
Metoda simpleks opracowanie na podstawie „Metody wspomagające podejmowanie decyzji w zarządzaniu” D. Witkowska, Menadżer Łódź Simpleks jest uniwersalną.
Korelacje, regresja liniowa
Średnie i miary zmienności
SKALE POMIAROWE.
Rozkład t.
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Analiza współzależności cech statystycznych
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Segmenty rynku prasowego
Elementy Rachunku Prawdopodobieństwa i Statystyki
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Podstawy statystyki, cz. II
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Seminarium licencjackie Beata Kapuścińska
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Statystyka medyczna Piotr Kozłowski
Statystyczna analiza danych w praktyce
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
Statystyczna analiza danych
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
Statystyczna analiza danych
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Koło Naukowe Metod Ilościowych
Małgorzata Podogrodzka, SGH ISiD
Statystyka matematyczna
Statystyka matematyczna
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Selekcja danych Korelacja.
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Analiza współzależności zjawisk
MIARY STATYSTYCZNE Warunki egzaminu.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
statystyka podstawowe pojęcia
Zapis prezentacji:

Problem: Agent ubezpieczeniowy postanowił dowiedzieć się, jakimi cechami odznacza się potencjalny nabywca polisy na życie. 1. Sprawdza, jakie charakterystyki (ich poziom) nabywcy determinują nabycie przez niego polisy: wiek, wykształcenie, miejsce zamieszkania, dochód, płeć itd. 2. Konstruuje profil nabywcy polisy

Problem: Pewna agencja modelek poszukuje kilku kandydatek. 1. Sprawdzamy, jakie charakterystyki (ich poziom) wpływa na wybór kandydatki na modelkę: wiek, wykształcenie, miejsce zamieszkania, długość nóg, długość włosów itd. 2. Budujemy profil potencjalnej kandydatki

Problem: Kandydat na Prezydent Warszawy postanowił dowiedzieć się, jakim poziomem kapitału (ludzkim, społecznym, kreatywnym) charakteryzują się jego mieszkańcy 1. Sprawdza, jakim poziomem wartości cech opisujących poszczególne składowe kapitału charakteryzują się mieszkańcy miasta np. wiek, wykształcenie, dochód, płeć itd. 2. Buduje profil mieszkańca

Metody taksonomiczne – służą do podziału zbioru obiektów (elementów badania) na pewne podzbiory nazywane grupami (skupieniami, klastrami) w taki sposób, aby stopień powiązania między obiektami w danej grupie był jak największy i jednocześnie jak najmniejszy z obiektami z pozostałych grup.

Obiekty – jednostki badania podlegające klasyfikacji Ω={O1, O2, …, On} Cecha – własności obiektów rozpatrywane z punktu widzenia zjawiska będącego kryterium klasyfikacji obiektów X:{X1, X2, …, Xk}

Podobieństwo – wspólność (zbieżność) pewnych właściwości dwu lub więcej obiektów. Jednorodność – właściwość zbioru obiektów składających się z jednostek podobnych. Klasa (grupa) – podzbiór zawierający obiekty podobne tj. wyróżnione na podstawie wspólnych właściwości.

Klasyfikacja ma trzy znaczenia: 1. czynność podziału 2 Klasyfikacja ma trzy znaczenia: 1. czynność podziału 2. efekt czynności podziału zbioru obiektów na grupy obiektów podobnych 3. decyzję, do której klasy zbioru zaliczyć dany obiekt

Warunki klasyfikacji: 1. A1˅A2˅…Ap=Ω 2. Ap˄Aq=0 3. Ap≠0 dodatkowo 4 Warunki klasyfikacji: 1. A1˅A2˅…Ap=Ω 2. Ap˄Aq=0 3. Ap≠0 dodatkowo 4. obiekty w tej samej grupie powinny być do siebie jak najbardziej podobne 5. obiekty nie należące do tej samej grupy powinny być jak najmniej do siebie podobne

Ogólna procedura badania taksonomicznego: I Ogólna procedura badania taksonomicznego: I. Wstępna analiza i cel badania II. Wybór zmiennych i ich ocena III. Wybór metody i weryfikacja wyników IV. Merytoryczna ocena wyników

1. Wstępna analiza badanego systemu Cel badania, obiekty badania, jednostka czasu (przedział czasu) Czy nadal istnieje podział na Polskę A i B ze względu na poziom rozwoju ekonomicznego. Hipoteza: nadal istnieje 2. Dobór cech diagnostycznych i skale ich pomiaru Wybór cech diagnostycznych (wskaźników) – redukcja wstępnie zaproponowanych zmiennych potencjalnych do takich, które odznaczają się największą dyskryminacją

Lista zmiennych oceny kapitału zawodowego ludności w poszczególnych dzielnicach Warszawy: Wskaźnik zatrudnienia Wskaźnik bezrobocia Udział osób wieku produkcyjnym Liczba działających firm na 1tys. mieszkańców Liczba udzielonych pożyczek na rozpoczęcie działalności gospodarczej na 1tys. mieszkańców Udział zadłużonych działających firm Itd. ! Można przedstawić nieograniczoną liczbę zmiennych ale …

Z zestawu cech potencjalnych wybieramy cechy diagnostyczne ale pamiętamy, aby w sposób możliwie pełny charakteryzowały one najważniejsze aspekty badanego zjawiska. Dobór poza statystyczny – w świetle wiedzy merytorycznej stanowią rzeczywiście najważniejsze charakterystyki (m. heurystyczne np. burza mózgów, m.delficka, ankieta, eksperci)

!! Wybór metody zależy od metody grupowania obiektów 2. Kryteria statystyczne (warunki formalne) A. duża zmienność cech względem obiektów (klasyczny współczynnik zmienności) B. słabe skorelowanie cech diagnostycznych i mocne z cechami nie wybranymi do analizy względem obiektów (współczynnik korelacji) lub słabe podobieństwo cech diagnostycznych i mocne z cechami nie wybranymi do analizy względem obiektów (miara odległość między cechami): Clk=1-|rlk|, Clk=1-rlk2 Clk=(1-rlk2)0,5) !! Wybór metody zależy od metody grupowania obiektów

B. Metody wyboru cech diagnostycznych: Metoda parametryczna Z.Hellwiga Wyznaczamy macierz korelacji między potencjalnymi cechami diagnostycznymi. Kryterium klasyfikacji cech jest parametr r* (krytyczna wartość współczynnika korelacji). Sposób formalny – cechy ze wstępnej listy mogą być ze sobą podobne i tworzą one skupiska (podzbiory cech). Skupiska te zawierają jedną cechę centralną oraz wiele cech satelitarnych, jeżeli r> r*. Razem tworzą one zaś cechy systemowe. Cechy pozostające poza skupiskiem to cechy izolowane.

Algorytm znajdowania skupień cech: W macierzy korelacji cech wyznacza się sumę, w wartości bezwzględnej, elementów dla każdej kolumny (lub wiersza). Wyszukuje się kolumnę o największej sumie wartości W danej kolumnie wyróżnia się te elementy, które spełniają nierówność r> r* i odpowiadające im wiersze. Cechę odpowiadającą wyróżnionej kolumnie uważa się za cechę centralną, a cechy odpowiadające wyróżnionym wierszom za cechy satelitarne. Z macierzy R skreśla się wyróżnione kolumny i wiersze i otrzymuje się zredukowaną macierz korelacji. Procedurę powtarzamy aż do wyczerpania zbioru cech !! Gdy r* jest bliskie jedności to dostajemy dużą liczbę skupień o małej liczebności

1 2 3 4 Krok I 1,00 0,07 0,02 0,18 0,14 0,11 0,76 0,36 Ʃ 1,27 1,32 1,52 2,05 r> r* 0,7 Wartość największa w wierszu 1 2 3 4 Krok II 1,00 0,07 0,02 0,18 0,14 0,11 -0,02 -0,14 0,76 0,36 Ʃ 1,27 1,32 1,52 2,05 Wartość największa w kolumnie Wyrzucamy

2. Metoda - Integralny wskaźnik pojemności informacji Z.Hellwiga Do obliczeń wykorzystuje współczynniki korelacji między zmiennymi: 1. wektor współczynników korelacji R*(rj) między zmienną objaśnianą a zmiennymi objaśniającymi oraz 2. macierz współczynników korelacji R (rij) między zmiennymi objaśniającymi. Celem obliczeń jest znalezienie najlepszej kombinacji zmiennych objaśniających, czyli kombinacji o największym integralnym wskaźniku pojemności informacyjnej. Wybierane są zmienne objaśniające silnie skorelowane ze zmienną objaśnianą oraz słabo skorelowane między sobą.

Etapy wyliczeń: 1. obliczamy indywidualne wskaźniki pojemności informacyjnej dla wszystkich kombinacji: 2. obliczamy integralny wskaźnik pojemności informacyjnej dla wszystkich kombinacji: 3. wybieramy kombinację posiadającą największy integralny wskaźnik pojemności informacyjnej H. 4. zmienne z tej kombinacji powinny zostać wykorzystane do budowy przyszłego modelu. gdzie: k – numer kombinacji ( k=1, …, l), j – numer zmiennej w kombinacji (j=1, …, m)

Własności metody: ● im większe wartości tym słabiej skorelowane cechy diagnostyczne między sobą ● im większa wartość tym mocniej skorelowane cechy diagnostyczne z pozostałymi ● należy do przedziału <0, 1> ● wielowariantowość

3. Metoda odległości między cechami: Klasyfikacja cech diagnostycznych z wykorzystaniem metod taksonomicznych W grupach cechy jak najbardziej podobne Z grup tych wybieramy reprezentantów grup typologicznych i uznajemy je jako cechy diagnostyczne

3. Zebranie danych statystycznych   X11 X12 X1k O2 O1 X= O3 XN1 XN2 XNK Może wystąpić konflikt wskazań poszczególnych cech tzn. że dla obiektu O1 cecha X ma mniejszą wartość jak dla obiektu O3 ale dla cechy Y …

Wagi dla cech: Ocena merytoryczna Ocena statystyczna: powinny być: ● unormowane <0,1>, ● przypisane wszystkim cechom diagnostycznym, ● im większa wartość wagi tym większe znaczenie danej cechy ●wskaźnik struktury ●stopień skorelowania ●zmienność cech

Rangi dla cech: 1. Uporządkowanie cech od najważniejszej do najmniej istotnej dla opisu zjawiska i przypisanie im rang będących wartościami kolejnych liczb naturalnych ! Nie można nadać tej samej rangi kilku cechom 2. Podział punktów względem cech tj. tyle punktów ile cech.

Porównywalność cech: A. Dane ilościowe (różne jednostki miar) ! Wybór metody zależy od stosowanej m.taksonomicznej oraz m.podobieństwa Standaryzacja – dla każdej cechy średnia jest równa zero, a odchylenie standardowe 1 Zakładamy, że każda cecha ma takie samo znaczenie.

2. Normalizacja (przekształcenie ilorazowe) – cechy zachowują zróżnicowaną wariancję 3. Unitaryzacja – cechy mają stały obszar zmienności <0, 1> B. Dla zmiennych dychotomicznych czy rangowych nie dokonujemy przekształceń

4. Ocena podobieństwa klasyfikowanych obiektów Do syntetycznej oceny podobieństwa obiektów opisywanych przez wiele cech służą różnie definiowane miary podobieństwa.

Ocena podobieństwa obiektów wielocechowych – w jakim stopniu porównywane obiekty są do siebie podobne ze względu na wartości opisujących je cech diagnostycznych 1. Miary odległości – im mniejsze wartości tym mniejsze różnice między w wartościami cech diagnostycznych w wyróżnionych obiektach a wiec większe podobieństwo tych jednostek dij=d(Oi,Oj) 2. Wskaźniki podobieństwa – im większe wartości tym większe podobieństwo porównywanych jednostek ze względu na opisujące je cechy cij=c(Oi,Oj) dij=1-cij

Sposób konstruowania miar podobieństwa obiektów zależy od charakteru cech opisujących klasyfikowane obiekty oraz od rodzaju skal pomiarowych cech !

Małgorzata Podogrodzka, SGH ISiD Trzy główne skale pomiarowe: Skala interwałowa (stosunkowa) gdy: można ją uporządkować, można obliczyć o ile jeden element jest większy od drugiego i różnica (iloraz) tych elementów ma interpretację w świecie rzeczywistym (masa obiektu [kg], powierzchnia obiektu [m], czas [lata], prędkość [km/h]). Skala porządkowa gdy: można ją uporządkować, czyli ma znaczenie kolejność występowania elementów, nie da się w sensowny sposób określić różnicy ani ilorazu między dwiema wartościami (wykształcenie, kolejność zawodników na podium). Skala nominalna gdy: nie można jej uporządkować, czyli nie istnieje wynikające z natury danego zjawiska uporządkowanie, nie da się w sensowny sposób określić różnicy ani ilorazu między dwiema wartościami (płeć, kraj zamieszkania). Małgorzata Podogrodzka, SGH ISiD

Odległości między obiektami dla cech ilościowych Metryka Euklidesowa: dij=[Ʃ(zik-zjk)2]0,5 dij=[Ʃwi∙(zik-zjk)2]0,5 Metryka miejska dij=Ʃ|zik-zjk| dij=Ʃwi∙|zik-zjk| ! O odległości decydują w większym stopniu cechy z większymi wagami

3. Współczynnik dywergencji P.I.Clarka ! Postuluje się, aby różnice współrzędnych obliczone z większych wartości miały większą wagę niż różnice obliczone z wartości mniejszych. B. Odległości między obiektami dla cech są rangowe - współczynnik dywergencji P.I.Clarka

B. Wskaźniki podobieństwa dla cech jakościowych (dychotomicznych) Oi \ Oj 1 ogółem Kij(1) Kij(1,0) Kij(1) + Kij(1,0) Kij(0,1) Kij(0) Kij(0,1) + Kij(0) Kij(1) + Kij(0,1) Kij(1,0) + Kij(0) K Kij(1) – to taka liczba wariantów cech w obiektach Oi oraz Oj że xik=xjk=1 oraz Kij(0) gdzie xjk=xik=0 Kij(1,0) – to taka liczba wariantów cech w obiektach Oi oraz Oj że xik=1 a xjk=0 oraz Kij(0,1) gdzie xjk=0 oraz xik=1

b, c to parametry przyjmujące wartość: b=0 lub 1, c=0,5 lub 1 lub 2 Zazwyczaj przyjmujemy b=1, c=1

C. Miary uniwersalne – różne rodzaje cech 1. Pomijamy ich charakter i traktujemy jako cechy ilościowe 2. Sprowadzamy wszystkie cechy do jednego ustalonego typu 3. Stosujemy uniwersalne miary podobieństwa, które stanowią wypadkową dla miar podobieństwa dla poszczególnych rodzajów cech cij=f(cij(1), cij(2), …, cij(k))

Uniwersalny wskaźnik podobieństwa - I.C.Gower wskaźniki podobieństwa obiektów i-tego i j-tego ze względu na cechę X waga cechy X zależna od jej charakteru Jeżeli zmienne są typu zero-jedynkowego to: cijk=1 jeżeli obiekt (i) i obiekt (j) mają jednakowe stany cijk=0 jeżeli obiekt (i) i obiekt (j) mają różne stany a jeżeli zmienne są typu jakościowego to: cijk=1-(zik-zjk)/Rk Rk - rozstęp

4. Inne podejście Wyróżniono H cech opisujących każdy obiekt 4. Inne podejście Wyróżniono H cech opisujących każdy obiekt. Dla każdej z cech wyznaczamy oddzielnie wskaźnik podobieństwa obiektów, ale unormowany. Tym samym otrzymano H macierzy wskaźników podobieństwa. Zakładając, że cechy diagnostyczne są jednakowo ważne mamy: Jest to średnia ważona wskaźników podobieństwa dla poszczególnych cech. K to liczba wszystkich cech.

K2 oznacz liczbę pozostałych cech 5. Kolejna propozycja: K1 oznacz liczbę cech zero-jednynkowych oraz jakościowych, nieuporządkowanych według ich stopnia intensywności K2 oznacz liczbę pozostałych cech Gdzie K(ij) to liczba cech zero-jedynkowych oraz jakościowych nieuporządkowanych o identycznych wariantach w obiektach O(i) oraz O(j) dla pozostałych cech

Problem brakującej informacji: Interpolacja i ekstrapolacja trendu Wnioskowanie na podstawie modelu regresji wielorakiej Metoda najbliższego sąsiedztwa Jeżeli się nie da, to wprowadzamy poprawkę do miary odległości (K/M)0,5 K>M gdzie K to wszystko wiemy o obiektach, M komplet informacji tylko dla M obiektów

Metody łączenia obiektów (grup obiektów): 1. Metoda pojedynczego wiązania (najbliższego sąsiedztwa). Odległość między dwoma skupieniami jest określona przez odległość między dwoma najbliższymi obiektami należącymi do różnych skupień. 2. Metoda pełnego wiązania (najdalszego sąsiedztwa). Odległość między skupieniami jest określana przez największą z odległości między dwoma obiektami należącymi do różnych skupień. Stosowana kiedy obiekty układają się w naturalne oddzielone grupki, a nie wzdłuż linii.

3. Metoda średnich połączeń 3. Metoda średnich połączeń. Odległość między dwoma skupieniami oblicza się jako średnią odległość między wszystkimi parami obiektów należących do dwóch różnych skupień. Metoda efektywna, jeżeli obiekty formują naturalnie oddzielone skupiska, a nie charakter linii. 4. Metoda średnich połączeń ważonych. Identyczna jak metoda średnich połączeń z tym, że uwzględnia się liczbę obiektów zawartych w grupie. Liczności skupień są wyraźnie nierówne.

5. Metoda środków ciężkości 5. Metoda środków ciężkości. Środek ciężkości skupienia jest średnim punktem w przestrzeni wielowymiarowej zdefiniowanej przez te wymiary. Odległość między dwoma skupieniami jest określona jako różnica między środkami ciężkości. 6. Metoda ważonych środków ciężkości (mediany). Identyczna jak poprzednia z tym, że w obliczeniach wprowadza się ważenie grup, aby uwzględnić różnice między liczebnościami obiektów w skupieniu. Znaczne różnice w liczbie obiektów w skupieniu. 7. Metoda Warda. Do wyznaczenia odległości między skupieniami wykorzystuje podejście analizy wariancji. tj. zmierza do minimalizacji sumy kwadratów odchyleń dowolnych dwóch skupień, które mogą zostać uformowane na każdym etapie. Metoda najbardziej efektywna, chociaż zmierza do tworzenia skupień o małej liczebności obiektów.