Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Modelowanie zmiennej licznikowej. /41 Zmienna licznikowa Y= 0, 1, 2, 3,... Na przykład liczba: przybyć klientów na godzinę do małego sklepu, zgłoszeń.

Podobne prezentacje


Prezentacja na temat: "Modelowanie zmiennej licznikowej. /41 Zmienna licznikowa Y= 0, 1, 2, 3,... Na przykład liczba: przybyć klientów na godzinę do małego sklepu, zgłoszeń."— Zapis prezentacji:

1 Modelowanie zmiennej licznikowej

2 /41 Zmienna licznikowa Y= 0, 1, 2, 3,... Na przykład liczba: przybyć klientów na godzinę do małego sklepu, zgłoszeń telefonicznych, zachorowań w danej grupie wypadków w ciągu dnia na danym skrzyżowaniu liczba bramek strzelonych w czasie meczu liczba dzieci w rodzinie Zmienna dyskretna przyjmująca małe wartości 2

3 /41 Model regresji Poissona Każda obserwacja Y i pochodzi z rozkładu Poissona z parametrem λ i, który jest powiązany ze zmiennymi objaśniającymi x i. 3

4 /41 Rozkład Poissona 4

5 /41 Parametr λ Najczęściej stosowaną funkcją uzależniającą parametr λ i od zmiennych x i jest model log-liniowy: Gdzie x ’ i β jest funkcją liniową zawierającą wyraz wolny. Warunkowa wartość oczekiwana jak i warunkowa wariancja są r ó wne: 5

6 /41 Każda obserwacja z innego rozkładu Poissona x y λ1λ1 λ2λ2 λ3λ3 λ4λ4 λ5λ5 6

7 /41 Metoda szacowania Parametry modelu są szacowane metodą największej wiarygodności, gdzie maksymalizowana jest funkcja: 7

8 /41 Rozkład Poissona Mimo, że model Poissona do pewnych kategorii danych wydaje się o wiele bardziej odpowiedni niż inne modele, to jednak wymaga on spełnienia dosyć trudnego założenia: wariancja zmiennej Y i powinna być równa jej wartości oczekiwanej. Jeśli wariancja jest większa od wartości oczekiwanej ( występuje tzw. overdispersion), to estymacje parametrów są nieefektywne < 8

9 /41 Przykład 1 Zastosowanie modelu Poissona do analizy nie spłacanych kredytów hipotecznych Teo, A. H. L. (2005), “Time in delinquency: implications for mortgage lending and MBS”, Briefings in Real Estate Finance VOL.4 NO.4 PP:275–289 Y i - Liczba miesięcy nie spłacania rat kredytu przez gospodarstwa domowe w Singapurze ma rozkład Poissona Zbadanych zostało 647 kredytów hipotecznych, z których 133 miało w latach okres zawieszenia spłaty rat. O parametrze λ i danego gospodarstwa domowego decydują zmienne objaśniające x i : zmienne charakteryzujące sam kredyt (stosunek kredytu do wartości nieruchomości, okres kredytowania, itp.), zmienne charakteryzujące nieruchomość (powierzchnia, piętro itp.) oraz zmienne charakteryzujące kredytobiorcę (stosunek raty do dochodu, długość zatrudnienia, wiek itp.). 9

10 /41 Przykład 1 Zastosowanie modelu Poissona do analizy nie spłacanych kredytów hipotecznych 10

11 /41 Przykład 2 Cheung, U. S. L., K.K.W. Yau, Y.V. Hui (2004), “The Effects of Attributes on the Repeat Sales Pattern of Residential Property in Hong Kong”, Journal of Real Estate Finance and Economics, 29:3, Zastosowanie modelu Poissona do analizy częstotliwości sprzedaży mieszkań Y i - liczba powtarzających się sprzedaży mieszkań w pewnej inwestycji w Honk Kongu w ciągu ośmiu lat. Większość mieszkań w tej inwestycji nie była ani razu powtórnie sprzedana (nabywca kupił je od dewelopera i odtąd w nim mieszkał), około 20% mieszkań było sprzedanych powtórnie tylko raz, około 10% zmieniło właściciela dwukrotnie. Przypadki większej liczby sprzedaży tego samego mieszkania były o wiele rzadsze. Zmienne objaśniające x i : np. piętro na jakim się znajduje mieszkanie, widok na morze 11

12 /41 Przykład 2 Zastosowanie modelu Poissona do analizy częstotliwości sprzedaży mieszkań 12

13 /41 Przykład 3 13

14 /41 Przykład 4 14

15 /41 Przykład 5 Zastosowanie modelu Poissona do analizy wpływu różnych czynników na liczbę dzieci w gospodarstwie domowym Y i - jest liczbą dzieci w wieku do 6 lat w gospodarstwie domowym. Plik -> liczba dzieci.dta 15

16 /41 Obserwowany rozkład zmiennej histogram dzieci_do6, discrete -> rozkład zmiennej zależnej 16

17 /41 STATA – model regresji Poissona bycie małżeństwem, posiadanie domu lub mieszkania na własność oraz wiek zwiększają oczekiwaną liczbę dzieci w gospodarstwie domowym, dochód jest nieistotny 17

18 /41 Interpretacja Oczekiwana liczba dzieci w wieku do 6 lat w gospodarstwie domowym, które jest małżeństwem jest 5 razy większa (exp(1,6)=4,96) niż w gospodarstwie, które nie jest małżeństwem. Z wykorzystaniem ilorazu (factor change): 18

19 /41 Interpretacja Efekt krańcowy Efekt krańcowy dla małżeństwa wynosi 0,66, co oznacza, że fakt bycia małżeństwem zwiększa oczekiwaną liczbę dzieci o 0,66 (dla średnich wartości pozostałych zmiennych objaśniających) 19

20 /41 Efekt krańcowy 20

21 /41 Model regresji ujemnej dwumianowej Uogólnienie modelu Poissona Można zastosować wtedy, gdy wariancja zmiennej licznikowej jest większa niż jej wartość oczekiwana. < Przykład Liczba bezpośrednich inwestycji zagranicznych w poszczególnych rejonach państwa. Możemy próbować modelować liczbę inwestycji znając cechy charakterystyczne danego rejonu, jednak może się zdarzyć, że sam fakt lokalizacji jednej firmy przyciąga też inne. Nie jesteśmy wtedy w stanie dokładnie oszacować jaki jest wpływ zmiennych x i na parametr λ. Powstaje wtedy ”nadmierne rozproszenie” czyli pewna forma heteroskedastyczności. Negative binomial model (negbin) 21

22 /41 Model regresji ujemnej dwumianowej Uwzględnia nie obserwowaną heterogeniczność obserwacji. λ i = exp( β 0 + β 1 x i1 + β 2 x i2 ) λ i = exp( β 0 + β 1 x i1 + β 2 x i2 + ε i ) = = exp( β 0 + β 1 x i1 + β 2 x i2 ) exp(ε i )= = exp( β 0 + β 1 x i1 + β 2 x i2 )u i Model Poissona ~ zwiększona wariancja (niespełnione założenie) 22

23 /41 Model regresji ujemnej dwumianowej Jeśli zmienna licznikowa ma rozkład ujemny dwumianowy, to: Parametr α określa poziom rozproszenia (dispersion). Jeśli α=0, modele regresji ujemnej dwumianowej redukuje się do modelu poissona 23

24 /41 Model regresji ujemnej dwumianowej stałe zmienne 24

25 /41 NBREG - parametry 25

26 /41 Test na overdispersion Hipoteza zerowa: = 0 (brak nadmiernego rozproszenia) Hipoteza alternatywna: > 0 (nadmierne rozproszenie) Test polega na porównaniu logarytmów modelu regresji Poissona (MP) i modelu regresji ujemnej dwumianowej (MRUD) Nie ma podstaw do odrzucenia hipotezy zerowej -> nie występuje zjawisko nadmiernego rozproszenia 26

27 /41 Model z podwyższoną liczbą zer Zero-inflated model Czasem zmienna licznikowa może mieć wyjątkowo dużą proporcję liczby zer. Wtedy model regresji Poissona jak i model regresji ujemnej dwumianowej będą niedoszacowywać zera. Przykład zmiennej: liczba wad w oprogramowaniu (zazwyczaj zero) 27

28 /41 Model z podwyższoną liczbą zer Model dzieli najpierw wszystkie obserwacje na dwie kategorie: IDEAL=1 obserwacje, dla których zmienna licznikowa z pewnością przyjmie wartość 0 IDEAL=0 obserwacje, które mają szanse przyjąć wartość 0, ale częściej przyjmą wartość większą niż 0 (nie-idealne moduły oprogramowania, w których liczba wad ma pewny stochastyczny rozkład, w tym przypadku rozkład Poissona). 28

29 /41 Model z podwyższoną liczbą zer Przynależność do grupy IDEAL może być modelowana za pomocą modelu logitowego lub probitowego Warunkowe prawdopodobieństwo, że zmienna Y przyjmie wartość y i, gdy obserwacja nie należy do grupy IDEAL: Ogólnie funkcja prawdopodobieństwa obserwowanej zmiennej licznikowej: 29

30 /41 Model z podwyższoną liczbą zer 30

31 /41 Model z podwyższoną liczbą zer Test Vuong’a Porównuje model Poissona z podwyższoną liczbą zer ze zwykłym modelem Poissona. Polega na porównaniu prognozowanych przez oba modele prawdopodobieństw P1 – model z podwyższoną liczbą zer, P2 – zwykły model Poissona, N – liczba obserwacji, średnia m i, odchylenie standardowe m i V ma rozkład normalny, V>1,96 – pierwszy model lepszy, V<-1,96 – drugi model lepszy 31

32 /41 Model z podwyższoną liczbą zer V>1,96 zatem model z podwyższoną liczbą zer lepszy 32

33 /41 Model z podwyższoną liczbą zer Jeśli w gospodarstwie domowym co najmniej dwie osoby pracują, to prawdopodobieństwo znalezienia się w grupie A (brak dzieci) spada. Czyli zwiększa się prawdopodobieństo posiadania dzieci (są na to warunki materialne) Jednak fakt, że co najmniej dwie osoby pracują zmniejsza oczekiwaną liczbę dzieci (być może brak czasu na wychowywanie większej liczby dzieci ze względu na karierę zawodową kobiety 33

34 /41 Zadania z kolokwium (2009 – 2011) 34

35 /41 Zadanie 1 35

36 /41 36

37 /41 37 odpowiedzi a.1. chemia 2. medycyna itd. b.Nie jest c.Jeden doktorant więcej -> oczekiwana liczba patenów rośnie o 9% d.vuong

38 /41 Zadanie 2 38 Odpowiedzi a.Większa liczba miesięcy zmniejsza prawdopodobieństwo bezwypadkowości (inflate), zwiększa oczekiwaną liczbę wypadków (poisson) b.Statystyka testu > 1,96 więc lepiej dopasowany jest model uwzględniający podwyższoną liczbę zer w zmiennej objaśnianej c.Wariancja zmiennej objaśnianej jest większa od wartości oczekiwanej d.tc

39 /41 39

40 /41 Zadanie 3 40

41 /41 41 Odpowiedzi a.Zmniejsza się szansa, że ani jednego dnia nie poświęca na aktywny wysiłek fizyczny. Zmniejsza się też oczekiwana liczba dni aktywnego wysiłku (co prawda zmienna jest istotna na poziomie 10%) b.Wzrost wartości zmiennej o jeden stopień (pogorszenie stanu zdrowia) powoduje zwiększenie szansy braku jakiegokolwiek wysiłku o 48% c.Jeśli wiek wzrośnie o 5 lat, to oczekiwana liczba dni wysiłku wzrasta o 9% d.Z podwyższoną liczbą zer

42 /41 1. Jak zmieni się oczekiwana liczba pobytów w szpitalu w ciągu roku, jeśli wiek respondenta zwiększy się o 10 lat? 2. Jak zmieni się oczekiwana liczba pobytów w szpitalu w ciągu roku, jeśli roczny dochód respondenta spadnie o 1000 dolarów? Zadanie 4 42

43 /41 43 Odpowiedzi a.Wzrośnie dwukrotnie b.Wzrośnie 1,5 raza


Pobierz ppt "Modelowanie zmiennej licznikowej. /41 Zmienna licznikowa Y= 0, 1, 2, 3,... Na przykład liczba: przybyć klientów na godzinę do małego sklepu, zgłoszeń."

Podobne prezentacje


Reklamy Google