Modelowanie zmiennej licznikowej

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

Analiza współzależności zjawisk
Obserwowalność System ciągły System dyskretny
Analiza wariancji jednoczynnikowa
Rozdział V - Wycena obligacji
WYKŁAD 6 ATOM WODORU W MECHANICE KWANTOWEJ (równanie Schrődingera dla atomu wodoru, separacja zmiennych, stan podstawowy 1s, stany wzbudzone 2s i 2p,
BUDOWA MODELU EKONOMETRYCZNEGO
dr Małgorzata Radziukiewicz
Model ciągły wyceny opcji Blacka – Scholesa - Mertona
Modele logitowe i probitowe
Metody ekonometryczne
Metody ekonometryczne
Statystyka w doświadczalnictwie
Uogólniony model liniowy
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
BIOSTATYSTYKA I METODY DOKUMENTACJI
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Prognozowanie na podstawie modelu ekonometrycznego
Wprowadzenie do statystycznej analizy danych (SPSS)
Modele (hipotezy) zagnieżdżone
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Przykładowe zastosowania równania Bernoulliego i równania ciągłości przepływu 1. Pomiar ciśnienia Oznaczając S - punkt spiętrzenia (stagnacji) strugi v=0,
Klasyfikacja systemów
Jednoczynnikowa analiza wariancji (ANOVA)
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Człowiek - najlepsza inwestycja Projekt K apitał ludzki i społeczny jako czynniki rozwoju regionu łódzkiego" Dr Paweł Kubiak.
Analiza współzależności cech statystycznych
Symulacja zysku Inwestycje finansowe. Problem zKasia postanowiła oszczędzać na samochód i wybrała fundusze inwestycyjne zKasia chce ulokować w funduszach.
Rozkłady wywodzące się z rozkładu normalnego standardowego
Testy nieparametryczne
Analiza wariancji jednoczynnikowa.
Barbara Bobrowicz Konferencja: Praca zawodowa a obowiązki rodzinne
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
Analiza wpływu regulatora na jakość regulacji (1)
Hipotezy statystyczne
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
-17 Oczekiwania gospodarcze – Europa Wrzesień 2013 Wskaźnik > +20 Wskaźnik 0 a +20 Wskaźnik 0 a -20 Wskaźnik < -20 Unia Europejska ogółem: +6 Wskaźnik.
Ekonometryczne modele nieliniowe
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
Prawo malejącej krańcowej stopy zwrotu Prawo DMP
Regresja wieloraka.
Obliczalność czyli co da się policzyć i jak Model obliczeń sieci liczące dr Kamila Barylska.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VI Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Testowanie hipotez statystycznych
Dopasowanie rozkładów
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Ekonometria stosowana
D. Ciołek EKONOMETRIA – wykład 2
Wykład 5 Przedziały ufności
Weryfikacja hipotez statystycznych
Model ekonometryczny Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Wstęp do regresji logistycznej
Mikołaj Czajkowski Wiktor Budziński
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Korelacja i regresja liniowa
Zapis prezentacji:

Modelowanie zmiennej licznikowej

Zmienna licznikowa Y= 0, 1, 2, 3, ... Na przykład liczba: przybyć klientów na godzinę do małego sklepu, zgłoszeń telefonicznych, zachorowań w danej grupie wypadków w ciągu dnia na danym skrzyżowaniu liczba bramek strzelonych w czasie meczu liczba dzieci w rodzinie Zmienna dyskretna przyjmująca małe wartości

Model regresji Poissona Każda obserwacja Yi pochodzi z rozkładu Poissona z parametrem λi, który jest powiązany ze zmiennymi objaśniającymi xi.

Rozkład Poissona

Parametr λ Najczęściej stosowaną funkcją uzależniającą parametr λi od zmiennych xi jest model log-liniowy:   Gdzie x’iβ jest funkcją liniową zawierającą wyraz wolny. Warunkowa wartość oczekiwana jak i warunkowa wariancja są równe:

Każda obserwacja z innego rozkładu Poissona y λ1 λ2 λ3 λ4 λ5 x

Metoda szacowania Parametry modelu są szacowane metodą największej wiarygodności, gdzie maksymalizowana jest funkcja:

Rozkład Poissona Mimo, że model Poissona do pewnych kategorii danych wydaje się o wiele bardziej odpowiedni niż inne modele, to jednak wymaga on spełnienia dosyć trudnego założenia: wariancja zmiennej Yi powinna być równa jej wartości oczekiwanej. Jeśli wariancja jest większa od wartości oczekiwanej ( występuje tzw. overdispersion), to estymacje parametrów są nieefektywne <

Przykład 1 Teo, A. H. L. (2005), “Time in delinquency: implications for mortgage lending and MBS”, Briefings in Real Estate Finance VOL.4 NO.4 PP:275–289 Zastosowanie modelu Poissona do analizy nie spłacanych kredytów hipotecznych Yi - Liczba miesięcy nie spłacania rat kredytu przez gospodarstwa domowe w Singapurze ma rozkład Poissona Zbadanych zostało 647 kredytów hipotecznych, z których 133 miało w latach 1980 - 1999 okres zawieszenia spłaty rat.   O parametrze λi danego gospodarstwa domowego decydują zmienne objaśniające xi : zmienne charakteryzujące sam kredyt (stosunek kredytu do wartości nieruchomości, okres kredytowania, itp.), zmienne charakteryzujące nieruchomość (powierzchnia, piętro itp.) oraz zmienne charakteryzujące kredytobiorcę (stosunek raty do dochodu, długość zatrudnienia, wiek itp.).

Przykład 1 Zastosowanie modelu Poissona do analizy nie spłacanych kredytów hipotecznych

Przykład 2 Cheung, U. S. L., K.K.W. Yau, Y.V. Hui (2004), “The Effects of Attributes on the Repeat Sales Pattern of Residential Property in Hong Kong”, Journal of Real Estate Finance and Economics, 29:3, 321-339 Zastosowanie modelu Poissona do analizy częstotliwości sprzedaży mieszkań Yi - liczba powtarzających się sprzedaży mieszkań w pewnej inwestycji w Honk Kongu w ciągu ośmiu lat. Większość mieszkań w tej inwestycji nie była ani razu powtórnie sprzedana (nabywca kupił je od dewelopera i odtąd w nim mieszkał), około 20% mieszkań było sprzedanych powtórnie tylko raz, około 10% zmieniło właściciela dwukrotnie. Przypadki większej liczby sprzedaży tego samego mieszkania były o wiele rzadsze. Zmienne objaśniające xi: np. piętro na jakim się znajduje mieszkanie, widok na morze

Przykład 2 Zastosowanie modelu Poissona do analizy częstotliwości sprzedaży mieszkań

Przykład 3

Przykład 4

Przykład 5 Plik -> liczba dzieci.dta Zastosowanie modelu Poissona do analizy wpływu różnych czynników na liczbę dzieci w gospodarstwie domowym Plik -> liczba dzieci.dta Yi - jest liczbą dzieci w wieku do 6 lat w gospodarstwie domowym.

Obserwowany rozkład zmiennej histogram dzieci_do6, discrete -> rozkład zmiennej zależnej

STATA – model regresji Poissona bycie małżeństwem, posiadanie domu lub mieszkania na własność oraz wiek zwiększają oczekiwaną liczbę dzieci w gospodarstwie domowym, dochód jest nieistotny

Interpretacja Z wykorzystaniem ilorazu (factor change): Oczekiwana liczba dzieci w wieku do 6 lat w gospodarstwie domowym, które jest małżeństwem jest 5 razy większa (exp(1,6)=4,96) niż w gospodarstwie, które nie jest małżeństwem.

Interpretacja Efekt krańcowy Efekt krańcowy dla małżeństwa wynosi 0,66, co oznacza, że fakt bycia małżeństwem zwiększa oczekiwaną liczbę dzieci o 0,66 (dla średnich wartości pozostałych zmiennych objaśniających)

Efekt krańcowy

Model regresji ujemnej dwumianowej Negative binomial model (negbin) Uogólnienie modelu Poissona Można zastosować wtedy, gdy wariancja zmiennej licznikowej jest większa niż jej wartość oczekiwana. < Przykład Liczba bezpośrednich inwestycji zagranicznych w poszczególnych rejonach państwa. Możemy próbować modelować liczbę inwestycji znając cechy charakterystyczne danego rejonu, jednak może się zdarzyć, że sam fakt lokalizacji jednej firmy przyciąga też inne. Nie jesteśmy wtedy w stanie dokładnie oszacować jaki jest wpływ zmiennych xi na parametr λ. Powstaje wtedy ”nadmierne rozproszenie” czyli pewna forma heteroskedastyczności.

Model regresji ujemnej dwumianowej Uwzględnia nie obserwowaną heterogeniczność obserwacji. λi = exp(β0 + β1xi1 + β2xi2) Model Poissona ~ λi = exp(β0 + β1xi1 + β2xi2 + εi) = =exp(β0 + β1xi1 + β2xi2) exp(εi)= =exp(β0 + β1xi1 + β2xi2)ui zwiększona wariancja (niespełnione założenie)

Model regresji ujemnej dwumianowej Jeśli zmienna licznikowa ma rozkład ujemny dwumianowy, to: Parametr α określa poziom rozproszenia (dispersion). Jeśli α=0, modele regresji ujemnej dwumianowej redukuje się do modelu poissona

Model regresji ujemnej dwumianowej zmienne stałe

NBREG - parametry

Test na overdispersion Hipoteza zerowa: = 0 (brak nadmiernego rozproszenia) Hipoteza alternatywna: > 0 (nadmierne rozproszenie) Test polega na porównaniu logarytmów modelu regresji Poissona (MP) i modelu regresji ujemnej dwumianowej (MRUD) Nie ma podstaw do odrzucenia hipotezy zerowej -> nie występuje zjawisko nadmiernego rozproszenia

Model z podwyższoną liczbą zer Zero-inflated model Czasem zmienna licznikowa może mieć wyjątkowo dużą proporcję liczby zer. Wtedy model regresji Poissona jak i model regresji ujemnej dwumianowej będą niedoszacowywać zera. Przykład zmiennej: liczba wad w oprogramowaniu (zazwyczaj zero)

Model z podwyższoną liczbą zer Model dzieli najpierw wszystkie obserwacje na dwie kategorie: IDEAL=1 obserwacje, dla których zmienna licznikowa z pewnością przyjmie wartość 0 IDEAL=0 obserwacje, które mają szanse przyjąć wartość 0, ale częściej przyjmą wartość większą niż 0 (nie-idealne moduły oprogramowania, w których liczba wad ma pewny stochastyczny rozkład, w tym przypadku rozkład Poissona).

Model z podwyższoną liczbą zer Przynależność do grupy IDEAL może być modelowana za pomocą modelu logitowego lub probitowego Warunkowe prawdopodobieństwo, że zmienna Y przyjmie wartość yi, gdy obserwacja nie należy do grupy IDEAL: Ogólnie funkcja prawdopodobieństwa obserwowanej zmiennej licznikowej:

Model z podwyższoną liczbą zer

Model z podwyższoną liczbą zer Test Vuong’a Porównuje model Poissona z podwyższoną liczbą zer ze zwykłym modelem Poissona. Polega na porównaniu prognozowanych przez oba modele prawdopodobieństw P1 – model z podwyższoną liczbą zer, P2 – zwykły model Poissona, N – liczba obserwacji, średnia mi, odchylenie standardowe mi V ma rozkład normalny, V>1,96 – pierwszy model lepszy, V<-1,96 – drugi model lepszy

Model z podwyższoną liczbą zer V>1,96 zatem model z podwyższoną liczbą zer lepszy

Model z podwyższoną liczbą zer Jeśli w gospodarstwie domowym co najmniej dwie osoby pracują, to prawdopodobieństwo znalezienia się w grupie A (brak dzieci) spada. Czyli zwiększa się prawdopodobieństo posiadania dzieci (są na to warunki materialne) Jednak fakt, że co najmniej dwie osoby pracują zmniejsza oczekiwaną liczbę dzieci (być może brak czasu na wychowywanie większej liczby dzieci ze względu na karierę zawodową kobiety

Zadania z kolokwium (2009 – 2011)

Zadanie 1

odpowiedzi 1. chemia 2. medycyna itd. Nie jest Jeden doktorant więcej -> oczekiwana liczba patenów rośnie o 9% vuong

Zadanie 2 Odpowiedzi Większa liczba miesięcy zmniejsza prawdopodobieństwo bezwypadkowości (inflate), zwiększa oczekiwaną liczbę wypadków (poisson) Statystyka testu > 1,96 więc lepiej dopasowany jest model uwzględniający podwyższoną liczbę zer w zmiennej objaśnianej Wariancja zmiennej objaśnianej jest większa od wartości oczekiwanej tc

Zadanie 3

Odpowiedzi Zmniejsza się szansa, że ani jednego dnia nie poświęca na aktywny wysiłek fizyczny. Zmniejsza się też oczekiwana liczba dni aktywnego wysiłku (co prawda zmienna jest istotna na poziomie 10%) Wzrost wartości zmiennej o jeden stopień (pogorszenie stanu zdrowia) powoduje zwiększenie szansy braku jakiegokolwiek wysiłku o 48% Jeśli wiek wzrośnie o 5 lat, to oczekiwana liczba dni wysiłku wzrasta o 9% Z podwyższoną liczbą zer

Zadanie 4 Jak zmieni się oczekiwana liczba pobytów w szpitalu w ciągu roku, jeśli wiek respondenta zwiększy się o 10 lat? 2. Jak zmieni się oczekiwana liczba pobytów w szpitalu w ciągu roku, jeśli roczny dochód respondenta spadnie o 1000 dolarów?

Odpowiedzi Wzrośnie dwukrotnie Wzrośnie 1,5 raza