Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Seminarium magisterskie Zajęcia trzecie – modele zmiennej nieciągłej.

Podobne prezentacje


Prezentacja na temat: "Seminarium magisterskie Zajęcia trzecie – modele zmiennej nieciągłej."— Zapis prezentacji:

1 Seminarium magisterskie Zajęcia trzecie – modele zmiennej nieciągłej.

2

3 Modele bardziej skomplikowane niż OLS  Można sobie z łatwością wyobrazić liniowy model np.. prawdopodobieństwa, co można zapisać jako P(y = 1|x) =  0 + x   Sęk w tym, że wartości dopasowane niekoniecznie muszą się zawierać w przedziale między 0 a 1.  By uniknąć tego problemu, można modelować model prawdopodobieństwa (czyli funkcji), jako G(  0 + x  ), gdzie 0

4 Model probitowy i logitowy  Model probitowy Wybieramy sobie G(z), jako standardową funkcję dystrybuanty (czyli skumulowanego rozkładu, tj. cdf) G(z) = F(z) ≡ ∫f(v)dv, gdzie f(z) ma rozkład normalny f(z) = (2p) -1/2 exp(-z 2 /2) Nie jest liniowy względem parametrów, więc nie spełnione jest założenie GM, więc OLS nie jest dobry (BLUE) – stosuje się MLE Ma to swoje zalety (odporność) i wady (nie da się tak samo jak w przypadku MNK określić, że jest to dobry/zły model).  Model logitowy Można też założyć inny kształt G(z) – funkcje logistyczną G(z) = exp(z)/[1 + exp(z)] = Λ(z)  Obie funkcją mają podobny kształt – rosną z z, najszybciej w okolicach 0

5 Słabości, siły i interpretacja  Nie ma żadnego ścisłego ogólnego powodu, by preferować jedno albo drugie  Trochę inaczej się je estymuje, ale od strony technicznej – nie użytkownika  Interpretacja: Najbardziej nas obchodzi „wpływ” x na P(y = 1|x), czyli ∂p/ ∂x Ponieważ to nie jest model liniowy, to współczynnik o tym nie mówi – tzw. efekty krańcowe ∂p/ ∂x j = g(b 0 +xb)b j, gdzie g(z) is dG/dz Normalnie: wolno interpretować tylko znaki i istotność

6 Interpretation (continued)  Clear that it’s incorrect to just compare the coefficients across the three models  Can compare sign and significance (based on a standard t test) of coefficients, though  To compare the magnitude of effects, need to calculate the derivatives, say at the means  Stata will do this for you in the probit case

7 Seminarium magisterskie - zajęcia 37

8 Seminarium magisterskie - zajęcia 38

9 Seminarium magisterskie - zajęcia 39

10 Seminarium magisterskie - zajęcia 310

11 Seminarium magisterskie - zajęcia 311 Przykład: Train (2002) Przyjmijmy, że są dwa typy osób - a oraz b – tak samo reprezentowane w populacji, przy czym zachodzi wówczas ale

12 Seminarium magisterskie - zajęcia 312

13 Seminarium magisterskie - zajęcia 313 Wnioski z tego przykładu  P(V) będzie zaniżone, gdy częstotliwość jest mała w próbie i odwrotnie, gdy częstotliwość jest duża  By ekstrapolować wnioski na całą populację, trzeba się zawsze zastanowić: do jakiego stopnia ta populacja jest reprezentatywna czy nie było jakiegoś „dobierania próby”  Wielkości oszacowań parametrów w modelach tego typu nie odzwierciedlają realnej skali oddziaływania

14 Seminarium magisterskie - zajęcia 314

15 Seminarium magisterskie - zajęcia 315 Efekty krańcowe W modelu logitowym W modelu probitowym Efekty siłą rzeczy największe tam gdzie środek rozkładu, najmniejsze na jego ogonach Co ma sens: czynniki egzogeniczne są ważne tam, gdzie faktycznie „wybiera się” którąś z alternatyw

16 Seminarium magisterskie - zajęcia 316 Logit i probit nie różnią się zasadniczo…

17 Seminarium magisterskie - zajęcia 317 Przykład: Green i nauczanie  Porównanie modeli wyestymowanych przy różnych założeniach dotyczących natury rozkładu LPM, logit, probit oraz Weibull  Zmienna zależna: czy wyniki studenta poprawiły się pomiędzy dwoma okresami egzaminów  Zmienne niezależne: GPA: wyjściowa średnia (przed przyjściem do danej szkoły) TUCE: wynik w pierwszej sesji egzaminacyjnej, PSI: kontakt z nowymi metodami dydaktycznymi

18 Seminarium magisterskie - zajęcia 318 Przykład: Greene i nauczanie…

19 Seminarium magisterskie - zajęcia 319 Przykład: niedożywienie w Vietnamie (dzieci <10 lat)

20 Seminarium magisterskie - zajęcia 320 Jak to działa w STATA  Standardowy syntax: Zamiast reg piszemy logit/probit Otrzymanie efektów krańcowych: mfx compute Można pójść na skróty: dprobit  Można także standardowo korzystać z opcji predict Można obejrzeć „dopasowane” prawdopodobieństwo i porównać z prawdziwym Można szacować cząstkowe „dopasowane” prawdopodobieństwa (w podpróbach albo po cechach), żeby zwiększać interpretowalność wyników

21 Seminarium magisterskie - zajęcia 321 Jak wiedzieć, czy to dobry model…  Estymacja MLE a nie OLS, więc nie można używać R2.  Cały czas zostają kryteria informacyjne, ale one tylko powiedzą, który model „mniej zły” a nie czy są dobre  Podobnie tzw. log-likelihood, L w estymacji MLE Porównać modele tak jak z testem F, czyli model z restrykcjami, model bez i LR = 2( L ur – L r ) ~  2 q  Jest tzw. pseudo-R2=1 – L ur / L r, ale jego interpretacja nie jest taka, jak R2  Można popatrzeć, czy przewidziane prawdopodobieństwo jest względnie bliskie realizacji: prob>.5 => y=1 i vice versa  Powstają dwie miary: dobre zgadywanie 0 i dobre zgadywanie 1

22 Seminarium magisterskie - zajęcia 322 Modele zmiennej latentnej  Czasem wiemy, że dzieje się coś ciągłego, ale widzimy to tylko binarnie – wtedy mowa o tzw. modelach zmiennej latentnej  Jest sobie jakaś zmienna y*, którą modelujemy jako y* = b 0 +xb + u, ale obserwujemy tylko y = 1, if y* > 0 oraz y =0 if y* ≤ 0,  Przykład: zatrudnialność, odporność organizmu, itp  Estymacja probit/logit nie będzie adekwatna – są na to modele  W szczególności, ta nieobserwowana zmienna y* nie musi przejawiać się w formule 0/1 y* = xb + u, u|x ~ Normal(0,s 2 ) ale obserwujemy tylko y = max(0, y*)  To się nazywa model TOBITOWY  Wykorzystujemy MLE by uzyskać zarówno b jak i s  Co ważne b szacuje oddziaływanie x na y*, czyli zmienną latentną – nie na y

23 Seminarium magisterskie - zajęcia 323 Interpretacja w modelu tobitowym  Jeśli interesuje nas zaiste y* - interpretujemy normalnie  Jeśli jednak interesuje nas y a nie y* (większość przypadków) pojawia się kłopot: E(y|x) = F(xb/s)xb + sf(xb/s), więc ∂E(y|x)/∂x j = b j F(xb/s)  Jeśli więc nie jest spełnione założenie o normalności składnika losowego lub o homoscedastycznośći, to całe to oszacowanie traci sens  Dlatego powstały modele, które trochę próbują się na ten problem uodpornić – tzw. ZMIENNE OBCIĘTE  W ogólniejszym przypadku: y = xb + u, u|x,c ~ Normal(0,s 2 ), ale obserwujemy tylko w = min(y,c) albo w = max(y,c)  Jest jeszcze możliwość zmiennej WYBRAKOWANEJ (ang. truncated regression), gdzie nie została zmienna ocenzurowana, lecz po prostu jej nie ma powyżej/poniżej pewnej wartości.

24 Seminarium magisterskie - zajęcia 324 Jak to się robi w STATA  Standardowe komendy: tobit y cala_lista_x, ll(17) ul(24) truncreg y cala_lista_x, ll(0)  Zawsze mfx compute  Interesujące opcje predict: pr(a,b) => Pr(a < y < b) e(a,b) => E(y | a < y < b) ystar(a,b) => E(y*),y* = max{a, min(y,b)}  Jeśli zmienna jest „wybrakowana” w nielosowy sposób mamy pewien problem…

25 Seminarium magisterskie - zajęcia 325 Problem z losowością próby…  Jeśli nie ma pewnych obserwacji w sposób nielosowy, estymator MLE albo OLS są obciążone.  Mechanizm jest podobny to problemu zmiennej pominiętej, gdzie pomijaną zmienną jest to … jak dobrano do próby:  E(y|z, s = 1) = xb + rl(zg), gdzie l(c) to tzw. odwrotność ilorazu Millsa : f(c)/F(c)  Model Heckmana dla przykładu: bezrobocie a zarobki

26 Seminarium magisterskie - zajęcia 326 Problem z losowością próby…  Potrzebujemy estymatora l, by wyestymować model probitowy s (czyli czy obserwujemy y czy nie) bazując na zmiennych z  Na podstawie tych estymatorów (g) możemy razem z danymi z oszacować odwrotność ilorazu Millsa  Jak to już mamy, to można zrobić normalną regresję y na x i oszacowanie l – tak uzyskane oszacowania b będą zgodne  Ważne: x musi być podzbiorem z, w innym przypadku nie ma właściwej identyfikacji Stąd problemy ze stabilnością rozwiązań i tzw. instrumentami  Heckman w późniejszym artykule wykazał, że taka dwustopniowa estymacja (równanie po równaniu) daje nieefektywność (zbyt duże błędy standardowe) wobec łącznie wyestymowanego układu równań. Stąd rozróżnienie na tzw. two-step oraz one-step 2PM contd.Sample selection model (SSM)

27 Seminarium magisterskie - zajęcia 327 Jak to zrobić w STATA  Oszacowanie modelu Heckmana jest proste, jeśli mamy te zmienne, co potrzeba: generate wageseen = (wage <.) heckman wage educ age, select(wageseen = married children educ age) heckman wage educ age, select(married children educ age) twostep  Pytanie, czy to jest dobry model - czy zmienna za stan cywilny jest dobrym instrumentem…  Można także robić to ręcznie (przy zastrzeżeniu nieefektywności) probit active all_activity_variables predict p1, xb generate phi = (1/sqrt(2*_pi))*exp(-(p1^2/2)) generate invmills = phi/normal(p1) reg ln_wage all_wage_variables invmills if WE==1

28 Seminarium magisterskie - zajęcia 328 Przykład: wydatki na leczenie w Vietnamie

29 Seminarium magisterskie - zajęcia 329 Podsumowanie  Zmienna zależna może być bardzo pokręcona: Ze złą jakością danych ekonometria nic nie pomoże Ze źle zebranymi danymi czasem może pomóc:  Modele szacowane MLE (probit/logit/tobit/trunc) pozwalają dostać sensowne oszacowania parametrów, ale zostają problem heteroscedastyczności i ewentualne skutki tzw. małej próby  Model korekty Heckmana pozwala rozwiązać problem obciążenia estymatorów, jeśli próba nielosowa (najczęściej!) ale: Trzeba mieć dobry pomysł na instrument! Trzeba się nieźle nieraz namęczyć, żeby algorytm dawał zgodne oszacowania


Pobierz ppt "Seminarium magisterskie Zajęcia trzecie – modele zmiennej nieciągłej."

Podobne prezentacje


Reklamy Google