Seminarium magisterskie Zajęcia trzecie – modele zmiennej nieciągłej.
Modele bardziej skomplikowane niż OLS Można sobie z łatwością wyobrazić liniowy model np.. prawdopodobieństwa, co można zapisać jako P(y = 1|x) = b0 + xb Sęk w tym, że wartości dopasowane niekoniecznie muszą się zawierać w przedziale między 0 a 1. By uniknąć tego problemu, można modelować model prawdopodobieństwa (czyli funkcji), jako G(b0 + xb), gdzie 0<G(z)<1 Podobnym problemem może być tzw. „obcięta” zmienna zależna albo kategoryczna zmienna zależna. Efektem takiego rozumowania są modele klasy logit, probit i tobit, estymowane nie za pomocą OLS lecz MLE.
Model probitowy i logitowy Wybieramy sobie G(z), jako standardową funkcję dystrybuanty (czyli skumulowanego rozkładu, tj. cdf) G(z) = F(z) ≡ ∫f(v)dv, gdzie f(z) ma rozkład normalny f(z) = (2p)-1/2exp(-z2/2) Nie jest liniowy względem parametrów, więc nie spełnione jest założenie GM, więc OLS nie jest dobry (BLUE) – stosuje się MLE Ma to swoje zalety (odporność) i wady (nie da się tak samo jak w przypadku MNK określić, że jest to dobry/zły model). Model logitowy Można też założyć inny kształt G(z) – funkcje logistyczną G(z) = exp(z)/[1 + exp(z)] = Λ(z) Obie funkcją mają podobny kształt – rosną z z, najszybciej w okolicach 0
Słabości, siły i interpretacja Nie ma żadnego ścisłego ogólnego powodu, by preferować jedno albo drugie Trochę inaczej się je estymuje, ale od strony technicznej – nie użytkownika Interpretacja: Najbardziej nas obchodzi „wpływ” x na P(y = 1|x), czyli ∂p/ ∂x Ponieważ to nie jest model liniowy, to współczynnik o tym nie mówi – tzw. efekty krańcowe ∂p/ ∂xj = g(b0 +xb)bj, gdzie g(z) is dG/dz Normalnie: wolno interpretować tylko znaki i istotność
Interpretation (continued) Clear that it’s incorrect to just compare the coefficients across the three models Can compare sign and significance (based on a standard t test) of coefficients, though To compare the magnitude of effects, need to calculate the derivatives, say at the means Stata will do this for you in the probit case
Seminarium magisterskie - zajęcia 3 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 Przykład: Train (2002) Przyjmijmy, że są dwa typy osób - a oraz b – tak samo reprezentowane w populacji, przy czym zachodzi wówczas ale 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 2011-04-07 Seminarium magisterskie - zajęcia 3
Wnioski z tego przykładu P(V) będzie zaniżone, gdy częstotliwość jest mała w próbie i odwrotnie, gdy częstotliwość jest duża By ekstrapolować wnioski na całą populację, trzeba się zawsze zastanowić: do jakiego stopnia ta populacja jest reprezentatywna czy nie było jakiegoś „dobierania próby” Wielkości oszacowań parametrów w modelach tego typu nie odzwierciedlają realnej skali oddziaływania 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 Efekty krańcowe W modelu logitowym W modelu probitowym Efekty siłą rzeczy największe tam gdzie środek rozkładu, najmniejsze na jego ogonach Co ma sens: czynniki egzogeniczne są ważne tam, gdzie faktycznie „wybiera się” którąś z alternatyw 2011-04-07 Seminarium magisterskie - zajęcia 3
Logit i probit nie różnią się zasadniczo… 2011-04-07 Seminarium magisterskie - zajęcia 3
Przykład: Green i nauczanie Porównanie modeli wyestymowanych przy różnych założeniach dotyczących natury rozkładu LPM, logit, probit oraz Weibull Zmienna zależna: czy wyniki studenta poprawiły się pomiędzy dwoma okresami egzaminów Zmienne niezależne: GPA: wyjściowa średnia (przed przyjściem do danej szkoły) TUCE: wynik w pierwszej sesji egzaminacyjnej, PSI: kontakt z nowymi metodami dydaktycznymi 2011-04-07 Seminarium magisterskie - zajęcia 3
Przykład: Greene i nauczanie… 2011-04-07 Seminarium magisterskie - zajęcia 3
Przykład: niedożywienie w Vietnamie (dzieci <10 lat) We compare the linear probability, logit, and probit models in estimating correlates of a discrete state of child malnutrition, defined as height-for-age more than two standard deviations below the average in a well-nourished (U.S.) population (see lecture 4 ). The data are for children younger than 10 years of age and are taken from the 1998 Vietnam Living Standards Survey (VLSS). This analysis complements that of a continuous measure of nutritional deprivation presented in the previous lecture. In the table we present estimates of the parameters of the respective models. Standard errors are adjusted for the clustered nature of the sample and are robust to general heteroscedasticity (see lecture 10 ). No adjustment is made for stratification, and sample weights are not applied, it being assumed that stratification is on exogenous factors (see lecture 10). There is a great deal of consistency across the estimators in the levels of significance of the coefficients. As suggested above, dividing logit and probit coefficients by 4 and 2.5, respectively, makes them approximately comparable to the LPM coefficients. For the coefficient on the male dummy, that gives 0.0669 (= 0.2675/4) for logit and 0.0646 (= 0.1614/2.5) for probit, which are both larger than the LPM coefficient of 0.0563. More directly, we can compare the partial effects of the regressors on the probability that a child is stunted. For the LPM, these marginal effects are given by the coefficients themselves and so are constants. For the logit and probit models, we have calculated the partial effects at the median values of the regressors. In general, the estimated partial effects from logit and probit are very close and are larger in magnitude than those from the LPM. 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 Jak to działa w STATA Standardowy syntax: Zamiast reg piszemy logit/probit Otrzymanie efektów krańcowych: mfx compute Można pójść na skróty: dprobit Można także standardowo korzystać z opcji predict Można obejrzeć „dopasowane” prawdopodobieństwo i porównać z prawdziwym Można szacować cząstkowe „dopasowane” prawdopodobieństwa (w podpróbach albo po cechach), żeby zwiększać interpretowalność wyników 2011-04-07 Seminarium magisterskie - zajęcia 3
Jak wiedzieć, czy to dobry model… Estymacja MLE a nie OLS, więc nie można używać R2. Cały czas zostają kryteria informacyjne, ale one tylko powiedzą, który model „mniej zły” a nie czy są dobre Podobnie tzw. log-likelihood, L w estymacji MLE Porównać modele tak jak z testem F, czyli model z restrykcjami, model bez i LR = 2(Lur – Lr) ~ c2q Jest tzw. pseudo-R2=1 – Lur/Lr, ale jego interpretacja nie jest taka, jak R2 Można popatrzeć, czy przewidziane prawdopodobieństwo jest względnie bliskie realizacji: prob>.5 => y=1 i vice versa Powstają dwie miary: dobre zgadywanie 0 i dobre zgadywanie 1 2011-04-07 Seminarium magisterskie - zajęcia 3
Modele zmiennej latentnej Czasem wiemy, że dzieje się coś ciągłego, ale widzimy to tylko binarnie – wtedy mowa o tzw. modelach zmiennej latentnej Jest sobie jakaś zmienna y*, którą modelujemy jako y* = b0 +xb + u, ale obserwujemy tylko y = 1, if y* > 0 oraz y =0 if y* ≤ 0, Przykład: zatrudnialność, odporność organizmu, itp Estymacja probit/logit nie będzie adekwatna – są na to modele W szczególności, ta nieobserwowana zmienna y* nie musi przejawiać się w formule 0/1 y* = xb + u, u|x ~ Normal(0,s2) ale obserwujemy tylko y = max(0, y*) To się nazywa model TOBITOWY Wykorzystujemy MLE by uzyskać zarówno b jak i s Co ważne b szacuje oddziaływanie x na y*, czyli zmienną latentną – nie na y 2011-04-07 Seminarium magisterskie - zajęcia 3
Interpretacja w modelu tobitowym Jeśli interesuje nas zaiste y* - interpretujemy normalnie Jeśli jednak interesuje nas y a nie y* (większość przypadków) pojawia się kłopot: E(y|x) = F(xb/s)xb + sf(xb/s), więc ∂E(y|x)/∂xj = bj F(xb/s) Jeśli więc nie jest spełnione założenie o normalności składnika losowego lub o homoscedastycznośći, to całe to oszacowanie traci sens Dlatego powstały modele, które trochę próbują się na ten problem uodpornić – tzw. ZMIENNE OBCIĘTE W ogólniejszym przypadku: y = xb + u, u|x,c ~ Normal(0,s2), ale obserwujemy tylko w = min(y,c) albo w = max(y,c) Jest jeszcze możliwość zmiennej WYBRAKOWANEJ (ang. truncated regression), gdzie nie została zmienna ocenzurowana, lecz po prostu jej nie ma powyżej/poniżej pewnej wartości. 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 Jak to się robi w STATA Standardowe komendy: tobit y cala_lista_x , ll(17) ul(24) truncreg y cala_lista_x, ll(0) Zawsze mfx compute Interesujące opcje predict: pr(a,b) => Pr(a < y < b) e(a,b) => E(y | a < y < b) ystar(a,b) => E(y*),y* = max{a, min(y,b)} Jeśli zmienna jest „wybrakowana” w nielosowy sposób mamy pewien problem… 2011-04-07 Seminarium magisterskie - zajęcia 3
Problem z losowością próby… Jeśli nie ma pewnych obserwacji w sposób nielosowy, estymator MLE albo OLS są obciążone. Mechanizm jest podobny to problemu zmiennej pominiętej, gdzie pomijaną zmienną jest to … jak dobrano do próby: E(y|z, s = 1) = xb + rl(zg), gdzie l(c) to tzw. odwrotność ilorazu Millsa : f(c)/F(c) Model Heckmana dla przykładu: bezrobocie a zarobki 2011-04-07 Seminarium magisterskie - zajęcia 3
Problem z losowością próby… Potrzebujemy estymatora l, by wyestymować model probitowy s (czyli czy obserwujemy y czy nie) bazując na zmiennych z Na podstawie tych estymatorów (g) możemy razem z danymi z oszacować odwrotność ilorazu Millsa Jak to już mamy, to można zrobić normalną regresję y na x i oszacowanie l – tak uzyskane oszacowania b będą zgodne Ważne: x musi być podzbiorem z, w innym przypadku nie ma właściwej identyfikacji Stąd problemy ze stabilnością rozwiązań i tzw. instrumentami Heckman w późniejszym artykule wykazał, że taka dwustopniowa estymacja (równanie po równaniu) daje nieefektywność (zbyt duże błędy standardowe) wobec łącznie wyestymowanego układu równań. Stąd rozróżnienie na tzw. two-step oraz one-step 2PM contd.Sample selection model (SSM) 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 Jak to zrobić w STATA Oszacowanie modelu Heckmana jest proste, jeśli mamy te zmienne, co potrzeba: generate wageseen = (wage < .) heckman wage educ age, select(wageseen = married children educ age) heckman wage educ age, select(married children educ age) twostep Pytanie, czy to jest dobry model - czy zmienna za stan cywilny jest dobrym instrumentem… Można także robić to ręcznie (przy zastrzeżeniu nieefektywności) probit active all_activity_variables predict p1, xb generate phi = (1/sqrt(2*_pi))*exp(-(p1^2/2)) generate invmills = phi/normal(p1) reg ln_wage all_wage_variables invmills if WE==1 2011-04-07 Seminarium magisterskie - zajęcia 3
Przykład: wydatki na leczenie w Vietnamie We examine correlates of annual out-of-pocket expenditures on health care in Vietnam. We use data from the 1998 VLSS. Almost one-fifth (18%) of the observations made no expenditures on medical care. In addition to this mass at zero expenditure, the distribution has a long right tail. Given such skewness, one would expect a log transformation of the dependent variable to be appropriate, and the results confirm this. We make two comparisons, the 2PM with the SSM taking logs of positive expenditures in each case and the 2PM with the Tobit leaving the dependent variable in levels (see the table below). Results from the maximum likelihood estimator of the SSM are given. These do not differ substantially from estimates obtained using the Heckman two-step procedure. Estimates of the coefficients of the selection equation display no substantial differences across the estimators. There are no differences in levels of significance. Coefficient estimates for the continuous parts of the models do show some differences, with those from the SSM generally of greater magnitude. There are some differences in levels of significance. There is a positive and large degree of correlation between the two equation errors (0.847). The null of no correlation, and therefore no selection bias, is firmly rejected. In the absence of any variable that can plausibly be argued to affect the probability of positive expenditure but not its level, the correlation parameter is being identified through functional form alone. Graphical analysis confirms that, in this case, the inverse Mill’s ratio is sufficiently nonlinear in its argument to avoid severe collinearity problems. brakuje estymatora Inv Mills ratio 2011-04-07 Seminarium magisterskie - zajęcia 3
Seminarium magisterskie - zajęcia 3 Podsumowanie Zmienna zależna może być bardzo pokręcona: Ze złą jakością danych ekonometria nic nie pomoże Ze źle zebranymi danymi czasem może pomóc: Modele szacowane MLE (probit/logit/tobit/trunc) pozwalają dostać sensowne oszacowania parametrów, ale zostają problem heteroscedastyczności i ewentualne skutki tzw. małej próby Model korekty Heckmana pozwala rozwiązać problem obciążenia estymatorów, jeśli próba nielosowa (najczęściej!) ale: Trzeba mieć dobry pomysł na instrument! Trzeba się nieźle nieraz namęczyć, żeby algorytm dawał zgodne oszacowania 2011-04-07 Seminarium magisterskie - zajęcia 3