Seminarium magisterskie

Slides:



Advertisements
Podobne prezentacje
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Advertisements

Seminarium magisterskie
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Joanna Tyrowicz Skąd się bierze firma? Ekonomia instytucjonalna.
Plan Czym się zajmiemy: 1.Bilans przepływów międzygałęziowych 2.Model Leontiefa.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Blok I: PODSTAWY TECHNIKI Lekcja 6: Zjawisko tarcia i jego wpływ na pracę ciągników i maszyn rolniczych (1 godz.) 1. Zjawisko tarcia 2. Tarcie ślizgowe.
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
InMoST, Analiza architektury metodą ATAM Jerzy Nawrocki
Stężenia Określają wzajemne ilości substancji wymieszanych ze sobą. Gdy substancje tworzą jednolite fazy to nazywa się je roztworami (np. roztwór cukru.
Teoria gry organizacyjnej Każdy człowiek wciąż jest uczestnikiem wielu różnych gier. Teoria gier zajmuje się wyborami podejmowanymi przez ludzi w warunkach.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania 1 Metody optymalizacji - Energetyka 2015/2016 Metody programowania liniowego.
Ekonometria WYKŁAD 7 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Ekonometria Wykład 1 Uwarunkowania modelowania ekonometrycznego. Uogólniona metoda najmniejszych kwadratów dr hab. Mieczysław Kowerski.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
Marcin Gliński Instytut Języków Romańskich i Translatoryki UŚ Regionalny Ośrodek Doskonalenia Nauczycieli WOM w Katowicach NOCNE POWTÓRKI MATURALNE 2016.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
KOSZTY W UJĘCIU ZARZĄDCZYM. POJĘCIE KOSZTU Koszt stanowi wyrażone w pieniądzu celowe zużycie majątku trwałego i obrotowego, usług obcych, nakładów pracy.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metoda zmiennych instrumentalnych i uogólniona metoda momentów
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Papierosy to zła rzecz, z nim zdrowie idzie precz!!! Autor: Weronika Pączek.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
Renata Maciaszczyk Kamila Kutarba. Teoria gier a ekonomia: problem duopolu  Dupol- stan w którym dwaj producenci kontrolują łącznie cały rynek jakiegoś.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Schematy blokowe.
mutacyjnego algorytmu ewolucyjnego
Wyznaczanie miejsc zerowych funkcji
Katedra Międzynarodowych Studiów Porównawczych
DEFINICJA I ZASTOSOWANIE W JĘZYKU HASKELL
terminologia, skale pomiarowe, przykłady
On-the-Fly Garbage Collection
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Rachunki zdań Tautologiczność funkcji
Liczby pierwsze.
„Prawa Ceteris Paribus i socjo-ekonomiczne mechanizmy”
Modele SEM założenia formalne
Podstawy automatyki I Wykład /2016
Elementy fizyki kwantowej i budowy materii
Własności statystyczne regresji liniowej
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Implementacja rekurencji w języku Haskell
REGRESJA WIELORAKA.
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Prawa ruchu ośrodków ciągłych c. d.
TESTY NIEPARAMETRYCZNE
Program na dziś Wprowadzenie Logika prezentacji i artykułu
WYBRANE ZAGADNIENIA PROBABILISTYKI
Wybrane testy w MZI i UMM
MODELOWANIE ZMIENNOŚCI CECH
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Seminarium magisterskie Zajęcia trzecie – modele zmiennej nieciągłej.

Modele bardziej skomplikowane niż OLS Można sobie z łatwością wyobrazić liniowy model np.. prawdopodobieństwa, co można zapisać jako P(y = 1|x) = b0 + xb Sęk w tym, że wartości dopasowane niekoniecznie muszą się zawierać w przedziale między 0 a 1. By uniknąć tego problemu, można modelować model prawdopodobieństwa (czyli funkcji), jako G(b0 + xb), gdzie 0<G(z)<1 Podobnym problemem może być tzw. „obcięta” zmienna zależna albo kategoryczna zmienna zależna. Efektem takiego rozumowania są modele klasy logit, probit i tobit, estymowane nie za pomocą OLS lecz MLE.

Model probitowy i logitowy Wybieramy sobie G(z), jako standardową funkcję dystrybuanty (czyli skumulowanego rozkładu, tj. cdf) G(z) = F(z) ≡ ∫f(v)dv, gdzie f(z) ma rozkład normalny f(z) = (2p)-1/2exp(-z2/2) Nie jest liniowy względem parametrów, więc nie spełnione jest założenie GM, więc OLS nie jest dobry (BLUE) – stosuje się MLE Ma to swoje zalety (odporność) i wady (nie da się tak samo jak w przypadku MNK określić, że jest to dobry/zły model). Model logitowy Można też założyć inny kształt G(z) – funkcje logistyczną G(z) = exp(z)/[1 + exp(z)] = Λ(z) Obie funkcją mają podobny kształt – rosną z z, najszybciej w okolicach 0

Słabości, siły i interpretacja Nie ma żadnego ścisłego ogólnego powodu, by preferować jedno albo drugie Trochę inaczej się je estymuje, ale od strony technicznej – nie użytkownika Interpretacja: Najbardziej nas obchodzi „wpływ” x na P(y = 1|x), czyli ∂p/ ∂x Ponieważ to nie jest model liniowy, to współczynnik o tym nie mówi – tzw. efekty krańcowe ∂p/ ∂xj = g(b0 +xb)bj, gdzie g(z) is dG/dz Normalnie: wolno interpretować tylko znaki i istotność

Seminarium magisterskie - zajęcia 3 Przykład: Train (2002) Przyjmijmy, że są dwa typy osób - a oraz b – tak samo reprezentowane w populacji, przy czym zachodzi wówczas ale Seminarium magisterskie - zajęcia 3

Seminarium magisterskie - zajęcia 3

Wnioski z tego przykładu P(V) będzie zaniżone, gdy częstotliwość jest mała w próbie i odwrotnie, gdy częstotliwość jest duża By ekstrapolować wnioski na całą populację, trzeba się zawsze zastanowić: do jakiego stopnia ta populacja jest reprezentatywna czy nie było jakiegoś „dobierania próby” Wielkości oszacowań parametrów w modelach tego typu nie odzwierciedlają realnej skali oddziaływania Seminarium magisterskie - zajęcia 3

Seminarium magisterskie - zajęcia 3

Seminarium magisterskie - zajęcia 3 Efekty krańcowe W modelu logitowym W modelu probitowym Efekty siłą rzeczy największe tam gdzie środek rozkładu, najmniejsze na jego ogonach Co ma sens: czynniki egzogeniczne są ważne tam, gdzie faktycznie „wybiera się” którąś z alternatyw Seminarium magisterskie - zajęcia 3

Logit i probit nie różnią się zasadniczo… Seminarium magisterskie - zajęcia 3

Przykład: Green i nauczanie Porównanie modeli wyestymowanych przy różnych założeniach dotyczących natury rozkładu LPM, logit, probit oraz Weibull Zmienna zależna: czy wyniki studenta poprawiły się pomiędzy dwoma okresami egzaminów Zmienne niezależne: GPA: wyjściowa średnia (przed przyjściem do danej szkoły) TUCE: wynik w pierwszej sesji egzaminacyjnej, PSI: kontakt z nowymi metodami dydaktycznymi Seminarium magisterskie - zajęcia 3

Przykład: Greene i nauczanie… Seminarium magisterskie - zajęcia 3

Przykład: niedożywienie w Vietnamie (dzieci <10 lat) We compare the linear probability, logit, and probit models in estimating correlates of a discrete state of child malnutrition, defined as height-for-age more than two standard deviations below the average in a well-nourished (U.S.) population (see lecture 4 ). The data are for children younger than 10 years of age and are taken from the 1998 Vietnam Living Standards Survey (VLSS). This analysis complements that of a continuous measure of nutritional deprivation presented in the previous lecture. In the table we present estimates of the parameters of the respective models. Standard errors are adjusted for the clustered nature of the sample and are robust to general heteroscedasticity (see lecture 10 ). No adjustment is made for stratification, and sample weights are not applied, it being assumed that stratification is on exogenous factors (see lecture 10). There is a great deal of consistency across the estimators in the levels of significance of the coefficients. As suggested above, dividing logit and probit coefficients by 4 and 2.5, respectively, makes them approximately comparable to the LPM coefficients. For the coefficient on the male dummy, that gives 0.0669 (= 0.2675/4) for logit and 0.0646 (= 0.1614/2.5) for probit, which are both larger than the LPM coefficient of 0.0563. More directly, we can compare the partial effects of the regressors on the probability that a child is stunted. For the LPM, these marginal effects are given by the coefficients themselves and so are constants. For the logit and probit models, we have calculated the partial effects at the median values of the regressors. In general, the estimated partial effects from logit and probit are very close and are larger in magnitude than those from the LPM. Seminarium magisterskie - zajęcia 3

Seminarium magisterskie - zajęcia 3 Jak to działa w STATA Standardowy syntax: Zamiast reg piszemy logit/probit Otrzymanie efektów krańcowych: mfx compute Można pójść na skróty: dprobit Można także standardowo korzystać z opcji predict Można obejrzeć „dopasowane” prawdopodobieństwo i porównać z prawdziwym Można szacować cząstkowe „dopasowane” prawdopodobieństwa (w podpróbach albo po cechach), żeby zwiększać interpretowalność wyników Seminarium magisterskie - zajęcia 3

Jak wiedzieć, czy to dobry model… Estymacja MLE a nie OLS, więc nie można używać R2. Cały czas zostają kryteria informacyjne, ale one tylko powiedzą, który model „mniej zły” a nie czy są dobre Podobnie tzw. log-likelihood, L w estymacji MLE Porównać modele tak jak z testem F, czyli model z restrykcjami, model bez i LR = 2(Lur – Lr) ~ c2q Jest tzw. pseudo-R2=1 – Lur/Lr, ale jego interpretacja nie jest taka, jak R2 Można popatrzeć, czy przewidziane prawdopodobieństwo jest względnie bliskie realizacji: prob>.5 => y=1 i vice versa Powstają dwie miary: dobre zgadywanie 0 i dobre zgadywanie 1 Seminarium magisterskie - zajęcia 3

Modele zmiennej latentnej Czasem wiemy, że dzieje się coś ciągłego, ale widzimy to tylko binarnie – wtedy mowa o tzw. modelach zmiennej latentnej Jest sobie jakaś zmienna y*, którą modelujemy jako y* = b0 +xb + u, ale obserwujemy tylko y = 1, if y* > 0 oraz y =0 if y* ≤ 0, Przykład: zatrudnialność, odporność organizmu, itp Estymacja probit/logit nie będzie adekwatna – są na to modele W szczególności, ta nieobserwowana zmienna y* nie musi przejawiać się w formule 0/1 y* = xb + u, u|x ~ Normal(0,s2) ale obserwujemy tylko y = max(0, y*) To się nazywa model TOBITOWY Wykorzystujemy MLE by uzyskać zarówno b jak i s Co ważne b szacuje oddziaływanie x na y*, czyli zmienną latentną – nie na y Seminarium magisterskie - zajęcia 3

Interpretacja w modelu tobitowym Jeśli interesuje nas zaiste y* - interpretujemy normalnie Jeśli jednak interesuje nas y a nie y* (większość przypadków) pojawia się kłopot: E(y|x) = F(xb/s)xb + sf(xb/s), więc ∂E(y|x)/∂xj = bj F(xb/s) Jeśli więc nie jest spełnione założenie o normalności składnika losowego lub o homoscedastycznośći, to całe to oszacowanie traci sens Dlatego powstały modele, które trochę próbują się na ten problem uodpornić – tzw. ZMIENNE OBCIĘTE W ogólniejszym przypadku: y = xb + u, u|x,c ~ Normal(0,s2), ale obserwujemy tylko w = min(y,c) albo w = max(y,c) Jest jeszcze możliwość zmiennej WYBRAKOWANEJ (ang. truncated regression), gdzie nie została zmienna ocenzurowana, lecz po prostu jej nie ma powyżej/poniżej pewnej wartości. Seminarium magisterskie - zajęcia 3

Seminarium magisterskie - zajęcia 3 Jak to się robi w STATA Standardowe komendy: tobit y cala_lista_x , ll(17) ul(24) truncreg y cala_lista_x, ll(0) Zawsze mfx compute Interesujące opcje predict: pr(a,b) => Pr(a < y < b) e(a,b) => E(y | a < y < b) ystar(a,b) => E(y*),y* = max{a, min(y,b)} Jeśli zmienna jest „wybrakowana” w nielosowy sposób mamy pewien problem… Seminarium magisterskie - zajęcia 3

Problem z losowością próby… Jeśli nie ma pewnych obserwacji w sposób nielosowy, estymator MLE albo OLS są obciążone. Mechanizm jest podobny to problemu zmiennej pominiętej, gdzie pomijaną zmienną jest to … jak dobrano do próby: E(y|z, s = 1) = xb + rl(zg), gdzie l(c) to tzw. odwrotność ilorazu Millsa : f(c)/F(c) Model Heckmana dla przykładu: bezrobocie a zarobki Seminarium magisterskie - zajęcia 3

Problem z losowością próby… Potrzebujemy estymatora l, by wyestymować model probitowy s (czyli czy obserwujemy y czy nie) bazując na zmiennych z Na podstawie tych estymatorów (g) możemy razem z danymi z oszacować odwrotność ilorazu Millsa Jak to już mamy, to można zrobić normalną regresję y na x i oszacowanie l – tak uzyskane oszacowania b będą zgodne Ważne: x musi być podzbiorem z, w innym przypadku nie ma właściwej identyfikacji Stąd problemy ze stabilnością rozwiązań i tzw. instrumentami Heckman w późniejszym artykule wykazał, że taka dwustopniowa estymacja (równanie po równaniu) daje nieefektywność (zbyt duże błędy standardowe) wobec łącznie wyestymowanego układu równań. Stąd rozróżnienie na tzw. two-step oraz one-step Seminarium magisterskie - zajęcia 3

Seminarium magisterskie - zajęcia 3 Jak to zrobić w STATA Oszacowanie modelu Heckmana jest proste, jeśli mamy te zmienne, co potrzeba: generate wageseen = (wage < .) heckman wage educ age, select(wageseen = married children educ age) heckman wage educ age, select(married children educ age) twostep Pytanie, czy to jest dobry model - czy zmienna za stan cywilny jest dobrym instrumentem… Można także robić to ręcznie (przy zastrzeżeniu nieefektywności) probit active all_activity_variables predict p1, xb generate phi = (1/sqrt(2*_pi))*exp(-(p1^2/2)) generate invmills = phi/normal(p1) reg ln_wage all_wage_variables invmills if WE==1 2011-04-07 Seminarium magisterskie - zajęcia 3

Przykład: wydatki na leczenie w Vietnamie We examine correlates of annual out-of-pocket expenditures on health care in Vietnam. We use data from the 1998 VLSS. Almost one-fifth (18%) of the observations made no expenditures on medical care. In addition to this mass at zero expenditure, the distribution has a long right tail. Given such skewness, one would expect a log transformation of the dependent variable to be appropriate, and the results confirm this. We make two comparisons, the 2PM with the SSM taking logs of positive expenditures in each case and the 2PM with the Tobit leaving the dependent variable in levels (see the table below). Results from the maximum likelihood estimator of the SSM are given. These do not differ substantially from estimates obtained using the Heckman two-step procedure. Estimates of the coefficients of the selection equation display no substantial differences across the estimators. There are no differences in levels of significance. Coefficient estimates for the continuous parts of the models do show some differences, with those from the SSM generally of greater magnitude. There are some differences in levels of significance. There is a positive and large degree of correlation between the two equation errors (0.847). The null of no correlation, and therefore no selection bias, is firmly rejected. In the absence of any variable that can plausibly be argued to affect the probability of positive expenditure but not its level, the correlation parameter is being identified through functional form alone. Graphical analysis confirms that, in this case, the inverse Mill’s ratio is sufficiently nonlinear in its argument to avoid severe collinearity problems. brakuje estymatora Inv Mills ratio 2011-04-07 Seminarium magisterskie - zajęcia 3

Seminarium magisterskie - zajęcia 3 Podsumowanie Zmienna zależna może być bardzo pokręcona: Ze złą jakością danych ekonometria nic nie pomoże Ze źle zebranymi danymi czasem może pomóc: Modele szacowane MLE (probit/logit/tobit/trunc) pozwalają dostać sensowne oszacowania parametrów, ale zostają problem heteroscedastyczności i ewentualne skutki tzw. małej próby Model korekty Heckmana pozwala rozwiązać problem obciążenia estymatorów, jeśli próba nielosowa (najczęściej!) ale: Trzeba mieć dobry pomysł na instrument! Trzeba się nieźle nieraz namęczyć, żeby algorytm dawał zgodne oszacowania Seminarium magisterskie - zajęcia 3