Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych
Modele zmiennej jakościowej ►Zmienne jakościowe stosowane są do kwantyfikacji cech jakościowych np. płci, przedziału dochodów, jakości produktu itp. ►Bardzo często zmienne te przyjmują postać binarną (zerojedynkową) np. 1- kobieta, 0- mężczyzna ►Modele zmiennej jakościowej to takie, w których zmienną objaśnianą w modelu jest zmienna jakościowa zazwyczaj zero- jedynkowa. ►Zmienne objaśniające mogą być zarówno zmiennymi jakościowymi, jak i ilościowymi ►Postać funkcyjna zależności może być różna, w szczególności może mieć charakter nieliniowy
Liniowy Model Prawdopodobieństwa (1) ►LMP w postaci teoretycznej zapisujemy jako gdzie y(i) jest zmienną zero-jedynkową ►Wartości empiryczne zmiennej objaśnianej są równe 0 lub 1, jednak wartości teoretyczne (wynikające z modelu) nie mają takich ograniczeń ►Jaka jest interpretacja wartości teoretycznych y(i)? Co oznacza wartość 0.3, jeśli zmienna objaśniana przyjmuje wartość 1, gdy dana osoba jest bezrobotna, a 0 gdy pracująca? ►Należy zauważyć, że: natomiast z postaci funkcyjnej modelu wynika, że
►Z powyższego wynika że: Liniowy Model Prawdopodobieństwa (2) co oznacza, że wartość teoretyczna zmiennej objaśnianej może być interpretowana jako prawdopodobieństwo tego, że zmienna y(i) przyjmie wartość 1 ►Interpretacja parametrów strukturalnych LMP odnosi się do zmian prawdopodobieństwa w reakcji na jednostkową zmianę wartości zmiennej objaśniającej przy innych czynnikach niezmienionych.
►Przykład: oszacowano LMP postaci: Liniowy Model Prawdopodobieństwa (3) gdzie y(i) przyjmuje wartość 1, gdy dane gospodarstwo domowe posiada mieszkanie na własność i 0 w pozostałych przypadkach, zaś zmienna x określa miesięczny dochód rozporządzalny gospodarstwa domowego w tys. zł. ►Przy dochodzie rozporządzalnym równym 10 tys. zł prawdopodobieństwo tego, że dane gospodarstwo domowe posiada mieszkanie na własność wynosi 0.5, zaś wzrost dochodu o 1 tys. zł prowadzi do wzrostu prawdopodobieństwa posiadania mieszkania o 0.03.
Główne ograniczenia LMP: Liniowy Model Prawdopodobieństwa (4) ►Ograniczenie nr 1: ►składniki losowe w LMP nie mają rozkładu normalnego; ►analizując własności składnika losowego na podstawie poznanych wcześniej testów, dochodzimy do wniosku, że charakteryzuje się on heteroskedastycznością gdyż zachodzi: ►utrudniona jest więc ocena istotności dokonywana na podstawie standardowych testów ►Ograniczenie nr 2: ►teoretyczne wartości zmiennej objaśnianej mogą być mniejsze od 0 i większe od 1 ►uniemożliwia to ich interpretację w kategoriach prawdopodobieństwa
Liniowy Model Prawdopodobieństwa (5)
►Metoda estymacji: Metoda Największej Wiarygodności ►Metoda ta umożliwia dobranie parametrów rozkładu tak, aby zmaksymalizować prawdopodobieństwo zaobserwowania bieżącej próby Estymacja modelu logitowego i probitowego ►W zależności od modelu (logitowy vs probitowy) funkcja F przybiera postać lub ►W praktyce stosuje się postać zlogarytmowaną:
Model logitowy (1) ►Model logitowy bazuje na funkcji logistycznej określonej wzorem ►Przykład funkcji logistycznej:
►Funkcję logistyczną można sformułować w innej wersji, w której przyjmuje wartość nasycenia równą 1, stąd nadaje się do modelowania prawdopodobieństwa: Model logitowy (2) ►Model prawdopodobieństwa ma więc postać: gdzie: ►Z powyższego wynika, że
►Logit to logarytm ilorazu szans, czyli relacji prawdopodobieństwa zdarzenia, dla którego y przyjmuje wartość 1 i zdarzenia przeciwnego – relacja z zakładów bukmacherskich ►Przykład: przy strzelaniu do tarczy i prawdopodobieństwie trafienia w jej środek równym 0.33 iloraz szans wynosi ½, czyli szansa na trafienie vs. szansa na nietrafienie mają się jak 1 do 2. Model logitowy (3) ►Iloraz szans ma postać zaś logit:
►Z powyższego wynika interpretacja parametrów strukturalnych, która jest inna niż w LMP. Model logitowy (4) ►Z powyższego wynika, że zmiana wartości zmiennej o jednostkę prowadzi do wzrostu ilorazu szans o ►Wpływ zmian wartości zmiennej na wartość prawdopodobieństwa przyjęcia przez zmienną objaśnianą wartości 1 definiujemy jako efekt krańcowy i wyznaczamy ze wzoru
►Uwaga do interpretacji efektu krańcowego: wartość efektu krańcowego jest funkcją wartości pozostałych zmiennych objaśniających modelu. Oznacza to, że efekt krańcowy jest nieliniowy: ►wpływ na prawdopodobieństwo tej samej zmiany jednostkowej zmiennej objaśniającej prowadzi do innej zmiany prawdopodobieństwa w zależności od pozostałych wartości zmiennych objaśniających ►wartość efektu krańcowego podaje się dla zadanej wartości wszystkich zmiennych objaśniających modelu. Model logitowy (5) ►W pakietach ekonometrycznych podaje się efekty krańcowe dla średniej wartości prawdopodobieństwa.
►Standardowe miary dopasowania (stosowane w przypadku zwykłego modelu liniowego) w modelu logitowym nie znajdują zastosowania. Model logitowy (6) ►W modelu logitowym stosuje się inne metody estymacji, gdyż jest to model nieliniowy. Zazwyczaj jest to Metoda Największej Wiarygodności, gdzie maksymalizuje się funkcję wiarygodności postaci ►Na podstawie tej metody wyznacza się (wyliczany standardowo w większości pakietów) współczynnik pseudo-R^2 McFadena : gdzie L MP to wartość funkcji wiarygodności dla pełnego modelu (zawierającego wszystkie zmienne objaśniające) zaś L MZ to wartość funkcji wiarygodności dla modelu zredukowanego do wyrazu wolnego
►Druga standardowa miara dopasowania bazuje na tzw. tablicy trafności prognoz ex post konstruowanej według następujacej procedury: Model logitowy (6) ►po estymacji parametrów modelu dokonuje się oszacowania wartości teoretycznych prawdopodobieństw według wzoru: ►dla tak wyznaczonych prawdopodobieństw wyznaczamy wartości teoretyczne zmiennej objaśnianej według ►(1) jeśli próba jest zbilansowana tzn. liczba 0 i 1 dla zmiennej objaśnianej jest mniej więcej równa ►(2) jeśli próba jest niezbilansowana, przy czym jest równa udziałowi wartości 1 w wartościach Y(i) (tzw. metoda optymalnej wartości granicznej Cramera)
►w kolejnym kroku tworzy się tablicę postaci: Model logitowy (7) ►wyznaczamy wartość tzw. R^2 zliczeniowego postaci EmpiryczneTeoretyczneRazem Y=1Y=0 Y=1N11N10N1. Y=0N01N00N0. RazemN.1N.0N
►W modelu probitowym wartość prawdopodobieństwa określona jest dystrybuantą standardowego rozkładu normalnego tzn. Model probitowy gdzie jest funkcją gęstości standardowego rozkładu normalnego ►Efekty krańcowe w tym modelu mają postać gdzie: ►Relacja między parametrami modelu logitowego i probitowego jest dana wzorem
►W wielu sytuacjach jakościowa zmienna objaśniana ma postać dyskretną, lecz przyjmuje więcej niż dwie wartości np. ►zatrudnienie: brak, część etatu, cały etat ►wybór środka transportu: tramwaj, autobus, samochód Uporządkowany model zmiennej jakościowej (1) ►W takim przypadku modele binarne zastępowane są modelami wielomianowymi (multiresponse model). ►W zależności od rodzaju zmiennej objaśnianej rozróżniamy modele ►uporządkowane (1 przykład), w których zmienna objaśniana zawiera ustrukturyzowane logicznie odpowiedzi; w takim modelu wyniki estymacji modelu są wrażliwe na zmianę uporządkowania ►nieuporządkowane (2 przykład) – odwrotnie; w wielu przypadkach bazują na założeniu, że alternatywne wartości zmiennej objaśnianej mają przypisane losowe użyteczności, z których wybierana jest najwyższa
►Dla postać modelu uporządkowanego: Uporządkowany model zmiennej jakościowej (2) ►Wartości graniczne dla poszczególnych przedziałów nie są znane, przyjmuje się natomiast ►Prawdopodobieństwo, że zmienna y przyjęła wartość j jest równe prawdopodobieństwu, że zmienna y* znalazła się między wartościami granicznymi i. ►Zakładając, że składnik losowy ma rozkład normalny otrzymujemy uporządkowany model probitowy, w przypadku rozkładu logistycznego – uporządkowany model logitowy.
►Przykład: badanie rynku pracy w województwie ze zmienną jakościową o wartościach: ►1- brak zatrudnienia ►2- zatrudnienie na część etatu ►3 – zatrudnienie na pełny etat Uporządkowany model zmiennej jakościowej (3) ►Dla wybranego zestawu zmiennych objaśniających x zakładamy, że istnieje określona wartość indeksu wyznaczona przez, taka, że wartości powyżej tego indeksu odpowiadają przeciętnie wyższym wartościom zmiennej y*. ►W takim przypadku model ma postać:
►Prawdopodobieństwa przyjęcia przez zmienną y poszczególnych wartości są równe (dla modelu probitowego) Uporządkowany model zmiennej jakościowej (4) ►Wartość parametru granicznego jest estymowana łącznie z parametrami strukturalnymi ►Interpretacja znaku parametru strukturalnego w takim modelu jest podobna jak w przypadku modelu binarnego ►O ile jednak przy dodatnim parametrze strukturalnym wzrost wartości danej zmiennej objaśnianej podwyższa prawdopodobieństwo y(i)=3 i obniża prawdopodobieństwo y(i)=1, o tyle wpływ na prawdopodobieństwo y(i)=2 jest niejednoznaczny!
►Standardowo w uporządkowanym modelu probitowym i logitowym nakłada się ograniczenia pozwalające na normalizację wyników. Restrykcje te dotyczą zazwyczaj wariancji składnika losowego (wartość 1 ) oraz wyrazu wolnego (wartość 0). ►W modelu probitowymbez nałożonych restrykcji normalizacyjnych mamy: Uporządkowany model zmiennej jakościowej (5) ►Prawdopodobieństwa przyjęcia przez zmienną y wartości 1 jest więc równe ►Oznacza to, że zmiana parametrów nie prowadzi do zmiany prawdopodobieństw, jeśli relacja parametrów są stałe
Dziękuję za uwagę