Testowanie hipotez statystycznych dr Grzegorz Szafrański pokój B106 www.gszafranski.of.pl
Założenia estymatora klasycznej MNK E(et) =0 macierz wariancji-kowariancji D2(et)= s2I X są nielosowe (w powtarzanych próbach przyjmują ustalone wartości) albo przynajmniej nieskorelowane z et Do stosowania testów potrzebna jest postać rozkładu zmiennej et ~ N(0, s2I)
Własności estymatora KMNK Estymator KMNK jest zmienną losową, gdyż jest funkcją zmiennych losowych Jeżeli spełnione są założenia klasycznej MNK to: Set = 0 i prognozy są nieobciążone E(b) = β i estymator jest nieobciążony wariancja estymatora D2(α) jest najmniejsza (z liniowych estymatorów), metoda MNK jest efektywna Ponadto estymator jest zgodny, (potocznie) im dłuższa próba tym trafniejsza ocena estymatora.
Testowanie modelu Testowanie istotności parametrów test tStudenta i test łącznej istotności F Testy normalności składnika losowego test Jarque-Berra Testowanie autokorelacji składnika losowego test Durbina-Watsona Testy jednorodności wariancji test Goldfelda-Quandta
wiele zmiennych objaśniających: Testowanie precyzji ocen parametrów, czyli istotności zmiennych objaśniających wiele zmiennych objaśniających: yt=b0 + b1x1t + b2x2t + ... + bkxkt + et t=1,2,...,T Założenia o składniku losowym (potrzebne do testu): E(et) = 0, E(etet-1) = 0, D2(et) = s2, ponadto et ~ N(0, s2) Test tStudenta Porównujemy wartość bezwzględną statystyki t dla danej zmiennej z wartością krytyczną ta z tablicy wartości krytycznych dla T-k-1 stopni swobody przy ustalonym poziomie istotności (np. a=0,01). Ho: b1 = 0 nie ma podstaw do odrzucenia hipotezy zerowej, gdy |t |<ta H1: b1 <> 0 odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej (myląc się raz na 100 prób), gdy |t | ta Jeśli parametr statystycznie różni się od 0, to mówimy, że zmienna przy nim stojąca jest statystycznie istotna.
Testowanie łącznej istotności zmiennych objaśniających wiele zmiennych objaśniających : yt=b0 + b1x1t + b2x2t + ... + bkxkt + et t=1,2,...,T Założenia o składniku losowym (podobne jak w teście t): E(et) = 0, E(etet-1) = 0, D2(et) = s2, ponadto et ~ N(0, s2) Test F (test Walda): Porównujemy wartość statystyki F = (T-k-1)R2 / k(1-R2) dla danej zmiennej z wartością krytyczną statystyki Fishera-Snedecora z odpowiednio k i (T-k-1) stopniami swobody przy ustalonym niskim poziomie istotności (np. a=0,01). Ho: b1 = b2 = ...= bk =0 H1: | b1 | + | b2 | + ... + |bk | 0 (przynajmniej jeden z parametrów różny od 0) Nie ma podstaw do odrzucenia hipotezy zerowej, gdy F < Fa. Odrzucamy hipotezę zerową na rzecz alternatywnej (myląc się np. raz na 100 prób), gdy F > Fa Wybór hipotezy alternatywnej oznacza, że przynajmniej jedna ze zmiennych ma istotny wpływ na zmienną objaśnianą.
Testowanie normalności składnika losowego Do wielu hipotez statystycznych potrzebujemy sprawdzić hipotezę o normalności składnika losowego Testowanie odchyleń rozkładu et od normalności Ho: et ~ N(0, s2) H1: et nie pochodzi z rozkładu normalnego (jeżeli W > c22st. swobody) Test normalności Jarque-Bera opiera się na 2 założeniach: rozkład normalny nie jest skośny i nie jest leptokurtyczny (kurtoza = 3).
Autokorelacja et = r et-1 + nt Przy niespełnionym założeniu E(ek ,el) = 0 dla kl możemy sprawdzić, czy występuje regularny (dający się przewidzieć) wzorzec zmian w składniku losowym (nazwiemy go schematem autokorelacji). Oczywiście nie obserwujemy et tylko reszty et i to w nich szukamy śladów autokorelacji. Najpopularniejszym założeniem w tych poszukiwaniach autokorelacji jest założenie o schemacie autokorelacji pierwszego rzędu AR(1). Sprawdzamy, czy dla składnika losowego z równania regresji prawdziwa jest następująca zależność: et = r et-1 + nt gdzie -1<r<1 jest współczynnikiem autokorelacji, a nt jest białoszumowym (spełniającym założenia KMNK) składnikiem losowym
Dodatnia autokorelacja – wykres reszt + - t u ˆ 1
Ujemna autokorelacja – wykres reszt
Brak autokorelacji Tylko w tej sytuacji estymator parametrów zwykłej MNK jest najlepszy (czyli ma najmniejszą wariancję).
Formalny test, test Durbina-Watsona et = et-1 + vt , gdzie vt N(0, v2). H0 : = 0 H1 : > 0 albo < 0 (w zależności od ro wyliczonego z próby) Statystyka testowa liczona jest na ogół ze wzoru: lub
Wyniki testu DW Aby stosować ten test, trzy warunki muszą być spełnione (wyraz wolny, nielosowe iksy, brak opóźnień zmiennej objaśnianej)
Heteroskedastyczność f(y|x) y . . E(y|x) = b0 + b1x . x1 x2 x3 x
Testy heteroskedastyczności Testy Breuscha-Pagana (B-P) i White’a służą do sprawdzenia konkretnej postaci heteroskedastyczności (wariancja x zależy od zmiennych objaśniających): H0: Var(u|x1, x2,…, xk) = s2 lub inaczej H0: E(u2|x1, x2,…, xk) = E(u2) = s2 Stąd pomocnicze równanie regresji do testowania: u2 = f(x1, x2, ..., xk) Testujemy za pomocą statystyki F łączną istotność zmiennych (por. slajd nr 6) w równaniu regresji pomocniczej kwadratów reszt względem zmiennych objaśniających xj (test B-P) i dodatkowo kwadratów xj2 i iloczynów tych zmiennych xjxh (test White’a). Przy założeniu prawdziwości H0 statystyka F ma rozkład Chi2 z tyloma stopniami swobody, ile jest zmiennych objaśniających w regresji pomocniczej. Odrzucamy H0, gdy wartość statystyki testu T*R2 jest zbyt duża.
Test jednorodności wariancji Czy wariancja składnika losowego jest taka sama w dwóch podpróbach? Ho: s1 = s2 H1: s1 > s2 Dzielimy próbę na 2 rozłączne podpróby i stosujemy test Goldfelda-Quandta. Statystyka z próby przy założeniu hipotezy zerowej ma rozkład F (czyli nie powinna przekraczać wartości krytycznej tego rozkładu):