Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Statystyka Wojciech Jawień
Estymacja. Przedziały ufności.
Wykład 9 Analiza wariancji (ANOVA)
Wykład 5 Standardowy błąd a odchylenie standardowe
Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń
Wykład 11 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)
Wykład 12 Regresja liniowa
Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.
BUDOWA MODELU EKONOMETRYCZNEGO
Estymacja przedziałowa
Dane dotyczące sprzedaży wody mineralnej
Wartość empiryczna (obserwowana) zmiennej
Analiza portfeli dwu- oraz trzy-akcyjnych
Portfel wielu akcji. Model Sharpe’a
Współczynnik beta Modele jedno-, wieloczynnikowe Model jednowskaźnikowy Sharpe’a Linia papierów wartościowych.
Statystyka w doświadczalnictwie
Zagadnienie niedokładności w GIS
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Mgr Sebastian Mucha Schemat doświadczenia:
Analiza korelacji.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 14 Liniowa regresja
Wykład 11 Analiza wariancji (ANOVA) Sposób analizy danych gdy mamy więcej niż dwa zabiegi lub populacje. Omówimy ANOV-ę w najprostszej postaci. Te same.
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Wykład 4 Przedziały ufności
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Analiza wariancji.
Korelacja, autokorelacja, kowariancja, trendy
Jednoczynnikowa analiza wariancji (ANOVA)
Plan na dziś Ogólny model liniowy (GLM) Model mieszany (MIXED)
Rozkład t.
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
dr hab. Ryszard Walkowiak prof. nadzw.
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Elementy Rachunku Prawdopodobieństwa i Statystyki
Zagadnienia regresji i korelacji
Elementy Rachunku Prawdopodobieństwa i Statystyki
Błędy i niepewności pomiarowe II
Planowanie badań i analiza wyników
Wykład 16 Inne zagadnienia z prostej regresji liniowej.
Ekonometryczne modele nieliniowe
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Wykład 5 Przedziały ufności
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Estymatory punktowe i przedziałowe
Model ekonometryczny Jacek Szanduła.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Statystyka medyczna Piotr Kozłowski www: 1.
STATYSTYKA – kurs podstawowy wykład 11
Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013
Jednorównaniowy model regresji liniowej
MNK – podejście algebraiczne
Korelacja i regresja liniowa
Zapis prezentacji:

Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej. ``Pasmo’’ ufności dla prostej regresji Przedziały predykcyjne Analiza wariancji

Estymacja E(Yh) E(Yh) = μh = β0 + β1Xh, wartość oczekiwana Y gdy X=Xh estymujemy E(Yh) za pomocą = b0 + b1Xh

Teoria estymacji E(Yh) ma rozkład normalny o wartości oczekiwanej μh (jest estymatorem nieobciążonym) i wariancji σ2( )=

Toria estymacji E(Yh) (2) Normalność wynika z faktu, że = b0 + b1Xh jest liniową kombinacją Yi

Estymujemy σ2( ) za pomoca t= ~ t(n-2)

95% przedział ufności dla E(Yh) ± tc s( ) gdzie tc = t(.025, n-2) a s( ) =

data a1; infile ‘../data/ch01ta01.dat'; input size hours; data a2; size=65; output; size=100; output; data a3; set a1 a2; proc print data=a3; proc reg data=a3; model hours=size/clm; run;

Dep Var Predicted Obs size hours Value 26 65 . 294.4290 27 100 . 419.3861 Std Error Mean Predict 95% CL Mean 9.9176 273.9129 314.9451 14.2723 389.8615 448.9106

``Pasmo’’ ufności dla prostej regresji ± Ws( ) gdzie W2=2F(1-α; 2, n-2) Wartości krytyczne leżą na hiperboli

``Pasmo’’ ufności dla prostej regresji ``Pasmo’’ ufności związane jest z obszarem ufności dla (β0, β1 ), który jest elipsą. Możemy obliczyć wartość alfa, dla której odpowiednie tc da te same wyniki Zajdziemy W2 i odpowiednie alfa dla tc, tak aby W = tc

data a1; n=25; alpha=.10; dfn=2; dfd=n-2; w2=2*finv(1-alpha,dfn,dfd); w=sqrt(w2); alphat=2*(1-probt(w,dfd)); tc=tinv(1-alphat/2,dfd); output; proc print data=a1; run;

Obs n alpha dfn dfd w2 1 25 0.1 2 23 5.09858 w alphat tc 2.25800 0.033740 2.25800

data a2; infile‘../data/ch01ta01.dat'; input size hours; symbol1 v=circle i=rlclm97; proc gplot data=a2; plot hours*size; run;

Predykcja Yh(new) Yh = β0 + β1Xh + ξh Var(Yh - )=Var Yh + Var = σ2+Var S2(pred)= (Yh - )/s(pred) ~ t(n-2)

data a1; infile ‘../data/ch01ta01.dat'; input size hours; data a2; size=65; output; size=100; output; data a3; set a1 a2; proc print data=a3; proc reg data=a3; model hours=size/cli; run;

Dep Var Predicted Obs size hours Value 27 100 . 419.3861 Std Error Mean Predict 95% CL Predict 14.2723 314.1604 524.6117

Uwagi Błąd standardowy (Std Error Mean Predict)na tym wydruku to, s2( ), a nie s2(pred) Przedział predykcyjny jest szerszy (często znacznie) niż przedział ufności dla wartości oczekiwanej

95% przedział ufności dla E(Yh) i 95% przedział predykcyjny dla Yh ± tc s( ) ± tc s(pred) gdzie tc = t(.025, n-2)

data a1; infile ‘. /data/ch01ta01 data a1; infile ‘../data/ch01ta01.dat'; input size hours; symbol1 v=circle i=rlclm95; proc gplot data=a1; plot hours*size; run; symbol1 v=circle i=rlcli95; proc gplot data=a1; plot hours*size; run;quit;

Analiza wariancji (ANOVA) (Całkowity) rozrzut Y opisujemy za pomocą Σ(Yi – )2 Rozrzut ten wynika z dwóch przyczyn Zależności od X (model) Zakłóceń losowych

ANOVA (Total) SST = Σ(Yi – )2 dfT = n-1 MST = SST/dfT

ANOVA (Total) (2) MST to zwykły estymator wariancji Y gdy nie ma zmiennych wyjaśniających SAS (w wersji angileskiej) używa nazwy Corrected Total Nieskorygowana suma kwadratów to ΣYi2

ANOVA (Model) SSM = Σ( - )2 dfM = 1 (za nachylenie) MSM = SSM/dfM

ANOVA (Error) SSE = Σ(Yi – )2 dfE = n-2 MSE = SSE/dfE MSE jest estymatorem warunkowej wariancji Y, przy ustalonym X

ANOVA Source df SS MS Model 1 Σ( - )2 SSM/dfM Error n-2 Σ(Yi – )2 SSE/dfE Total n-1 Σ(Yi – )2 SST/dfT

ANOVA (2) Source df SS MS F P Model 1 SSM MSM MSM/MSE .nn Error n-2 SSE MSE Total n-1

Wartości oczekiwane MSM, MSE to zmienne losowe E(MSM) = σ2 + β12Σ(Xi – )2 E(MSE) = σ2 Gdy H0 zachodzi, β1 = 0, E(MSM) = E(MSE)

Test F F=MSM/MSE ~ F(dfM, dfE) = F(1, n-2) Gdy H0 nie zachodzi, β1 0 i MSM jest zwykle większe niż MSE Odrzucamy H0 dla dużych wartości F: F F(α, dfM, dfE) = F(.05, 1, n-2) W praktyce używamy p-wartości

Test F (2) Gdy H0 nie zachodzi, statystyka F ma niecentralny rozkład F Jest to podstawą do obliczeń mocy Przypomnijmy, że t = b1/s(b1) testuje H0 Można pokazać, że t2 = F Oba testy zwracają te same p-wartości

data a1; infile ‘h:/STAT512/ch01ta01.txt'; input size hours; proc reg data=a1; model hours=size; run;

Sum of Mean Source DF Squares Square Model 1 252378 252378 Error 23 54825 2383 C Total 24 307203 F Value Pr > F 105.88 <.0001

Par St Var DF Est Err t Pr>|t| Int 1 62.36 26.17 2.38 0.0259 size 1 3.57 0.34 10.29 <.0001

Ogólne testy liniowe Porównujemy dwa modele Yi = β0 + β1Xi + ξi (model pełny) Yi = β0 + ξi (model zredukowany) Porównujemy za pomocą SSEs: SSE(F), SSE(R) F=((SSE(R) - SSE(F))/(dfE(R) - dfE(F)))/ MSE(F)

Prosta regresja liniowa SSE(R)= Σ(Yi-b0)2= Σ(Yi- )2=SST SSE(F)=SSE dfE(R)=n-1, dfE(F)=n-2, dfE(R )-dfE(F )=1 F=(SST-SSE)/MSE=SSM/MSE

R2 , r2 r – klasyczny estymator współczynnika korelacji r2 = R2 =SSM/SST = 1 – SSE/SST Rozrzut wyjaśniony i niewyjaśniony

Sum of Mean Source DF Squares Square Model 1 252378 252378 Error 23 54825 2383 C Total 24 307203 F Value Pr > F 105.88 <.0001

R-Square 0.8215 (SAS) = SSM/SST = 252378/307203 Adj R-Sq 0.8138 (SAS) =1-MSE/MST =1-2383/(307203/24)