Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej. ``Pasmo ufności dla prostej regresji Przedziały predykcyjne Analiza wariancji.

Podobne prezentacje


Prezentacja na temat: "Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej. ``Pasmo ufności dla prostej regresji Przedziały predykcyjne Analiza wariancji."— Zapis prezentacji:

1 Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej. ``Pasmo ufności dla prostej regresji Przedziały predykcyjne Analiza wariancji

2 Estymacja E(Y h ) E(Y h ) = μ h = β 0 + β 1 X h, wartość oczekiwana Y gdy X=X h estymujemy E(Y h ) za pomocą = b 0 + b 1 X h

3 Teoria estymacji E(Y h ) ma rozkład normalny o wartości oczekiwanej μ h (jest estymatorem nieobciążonym) i wariancji σ 2 ( )=

4 Toria estymacji E(Y h ) (2) Normalność wynika z faktu, że = b 0 + b 1 X h jest liniową kombinacją Y i

5 Estymujemy σ 2 ( ) za pomoca s 2 ( )= t= ~ t(n-2)

6 95% przedział ufności dla E(Y h ) ± t c s( ) gdzie t c = t(.025, n-2) a s( ) =

7 data a1; infile../data/ch01ta01.dat'; input size hours; data a2; size=65; output; size=100; output; data a3; set a1 a2; proc print data=a3; proc reg data=a3; model hours=size/clm; run;

8 Dep Var Predicted Obs size hours Value Std Error Mean Predict 95% CL Mean

9 ``Pasmo ufności dla prostej regresji ± Ws( ) gdzie W 2 =2F(1-α; 2, n-2) Wartości krytyczne leżą na hiperboli

10 ``Pasmo ufności dla prostej regresji ``Pasmo ufności związane jest z obszarem ufności dla (β 0, β 1 ), który jest elipsą. Możemy obliczyć wartość alfa, dla której odpowiednie t c da te same wyniki Zajdziemy W 2 i odpowiednie alfa dla t c, tak aby W = t c

11 data a1; n=25; alpha=.10; dfn=2; dfd=n-2; w2=2*finv(1-alpha,dfn,dfd); w=sqrt(w2); alphat=2*(1-probt(w,dfd)); tc=tinv(1-alphat/2,dfd); output; proc print data=a1; run;

12 Obs n alpha dfn dfd w w alphat tc

13 data a2; infile../data/ch01ta01.dat '; input size hours; symbol1 v=circle i=rlclm97; proc gplot data=a2; plot hours*size; run;

14

15 Predykcja Y h (new) Y h = β 0 + β 1 X h + ξ h Var(Y h - )=Var Y h + Var = σ 2 +Var S 2 (pred)= (Y h - )/s(pred) ~ t(n-2)

16 data a1; infile../data/ch01ta01.dat'; input size hours; data a2; size=65; output; size=100; output; data a3; set a1 a2; proc print data=a3; proc reg data=a3; model hours=size/cli; run;

17 Dep Var Predicted Obs size hours Value Std Error Mean Predict 95% CL Predict

18 Uwagi Błąd standardowy (Std Error Mean Predict)na tym wydruku to, s 2 ( ), a nie s 2 (pred) Przedział predykcyjny jest szerszy (często znacznie) niż przedział ufności dla wartości oczekiwanej

19 95% przedział ufności dla E(Y h ) i 95% przedział predykcyjny dla Y h ± t c s( ) ± t c s(pred) gdzie t c = t(.025, n-2)

20 data a1; infile../data/ch01ta01.dat'; input size hours; symbol1 v=circle i=rlclm95; proc gplot data=a1; plot hours*size; run; symbol1 v=circle i=rlcli95; proc gplot data=a1; plot hours*size; run;quit;

21

22

23 Analiza wariancji (ANOVA) (Całkowity) rozrzut Y opisujemy za pomocą Σ(Y i – ) 2 Rozrzut ten wynika z dwóch przyczyn –Zależności od X (model) –Zakłóceń losowych

24 ANOVA (Total) SST = Σ(Y i – ) 2 dfT = n-1 MST = SST/dfT

25 ANOVA (Total) (2) MST to zwykły estymator wariancji Y gdy nie ma zmiennych wyjaśniających SAS (w wersji angileskiej) używa nazwy Corrected Total Nieskorygowana suma kwadratów to ΣY i 2

26 ANOVA (Model) SSM = Σ( - ) 2 dfM = 1 (za nachylenie) MSM = SSM/dfM

27 ANOVA (Error) SSE = Σ(Y i – ) 2 dfE = n-2 MSE = SSE/dfE MSE jest estymatorem warunkowej wariancji Y, przy ustalonym X

28 ANOVA Source df SS MS Model 1 Σ( - ) 2 SSM/dfM Error n-2 Σ(Y i – ) 2 SSE/dfE Total n-1 Σ(Y i – ) 2 SST/dfT

29 ANOVA (2) Source df SS MS F P Model 1 SSM MSM MSM/MSE.nn Error n-2 SSE MSE Total n-1

30 Wartości oczekiwane MSM, MSE to zmienne losowe E(MSM) = σ 2 + β 1 2 Σ(X i – ) 2 E(MSE) = σ 2 Gdy H 0 zachodzi, β 1 = 0, E(MSM) = E(MSE)

31 Test F F=MSM/MSE ~ F(dfM, dfE) = F(1, n-2) Gdy H 0 nie zachodzi, β 1 0 i MSM jest zwykle większe niż MSE Odrzucamy H 0 dla dużych wartości F: F F(α, dfM, dfE) = F(.05, 1, n-2) W praktyce używamy p-wartości

32 Test F (2) Gdy H 0 nie zachodzi, statystyka F ma niecentralny rozkład F Jest to podstawą do obliczeń mocy Przypomnijmy, że t = b 1 /s(b 1 ) testuje H 0 Można pokazać, że t 2 = F Oba testy zwracają te same p- wartości

33 data a1; infile h:/STAT512/ch01ta01.txt'; input size hours; proc reg data=a1; model hours=size; run;

34 Sum of Mean Source DF Squares Square Model Error C Total F Value Pr > F <.0001

35 Par St Var DF Est Err t Pr>|t| Int size <.0001

36 Ogólne testy liniowe Porównujemy dwa modele –Y i = β 0 + β 1 X i + ξ i (model pełny) –Y i = β 0 + ξ i (model zredukowany) Porównujemy za pomocą SSEs: SSE(F), SSE(R) F=((SSE(R) - SSE(F))/(dfE(R) - dfE(F)))/ MSE(F)

37 Prosta regresja liniowa SSE(R)= Σ(Y i -b 0 ) 2 = Σ(Y i - ) 2 =SST SSE(F)=SSE dfE(R)=n-1, dfE(F)=n-2, dfE(R )-dfE(F )=1 F=(SST-SSE)/MSE=SSM/MSE

38 R 2, r 2 r – klasyczny estymator współczynnika korelacji r 2 = R 2 =SSM/SST = 1 – SSE/SST Rozrzut wyjaśniony i niewyjaśniony

39 Sum of Mean Source DF Squares Square Model Error C Total F Value Pr > F <.0001

40 R-Square (SAS) = SSM/SST = / Adj R-Sq (SAS) =1-MSE/MST =1-2383/(307203/24)


Pobierz ppt "Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej. ``Pasmo ufności dla prostej regresji Przedziały predykcyjne Analiza wariancji."

Podobne prezentacje


Reklamy Google