Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy.

Podobne prezentacje


Prezentacja na temat: "Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy."— Zapis prezentacji:

1 Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy

2 Ocena danych Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych Zawsze powinniśmy ocenić rozrzut X Jeżeli Y zależy od X to rozkład brzegowy Y nie dostarcza nam dużo informacji

3 Diagnostyka dla zmiennej X Przyglądamy się rozkładowi X –Czy jest skośny ? –Czy są obserwacje odstające ? Czy wartości X zależą od czasu (kolejności w jakiej dane były zbierane)?

4 data a1; infile h:/STAT512/ch01ta01.txt'; input lotsize workhrs; seq=_n_; proc print data=a1; run;

5 Obs lotsize workhrs seq

6 proc univariate data=a1 plot; var lotsize workhours; run;

7 Variable: lotsize N 25 Mean 70 Std Deviation Skewness Uncorrected SS Coeff Variation

8 Variable: lotsize Sum Weights 25 Sum Observations 1750 Variance 825 Kurtosis Corrected SS Std Error Mean

9 Basic Statistical Measures Location Mean Median Mode

10 Basic Statistical Measures Variability Std Deviation Variance Range Interquartile Range

11 Extreme Observations ----Lowest Highest--- Value Obs

12 Stem Leaf # Boxplot | | | | | *--+--* | | | | | Multiply Stem.Leaf by 10**+1

13 symbol1 v=circle i=sm70; proc gplot data=a1; plot lotsize*seq; run;

14

15 Rozkład normalny Nasz model nie zakłada, że X lub Y pochodzą z jednorodnych populacji o rozkładach normalnych (zakładamy jedynie normalność zakłóceń losowych). Czasem jednak X lub Y mają w przybliżeniu rozkłady normalne i warto to wiedzieć

16 Wykres kwantylowy (q-q plot) Znorm i = -1 ((i-.375)/(n+.25)), i=1 to n Przybliżenie wartości oczekiwanej i-tej statystyki porządkowej w próbie pochodzącej ze standardowego rozkładu normalnego Rysujemy wykres X (i) vs Znorm i

17 Wykres kwantylowy (2) Zmienną X standaryzujemy zgodnie ze wzorem z = (X - μ)/σ Więc, X = μ + σ z Jeżeli dane mają w przybliżeniu rozkład normalny to punkty na wykresie kwantylowym układają się wokół prostej, o nachyleniu bliskim σ i punkcie przecięcia z osią Y bliskim μ.

18 proc univariate data=a1 plot; var lotsize workhrs; qqplot lotsize workhrs ; run;

19

20 Diagnostyka dla reszt Model: Y i = β 0 + β 1 X i + ξ i Wartości przewidywane: Ŷ i = b 0 + b 1 X i Reszty: e i = Y i – Ŷ i e i powinno być bliskie ξ i Model zakłada, że ξ i są iid N(0, σ 2 )

21 WYKRES Wykres

22 Pytania na które szukamy odpowiedzi Czy zależność jest liniowa ? Czy wariancja Y zależy od X? Czy są obserwacje odstające ? Czy reszty zależą od kolejności w zbiorze danych (_n_) Czy zakłócenia mają rozkład normalny ? Czy zakłócenia są niezależne ?

23 Czy zależność jest liniowa ? Rysujemy Y vs X Rysujemy e vs X Wykres e vs X podkreśla odstępstwa od liniowości

24 Data a100; do x=1 to 30; y=x*x-10*x+30+25*normal(0); output; end; run;

25 proc reg data=a100; model y=x; output out=a2 r=resid; run;

26 Sum of Mean Source DF Squares Square Model Error C Tot F Value Pr > F <.0001

27 symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; run; symbol1 v=circle i=sm60; proc gplot data=a2; plot y*x; proc gplot data=a2; plot resid*x/vref=0; run;

28

29

30

31 Czy wariancja zależy od X? Rysujemy Y vs X Rysujemy e vs X Wykres e vs X podkreśla odstępstwa od założenia o równej wariancji

32 Data a100a; do x=1 to 100; y=100*x+30+10*x*normal(0); output; end; run;

33 proc reg data=a100a; model y=x; output out=a2 r=resid; run;

34 symbol1 v=circle i=sm60; proc gplot data=a2; plot y*x; proc gplot data=a2; plot resid*x vref=0; run;

35

36

37 Czy zakłócenia pochodzą z rozkładu normalnego ? Naprawdę chodzi nam o to aby sprawdzić czy rozkład reszt na tyle różni się od normalnego, że przedziały ufności i testy istotności tracą swoje własności. Oceniamy rozkład reszt za pomocą wykresu kwantylowego

38 data a1; infile../data/ch01ta01.dat'; input lotsize workhrs; proc reg data=a1; model workhrs=lotsize; output out=a2 r=resid; proc univariate data=a2 plot normal; var resid; histogram resid/ normal kernel (color=green); qqplot resid; run;

39

40

41 Zależność błędów Zwykle odstępstwa od tego założenia można zaobserwować rysując reszty w funkcji czasu Mogą pojawić się trendy lub zakłócenia okresowe

42 Czy są obserwacje odstające ? Wykres Y vs X Wykres e vs X Wykres e vs X powinien ułatwić identyfikację obserwacji odstającej

43 Data a100b1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=50; y=30+50* ; d='out'; output; run;

44 proc reg data=a100b1; model y=x; where d ne 'out'; run; proc reg data=a100b1; model y=x; output out=a2 r=resid; run;

45 Par St Var Est Error t Pr>|t| Int x <.0001 Int x

46 Root MSE Root MSE

47 symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; proc gplot data=a2; plot resid*x/ vref=0; run;

48

49

50 Różne rodzaje obserwacji odstających Obserwacja odstająca w poprzednim przykładzie wpłynęła na estymator punktu przecięcia z osią Y Ale nie na estymator nachylenia Zwiększyła estymator odchylenia standardowego W kolejnym przykładzie zademonstrujemy jak obserwacja odstająca może wpływać na estymator nachylenia

51 Data a100c1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=100; y=30+50* ; d='out'; output; run;

52 proc reg data=a100c1; model y=x; where d ne 'out'; run; proc reg data=a100c1; model y=x; output out=a2 r=resid; run;

53 Par St Var Est Err t Pr>|t| Int x <.0001 Int x

54 symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; proc gplot data=a2; plot resid*x/ vref=0; run;

55

56


Pobierz ppt "Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy."

Podobne prezentacje


Reklamy Google