Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałBogumiła Łaszczyk Został zmieniony 11 lat temu
1
Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń
Środki zaradcze – odpowiednie dostosowanie metod analizy
2
Ocena danych Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych Zawsze powinniśmy ocenić rozrzut X Jeżeli Y zależy od X to rozkład brzegowy Y nie dostarcza nam dużo informacji
3
Diagnostyka dla zmiennej X
Przyglądamy się rozkładowi X Czy jest skośny ? Czy są obserwacje odstające ? Czy wartości X zależą od czasu (kolejności w jakiej dane były zbierane)?
4
data a1; infile ‘h:/STAT512/ch01ta01.txt'; input lotsize workhrs; seq=_n_; proc print data=a1; run;
5
Obs lotsize workhrs seq
6
proc univariate data=a1 plot;
var lotsize workhours; run;
7
Variable: lotsize N Mean Std Deviation Skewness Uncorrected SS Coeff Variation
8
Variable: lotsize Sum Weights Sum Observations Variance Kurtosis Corrected SS Std Error Mean
9
Basic Statistical Measures
Location Mean Median Mode
10
Basic Statistical Measures
Variability Std Deviation Variance Range Interquartile Range
11
Extreme Observations ----Lowest Highest--- Value Obs Value Obs
12
Stem Leaf # Boxplot | | | | | *--+--* | | | | | Multiply Stem.Leaf by 10**+1
13
symbol1 v=circle i=sm70; proc gplot data=a1; plot lotsize*seq; run;
15
Rozkład normalny Nasz model nie zakłada, że X lub Y pochodzą z jednorodnych populacji o rozkładach normalnych (zakładamy jedynie normalność zakłóceń losowych). Czasem jednak X lub Y mają w przybliżeniu rozkłady normalne i warto to wiedzieć
16
Wykres kwantylowy (q-q plot)
Znormi = -1((i-.375)/(n+.25)), i=1 to n Przybliżenie wartości oczekiwanej i-tej statystyki porządkowej w próbie pochodzącej ze standardowego rozkładu normalnego Rysujemy wykres X(i) vs Znormi
17
Wykres kwantylowy (2) Zmienną X standaryzujemy zgodnie ze wzorem z = (X - μ)/σ Więc, X = μ + σ z Jeżeli dane mają w przybliżeniu rozkład normalny to punkty na wykresie kwantylowym układają się wokół prostej, o nachyleniu bliskim σ i punkcie przecięcia z osią Y bliskim μ.
18
proc univariate data=a1 plot;
var lotsize workhrs; qqplot lotsize workhrs ; run;
20
Diagnostyka dla reszt Model: Yi = β0 + β1Xi + ξi
Wartości przewidywane: Ŷi = b0 + b1Xi Reszty: ei = Yi – Ŷi ei powinno być bliskie ξi Model zakłada, że ξi są iid N(0, σ2)
21
WYKRES Wykres Wykres Wykres Wykres
22
Pytania na które szukamy odpowiedzi
Czy zależność jest liniowa ? Czy wariancja Y zależy od X? Czy są obserwacje odstające ? Czy reszty zależą od kolejności w zbiorze danych (_n_) Czy zakłócenia mają rozkład normalny ? Czy zakłócenia są niezależne ?
23
Czy zależność jest liniowa ?
Rysujemy Y vs X Rysujemy e vs X Wykres e vs X podkreśla odstępstwa od liniowości
24
Data a100; do x=1 to 30; y=x*x-10*x+30+25*normal(0); output; end; run;
25
proc reg data=a100; model y=x; output out=a2 r=resid; run;
26
Sum of Mean Source DF Squares Square Model Error C Tot F Value Pr > F <.0001
27
symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; run; symbol1 v=circle i=sm60; plot resid*x/vref=0;
31
Czy wariancja zależy od X?
Rysujemy Y vs X Rysujemy e vs X Wykres e vs X podkreśla odstępstwa od założenia o równej wariancji
32
Data a100a; do x=1 to 100; y=100*x+30+10*x*normal(0); output; end; run;
33
proc reg data=a100a; model y=x; output out=a2 r=resid; run;
34
symbol1 v=circle i=sm60; proc gplot data=a2; plot y*x; plot resid*x vref=0; run;
37
Czy zakłócenia pochodzą z rozkładu normalnego ?
Naprawdę chodzi nam o to aby sprawdzić czy rozkład reszt na tyle różni się od normalnego, że przedziały ufności i testy istotności tracą swoje własności. Oceniamy rozkład reszt za pomocą wykresu kwantylowego
38
data a1; infile ‘../data/ch01ta01.dat'; input lotsize workhrs; proc reg data=a1; model workhrs=lotsize; output out=a2 r=resid; proc univariate data=a2 plot normal; var resid; histogram resid/ normal kernel (color=green); qqplot resid; run;
41
Zależność błędów Zwykle odstępstwa od tego założenia można zaobserwować rysując reszty w funkcji czasu Mogą pojawić się trendy lub zakłócenia okresowe
42
Czy są obserwacje odstające ?
Wykres Y vs X Wykres e vs X Wykres e vs X powinien ułatwić identyfikację obserwacji odstającej
43
Data a100b1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=50; y=30+50* ; d='out'; output; run;
44
proc reg data=a100b1; model y=x; where d ne 'out'; run; output out=a2 r=resid;
45
Par St Var Est Error t Pr>|t| Int x <.0001 Int x
46
Root MSE Root MSE
47
symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; plot resid*x/ vref=0; run;
50
Różne rodzaje obserwacji odstających
Obserwacja odstająca w poprzednim przykładzie wpłynęła na estymator punktu przecięcia z osią Y Ale nie na estymator nachylenia Zwiększyła estymator odchylenia standardowego W kolejnym przykładzie zademonstrujemy jak obserwacja odstająca może wpływać na estymator nachylenia
51
Data a100c1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=100; y=30+50* ; d='out'; output; run;
52
proc reg data=a100c1; model y=x; where d ne 'out'; run; output out=a2 r=resid;
53
Par St Var Est Err t Pr>|t| Int x <.0001 Int x
54
symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; plot resid*x/ vref=0; run;
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.