Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

Excel Narzędzia do analizy regresji
hasło: student Justyna Kubacka
Estymacja. Przedziały ufności.
Wykład 5 Standardowy błąd a odchylenie standardowe
Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej.
Wykład 12 Regresja liniowa
Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.
Wizualizacja rozkładu zmiennej
Zmienne losowe i ich rozkłady
Dane dotyczące sprzedaży wody mineralnej
Analiza portfeli dwu- oraz trzy-akcyjnych
Statystyczne parametry akcji
Współczynnik beta Modele jedno-, wieloczynnikowe Model jednowskaźnikowy Sharpe’a Linia papierów wartościowych.
Metody ekonometryczne
Statystyka w doświadczalnictwie
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 14 Liniowa regresja
Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Statystyczna analiza danych
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Wykład 4 Przedziały ufności
Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń.
Korelacje, regresja liniowa
ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA
Wzory ułatwiające obliczenia
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
STATYSTYCZNA ANALIZA DANYCH
Co to są rozkłady normalne?
Co to są rozkłady normalne?
Korelacja, autokorelacja, kowariancja, trendy
Plan na dziś Ogólny model liniowy (GLM) Model mieszany (MIXED)
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Ocena rozkładu na podstawie wykresów kwantylowych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Statystyka – zadania 4 Janusz Górczyński.
Projekt wykonany przez studentów I roku ARI Politechniki Wrocławskiej:
Statystyka ©M.
Ekonometryczne modele nieliniowe
Regresja wieloraka.
dr Zofia Skrzypczak Wydział Zarządzania UW
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe
Elementy geometryczne i relacje
Wykład 5 Przedziały ufności
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Estymatory punktowe i przedziałowe
Statystyczna Analiza Danych SAD2 Wykład 4 i 5. Test dla proporcji (wskaźnika struktury) 2.
Statystyczna analiza danych SAD2 Wykład 5. Testy o różnicy wartości średnich dwóch rozkładów normalnych (znane wariancje) Statystyczna analiza danych.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 11
Statystyka Powtorzenie
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Zmienna losowa. Wybrane rozkłady zmiennej. Przedział ufności.
MNK – podejście algebraiczne
Korelacja i regresja liniowa
statystyka podstawowe pojęcia
Zapis prezentacji:

Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy

Ocena danych Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych Zawsze powinniśmy ocenić rozrzut X Jeżeli Y zależy od X to rozkład brzegowy Y nie dostarcza nam dużo informacji

Diagnostyka dla zmiennej X Przyglądamy się rozkładowi X Czy jest skośny ? Czy są obserwacje odstające ? Czy wartości X zależą od czasu (kolejności w jakiej dane były zbierane)?

data a1; infile ‘h:/STAT512/ch01ta01.txt'; input lotsize workhrs; seq=_n_; proc print data=a1; run;

Obs lotsize workhrs seq 1 80 399 1 2 30 121 2 3 50 221 3 4 90 376 4 5 70 361 5

proc univariate data=a1 plot; var lotsize workhours; run;

Variable: lotsize N 25 Mean 70 Std Deviation 28.7228132 Skewness -0.1032081 Uncorrected SS 142300 Coeff Variation 41.0325903

Variable: lotsize Sum Weights 25 Sum Observations 1750 Variance 825 Kurtosis -1.0794107 Corrected SS 19800 Std Error Mean 5.74456265

Basic Statistical Measures Location Mean 70.00000 Median 70.00000 Mode 90.00000

Basic Statistical Measures Variability Std Deviation 28.72281 Variance 825.00000 Range 100.00000 Interquartile Range 40.00000

Extreme Observations ----Lowest---- ----Highest--- Value Obs Value Obs 20 14 100 9 30 21 100 16 30 17 110 15 30 2 110 20 40 23 120 7

Stem Leaf # Boxplot 12 0 1 | 11 00 2 | 10 00 2 | 9 0000 4 +-----+ 8 000 3 | | 7 000 3 *--+--* 6 0 1 | | 5 000 3 +-----+ 4 00 2 | 3 000 3 | 2 0 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

symbol1 v=circle i=sm70; proc gplot data=a1; plot lotsize*seq; run;

Rozkład normalny Nasz model nie zakłada, że X lub Y pochodzą z jednorodnych populacji o rozkładach normalnych (zakładamy jedynie normalność zakłóceń losowych). Czasem jednak X lub Y mają w przybliżeniu rozkłady normalne i warto to wiedzieć

Wykres kwantylowy (q-q plot) Znormi = -1((i-.375)/(n+.25)), i=1 to n Przybliżenie wartości oczekiwanej i-tej statystyki porządkowej w próbie pochodzącej ze standardowego rozkładu normalnego Rysujemy wykres X(i) vs Znormi

Wykres kwantylowy (2) Zmienną X standaryzujemy zgodnie ze wzorem z = (X - μ)/σ Więc, X = μ + σ z Jeżeli dane mają w przybliżeniu rozkład normalny to punkty na wykresie kwantylowym układają się wokół prostej, o nachyleniu bliskim σ i punkcie przecięcia z osią Y bliskim μ.

proc univariate data=a1 plot; var lotsize workhrs; qqplot lotsize workhrs ; run;

Diagnostyka dla reszt Model: Yi = β0 + β1Xi + ξi Wartości przewidywane: Ŷi = b0 + b1Xi Reszty: ei = Yi – Ŷi ei powinno być bliskie ξi Model zakłada, że ξi są iid N(0, σ2)

WYKRES Wykres Wykres Wykres Wykres

Pytania na które szukamy odpowiedzi Czy zależność jest liniowa ? Czy wariancja Y zależy od X? Czy są obserwacje odstające ? Czy reszty zależą od kolejności w zbiorze danych (_n_) Czy zakłócenia mają rozkład normalny ? Czy zakłócenia są niezależne ?

Czy zależność jest liniowa ? Rysujemy Y vs X Rysujemy e vs X Wykres e vs X podkreśla odstępstwa od liniowości

Data a100; do x=1 to 30; y=x*x-10*x+30+25*normal(0); output; end; run;

proc reg data=a100; model y=x; output out=a2 r=resid; run;

Sum of Mean Source DF Squares Square Model 1 1032098 1032098 Error 28 169048 6037 C Tot 29 1201145 F Value Pr > F 170.95 <.0001

symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; run; symbol1 v=circle i=sm60; plot resid*x/vref=0;

Czy wariancja zależy od X? Rysujemy Y vs X Rysujemy e vs X Wykres e vs X podkreśla odstępstwa od założenia o równej wariancji

Data a100a; do x=1 to 100; y=100*x+30+10*x*normal(0); output; end; run;

proc reg data=a100a; model y=x; output out=a2 r=resid; run;

symbol1 v=circle i=sm60; proc gplot data=a2; plot y*x; plot resid*x vref=0; run;

Czy zakłócenia pochodzą z rozkładu normalnego ? Naprawdę chodzi nam o to aby sprawdzić czy rozkład reszt na tyle różni się od normalnego, że przedziały ufności i testy istotności tracą swoje własności. Oceniamy rozkład reszt za pomocą wykresu kwantylowego

data a1; infile ‘../data/ch01ta01.dat'; input lotsize workhrs; proc reg data=a1; model workhrs=lotsize; output out=a2 r=resid; proc univariate data=a2 plot normal; var resid; histogram resid/ normal kernel (color=green); qqplot resid; run;

Zależność błędów Zwykle odstępstwa od tego założenia można zaobserwować rysując reszty w funkcji czasu Mogą pojawić się trendy lub zakłócenia okresowe

Czy są obserwacje odstające ? Wykres Y vs X Wykres e vs X Wykres e vs X powinien ułatwić identyfikację obserwacji odstającej

Data a100b1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=50; y=30+50*50 +10000; d='out'; output; run;

proc reg data=a100b1; model y=x; where d ne 'out'; run; output out=a2 r=resid;

Par St Var Est Error t Pr>|t| Int -2.54 95.29 x 50.51 1.68 29.91 <.0001 Int 432.20 979.57 x 51.37 17.45 2.94 .0083

Root MSE 217.77514 Root MSE 2250.22683

symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; plot resid*x/ vref=0; run;

Różne rodzaje obserwacji odstających Obserwacja odstająca w poprzednim przykładzie wpłynęła na estymator punktu przecięcia z osią Y Ale nie na estymator nachylenia Zwiększyła estymator odchylenia standardowego W kolejnym przykładzie zademonstrujemy jak obserwacja odstająca może wpływać na estymator nachylenia

Data a100c1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=100; y=30+50*100 -10000; d='out'; output; run;

proc reg data=a100c1; model y=x; where d ne 'out'; run; output out=a2 r=resid;

Par St Var Est Err t Pr>|t| Int 73.2 93.6 x 49.8 1.6 30.02 <.0001 Int 903.9 899.3 x 24.1 15.1 1.59 0.1285

symbol1 v=circle i=rl; proc gplot data=a2; plot y*x; plot resid*x/ vref=0; run;