Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
KORELACJA I REGRESJA WIELOWYMIAROWA
Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej.
Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń
Wykład 12 Regresja liniowa
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza współzależności
Dane dotyczące sprzedaży wody mineralnej
Analiza współzależności
Wartość empiryczna (obserwowana) zmiennej
Metody ekonometryczne
Metody ekonometryczne
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Ekonometria wykladowca: dr Michał Karpuk
Nowy kod Statistica 6.1 HEN6EUEKH8.
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Programy hodowlane i pakiety statystyczne
Analiza korelacji.
Wykład 14 Liniowa regresja
Prognozowanie na podstawie modelu ekonometrycznego
Modele (hipotezy) zagnieżdżone
Korelacje, regresja liniowa
Analiza wariancji ANOVA efekty główne
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Korelacja, autokorelacja, kowariancja, trendy
Jednoczynnikowa analiza wariancji (ANOVA)
Plan na dziś Ogólny model liniowy (GLM) Model mieszany (MIXED)
Analiza wariancji jednoczynnikowa
Agnieszka Jankowicz-Szymańska1, Wiesław Wojtanowski1,2
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Elementy Rachunku Prawdopodobieństwa i Statystyki
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Modelowanie ekonometryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Statystyka ©M.
Podstawy statystyki, cz. II
Ekonometria stosowana
Analiza wariancji ANOVA czynnikowa ANOVA
Ekonometria stosowana
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Regresja wieloraka.
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Ekonometryczne modele nieliniowe
Statystyka medyczna Piotr Kozłowski
Elementy geometryczne i relacje
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Estymatory punktowe i przedziałowe
Model ekonometryczny Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Treść dzisiejszego wykładu l Metoda Najmniejszych Kwadratów (MNK) l Współczynnik determinacji l Koincydencja l Kataliza l Współliniowość zmiennych.
Statystyka Powtorzenie
„Gospodarka i Społeczeństwo”   Zielone miejsca pracy w krajach Unii Europejskiej – studium empiryczne z zastosowaniem analizy regresji Barbara.
KORELACJA I REGRESJA WIELOWYMIAROWA
Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja.
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
MNK – podejście algebraiczne
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
MODELOWANIE ZMIENNOŚCI CECH
Zapis prezentacji:

Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia Przykładowe oblicznia w SASie Weryfikacja założeń w SASie Zadanie

Regresja wieloraka Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi)

Typowe zadanie Jak przewidzieć odsetek upadków zwierząt przy transporcie? Jakie zmienne związane są z upadkami zwierząt? Co decyduje o upadkach zwierząt? Które z nich są najważniejsze i w jakim stopniu są powiązane ze stratami zwierząt?

regresja pierwszego rzędu y = a + b1x1 + b2x2 + b3x3 + ... + e drugiego rzędu y = a + b1x1 + b2x2x2 + ... y = a + b1x1 + b2x2 + b3x2x3 + Dlaczego te regresje są liniowe?

y = a + b1x1 + b2x2 + b3x3 + ... + e a to wyraz wolny. Średnia? b1, b2, b3 – cząstkowe współczynniki regresji to niezależne wkłady każdej ze zmiennych objaśniających

Współczynniki cząstkowe obrazują zależności po uwzględnieniu pozostałych czynników. Jak je oszacować?

Jak wyznaczyć prostą regresji metoda najmniejszych kwadratów metoda najmniejszych kwadratów ważonych metoda najmniejszych reszt bezwględnych

Metoda najmniejszych kwadratów

R-kwadrat czyli współczynnik determinacji Mówi o jakości przewidywania R2=30% znaczy 30% wariancji opisane przez zmienne opisujące i 70% wciąż nie opisane (błędy)

R-kwadrat R-kwadrat = 1 - SSE / SST SSE - suma kwadratów reszt SST - suma kwadratów obserwacji

R-kwadrat skorygowane R-kwadrat zależy od liczby zmiennych objaśniających! Im więcej zmiennych tym większy. R-kwadrat skorygowane NIE zależy od liczby zmiennych objaśniających Porównując dwa modele o różnej liczbie zmiennych patrz na R-kwadrat skorygowane

R czyli korelacja R to pierwiastek z R-kwadrat. Tylko dodatni ( 0 - 1 ) !!! wskazuje na stopień powiązania zmiennych

Zależność między zmiennymi jest liniowa Trudne do sprawdzenia Małe odstępstwa niegroźne Liniowość oceniamy na oko – wykresy rozrzutu Co jeżeli zależność nie jest liniowa? transformacja danych regresja nieliniowa

Regresja mówi o współwystępowaniu zjawisk, a nie o przyczynach i skutkach! Regresja liczby kradzieży na liczbę policjantów jest dodatnia!

Zwodnicza regresja Jeżeli w modelu umieścisz dużą liczbę zmiennych objaśniających część z nich na pewno będzie istotna. Im więcej danych tym mniej złudne są wyniki. Ile?

Reszty mają rozkład normalny Ważne przy testowaniu, nie przy szacowaniu Stosujemy histogramy reszt i wykresy normalności reszt Niewielkie odchylenia nie są groźne Dobry model daje duży R-kwadrat i normalność reszt. Czy taki potrafimy znaleźć?

Nadmiarowość danych % upadków przy transporcie tak samo dobrze opisuje liczba przejechanych kilometrów jak i dystans do ubojni (to to samo) Należy uważać, żeby zmienne objaśniające nie były zbytnio skorelowane

Odstające obserwacje Znacznie przekłamują oszacowania. Najczęściej to błędy powstałe przy wpisywaniu danych. Najlepiej usunąć je przed analizą regresji.

Przykładowe dane wbp 58.7 200 38.9 1.18 wbp 57.7 171 41.2 1.22 ...... Rasa Zawartość mięsa w tuszy Wiek w dniu uboju Masa półtuszy Średnia grubość słoniny

Wyznaczamy model do przewidywania zawartości mięsa w tuszy na podstawie wieku data swinie ; infile "dane.txt" ; input rasa $ zmwt wiekub mtuszy grsloniny ; proc reg model zwmt = wiekub ; plot upadki*dystans ; run ;

Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 47.58626 47.58626 5.91 0.0160 Error 190 1530.37291 8.05459 Corrected Total 191 1577.95917 Root MSE 2.83806 R-Square 0.0302 Dependent Mean 59.40208 Adj R-Sq 0.0251 Coeff Var 4.77771 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 65.41199 2.48104 26.36 <.0001 wiekub 1 -0.03121 0.01284 -2.43 0.0160

Wybór modelu Który model jest najlepszy? Ten z max. R-kwadrat? Ale uwaga! -im szerszy model tym większy wsp. determ. CP = (SSE/war.błędu) + 2*l.parametrów - liczba obserwacji

Jak wyznaczyć najlepszy model? Najlepiej rozpatrywać każdy model z osobna (za dużo kombinacji). Jeżeli więcej zmiennych kandydujących to korzystamy z regresji krokowej wstecznej postępującej i innych

Wybór modelu FORWARD - dokładanie po jednej zmiennej BACKWARD - ujmowanie po jednej zmiennej STEPWISE – jak FORWARD ale zmienna raz dodana nie musi pozostać w modelu MAXR – wybór najlepszego modelu dla jednej zmiennej, najlepszego dla dwóch zmiennych, itd.. CP - szuka podanej liczby modeli o najmniejszej wartosci Cp i zadanym rozmiarze modelu

R. krokowa postępująca Najprostszy model – tylko wyraz wolny Testujemy każdy z osobna, i dodajemy do modelu zmienną, której F>Fwprow. Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F<Fusun.

Wybór modelu proc reg model zwmt = wiekub mtuszy grsloniny / selection=stepwise ; run ;

Stepwise Selection: Step 3 Variable wiekub Entered: R-Square = 0.3802 and C(p) = 4.0000 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 599.86830 199.95610 38.43 <.0001 Error 188 978.09086 5.20261 Corrected Total 191 1577.95917 Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept 100.83899 6.26631 1347.26952 258.96 <.0001 wiekub -0.03992 0.01038 76.98254 14.80 0.0002 mtuszy -0.66982 0.15427 98.07421 18.85 <.0001 grsloniny -4.72688 0.60845 313.99019 60.35 <.0001 zwmt = 100.8 - 0.04*wiekub - 0.67*mtuszy - 4.73*grsloniny

Po dopasowaniu modelu zawsze analizujemy reszty. Powtarzamy analizę jeżeli mamy duże wartości odstające!

model zmwt = wiekub mtuszy grsloniny / p r cli clm ; run; proc reg ; model zmwt = wiekub mtuszy grsloniny / p r cli clm ; run; P – drukuje numer obserwacji, wartość obserwowaną , predykowaną i reszte R – drukuje więcej szczegółow o resztach CLM – 95% przedizał ufności dla predykowanych wartości Dependent Predicted Std Error Std Error Student Obs Variable Value Mean Predict 95% CL Mean 95% CL Predict Residual Residual Residual -2 -1 0 1 2 1 58.7000 61.2208 0.2699 60.6885 61.7532 56.6899 65.7517 -2.5208 2.265 -1.113 | **| | 2 57.7000 60.6489 0.4211 59.8182 61.4796 56.0734 65.2244 -2.9489 2.242 -1.315 | **| | 3 60.4000 62.3436 0.3247 61.7032 62.9841 57.7988 66.8885 -1.9436 2.258 -0.861 | *| | 4 51.9000 54.9105 0.5844 53.7576 56.0634 50.2657 59.5553 -3.0105 2.205 -1.365 | **| | 5 61.7000 60.9182 0.3347 60.2580 61.5785 56.3706 65.4659 0.7818 2.256 0.346 | | | 6 62.4000 61.9895 0.3602 61.2790 62.7001 57.4343 66.5448 0.4105 2.252 0.182 | | | 7 60.9000 60.1696 0.3018 59.5742 60.7650 55.6309 64.7083 0.7304 2.261 0.323 | | | 8 55.5000 60.4452 0.2379 59.9758 60.9146 55.9213 64.9691 -4.9452 2.268 -2.180 | ****| | 9 59.4000 58.2251 0.2220 57.7872 58.6631 53.7044 62.7459 1.1749 2.270 0.518 | |* | 10 59.0000 56.9470 0.3760 56.2053 57.6887 52.3868 61.5072 2.0530 2.250 0.913 | |* | 11 60.8000 60.1635 0.1822 59.8040 60.5230 55.6497 64.6774 0.6365 2.274 0.280 | | |

Reszty studentyzowane - reszty podzielone przez odchylenie standardowe reszt – duża liczba obserwacji z wartościami bezwzględnymi >2 wskazuje na nieadekwatność modelu. Wartosci D Cooka – odzwierciedlają zmianę w oszacowaniu, gdyby obserwacje usunięto z analizy. Duża wartość (>1) wskazuje, że obserwacja silnie wpływa na oszacowania w modelu – możliwe że jest to obserwacja odstająca!

Wpływowe obserwacje Obserwacje, które mają największy wpływ na oszacowania parametrów w modelu. proc reg ; model zmwt = wiekub mtuszy grsloniny / influential ; run;

RSTUDENT – reszta studentyzowana, uwaga na wartości >2 DFFITS- podobne do wartości D Cooka,, uwaga na te, które > 2 DFBETAS – uwaga na wartości >2

udział tłuszczu w ciele Problem na ćwiczenia udział tłuszczu w ciele Ważny dla zdrowia Trudny w pomiarze - wymaga ważenia ciała w wodzie. Czy można go przewidzieć na podstawie łatwych pomiarów.

dane BODYFAT Density determined from underwater weighing Percent body fat from Siri's (1956) equation Age (years) Weight (lbs) Height (inches) Neck circumference (cm) Chest circumference (cm) Abdomen 2 circumference (cm) Hip circumference (cm) Thigh circumference (cm) Knee circumference (cm) Ankle circumference (cm) Biceps (extended) circumference (cm) Forearm circumference (cm) Wrist circumference (cm) dane BODYFAT http://lib.stat.cmu.edu/datasets/

Zadania na ćwiczenia Skonstruuj dobry model predykcji udziału tłuszczu w ciele Które zmienne są najlepiej objaśniają udział tłuszczu w ciele człowieka? Dokonaj analizy reszt. Usuń przypadki zniekształcające przewidywanie i popraw model.

zadanie dla chętnych Zbrodnie Detroit http://lib.stat.cmu.edu/datasets/detroit The data are on the homicide rate in Detroit for the years 1961-1973. FTP - Full-time police per 100,000 population UEMP - % unemployed in the population MAN - number of manufacturing workers in thousands LIC - Number of handgun licences per 100,000 population GR - Number of handgun registrations per 100,000 population CLEAR - % homicides cleared by arrests WM - Number of white males in the population NMAN - Number of non-manufacturing workers in thousands GOV - Number of government workers in thousands HE - Average hourly earnings WE - Average weekly earnings HOM - Number of homicides per 100,000 of population ACC - Death rate in accidents per 100,000 population ASR - Number of assaults per 100,000 population skonstruuj model predykcji liczby zabójstw