Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałIrenka Wojnicz Został zmieniony 10 lat temu
1
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Przykładowe oblicznia w SASie Weryfikacja założeń w SASie Zadanie
2
Regresja wieloraka Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi)
3
Typowe zadanie Jak przewidzieć odsetek upadków zwierząt przy transporcie? Jakie zmienne związane są z upadkami zwierząt? Co decyduje o upadkach zwierząt? Które z nich są najważniejsze i w jakim stopniu są powiązane ze stratami zwierząt?
4
regresja pierwszego rzędu
y = a + b1x1 + b2x2 + b3x e drugiego rzędu y = a + b1x1 + b2x2x y = a + b1x1 + b2x2 + b3x2x3 + Dlaczego te regresje są liniowe?
5
y = a + b1x1 + b2x2 + b3x e a to wyraz wolny. Średnia? b1, b2, b3 – cząstkowe współczynniki regresji to niezależne wkłady każdej ze zmiennych objaśniających
6
Współczynniki cząstkowe obrazują zależności po uwzględnieniu pozostałych czynników.
Jak je oszacować?
7
Jak wyznaczyć prostą regresji
metoda najmniejszych kwadratów metoda najmniejszych kwadratów ważonych metoda najmniejszych reszt bezwględnych
8
Metoda najmniejszych kwadratów
9
R-kwadrat czyli współczynnik determinacji
Mówi o jakości przewidywania R2=30% znaczy 30% wariancji opisane przez zmienne opisujące i 70% wciąż nie opisane (błędy)
10
R-kwadrat R-kwadrat = 1 - SSE / SST SSE - suma kwadratów reszt
SST - suma kwadratów obserwacji
11
R-kwadrat skorygowane
R-kwadrat zależy od liczby zmiennych objaśniających! Im więcej zmiennych tym większy. R-kwadrat skorygowane NIE zależy od liczby zmiennych objaśniających Porównując dwa modele o różnej liczbie zmiennych patrz na R-kwadrat skorygowane
12
R czyli korelacja R to pierwiastek z R-kwadrat. Tylko dodatni ( ) !!! wskazuje na stopień powiązania zmiennych
13
Zależność między zmiennymi jest liniowa
Trudne do sprawdzenia Małe odstępstwa niegroźne Liniowość oceniamy na oko – wykresy rozrzutu Co jeżeli zależność nie jest liniowa? transformacja danych regresja nieliniowa
14
Regresja mówi o współwystępowaniu zjawisk, a nie o przyczynach i skutkach!
Regresja liczby kradzieży na liczbę policjantów jest dodatnia!
15
Zwodnicza regresja Jeżeli w modelu umieścisz dużą liczbę zmiennych objaśniających część z nich na pewno będzie istotna. Im więcej danych tym mniej złudne są wyniki. Ile?
16
Reszty mają rozkład normalny
Ważne przy testowaniu, nie przy szacowaniu Stosujemy histogramy reszt i wykresy normalności reszt Niewielkie odchylenia nie są groźne Dobry model daje duży R-kwadrat i normalność reszt. Czy taki potrafimy znaleźć?
17
Nadmiarowość danych % upadków przy transporcie tak samo dobrze opisuje liczba przejechanych kilometrów jak i dystans do ubojni (to to samo) Należy uważać, żeby zmienne objaśniające nie były zbytnio skorelowane
18
Odstające obserwacje Znacznie przekłamują oszacowania.
Najczęściej to błędy powstałe przy wpisywaniu danych. Najlepiej usunąć je przed analizą regresji.
19
Przykładowe dane wbp 58.7 200 38.9 1.18 wbp 57.7 171 41.2 1.22
...... Rasa Zawartość mięsa w tuszy Wiek w dniu uboju Masa półtuszy Średnia grubość słoniny
20
Wyznaczamy model do przewidywania zawartości mięsa w tuszy na podstawie wieku
data swinie ; infile "dane.txt" ; input rasa $ zmwt wiekub mtuszy grsloniny ; proc reg model zwmt = wiekub ; plot upadki*dystans ; run ;
21
Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model Error Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept <.0001 wiekub
22
Wybór modelu Który model jest najlepszy?
Ten z max. R-kwadrat? Ale uwaga! -im szerszy model tym większy wsp. determ. CP = (SSE/war.błędu) + 2*l.parametrów - liczba obserwacji
23
Jak wyznaczyć najlepszy model?
Najlepiej rozpatrywać każdy model z osobna (za dużo kombinacji). Jeżeli więcej zmiennych kandydujących to korzystamy z regresji krokowej wstecznej postępującej i innych
24
Wybór modelu FORWARD - dokładanie po jednej zmiennej
BACKWARD - ujmowanie po jednej zmiennej STEPWISE – jak FORWARD ale zmienna raz dodana nie musi pozostać w modelu MAXR – wybór najlepszego modelu dla jednej zmiennej, najlepszego dla dwóch zmiennych, itd.. CP - szuka podanej liczby modeli o najmniejszej wartosci Cp i zadanym rozmiarze modelu
25
R. krokowa postępująca Najprostszy model – tylko wyraz wolny
Testujemy każdy z osobna, i dodajemy do modelu zmienną, której F>Fwprow. Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F<Fusun.
26
Wybór modelu proc reg model zwmt = wiekub mtuszy grsloniny / selection=stepwise ; run ;
27
Stepwise Selection: Step 3
Variable wiekub Entered: R-Square = and C(p) = Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model <.0001 Error Corrected Total Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept <.0001 wiekub mtuszy <.0001 grsloniny <.0001 zwmt = *wiekub *mtuszy *grsloniny
28
Po dopasowaniu modelu zawsze analizujemy reszty.
Powtarzamy analizę jeżeli mamy duże wartości odstające!
29
model zmwt = wiekub mtuszy grsloniny / p r cli clm ; run;
proc reg ; model zmwt = wiekub mtuszy grsloniny / p r cli clm ; run; P – drukuje numer obserwacji, wartość obserwowaną , predykowaną i reszte R – drukuje więcej szczegółow o resztach CLM – 95% przedizał ufności dla predykowanych wartości Dependent Predicted Std Error Std Error Student Obs Variable Value Mean Predict % CL Mean % CL Predict Residual Residual Residual | **| | | **| | | *| | | **| | | | | | | | | | | | ****| | | |* | | |* | | | |
30
Reszty studentyzowane - reszty podzielone przez odchylenie standardowe reszt – duża liczba obserwacji z wartościami bezwzględnymi >2 wskazuje na nieadekwatność modelu. Wartosci D Cooka – odzwierciedlają zmianę w oszacowaniu, gdyby obserwacje usunięto z analizy. Duża wartość (>1) wskazuje, że obserwacja silnie wpływa na oszacowania w modelu – możliwe że jest to obserwacja odstająca!
31
Wpływowe obserwacje Obserwacje, które mają największy wpływ na oszacowania parametrów w modelu. proc reg ; model zmwt = wiekub mtuszy grsloniny / influential ; run;
32
RSTUDENT – reszta studentyzowana, uwaga na wartości >2
DFFITS- podobne do wartości D Cooka,, uwaga na te, które > 2 DFBETAS – uwaga na wartości >2
33
udział tłuszczu w ciele
Problem na ćwiczenia udział tłuszczu w ciele Ważny dla zdrowia Trudny w pomiarze - wymaga ważenia ciała w wodzie. Czy można go przewidzieć na podstawie łatwych pomiarów.
34
dane BODYFAT Density determined from underwater weighing
Percent body fat from Siri's (1956) equation Age (years) Weight (lbs) Height (inches) Neck circumference (cm) Chest circumference (cm) Abdomen 2 circumference (cm) Hip circumference (cm) Thigh circumference (cm) Knee circumference (cm) Ankle circumference (cm) Biceps (extended) circumference (cm) Forearm circumference (cm) Wrist circumference (cm) dane BODYFAT
35
Zadania na ćwiczenia Skonstruuj dobry model predykcji udziału tłuszczu w ciele Które zmienne są najlepiej objaśniają udział tłuszczu w ciele człowieka? Dokonaj analizy reszt. Usuń przypadki zniekształcające przewidywanie i popraw model.
36
zadanie dla chętnych Zbrodnie Detroit
The data are on the homicide rate in Detroit for the years FTP - Full-time police per 100,000 population UEMP - % unemployed in the population MAN - number of manufacturing workers in thousands LIC - Number of handgun licences per 100,000 population GR Number of handgun registrations per 100,000 population CLEAR - % homicides cleared by arrests WM Number of white males in the population NMAN - Number of non-manufacturing workers in thousands GOV - Number of government workers in thousands HE Average hourly earnings WE Average weekly earnings HOM - Number of homicides per 100,000 of population ACC - Death rate in accidents per 100,000 population ASR - Number of assaults per 100,000 population skonstruuj model predykcji liczby zabójstw
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.