REGRESJA WIELORAKA
MODEL LINIOWEJ REGRESJI WIELORAKIEJ Zbudowanie modelu regresji wielorakiej polega na dobraniu takiej funkcji, która jest najlepiej dopasowana do danych empirycznych. W przypadku liniowej regresji wielorakiej należy uogólnić model regresji liniowej z jedną zmienną objaśniającą na przypadek większej liczby zmiennych objaśniających: 𝑌= 𝛽 0 + 𝛽 1 𝑋 1 + 𝛽 2 𝑋 2 +… 𝛽 𝑘 𝑋 𝑘 +𝐸 gdzie: 𝑌 jest zmienną objaśnianą (zależną), 𝛽 0 , 𝛽 1 , 𝛽 2 ,…, 𝛽 𝑘 to cząstkowe współczynniki regresji (parametry strukturalne) równania modelu w populacji, 𝑋 1 , 𝑋 2 ,…, 𝑋 𝑘 są zmiennymi objaśniającymi (niezależnymi), 𝐸 jest składnikiem losowym (resztą modelu).
INTERPRETACJA CZĄSTKOWYCH WSPÓŁCZYNNIKÓW REGRESJI W równaniu regresji współczynniki regresji (współczynniki 𝛽 𝑖 ) reprezentują niezależne wkłady każdej ze zmiennych niezależnych do prognozowania zmiennej zależnej. i-ty, cząstkowy współczynnik regresji opisuje o ile średnio zmieni się wartość zmiennej Y przy zmianie wartości zmiennej 𝑋 𝑖 o jednostkę, przy ustalonych wartościach pozostałych zmiennych niezależnych.
DOBÓR ZMIENNYCH OBJAŚNIAJĄCYCH DO MODELU Aby model był jak najbardziej wiarygodny należy wprowadzić do niego jak największą liczbę zmiennych objaśniających. W modelu powinny się znaleźć zmienne silnie skorelowane ze zmienną objaśnianą i jednocześnie jak najsłabiej skorelowane między sobą. Nie oznacza to jednak, że w modelu powinny znaleźć się wszystkie zmienne niezależne. Może okazać się, że część z nich jest: nieistotna statystycznie (w niewielkim stopniu objaśniają zmienność zmiennej zależnej), nadmiarowa ( wskutek skorelowania z innymi zmiennymi niezależnymi objaśniają tę samą część zmienności zmiennej zależnej). Istotność statystyczną poszczególnych zmiennych w modelu oceniamy weryfikując testem t-Studenta hipotezę: 𝐻 0 : 𝛽 𝑖 =0 przy hipotezie alternatywnej: 𝐻 1 : 𝛽 𝑖 ≠0. Jeżeli empiryczny poziom istotności p jest mniejszy od założonego poziomu istotności α, to odrzucamy hipotezę zerową, czyli uznajemy, że zmienna 𝑋 𝑖 ma istotny wpływ na zmienną objaśnianą i uwzględniamy ją w równaniu regresji. W przeciwnym przypadku zmienną 𝑋 𝑖 uznajemy za nieistotną i pomijamy w równaniu.
OCENA ISTOTNOŚCI ZMIENNYCH W EXCELU Zakładany poziom istotności α oznacza najmniejsze prawdopodobieństwo, z jakim jesteśmy skłonni uznać za prawdziwą weryfikowaną hipotezę zerową. W Excelu wartość ta ustawiona jest domyślnie na poziomie 0,05. Empiryczny poziom istotności p Excel wyznacza na podstawie wprowadzonych wartości zmiennych. Watość p znajdziemy w PODSUMOWANIU – WYJŚCIU po wybraniu Dane→Analiza danych →Regresja. PODSUMOWANIE - WYJŚCIE Statystyki regresji Wielokrotność R 0,909443525 R kwadrat 0,827087525 Dopasowany R kwadrat 0,779929577 Błąd standardowy 3,818813079 Obserwacje 15 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 3 767,3166667 255,7722 17,53866667 0,000168 Resztkowy 11 160,4166667 14,58333 Razem 14 927,7333333 Współczynniki t Stat Wartość-p Przecięcie 108,2291667 0,993686668 108,9168 4,88607E-18 Zmienna X 1 -9,5625 1,848774932 -5,17234 0,000307382 Zmienna X 2 5,270833333 1,676403848 3,144131 0,009339373 Zmienna X 3 8,770833333 5,231933 0,000280291
STRATEGIA WYBORU ZMIENNYCH DO MODELU Żeby zbudować właściwy model regresji, wybieramy strategię wyboru zmiennych, określającą jak wiele i które zmienne będziemy używać w modelu. Są następujące główne strategie wyboru zmiennych: porównywanie wszystkich możliwych modeli regresji, poprzez dodawanie nowych zmiennych do modelu mało rozbudowanego (metoda doboru wprzód – forward selection procedure), poprzez odejmowanie zmiennych z modelu bardzo rozbudowanego (metoda eliminacji wstecz – backward elimination procedure), strategia krocząca – stepwise regression procedure.
DOBÓR ZMIENNYCH – METODA ELIMINACJI WSTECZ Procedura eliminacji wstecz (BACKWARD ELIMINATION). W procedurze tej przechodzimy następujące etapy: Określamy równanie regresji zawierające wszystkie zmienne objaśniające. 2. Obliczamy wartość empirycznego poziomu istotności p dla każdej zmiennej w modelu. 3. Zwracamy uwagę na najwyższe wartości p. 4. Porównujemy najwyższą wartość empirycznego poziomu istotności p z wartością wcześniej wybranego poziomu istotności α (na pozostanie zmiennej w modelu) i decydujemy o usunięciu bądź zostawieniu rozważanej zmiennej. 5. Jeżeli w punkcie (4) decydujemy się na usunięcie zmiennej, to powtarzamy (bez tej jednej zmiennej) punkty 1, 2, 3, 4, aż dojdziemy do układu zmiennych, z których żadnej nie usuwamy. Wówczas otrzymujemy szukany model.