Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja wieloraka – funkcja przyporządkowująca zmiennej zależnej średnie wartości zmiennej niezależnej
Przykład 1 Pewien agent nieruchomościami chce dowiedzieć się, jakie czynniki wpływają na cenę lokalu mieszkalnego. Zbiera zatem informacje o: 1. wielkość lokalu (w m2), 2. liczba sypialni, 3. czy posiada balkon, 4. czy posiada oddzielny aneks kuchenny, 5. ile pięter ma budynek mieszkalny, 4. czy budynek posiada windę, 5. kiedy budynek został wybudowany itd Informacje te prowadzą do pytania: Jak poszczególne te charakterystyki wpływają na cenę lokalu mieszkalnego? Czy liczba sypialni lepiej odzwierciedla cenę lokalu aniżeli posiadanie przez nie balkonu? Można też wskazać te lokale mieszkalne (jednostki odstające), które mają większą/mniejszą wartość niż wynika to z zebranych danych.
Stanowiska pracy przewartościowane (powyżej linii regresji) Przykład 2 Dyrekcja pewnej nowozałożonej firmy pragnie określić wysokość wynagrodzenia (w tys.) z zależności od stanowiska pracy. W tym celu zebrała informacje o: 1. zakresie odpowiedzialności za wykonywaną pracę pracownika 2. zakres wykonywanej pracy 3. liczbie podwładnych itd. wynagrodzenie stanowiska pracy są niedowartościowane (punkty będą leżeć poniżej linii regresji) Stanowiska pracy przewartościowane (powyżej linii regresji) Stanowiska pracy zgodnie z występującą tendencją. stanowiska pracy
Problem - jak dopasować linię prostą do zbioru punktów? Metoda najmniejszych kwadratów – minimalizacja sumy kwadratów odległości punktów empirycznych od funkcji teoretycznej. Zmienność nie wyjaśniona przez funkcję Zmienność wyjaśniona przez funkcję
Równanie regresji dwuwymiarowej Y=a1x1+b1+ε1 Przykład 1 cena lokalu=0,93∙wielkość lokalu +b + ε cena lokalu=0,32∙liczba sypialni + b + ε ………. Y=a2x2+b2+ε2 Y=a3x3+b3+ε3 Przykład 2 wynagrodzenie=0,26∙odpowiedzialność + b + ε wynagrodzenie=0,33∙zakres + b + ε ………. … Y=akxk+bk+εk
Y=a1x1+a2x2+a3x3+….+akxk+b+ε Ogólnie równanie regresji wielorakiej (wielowymiarowej) można zapisać jako: Y=a1x1+a2x2+a3x3+….+akxk+b+ε Przykład 1 cena lokalu=0,9 ∙ wielkość lokalu+0,3 ∙ liczba sypialni+ +0,11∙ liczba pięter+….+b+akxk+ε Przykład 2 wynagrodzenie=0,2∙odpowiedzialność+0,3∙zakres+0,4∙liczba+….+b+akxk+ε
Ocena dopasowania funkcji teoretycznej do danych empirycznych – współczynnik determinacji (rozkład dwuwymiarowy) Im mniejsza jest wariancja wartości resztowych wokół linii regresji w stosunku do zmienności ogólnej, tym lepsze jej dopasowanie Zmienność wyjaśniona Zmienność całkowita
Założenia modelu regresji wielorakiej: 1. Liniowość- zależność między zmiennymi jest liniowa (wykres rozrzutu badanych zmiennych) 2. Współliniowość - nadmiarowy zbiór zmiennych niezależnych tzn. jedna lub więcej zmiennych da się wyrazić poprzez pozostałe zmienne. Jest szereg wskaźników statystycznych dla wykrycia tego typu nadmiarowości (tolerancje, R semicząstkowe, itp.). 3. Liczba zmiennych - wystarczy "włączyć" dostatecznie wiele zmiennych do modelu, a zwykle dla części z nich, okaże się istotna. Za statystycznie istotne przyjmowane są przypadkowe efekty. Jest on potęgowany, gdy mamy do czynienia z niewielką liczbą obserwacji. Zaleca się, aby w analizie było około 10 do 20 razy więcej przypadków (obserwacji) niż zmiennych. W przeciwnym wypadku oceny linii regresji będą bardzo niestabilne i będą się silnie zmieniać wraz ze wzrostem liczby przypadków. 4. Normalności - reszty w modelu (różnice między wartością obserwowaną a obliczoną z równania) podlegają rozkładowi normalnemu.
5. Składniki losowe nie są skorelowane 6 5. Składniki losowe nie są skorelowane 6. Wariancja składnika losowego (reszt) jest taka sama dla wszystkich obserwacji Ograniczenia 1. Relacje - można jedynie przekonać się o istnieniu relacji między zmiennymi, nie można natomiast dowieść istnienia związku przyczynowo-skutkowego będącego podłożem tej relacji 2. Obserwacje odstające - mogą zaburzać wyniki przez "przyciąganie" lub "przesuwanie" linii regresji w jakimś kierunku powodując zmianę wartości współczynników regresji.
Korelacja cząstkowa: współczynniki regresji reprezentują niezależne wkłady każdej z nich w wyjaśnieniu zmiennej zależnej. Zmienna Xi jest skorelowana ze zmienną Y po uwzględnieniu wpływu wszystkich pozostałych zmiennych niezależnych. Przykład 3 Badając grupę 100 osób stwierdziliśmy, że występuje ujemną korelacja między długością włosów a ich wzrostem populacji (im niższy osobnik tym dłuższe włosy). Wydaje się to dość dziwne, ale gdybyśmy dodali do równania regresji nową zmienną niezależną Płeć, to ta korelacja by zniknęła. Dlaczego, bo kobiety zwykle mają dłuższe włosy niż mężczyźni oraz są średnio niższe od mężczyzn. Eliminując różnicę płci przez wprowadzenie zmiennej Płeć do równania, to związek między długością włosów a wzrostem zniknie, ponieważ długość włosów nie będzie więcej miała nic do wniesienia do wzrostu ponad to, co wniosła do niego zmienna Płeć (a z nią długość włosów). Po uwzględnieniu zmiennej Płeć korelacja cząstkowa pomiędzy wzrostem a długością włosów staje się równa zero.
Wnioskowanie statystyczne (regresja dwuwymiarowa) Estymacja (szacowanie wartości parametrów funkcji na podstawie danych z próby) 1.1 punktowa 1.2 przedziałowa
2. Hipotezy statystyczne 2 2. Hipotezy statystyczne 2.1 Współczynnika regresji Ho współczynnik kierunkowy nie jest istotny α=0 H1 współczynnik kierunkowy jest istotny α≠ 0 2.2 Wyrazu wolnego Ho wyraz wolny nie jest istotny β=0 H1 wyraz wolny jest istotny β≠ 0
Regresja logistyczna (logit) W modelu zakłada się, że przewidywane wartości zmiennej zależnej nigdy nie będą mniejsze (równe) od 0 ani większe (równe) od 1, niezależnie od wartości zmiennych niezależnych. Osiąga się to przez zastosowanie następującego równania regresji: y = exp(b0 + b1*x1 + ... + bn*xn)/[1 + exp(b0 + b1*x1 + ... + bn*xn)] O binarnej (dychotomicznej) zmiennej zależnej Y myślimy w kategoriach nieznanego ciągłego prawdopodobieństwa p, z zakresu od 0 do 1. Zatem: p' = loge{p/(1-p)}
Obserwacja zmiany wartości funkcji logistycznej pozwala wyróżnić trzy etapy: na początku, przez pewien czas, jest bliska zeru od pewnego momentu następuje jej nagły wzrost na końcu ustawia się blisko wartości jeden
Interpretujemy parametry funkcji regresji oraz iloraz szans: Przykład 3 Analizujemy grupę osób ze względu na ich wynagrodzenie w zależności od odpowiedzialność, zakresu obowiązków i liczby podwładnych Odpowiedzialność: skala od 1 do 10 Zakres obowiązków: skala od 1 do 20 podwładni: Tak (1), Nie (0) Interpretujemy parametry funkcji regresji oraz iloraz szans:
Wnioskowanie statystyczne