Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jakie charakterystyki go określają? Pytanie: Kapitał ludzki – Jakie charakterystyki go określają? Które z tych charakterystyk są najważniejsze? Jakiego poziomu kapitału ludzkiego możemy oczekiwać, jeżeli ….. Dane: zbiór 1
Kapitał ludzki osób powyżej 25 lat w wybranych miastach Świata (zbiór 1) Zmienna objaśniana: kapitał ludzki (A) Zmienne objaśniające: miejsce urodzenia (% ludności): Europa, Azja, Ameryka Północna (nie sumuje się do 100%) (B) średnia liczba lat w edukacji (C) średnia liczba zmian miejsc pracy (D) średnia liczba przeczytanych książek w ostatnim roku (E)
Pytanie: Jakość życia – Jakie charakterystyki go określają? Które z tych charakterystyk są najważniejsze? Jakiego poziomu rozwoju gospodarczego możemy oczekiwać, jeżeli ….. Dane: zbiór 2
Oceń poziom jakości życia mieszkańców wybranych regionów administracyjnych Świata (zbiór 2) Zmienna niezależna: jakość życia (A) Zmienne niezależne: poziom rozwoju ekonomicznego mierzony PKB na 1 mieszkańca (B) współczynnik zgonów tzn. liczba zgonów na 1tys. mieszkańców (C) gęstość zaludnienia na 1 km2 (D) Posiadanie domu na własność (E)
Regresja pierwszego rzędu y = b0+b1x1+b2x2+b3x3+ Regresja pierwszego rzędu y = b0+b1x1+b2x2+b3x3+...+e Regresja drugiego rzędu y=b0+b1x1+b2x2x2+...+e y=b0+b1x1+b2x2+b3x2x3+….+e
Regresja pierwszego rzędu: b0 - wyraz wolny w modelu (punkt przecięcia z osią OY) b1, b2, b3 – cząstkowe współczynniki regresji (wkład danej zmiennej objaśniającej w wyjaśnienie zmienności zmiennej objaśnianej przy założeniu, że zależność pozostałych zmiennych objaśniających ze zmienną objaśnianą pozostaje na stałym poziomie) beta1, beta2, beta3 - standaryzowane cząstkowe współczynniki regresji (zmiana zmiennej niezależnej o jedno odchylenie standardowe powoduje zmianę zmiennej zależnej o k odchyleń standardowych)
Współczynnik korelacji– ocena siły związku między dwoma zmiennymi Współczynnik korelacji wielorakiej - ocena siły związku wszystkich zmiennych objaśniających ze zmienną objaśnianą Tolerancja – (1 - R2) Współczynnik korelacji cząstkowej - ocena siły związku między zmienną objaśnianą a zmienną objaśniającą z wyłączeniem oddziaływania na ten związek innych zmiennych objaśniających Współczynniki korelacji semicząstkowej - ocena siły związku między zmienną objaśnianą ze zmienną objaśniającą z uwzględnieniem oddziaływania wszystkich pozostałych zmiennych na zmienną objaśnianą
Metody szacowanie współczynników regresji: metoda najmniejszych kwadratów metoda najmniejszych kwadratów ważonych metoda najmniejszych reszt bezwględnych
MNK linie przedziału ufności funkcja regresji punkty empiryczne
Miary oceny dopasowania funkcji teoretycznej do danych empirycznych: 1 Miary oceny dopasowania funkcji teoretycznej do danych empirycznych: 1. Współczynnik determinacji wielorakiej 2. Skorygowany współczynnik determinacji wielorakiej (lepszy) 3. Błędy (względne, bezwzględne) oszacowań współczynników regresji
Założenia: 1. Liczba obserwacji jest o co najmniej jeden większa niż liczba zmiennych objaśniających n≥k+1
2. Model jest liniowy względem współczynników Wykres/wykresy statystyczne 2W (3W)/ Jeżeli zależność nie jest liniowa? transformacja danych regresja nieliniowa
3. Zmienne charakteryzują się relatywnie dużą zmiennością Statystyka/Statystyki podstawowe/Więcej 4. Zmienne niezależne nie są liniową kombinacją innych zmiennych niezależnych (brak współliniowości) Statystyka/Macierz korelacji/ (np. usuwamy zmienne (katalizatory), transformacja danych, większy zbiór danych, estymacja grzbietowa)
5. Zmienne TYLKO typu ilościowego 1. Dane typu jakościowego zamieniamy na dane typu ilościowego (skala porządkowa) 2. Mamy trzy warianty cechy jakościowej Pierwszy wariant (nowa zmienna) x1=0 oraz x1=1 Drugi wariant (nowa zmienna) x2=0 oraz x2=1 Trzeci wariant (nowa zmienna) x3=0 oraz x3=1 Edycja/zamień (zaznacz obszar)
6. Wartość oczekiwana składnika losowego w modelu jest równa zero E(ε)=0 (ważne przy testowaniu, nie przy szacowaniu) Regresja wieloraka/Reszty, założenia, predykcja/ wykonaj analizę reszt/Wykres rozrzutu/Reszty względem obserwowanych
6. Składniki losowe nie są skorelowane Regresja wieloraka/Reszty, założenia, predykcja/ wykonaj analizę reszt/Więcej/Statystyka D-W
7. Składnik losowy (reszty) ma rozkład normalny Regresja wieloraka/Reszty, założenia, predykcja/ wykonaj analizę reszt/Podstawowe/Wykres normalności reszt
8. Wariancja składnika losowego jest taka sama dla wszystkich obserwacji (homoscedastyczność) (zmienne ujęte w modelu mają taką samą zmienność) Reszty, założenia, predykcja/Wykonaj analizę reszt/Reszty względem przewidywanych
9. Obserwacje odstające Regresja wieloraka/Reszty, założenia, predykcja/ wykonaj analizę reszt/Odstające Nie każdą obserwację odstającą usuwamy ze zbioru danych!
Odległości Mahalanobisa - odległość przypadków przewidywanych od środka ciężkości, wyznaczone przez zmienne niezależne Standaryzowane (niestandaryzowane) reszty – odległość od funkcji regresji Odległość Cooka- łączy te dwie odległości
Reszty usunięte - to reszty jakie byśmy uzyskali, gdyby dany przypadek pominąć przy obliczeniach regresji. Jeśli reszta usunięta znacznie się różni od reszty standaryzowanej, to dany przypadek przekłamuje całą analizę!
Analiza wariancji – weryfikuje równocześnie trzy hipotezy: o istotności współczynników kierunkowych w modelu o istotności współczynnika determinacji wielorakiej o istotności liniowego związku między analizowanymi zmiennymi tzn. istotność całego modelu tj. co najmniej jedna ze zmiennych objaśniających ma wpływ na zmienną objaśnianą Regresja wieloraka/Więcej/Anova
Predykcja Ex post – wartości zmiennej niezależnej są znane a sama prognoza może być porównywana z wartościami zaobserwowanymi Ex ante – nie znamy wartości zmiennej zależnej. Zależą one od wartości wcześniej obserwowanych Wyniki regresji wielorakiej/reszty, założenia, predykcja/predykcja zmiennej zależnej
Model z iloma zmiennymi objaśniającymi jest najlepszy?
Regresja krokowa postępująca (wsteczna) 1. Testujemy model dodając kolejno zmienne objaśniające, gdzie F>Fwprowadz (F<Fwprow. ) 2. Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F<Fusun (F<Fusun)