Korelacja i regresja liniowa mgr Anna Sobieraj
Analiza korelacji Współczynnik korelacji liniowej Pearson’a To NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania (zależności) cech gdy związek badanych cech jest liniowy Określa kierunek i siłę zależności -1 ≤ r ≤ 1 covX,Y – kowariancja cech X i Y (miara łącznego zróżnicowania obu cech) Sx – odchylenie standardowe cechy X Sy – odchylenie standardowe cechy Y
Analiza korelacji liniowej Kwartet Anscombe’a Współczynnik korelacji na każdym wykresie wynosi 0.816
Modele liniowe Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą Zmienne są mierzone na skali ilościowej Cel modelowania: Punktowe lub przedziałowe szacowanie wartości cechy objaśnianej na podstawie zmiennych objaśniających Zrozumienie zależności między obserwowanymi zmiennymi Które zmienne objaśniające, i w jaki sposób, są zależne od zmiennej objaśnianej?
Analiza regresji Regresją nazywamy funkcję, w której wartość cechy zależnej, objaśnianej (y) wyrażona jest za pomocą wartości cech niezależnych, objaśniających (x) Funkcja liniowa: Gdzie: byx – współczynnik regresji (w terminologii matematycznej: współczynnik kierunkowy prostej) ayx – wyraz wolny funkcji regresji (punkt przecięcia linii prostej z osią Y)
Współczynnik regresji prostej Stała regresji (wyraz wolny funkcji) Interpretacja: o ile zmieni się wartość zmiennej zależnej (Y) jeżeli wartość zmiennej niezależnej (X) zmieni się o jednostkę. b>0 – wzrost zmiennej X → wzrost zmiennej Y b<0 – wzrost wartości zmiennej X → spadek wartości zmiennej Y Punkt przecięcia linii prostej z osią Y Nie interpretujemy
Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów – minimalizowana jest suma reszt czyli kwadratów odchyleń wartości rzeczywistych (Y) od wartości szacowanych cechy (Ŷ) Reszta (e) – różnica między wartością obserwowaną, a szacowaną
Regresja liniowa Predykcja Wartość obserwowana cechy Y Średnia
Regresja liniowa Założenia i ocena dopasowania liniowej funkcji regresji Zależność jest liniowa Brak znaczących obserwacji odstających Homoscedastyczność – wariancja reszt, składnika losowego jest taka sama dla wszystkich obserwacji Reszty mają rozkład zbliżony do rozkładu normalnego
Założenia modelu Zależność jest liniowa Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php Sposób weryfikacji: Inspekcja wykresów punktowych, estymacja krzywej Jeżeli założenie nie jest spełnione: transformacja zmiennej zależnej dopasować model nieliniowy
Założenia modelu Brak znaczących obserwacji odstających Sposób weryfikacji: Inspekcja wykresów punktowych, statystyka opisowa Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php
Korelacja– SPSS Wykresy >>> Wykresy tradycyjne >>> Rozrzut punktowy >>> Prosty Analiza >>> Korelacje >>> Parami >>> Pearson’a
Analiza korelacji liniowej
Kroki analizy regresji – SPSS Analiza >>> Regresja >>> Liniowa
Kroki analizy regresji – SPSS Czy stworzony model wyjaśnia więcej zmienności niż średnia arytmetyczna? Czy model jest istotny? H0:Funkcja regresji jest nieistotna P – value < 0,05 – model jest dobrze dopasowany, wyjaśnia więcej zmienności zmiennej niż średnia arytmetyczna
Kroki analizy regresji – SPSS Czy współczynniki modelu są istotne, różne od 0? H0: Współczynnik jest nieistotny H0: Bconst. = 0 H0: BZ = 0 Y = 0,789X -0,007
Kroki analizy regresji – SPSS Model podsumowanie – współczynnik determinacji Model wyjaśnia 67,5% zmienności cechy objaśnianej
Ocena dopasowania modelu SST = SSR + SSE SST – Suma kwadratów odchyleń całkowitych SSE – suma kwadratów odchyleń nie wyjaśnionych regresją (reszt) SSR – suma kwadratów odchyleń wyjaśnionych regresją Współczynnik determinacji
Założenia modelu Reszty Rozkład zakłócenia losowego przekłada się na spodziewany rozkład reszt Weryfikujemy: Normalność rozkładu reszt – zgodność z rozkładem normalnym Homoscedastyczność – jednorodność wariancji Analiza jakości dopasowania modelu oraz jego diagnostyka opiera się na analizie reszt
Założenia modelu Reszty Normalność reszt – diagnostyka Histogram oraz wykres kwantyl-kwantyl Testy statystyczne (np. Shapiro-Wilka)
Normalność reszt Asymetria lewostronna Asymetria prawostronna
Możliwości ekstrapolacji Model regresji nie powinien być ekstrapolowany na dane spoza zakresu na których został opracowany! https://www.pinterest.com/pin/18929260905651518/
Czy zależność na pewno jest liniowa?
Estymacja krzywej Analiza >>> Regresja >>> Estymacja krzywej
Który model jest lepszy? Model liniowy wyjaśnia 75,1% zmienności Wprowadzenie elementu krzywoliniowego - model wyjaśnia 86% zmienności Mniejszy błąd standardowy oszacowania Zmiana istotna statystycznie
Reszty Należy sprawdzić rozkład reszt z obu modeli Czy średnia wartość reszt jest większa w modelu liniowym czy krzywoliniowym? Mniejsza średnia z reszt – lepszy model