Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Korelacja i regresja liniowa
mgr Anna Sobieraj
2
Analiza korelacji Współczynnik korelacji liniowej Pearson’a
To NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania (zależności) cech gdy związek badanych cech jest liniowy Określa kierunek i siłę zależności -1 ≤ r ≤ 1 covX,Y – kowariancja cech X i Y (miara łącznego zróżnicowania obu cech) Sx – odchylenie standardowe cechy X Sy – odchylenie standardowe cechy Y
3
Analiza korelacji liniowej Kwartet Anscombe’a
Współczynnik korelacji na każdym wykresie wynosi 0.816
4
Modele liniowe Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą Zmienne są mierzone na skali ilościowej Cel modelowania: Punktowe lub przedziałowe szacowanie wartości cechy objaśnianej na podstawie zmiennych objaśniających Zrozumienie zależności między obserwowanymi zmiennymi Które zmienne objaśniające, i w jaki sposób, są zależne od zmiennej objaśnianej?
5
Analiza regresji Regresją nazywamy funkcję, w której wartość cechy zależnej, objaśnianej (y) wyrażona jest za pomocą wartości cech niezależnych, objaśniających (x) Funkcja liniowa: Gdzie: byx – współczynnik regresji (w terminologii matematycznej: współczynnik kierunkowy prostej) ayx – wyraz wolny funkcji regresji (punkt przecięcia linii prostej z osią Y)
6
Współczynnik regresji prostej
Stała regresji (wyraz wolny funkcji) Interpretacja: o ile zmieni się wartość zmiennej zależnej (Y) jeżeli wartość zmiennej niezależnej (X) zmieni się o jednostkę. b>0 – wzrost zmiennej X → wzrost zmiennej Y b<0 – wzrost wartości zmiennej X → spadek wartości zmiennej Y Punkt przecięcia linii prostej z osią Y Nie interpretujemy
7
Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów – minimalizowana jest suma reszt czyli kwadratów odchyleń wartości rzeczywistych (Y) od wartości szacowanych cechy (Ŷ) Reszta (e) – różnica między wartością obserwowaną, a szacowaną
8
Regresja liniowa Predykcja Wartość obserwowana cechy Y Średnia
9
Regresja liniowa Założenia i ocena dopasowania liniowej funkcji regresji
Zależność jest liniowa Brak znaczących obserwacji odstających Homoscedastyczność – wariancja reszt, składnika losowego jest taka sama dla wszystkich obserwacji Reszty mają rozkład zbliżony do rozkładu normalnego
10
Założenia modelu Zależność jest liniowa
Żródło: Sposób weryfikacji: Inspekcja wykresów punktowych, estymacja krzywej Jeżeli założenie nie jest spełnione: transformacja zmiennej zależnej dopasować model nieliniowy
11
Założenia modelu Brak znaczących obserwacji odstających
Sposób weryfikacji: Inspekcja wykresów punktowych, statystyka opisowa Żródło:
12
Korelacja– SPSS Wykresy >>> Wykresy tradycyjne >>> Rozrzut punktowy >>> Prosty Analiza >>> Korelacje >>> Parami >>> Pearson’a
13
Analiza korelacji liniowej
14
Kroki analizy regresji – SPSS
Analiza >>> Regresja >>> Liniowa
15
Kroki analizy regresji – SPSS
Czy stworzony model wyjaśnia więcej zmienności niż średnia arytmetyczna? Czy model jest istotny? H0:Funkcja regresji jest nieistotna P – value < 0,05 – model jest dobrze dopasowany, wyjaśnia więcej zmienności zmiennej niż średnia arytmetyczna
16
Kroki analizy regresji – SPSS
Czy współczynniki modelu są istotne, różne od 0? H0: Współczynnik jest nieistotny H0: Bconst. = 0 H0: BZ = 0 Y = 0,789X -0,007
17
Kroki analizy regresji – SPSS
Model podsumowanie – współczynnik determinacji Model wyjaśnia 67,5% zmienności cechy objaśnianej
18
Ocena dopasowania modelu
SST = SSR SSE SST – Suma kwadratów odchyleń całkowitych SSE – suma kwadratów odchyleń nie wyjaśnionych regresją (reszt) SSR – suma kwadratów odchyleń wyjaśnionych regresją Współczynnik determinacji
19
Założenia modelu Reszty
Rozkład zakłócenia losowego przekłada się na spodziewany rozkład reszt Weryfikujemy: Normalność rozkładu reszt – zgodność z rozkładem normalnym Homoscedastyczność – jednorodność wariancji Analiza jakości dopasowania modelu oraz jego diagnostyka opiera się na analizie reszt
20
Założenia modelu Reszty
Normalność reszt – diagnostyka Histogram oraz wykres kwantyl-kwantyl Testy statystyczne (np. Shapiro-Wilka)
21
Normalność reszt Asymetria lewostronna Asymetria prawostronna
22
Możliwości ekstrapolacji
Model regresji nie powinien być ekstrapolowany na dane spoza zakresu na których został opracowany!
23
Czy zależność na pewno jest liniowa?
24
Estymacja krzywej Analiza >>> Regresja >>> Estymacja krzywej
25
Który model jest lepszy?
Model liniowy wyjaśnia 75,1% zmienności Wprowadzenie elementu krzywoliniowego - model wyjaśnia 86% zmienności Mniejszy błąd standardowy oszacowania Zmiana istotna statystycznie
26
Reszty Należy sprawdzić rozkład reszt z obu modeli
Czy średnia wartość reszt jest większa w modelu liniowym czy krzywoliniowym? Mniejsza średnia z reszt – lepszy model
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.