Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wykład 14 Liniowa regresja

Podobne prezentacje


Prezentacja na temat: "Wykład 14 Liniowa regresja"— Zapis prezentacji:

1 Wykład 14 Liniowa regresja
Związek między próbkowym współczynnikem korelacji a współczynnikiem nachylenia prostej regresji. r = b1 sX / sY  = 1 X / Y  = 0  1 = 0 Testowanie H0: 1 = 0 odpowiada testowaniu H0:  = 0

2 Współczynnik dopasowania
Jaki procent zróżnicowania Y jest wyjaśniony przez prostą regresji (liniową zależność od X). SSY = SS(całkowite) = SS(regresja) + SS(resid albo resztowa) Wsp. Dop = SS(regresja)/SSY =1-SS(resid)/SSY = r2

3 W przykładzie z wężami, r = 0.9437, więc
r2 = Tak więc około 89% zróżnicowania Y jest wyjaśnionych przez regresję. 11% nie jest wyjaśnionych przez regresję.

4 Związek r2 ze standardowym odchyleniem
W przybliżeniu (przybliżenie jest dokładne dla dużych n)

5 W naszym przykładzie, sY|X /sY = 12.5/35.34 = 0.3537
= (n było małe więc przybliżenie nie jest dokładne)

6 Co to oznacza? Gdy r2 jest bliskie 1 resztowe SD jest małe w porównaniu do całkowitego SD dla Y, tzn. punkty leżą blisko prostej regresji. Gdy Gdy r2 jest bliskie zeru, standardowy błąd resztowy jest prawie tak samo duży jak standardowe odchylenie dla Y, tzn. rozrzut Y wokół prostej regresji jest prawie tak samo duży jak rozrzut wokół średniej.

7 Diagnostyka Założenia Liniowość: Y = 0 + 1 X + błąd losowy
Równość wariancji – σY|X jest stałe Błędy mają rozkład normalny Obserwacje są niezależne

8 Diagnostyka Rysunki !!!!! Diagramy Y vs X Wykresy błędów w funkcji X
Przewidywanego Y Numeru obserwacji Wykresy kwantyl-kwantyl dla błędów

9 Istnieją również formalne testy sprawdzające każde z tych założeń, dostępne w pakietach statystycznych. Nawet gdy używamy formalnych testów powinniśmy wykonać rysunki – to najlepszy sposób aby zaobserwować specyficzne odchylenia od założeń.

10 Wykres błędów 1

11 Wykres niemal idealny Podobny rozrzut w całym zakresie x =stała wariancja Symetryczny wokół 0 Brak regularności = założenie o liniowości jest prawdopodobnie spełnione

12

13 Wariancja nie jest stała
Rozrzut zwiększa się ze wzrostem X Problem można często rozwiązać stosując odpowiednie transformacje. Zwykle logarytmujemy lub pierwiastkujemy Y. UWAGA – wtedy zmieniamy model. Zmienia się wzór zależności zmiennej odpowiedzi od X (np. nie zachowujemy liniowości). Czasami stosuje się ważoną regresję – konieczna znajomość wzoru opisującego zależność wariancji błędów od X.

14

15 Brak liniowości Błędy układają się wg. pewnej krzywej – najprawdopodobniej zależność Y od X nie jest liniowa Można spróbować dopasować krzywą wielomianową lub wykładniczą

16 Jeżeli model wykładniczy lub wielomianowy jest prawidłowy wówczas można dokonać odpowiednich przekształceń i analizować dane używając liniowej regresji. Załóżmy, że prawdziwa relacja jest w formie Y ≈ k ecX . Wówczas stosując przekształcenie Y' = log Y mamy zależność liniową Y' ≈ log (k ecX) = log k + cX. Jeżeli prawdziwa relacja jest w formie Y = a + c X2 + błąd, to możemy dane analizować stosując regresję liniową Y na X2

17 Przykład Brak liniowości
p-wartość β1=0 przeciwko β1 ≠ 0 jest poniżej Dopasowana prosta Y= *X

18

19 Obserwacje odstające Obserwacja odstająca to punkt który leży zdecydowanie dalej od prostej regresji niż inne punkty. Zwiększa oszacowanie na błąd resztowy co może prowadzić do osłabienia mocy detekcji zależności Y od X. Z obserwacjami odstającymi Y= X r2=0.7784 p-wartość < Po usunięciu Y= X r2=0.9674

20

21 Punkty szczególnie wpływające na prostą regresji
Na ogół są to takie punkty dla których X wyraźnie różni się od pozostałych X (UWAGA – takie punkty ``przyciągają’’ do siebie prostą regresji i mogą nie być zakwalifikowane jako odstające)

22 Przykład: Regresja w oparciu o pełne dane Y = .71 + 0.32X r2 = 0.376
P-wartość dla H0 : β1 =0 przeciwko HA : β1 ≠ 0 jest mniejsza niż

23 Po usunięciu punktu (6,6) Y = X r2 = P-wartość dla H0 : β1 =0 przeciwko HA : β1 ≠ 0 jest w przybliżeniu równa

24

25 Dane nie są losowe Jeżeli obserwacje nie są niezależne i losowe to należy użyć odpowiedni model uwzględniający tę zależność. W przypadku nie uwzględnienia zależności tradycyjne analizy mogą dać zupełnie błędne wyniki. Problem zależności obserwacji należy rozwiązać na etapie planowania eksperymentu.

26 Ostrożnie z ekstrapolacją.
Zależność między Y a X wyestymowana w oparciu o dane może nie zachodzić poza obszarem wyznaczonym przez te wartości X, które zostały uwzględnione w procesie estymacji. Regresja wieloraka Y = 0 + 1 X1 + 2 X2 + 3 X3 + …

27 Podsumowanie Jakościowe Ilościowe
Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Dyskretne Ciągłe

28 W metodach omawianych na tym kursie zajmowaliśmy się zwykle badaniem związku między zmienną ``odpowiedzi’’ a czynnikiem. Postaw problem Zidentyfikuj zmienne Co jest odpowiedzią ? Czy jest ona ilościowa czy jakościowa ? Co jest czynnikiem ? Czy jest on ilościowy czy jakościowy ?

29 Przykłady: W teście Studenta dla dwóch prób odpowiedź jest ilościowa a czynnik ustala podział na dwie grupy, np. lekarstwo/placebo. Możemy o czynniku myśleć jako o zmiennej jakościowej o dwóch poziomach. W teście Studenta dla jednej próby jest tylko zmienna odpowiedzi, która jest

30 W ANOV-ie odpowiedź jest
a czynnik jest W regresji odpowiedź jest i czynnik jest W teście zgodności chi-kwadrat jest tylko zmienna odpowiedzi. W teście chi-kwadrat w tablicach wielodzielczych odpowiedź jest


Pobierz ppt "Wykład 14 Liniowa regresja"

Podobne prezentacje


Reklamy Google