Wykład 14 Liniowa regresja Związek między próbkowym współczynnikem korelacji a współczynnikiem nachylenia prostej regresji. r = b1 sX / sY = 1 X / Y = 0 1 = 0 Testowanie H0: 1 = 0 odpowiada testowaniu H0: = 0
Współczynnik dopasowania Jaki procent zróżnicowania Y jest wyjaśniony przez prostą regresji (liniową zależność od X). SSY = SS(całkowite) = SS(regresja) + SS(resid albo resztowa) Wsp. Dop = SS(regresja)/SSY =1-SS(resid)/SSY = r2
W przykładzie z wężami, r = 0.9437, więc r2 = 0.89. Tak więc około 89% zróżnicowania Y jest wyjaśnionych przez regresję. 11% nie jest wyjaśnionych przez regresję.
Związek r2 ze standardowym odchyleniem W przybliżeniu (przybliżenie jest dokładne dla dużych n)
W naszym przykładzie, sY|X /sY = 12.5/35.34 = 0.3537 = 0.3308 (n było małe więc przybliżenie nie jest dokładne)
Co to oznacza? Gdy r2 jest bliskie 1 resztowe SD jest małe w porównaniu do całkowitego SD dla Y, tzn. punkty leżą blisko prostej regresji. Gdy Gdy r2 jest bliskie zeru, standardowy błąd resztowy jest prawie tak samo duży jak standardowe odchylenie dla Y, tzn. rozrzut Y wokół prostej regresji jest prawie tak samo duży jak rozrzut wokół średniej.
Diagnostyka Założenia Liniowość: Y = 0 + 1 X + błąd losowy Równość wariancji – σY|X jest stałe Błędy mają rozkład normalny Obserwacje są niezależne
Diagnostyka Rysunki !!!!! Diagramy Y vs X Wykresy błędów w funkcji X Przewidywanego Y Numeru obserwacji Wykresy kwantyl-kwantyl dla błędów
Istnieją również formalne testy sprawdzające każde z tych założeń, dostępne w pakietach statystycznych. Nawet gdy używamy formalnych testów powinniśmy wykonać rysunki – to najlepszy sposób aby zaobserwować specyficzne odchylenia od założeń.
Wykres błędów 1
Wykres niemal idealny Podobny rozrzut w całym zakresie x =stała wariancja Symetryczny wokół 0 Brak regularności = założenie o liniowości jest prawdopodobnie spełnione
Wariancja nie jest stała Rozrzut zwiększa się ze wzrostem X Problem można często rozwiązać stosując odpowiednie transformacje. Zwykle logarytmujemy lub pierwiastkujemy Y. UWAGA – wtedy zmieniamy model. Zmienia się wzór zależności zmiennej odpowiedzi od X (np. nie zachowujemy liniowości). Czasami stosuje się ważoną regresję – konieczna znajomość wzoru opisującego zależność wariancji błędów od X.
Brak liniowości Błędy układają się wg. pewnej krzywej – najprawdopodobniej zależność Y od X nie jest liniowa Można spróbować dopasować krzywą wielomianową lub wykładniczą
Jeżeli model wykładniczy lub wielomianowy jest prawidłowy wówczas można dokonać odpowiednich przekształceń i analizować dane używając liniowej regresji. Załóżmy, że prawdziwa relacja jest w formie Y ≈ k ecX . Wówczas stosując przekształcenie Y' = log Y mamy zależność liniową Y' ≈ log (k ecX) = log k + cX. Jeżeli prawdziwa relacja jest w formie Y = a + c X2 + błąd, to możemy dane analizować stosując regresję liniową Y na X2
Przykład Brak liniowości p-wartość β1=0 przeciwko β1 ≠ 0 jest poniżej 0.000000001 Dopasowana prosta Y=5.22+0.2959*X
Obserwacje odstające Obserwacja odstająca to punkt który leży zdecydowanie dalej od prostej regresji niż inne punkty. Zwiększa oszacowanie na błąd resztowy co może prowadzić do osłabienia mocy detekcji zależności Y od X. Z obserwacjami odstającymi Y=0.45+0.89 X r2=0.7784 p-wartość < 0.00001 Po usunięciu Y=0.06+0.98 X r2=0.9674
Punkty szczególnie wpływające na prostą regresji Na ogół są to takie punkty dla których X wyraźnie różni się od pozostałych X (UWAGA – takie punkty ``przyciągają’’ do siebie prostą regresji i mogą nie być zakwalifikowane jako odstające)
Przykład: Regresja w oparciu o pełne dane Y = .71 + 0.32X r2 = 0.376 P-wartość dla H0 : β1 =0 przeciwko HA : β1 ≠ 0 jest mniejsza niż 0.0002.
Po usunięciu punktu (6,6) Y = 1.94 + 0.032X r2 = 0.00085 P-wartość dla H0 : β1 =0 przeciwko HA : β1 ≠ 0 jest w przybliżeniu równa 0.8578.
Dane nie są losowe Jeżeli obserwacje nie są niezależne i losowe to należy użyć odpowiedni model uwzględniający tę zależność. W przypadku nie uwzględnienia zależności tradycyjne analizy mogą dać zupełnie błędne wyniki. Problem zależności obserwacji należy rozwiązać na etapie planowania eksperymentu.
Ostrożnie z ekstrapolacją. Zależność między Y a X wyestymowana w oparciu o dane może nie zachodzić poza obszarem wyznaczonym przez te wartości X, które zostały uwzględnione w procesie estymacji. Regresja wieloraka Y = 0 + 1 X1 + 2 X2 + 3 X3 + …
Podsumowanie Jakościowe Ilościowe Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Dyskretne Ciągłe
W metodach omawianych na tym kursie zajmowaliśmy się zwykle badaniem związku między zmienną ``odpowiedzi’’ a czynnikiem. Postaw problem Zidentyfikuj zmienne Co jest odpowiedzią ? Czy jest ona ilościowa czy jakościowa ? Co jest czynnikiem ? Czy jest on ilościowy czy jakościowy ?
Przykłady: W teście Studenta dla dwóch prób odpowiedź jest ilościowa a czynnik ustala podział na dwie grupy, np. lekarstwo/placebo. Możemy o czynniku myśleć jako o zmiennej jakościowej o dwóch poziomach. W teście Studenta dla jednej próby jest tylko zmienna odpowiedzi, która jest
W ANOV-ie odpowiedź jest a czynnik jest W regresji odpowiedź jest i czynnik jest W teście zgodności chi-kwadrat jest tylko zmienna odpowiedzi. W teście chi-kwadrat w tablicach wielodzielczych odpowiedź jest