Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wykład 14 Liniowa regresja Związek między próbkowym współczynnikem korelacji a współczynnikiem nachylenia prostej regresji. r = b 1 s X / s Y = 1 X / Y.

Podobne prezentacje


Prezentacja na temat: "Wykład 14 Liniowa regresja Związek między próbkowym współczynnikem korelacji a współczynnikiem nachylenia prostej regresji. r = b 1 s X / s Y = 1 X / Y."— Zapis prezentacji:

1 Wykład 14 Liniowa regresja Związek między próbkowym współczynnikem korelacji a współczynnikiem nachylenia prostej regresji. r = b 1 s X / s Y = 1 X / Y = 0 1 = 0 Testowanie H 0 : 1 = 0 odpowiada testowaniu H 0 : = 0

2 Współczynnik dopasowania Jaki procent zróżnicowania Y jest wyjaśniony przez prostą regresji (liniową zależność od X). SS Y = SS(całkowite) = SS(regresja) + SS(resid albo resztowa) Wsp. Dop = SS(regresja)/SS Y =1-SS(resid)/SS Y = r 2

3 W przykładzie z wężami, r = , więc r 2 = Tak więc około 89% zróżnicowania Y jest wyjaśnionych przez regresję. 11% nie jest wyjaśnionych przez regresję.

4 Związek r 2 ze standardowym odchyleniem W przybliżeniu (przybliżenie jest dokładne dla dużych n)

5 W naszym przykładzie, s Y|X /s Y = 12.5/35.34 = = (n było małe więc przybliżenie nie jest dokładne)

6 Co to oznacza? Gdy r 2 jest bliskie 1 resztowe SD jest małe w porównaniu do całkowitego SD dla Y, tzn. punkty leżą blisko prostej regresji. Gdy Gdy r 2 jest bliskie zeru, standardowy błąd resztowy jest prawie tak samo duży jak standardowe odchylenie dla Y, tzn. rozrzut Y wokół prostej regresji jest prawie tak samo duży jak rozrzut wokół średniej.

7 Diagnostyka Założenia Liniowość: Y = X + błąd losowy Równość wariancji – σ Y|X jest stałe Błędy mają rozkład normalny Obserwacje są niezależne

8 Diagnostyka Rysunki !!!!! Diagramy Y vs X Wykresy błędów w funkcji X Przewidywanego Y Numeru obserwacji Wykresy kwantyl-kwantyl dla błędów

9 Istnieją również formalne testy sprawdzające każde z tych założeń, dostępne w pakietach statystycznych. Nawet gdy używamy formalnych testów powinniśmy wykonać rysunki – to najlepszy sposób aby zaobserwować specyficzne odchylenia od założeń.

10 Wykres błędów 1

11 Wykres niemal idealny Podobny rozrzut w całym zakresie x =stała wariancja Symetryczny wokół 0 Brak regularności = założenie o liniowości jest prawdopodobnie spełnione

12

13 Wariancja nie jest stała Rozrzut zwiększa się ze wzrostem X Problem można często rozwiązać stosując odpowiednie transformacje. Zwykle logarytmujemy lub pierwiastkujemy Y. UWAGA – wtedy zmieniamy model. Zmienia się wzór zależności zmiennej odpowiedzi od X (np. nie zachowujemy liniowości). Czasami stosuje się ważoną regresję – konieczna znajomość wzoru opisującego zależność wariancji błędów od X.

14

15 Brak liniowości Błędy układają się wg. pewnej krzywej – najprawdopodobniej zależność Y od X nie jest liniowa Można spróbować dopasować krzywą wielomianową lub wykładniczą

16 Jeżeli model wykładniczy lub wielomianowy jest prawidłowy wówczas można dokonać odpowiednich przekształceń i analizować dane używając liniowej regresji. Załóżmy, że prawdziwa relacja jest w formie Y k e cX. Wówczas stosując przekształcenie Y' = log Y mamy zależność liniową Y' log (k e cX ) = log k + cX. Jeżeli prawdziwa relacja jest w formie Y = a + c X 2 + błąd, to możemy dane analizować stosując regresję liniową Y na X 2

17 Przykład Brak liniowości r 2 = r=0.973 p-wartość β 1 =0 przeciwko β 1 0 jest poniżej Dopasowana prosta Y= *X

18

19 Obserwacje odstające Obserwacja odstająca to punkt który leży zdecydowanie dalej od prostej regresji niż inne punkty. Zwiększa oszacowanie na błąd resztowy co może prowadzić do osłabienia mocy detekcji zależności Y od X. Z obserwacjami odstającymi Y= X r 2 = p-wartość < Po usunięciu Y= X r 2 = p-wartość <

20

21 Punkty szczególnie wpływające na prostą regresji Na ogół są to takie punkty dla których X wyraźnie różni się od pozostałych X (UWAGA – takie punkty ``przyciągają do siebie prostą regresji i mogą nie być zakwalifikowane jako odstające)

22 Przykład: Regresja w oparciu o pełne dane Y = X r 2 = P-wartość dla H 0 : β 1 =0 przeciwko H A : β 1 0 jest mniejsza niż

23 Po usunięciu punktu (6,6) Y = X r 2 = P-wartość dla H 0 : β 1 =0 przeciwko H A : β 1 0 jest w przybliżeniu równa

24

25 Dane nie są losowe Jeżeli obserwacje nie są niezależne i losowe to należy użyć odpowiedni model uwzględniający tę zależność. W przypadku nie uwzględnienia zależności tradycyjne analizy mogą dać zupełnie błędne wyniki. Problem zależności obserwacji należy rozwiązać na etapie planowania eksperymentu.

26 Ostrożnie z ekstrapolacją. Zależność między Y a X wyestymowana w oparciu o dane może nie zachodzić poza obszarem wyznaczonym przez te wartości X, które zostały uwzględnione w procesie estymacji. Regresja wieloraka Y = X X X 3 + …

27 Podsumowanie Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Dyskretne Ciągłe

28 W metodach omawianych na tym kursie zajmowaliśmy się zwykle badaniem związku między zmienną ``odpowiedzi a czynnikiem. Postaw problem Zidentyfikuj zmienne –Co jest odpowiedzią ? Czy jest ona ilościowa czy jakościowa ? – Co jest czynnikiem ? Czy jest on ilościowy czy jakościowy ?

29 Przykłady: W teście Studenta dla dwóch prób odpowiedź jest ilościowa a czynnik ustala podział na dwie grupy, np. lekarstwo/placebo. Możemy o czynniku myśleć jako o zmiennej jakościowej o dwóch poziomach. W teście Studenta dla jednej próby jest tylko zmienna odpowiedzi, która jest

30 W ANOV-ie odpowiedź jest a czynnik jest W regresji odpowiedź jest i czynnik jest W teście zgodności chi-kwadrat jest tylko zmienna odpowiedzi. W teście chi-kwadrat w tablicach wielodzielczych odpowiedź jest i czynnik jest


Pobierz ppt "Wykład 14 Liniowa regresja Związek między próbkowym współczynnikem korelacji a współczynnikiem nachylenia prostej regresji. r = b 1 s X / s Y = 1 X / Y."

Podobne prezentacje


Reklamy Google