Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa dr hab. Ryszard Walkowiak prof. nadzw.

Podobne prezentacje


Prezentacja na temat: "Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa dr hab. Ryszard Walkowiak prof. nadzw."— Zapis prezentacji:

1 Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa dr hab. Ryszard Walkowiak prof. nadzw.

2 Kowariancja i współczynnik korelacji W przypadku badania wielu cech danej populacji, a więc wielu zmiennych losowych, np. masa ciała matki i masa ciała noworodka, rozkład prawdopodobieństwa każdej z tych zmiennych jest tylko częścią wiedzy, którą musimy posiąść aby dokładnie zobrazować populację. Nie daje on odpowiedzi na temat wzajemnych zależności między zmiennymi. Wiedzę na temat tych zależności możemy uzyskać badając tzw. łączny rozkład prawdopodobieństwa tych zmiennych, a przede wszystkim tzw. momenty mieszane, czyli kowariancje i korelacje.

3 Ograniczymy się do badania dwóch zmiennych w danej populacji. Odwołując się do oznaczeń wprowadzonych w wykładzie pt.Zmienne losowe. Rozkład prawdopodobieństwa zmiennej losowej, możemy dwa interesujące nas momenty wyrazić w postaci następującej. Kowariancja zmiennych losowych X i Y : Cov (X, Y) = E(X - X )(Y - Y ), gdzie X i Y oznaczają wartości oczekiwane odpowiednio zmiennych losowych X i Y. Kowariancja i współczynnik korelacji

4 Współczynnik korelacji zmiennych losowych X i Y: Warto zauważyć, że jeśli zmienne wyrażają się w różnych jednostkach, np. w metrach i gramach, to jednostką kowariancji jest metr gram. Współczynnik korelacji zawsze jest niemianowany. Kowariancja i współczynnik korelacji

5 Współczynnik korelacji może przyjmować wartości z przedziału -1, 1. XY > 0 oznacza korelację dodatnią, tzn. wraz ze wzrostem wartości jednej z cech, wzrastają wartości drugiej. XY < 0 oznacza korelację ujemną, tzn. wraz ze wzrostem wartości jednej z cech, maleją wartości drugiej. XY = 0 oznacza brak zależności. XY = -1 lub XY = 1 oznacza dokładną zależność liniową. Kowariancja i współczynnik korelacji

6 Oczywiście, przedstawione wzory dotyczą sytuacji, gdy możemy przebadać całą populację. Zazwyczaj takiej możliwości nie ma. Musimy wówczas pobrać próbę n jednostek z populacji i na każdej jednostce zmierzyć wartości zmiennych X i Y. Otrzymujemy wówczas n par (x i, y i ), i = 1, 2, …, n. Estymatorem kowariancji jest wówczas Estymatorem współczynnika korelacji jest Kowariancja i współczynnik korelacji z próby

7 Przykład Aby sprawdzić, czy istnieje zależność między masą ciała matki a masą ciała jej dziecka (noworodka), zbadano próbę n = 20 kobiet ich dzieci. Kowariancja i współczynnik korelacji z próby Masa ciała (kg) KobietyNoworodki 613,79 553,55 623,27 554,3 523,05 603,25 703,45 633,4 503,1 492,51 533,65 933,95 633,1 552,63 663,85 683,65 543,42 602,91 573,2 573,4

8 Na podstawie tej próby, oznaczając przez K masę ciała kobiety a przez N masą ciała noworodka, otrzymano: r KN = 0, Kowariancja i współczynnik korelacji z próby Masa ciała (kg) KobietyNoworodki 613,79 553,55 623,27 554,3 523,05 603,25 703,45 633,4 503,1 492,51 533,65 933,95 633,1 552,63 663,85 683,65 543,42 602,91 573,2 573,4

9 Kowariancja i współczynnik korelacji z próby

10 Regresja liniowa Skoro stwierdziliśmy istnienie wyraźnej zależności między wartościami dwóch zmiennych losowych, np. między masą ciała kobiety i jej dziecka, to chcielibyśmy tę zależność wyrazić w postaci funkcji. Przypomnę, że na wykładzie pt. Właściwości danych geograficznych wprowadziłem już pojęcie zmiennej objaśnianej i zmiennych objaśniających, oraz pojęcie wielozmiennej funkcji regresji Y = f(X 1, X 2, X 3, …, X n ) +. Tutaj ograniczymy się do liniowej funkcji jednej zmiennej, co będzie analogiczne do omawianego na wykładzie pt.Generalizacja danych przestrzennych dopasowania trendu liniowego rozumianego jako generalizacja statystyczna danych.

11 Za pomocą równania regresji liniowej nie estymujemy poszczególnych wartości objaśnianej zmiennej losowej Y, lecz jej wartości oczekiwane przy konkretnych wartościach objaśniającej zmiennej X. Równanie regresji jest w istocie równaniem prostej y = ax + b, w którym współczynniki dobiera się w ten sposób, aby, na wykresie takim jak poprzednio pokazany, odległość punktów obserwacji od tej prostej była najmniejsza. Regresja liniowa

12 Współczynnik kierunkowy prostej regresji, nazywany odtąd współczynnikiem regresji oblicza się według wzoru a wyraz wolny według wzoru Równanie regresji przyjmuje więc postać Regresja liniowa

13 Regresja liniowa przykład Kobiety - Noworodki

14 Regresja liniowa przykład Noworodki - Kobiety

15 Na przykładzie dwóch poprzednich wykresów zobaczyliśmy, że zamiana ról pomiędzy zmiennymi objaśnianą i objaśniającą prowadzi do znacznie różniących się prostych regresji. Tak więc kluczową rolę gra prawidłowy dobór tych zmiennych. Zmienną objaśniającą jest ta, która ma wpływ na zmienną objaśnianą. W naszym przykładzie oczywiście masa ciała kobiety wpływa na masę ciała jej dziecka a nie na odwrót. Tak więc prawidłowo zdefiniowana jest pierwsza prosta regresji. Regresja liniowa

16 Po wyestymowaniu parametrów prostej regresji otrzymujemy następujący model zmiennej objaśnianej gdzie Aby stwierdzić, czy zmienna objaśniana zależy rzeczywiście od zmiennej objaśniającej, oraz jak dobrze prosta regresji dopasowana jest do obserwacji, należy ten model porównać do modelu nie zawierającego zmiennej objaśniającej Wprowadzamy w tym celu pojęcia odchyleń od regresji,, i odchyleń od średniej Współczynnik determinacji

17 Odchylenie od regresji Odchylenie od ś redniej

18 Prosta regresji jest dobrze dopasowana do obserwacji jeśli suma kwadratów odchyleń od regresji jest znacznie mniejsza (nigdy nie jest większa) od sumy kwadratów odchyleń od średniej. Miarą dopasowania jest współczynnik determinacji: Współczynnik determinacji

19 Współczynnik determinacji R 2 opisuje procentowy udział zmienności spowodowanej przez zmienną X w całkowitej zmienności zmiennej Y. Jeżeli jest bliski zeru, oznacza to, że zmienna X nie ma wpływu na zmienną Y. Jeżeli R 2 jest bliski jedności, to zmienna X ma istotny wpływ na Y i regresja jest dobrze dopasowana. W naszym przykładzie R 2 = 0,198. Zatem wpływ masy ciała kobiety na masę ciała noworodka jest niewielki. Z analizy wariancji, o której tutaj nie mówimy, wynika jednak, że jest on istotny. Współczynnik determinacji

20 Literatura Radosław Kala (2002): Statystyka dla przyrodników. Wydawnictwo Akademii Rolniczej im. A. Cieszkowskiego w Poznaniu. Czesław Platt (1981): Problemy rachunku prawdopodobieństwa i statystyki matematycznej, PWN Warszawa


Pobierz ppt "Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa dr hab. Ryszard Walkowiak prof. nadzw."

Podobne prezentacje


Reklamy Google