dr hab. Ryszard Walkowiak prof. nadzw. Dwie zmienne losowe Kowariancja, współczynnik korelacji i regresja liniowa dr hab. Ryszard Walkowiak prof. nadzw.
Kowariancja i współczynnik korelacji W przypadku badania wielu cech danej populacji, a więc wielu zmiennych losowych, np. masa ciała matki i masa ciała noworodka, rozkład prawdopodobieństwa każdej z tych zmiennych jest tylko częścią wiedzy, którą musimy posiąść aby dokładnie zobrazować populację. Nie daje on odpowiedzi na temat wzajemnych zależności między zmiennymi. Wiedzę na temat tych zależności możemy uzyskać badając tzw. łączny rozkład prawdopodobieństwa tych zmiennych, a przede wszystkim tzw. momenty mieszane, czyli kowariancje i korelacje.
Kowariancja i współczynnik korelacji Ograniczymy się do badania dwóch zmiennych w danej populacji. Odwołując się do oznaczeń wprowadzonych w wykładzie pt. „Zmienne losowe. Rozkład prawdopodobieństwa zmiennej losowej”, możemy dwa interesujące nas momenty wyrazić w postaci następującej. Kowariancja zmiennych losowych X i Y : Cov (X, Y) = E(X - X)(Y - Y), gdzie X i Y oznaczają wartości oczekiwane odpowiednio zmiennych losowych X i Y.
Kowariancja i współczynnik korelacji Współczynnik korelacji zmiennych losowych X i Y: Warto zauważyć, że jeśli zmienne wyrażają się w różnych jednostkach, np. w metrach i gramach, to jednostką kowariancji jest metr gram. Współczynnik korelacji zawsze jest niemianowany.
Kowariancja i współczynnik korelacji Współczynnik korelacji może przyjmować wartości z przedziału -1, 1. XY > 0 oznacza korelację dodatnią, tzn. wraz ze wzrostem wartości jednej z cech, wzrastają wartości drugiej. XY < 0 oznacza korelację ujemną, tzn. wraz ze wzrostem wartości jednej z cech, maleją wartości drugiej. XY = 0 oznacza brak zależności. XY = -1 lub XY = 1 oznacza dokładną zależność liniową.
Kowariancja i współczynnik korelacji z próby Oczywiście, przedstawione wzory dotyczą sytuacji, gdy możemy przebadać całą populację. Zazwyczaj takiej możliwości nie ma. Musimy wówczas pobrać próbę n jednostek z populacji i na każdej jednostce zmierzyć wartości zmiennych X i Y. Otrzymujemy wówczas n par (xi, yi), i = 1, 2, …, n. Estymatorem kowariancji jest wówczas Estymatorem współczynnika korelacji jest
Kowariancja i współczynnik korelacji z próby Masa ciała (kg) Kobiety Noworodki 61 3,79 55 3,55 62 3,27 4,3 52 3,05 60 3,25 70 3,45 63 3,4 50 3,1 49 2,51 53 3,65 93 3,95 2,63 66 3,85 68 54 3,42 2,91 57 3,2 Przykład Aby sprawdzić, czy istnieje zależność między masą ciała matki a masą ciała jej dziecka (noworodka), zbadano próbę n = 20 kobiet ich dzieci.
Kowariancja i współczynnik korelacji z próby Masa ciała (kg) Kobiety Noworodki 61 3,79 55 3,55 62 3,27 4,3 52 3,05 60 3,25 70 3,45 63 3,4 50 3,1 49 2,51 53 3,65 93 3,95 2,63 66 3,85 68 54 3,42 2,91 57 3,2 Na podstawie tej próby, oznaczając przez K masę ciała kobiety a przez N masą ciała noworodka, otrzymano: rKN = 0,444714 .
Kowariancja i współczynnik korelacji z próby
Regresja liniowa Skoro stwierdziliśmy istnienie wyraźnej zależności między wartościami dwóch zmiennych losowych, np. między masą ciała kobiety i jej dziecka, to chcielibyśmy tę zależność wyrazić w postaci funkcji. Przypomnę, że na wykładzie pt.” Właściwości danych geograficznych” wprowadziłem już pojęcie zmiennej objaśnianej i zmiennych objaśniających, oraz pojęcie wielozmiennej funkcji regresji Y = f(X1, X2, X3, …, Xn) + . Tutaj ograniczymy się do liniowej funkcji jednej zmiennej, co będzie analogiczne do omawianego na wykładzie pt. ”Generalizacja danych przestrzennych” dopasowania trendu liniowego rozumianego jako generalizacja statystyczna danych.
Regresja liniowa Za pomocą równania regresji liniowej nie estymujemy poszczególnych wartości objaśnianej zmiennej losowej Y, lecz jej wartości oczekiwane przy konkretnych wartościach objaśniającej zmiennej X. Równanie regresji jest w istocie równaniem prostej y = ax + b, w którym współczynniki dobiera się w ten sposób, aby, na wykresie takim jak poprzednio pokazany, odległość punktów obserwacji od tej prostej była najmniejsza.
Regresja liniowa Współczynnik kierunkowy prostej regresji, nazywany odtąd współczynnikiem regresji oblicza się według wzoru a wyraz wolny według wzoru Równanie regresji przyjmuje więc postać
Regresja liniowa przykład Kobiety - Noworodki
Regresja liniowa przykład Noworodki - Kobiety
Regresja liniowa Na przykładzie dwóch poprzednich wykresów zobaczyliśmy, że zamiana ról pomiędzy zmiennymi objaśnianą i objaśniającą prowadzi do znacznie różniących się prostych regresji. Tak więc kluczową rolę gra prawidłowy dobór tych zmiennych. Zmienną objaśniającą jest ta, która ma wpływ na zmienną objaśnianą. W naszym przykładzie oczywiście masa ciała kobiety wpływa na masę ciała jej dziecka a nie na odwrót. Tak więc prawidłowo zdefiniowana jest pierwsza prosta regresji.
Współczynnik determinacji Po wyestymowaniu parametrów prostej regresji otrzymujemy następujący model zmiennej objaśnianej gdzie Aby stwierdzić, czy zmienna objaśniana zależy rzeczywiście od zmiennej objaśniającej, oraz jak dobrze prosta regresji dopasowana jest do obserwacji, należy ten model porównać do modelu nie zawierającego zmiennej objaśniającej Wprowadzamy w tym celu pojęcia odchyleń od regresji, , i odchyleń od średniej
Współczynnik determinacji Odchylenie od regresji Odchylenie od średniej
Współczynnik determinacji Prosta regresji jest dobrze dopasowana do obserwacji jeśli suma kwadratów odchyleń od regresji jest znacznie mniejsza (nigdy nie jest większa) od sumy kwadratów odchyleń od średniej. Miarą dopasowania jest współczynnik determinacji:
Współczynnik determinacji Współczynnik determinacji R2 opisuje procentowy udział zmienności spowodowanej przez zmienną X w całkowitej zmienności zmiennej Y . Jeżeli jest bliski zeru, oznacza to, że zmienna X nie ma wpływu na zmienną Y. Jeżeli R2 jest bliski jedności, to zmienna X ma istotny wpływ na Y i regresja jest dobrze dopasowana. W naszym przykładzie R2 = 0,198. Zatem wpływ masy ciała kobiety na masę ciała noworodka jest niewielki. Z analizy wariancji, o której tutaj nie mówimy, wynika jednak, że jest on istotny.
Literatura Radosław Kala (2002): Statystyka dla przyrodników. Wydawnictwo Akademii Rolniczej im. A. Cieszkowskiego w Poznaniu. Czesław Platt (1981): Problemy rachunku prawdopodobieństwa i statystyki matematycznej, PWN Warszawa