Analiza współzależności cech statystycznych Dr inż. Dariusz Piwczyński
Graficzna ocena zależności Możliwe sytuacje: Zależności dodatnie Zależności ujemne Brak zależności
Wykresy rozrzuty, zależność dodatnia
Wykres rozrzutu, zależność ujemna
Wykres rozrzutu, zależność dodatnia (b. słaba)
Wykres w MS Excel
Ostateczny wynik
Określanie zależności między cechami za pomocą liczb Analiza korelacji Analiza regresji
Korelacje to zależność między zmiennymi. Współczynnik korelacji – jest podstawową, najczęściej stosowaną miarą zależności. Określa on ogólną zależność między badanymi cechami. Współczynnik korelacji prostoliniowej (Pearsona)
Współczynnik korelacji rxy jest liczbą niemianowaną, przyjmującą wartości od -1 do +1. rxy zbliżony do „-1” lub „1” – całkowita zależność cech X i Y rxy zbliżony do „0” – brak jakiejkolwiek zależności Skala Guillforda
Współczynnik korelacji Znak korelacji informuje nas o kierunku zależności a wartość bezwzględna o sile zależności rxy = ryx (zależność symetryczna) lub
Kowariancja między cechami (Sx) Jest do średnia z iloczynów odchyłek każdej pary punktu danych. Należy używać kowariancji w celu określenia zależności pomiędzy dwoma zbiorami danych. Na przykład można sprawdzić, czy większe przychody związane są z wyższym poziomem wykształcenia.
Badanie istotności współczynnika korelacji Hipoteza zerowa w przypadku badania zależności między cechami ma następującą postać: H0: =0, zaś alternatywna H1: 0 (ro)
Współczynnik korelacji
Regresja Regresja prostoliniowa – ocena wartości jednej cechy na podstawie drugiej. Prognozowanie (predykcja) wartości jednej cechy Y na podstawie wartości drugiej cechy X.
Współczynnik regresji Informuje o ile zmieni się wartość jednej zmiennej, jeżeli wartość drugiej zmieni się o jednostkę. Punkty równania szacuje się metodą najmniejszych kwadratów (MNK).
Współczynnik regresji X - zmienna zależna, Y - zmienna niezależna Y - zmienna zależna, X - zmienna niezależna bxy byx
MNK
Graficzna interpretacja b = tg() a
Graficzna interpretacja Prosta regresji: y = a + byx * x b - współczynnik regresji - tangens kąta tworzonego przez prostą regresji i oś OX (skośność - slope) a - odległość punktu przecięcia osi OY przez prostą (wyraz wolny - constant, intercept)
Zastosowanie równia regresji Jeżeli (b) i (a) są znane, to równanie regresji można użyć do przewidywania wartości jednej cechy (Y) na podstawie zmiennej wartości drugiej cechy (X) dla dowolnego elementu populacji. Estymatorami parametrów i są wymiary uzyskane z prób: b i a.
Zastosowanie równania regresji
Wykresy rozrzuty, zależność dodatnia
Miary jakości modelu regresji R2 (współczynnik determinacji) – informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0 do 1 (0-100%).
Współczynnik determinacji
Modele regresji model I Jesteśmy w stanie wyodrębnić zmienną niezależną X i zmienną zależną Y. Zmienna niezależna X nie jest zmienną losową, zależy od eksperymentatora, np. temperatura, liczba osobników. Nie posiada ona rozkładu zgodnego z normalnym. Z kolei zmienna zależna Y jest zmienną losową, a jej rozkład jest zgodny z normalnym. Model I charakteryzuje zależność jednokierunkowa, tj. Y od X. y=a+bx
Modele regresji – model II Obie zmienne mają rozkład zgodny z normalnym, traktowane są równorzędnie. Kłopotliwe jest wyróżnienie zmiennej zależnej i niezależnej, gdyż obie nie znajdują się pod bezpośrednim wpływem eksperymentatora. Zamiast prostej regresji, obliczamy tzw. oś główną zredukowaną. Oś główna zredukowana to linia prosta, której suma powierzchni wszystkich trójkątów (punkt opisujący parę pomiarów połączony równoległymi do osi x i y odcinkami tworzącymi trójkąty prostokątne) jest najmniejsza. Jej postać jest następująca: y=a+x (- ni)
REGRESJA WIELOKROTNA Y= b0 + b1X1 + b2X2 + b3X3.... + ei, gdzie: b0-wyraz wolny; b1, b2, b3 – cząstkowe współczynniki regresji wielokrotnej; e – błąd losowy (reszta); b1 – przyrost wartości zmiennej Y przy zmianie wartości zmiennej niezależnej X1 o jednostkę, niezależnie od pozostałych zmiennych niezależnych.