Analiza współzależności cech statystycznych Dr hab. Dariusz Piwczyński
Hasła z domu i mediów Ucz się a wyrosną z Ciebie ludzie Pij mleko będziesz wielki Każdy wypalony papieros skraca Twoje życie o 5 minut
Wzrost i stopy
Graficzna ocena zależności Możliwe sytuacje: Zależności dodatnie Zależności ujemne Brak zależności
Szereg dwucechowy, winniczek (21, 18)
Wykresy rozrzuty, zależność dodatnia
Wykres rozrzutu, zależność ujemna
Wykres rozrzutu, zależność dodatnia (b. słaba)
Wykres w MS Excel
Wykres w MS Excel Zaznaczamy wskazane pola! Przemieszczamy wskaźnik myszy na jeden z punktów, a następnie z pop-menu wybieramy Dodaj linię trendu Zaznaczamy wskazane pola!
Ostateczny wynik
Określanie zależności między cechami za pomocą liczb Analiza korelacji Analiza regresji
Korelacje to inaczej zależność między zmiennymi. Współczynnik korelacji – jest podstawową, najczęściej stosowaną miarą zależności. Określa on ogólną zależność między badanymi cechami. Najczęściej obliczaną miarą zależności jest współczynnik korelacji prostoliniowej (Pearsona)
Współczynnik korelacji rxy jest liczbą niemianowaną, przyjmującą wartości od -1 do +1. rxy zbliżony do „-1” lub „1” – całkowita zależność cech X i Y rxy zbliżony do „0” – brak jakiejkolwiek zależności Skala Guillforda
Współczynnik korelacji Znak korelacji informuje nas o kierunku zależności a wartość bezwzględna o sile zależności rxy = ryx (zależność symetryczna) lub
Kowariancja między cechami (Sxy) Jest to średnia z iloczynów odchyłek każdej pary punktu danych. Należy używać kowariancji w celu określenia zależności pomiędzy dwoma zbiorami danych. Na przykład można sprawdzić, czy większe przychody związane są z wyższym poziomem wykształcenia.
Badanie istotności współczynnika korelacji Hipoteza zerowa w przypadku badania zależności między cechami posiada następującą postać: H0: = 0, zaś alternatywna H1: 0 (ro) Istotność korelacji badana jest po to, aby przekonać się czy zależność jaką stwierdzono w próbie będzie miała miejsce również w populacji, z której próba ta pochodzi.
Testy istotności dla współczynnika korelacji, n < 122 Jeżeli |t| > t; n-2 to mamy podstawę do odrzucenia H0. t; n-2 odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni swobody równej n – 2.
Testy istotności dla współczynnika korelacji, duże próby Jeżeli |z| > u to mamy podstawę do odrzucenia H0.
Rozwiązanie Długość (X) Szerokość (Y) XY suma 759,50 637,50 21533.00 suma kwadratów 25685,75 18092,25 wariancja 27,53 19,20
Weryfikacja hipotezy zerowej 2,074 t0,01 2,819
Współczynnik korelacji Spearmana (lokat) Ten typ korelacji wykorzystujemy do korelowania cech niemierzalnych oraz mierzalnych, ale gdy interesuje nas lokata w próbie. Z tego też względu, muszą istnieć dwa kryteria wg, których możemy uporządkować elementy w próbie. Współczynnik korelacji rang rs Spearmana waha się w przedziale liczbowym od –1 do +1.
Współczynnik korelacji rang di – różnica pomiędzy lokatami uzyskanymi przez obiekt w dwóch ocenach n – liczba elementów w próbie
Zadanie: (Żuk, Biometria stosowana) Na wystawie zootechnicznej dwóch sędziów oceniało niezależnie od siebie, pokrój zwierząt i na podstawie tych ocen każdy z sędziów uszeregował stawkę 10 osobników od najlepszego do najgorszego. Sprawdź czy pomiędzy ocenami sędziów istnieje zależność między tymi ocenami?
Dane ID sędzia 1 sędzia 2 1 1 4 2 4 1 3 2 3 4 7 10 5 8 2 6 3 6 7 10 5 8 6 8 9 9 7 10 5 9
rs = 0,261? Istnieje pewna zależność między ocenami sędziów, lecz nie wiadomo, czy taka zależność wystąpi w populacji (czy przy ocenie dalszych zwierząt przez tych sędziów będzie występować taka zgodność jak w pierwszej ocenie?). Przeprowadzamy wnioskowanie statystyczne, weryfikujemy hipotezę o niezależności uporządkowań.
Istotność Wartości krytyczne odczytujemy dla n=10 i =0,05 i 0,01 (ale tylko do 10 obiektów). Wartość krytyczna równa się 0,64 zatem nie można odrzucić hipotezy zerowej, iż obydwa uporządkowania są niezależne.
Regresja Regresja prostoliniowa – ocena wartości jednej cechy na podstawie drugiej. Prognozowanie (predykcja) wartości jednej cechy Y na podstawie wartości drugiej cechy X.
Współczynnik regresji Informuje o ile zmieni się wartość jednej zmiennej, jeżeli wartość drugiej zmieni się o jednostkę. Punkty równania szacuje się metodą najmniejszych kwadratów (MNK).
MNK Współzależność między dwiema cechami można wyrazić w sposób graficzny, tj. nanosząc punkty na płaszczyznę zawierającą osie współrzędnych. Jeżeli współzależność między cechami jest duża, to punkty na płaszczyźnie układają się wzdłuż pewnej linii (współzależność prostoliniowa lub krzywoliniowa)
Równanie prostej regresji Jeżeli założymy, że y jest funkcją x, to równanie prostej regresji y względem x ma następującą postać:
Równanie prostej regresji Jeżeli założymy, że x jest funkcją y, to równanie prostej regresji x względem y ma następującą postać:
Współczynnik regresji Y - zmienna zależna, X - zmienna niezależna X - zmienna zależna, Y - zmienna niezależna bxy byx
Graficzna interpretacja b = tg() a
Graficzna interpretacja y = a + byx x b - współczynnik regresji – tangens kąta tworzonego przez prostą regresji i oś OX (skośność - slope) a - odległość punktu przecięcia osi OY przez prostą (wyraz wolny - constant, intercept)
Zastosowanie równia regresji Jeżeli (b) i (a) są znane, to równanie regresji można użyć do przewidywania wartości jednej cechy (Y) na podstawie zmiennej wartości drugiej cechy (X) dla dowolnego elementu populacji. Estymatorami parametrów i są wymiary uzyskane z prób: b i a.
Analiza regresji w SAS Pierw.bł.śr.-kw. (Root MSE) – odchylenie standardowe błędu, pierwiastek kwadratowy MSE (Średni kwadrat odchyleń dla zmienności spowodowanej modelem). Służy do określania jakości modelu, im niższy Root MSE, tym lepszy model. Wsp.Zmienności (CoeffVar) = (RootMSE)/średnia arytmetyczna zmiennej Y*100; Ocena parametru – oszacowane parametry, Wartość t – statystyka t, t = parameter / błąd standardowy Model - zmienność zmiennej zależnej wyjaśniona poprzez model regresji. Błąd - zmienność zmiennej zależnej niewyjaśniona równaniem regresji.
Miara jakości modelu regresji R2 (współczynnik determinacji) – informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0 do 1 (0-100%). yp – odchylenie wartości przewidywanej równaniem od wartości średniej y – odchylenie rzeczywistej wartości zmiennej zależnej od wartości średniej
Wykres rozrzutu
Współczynnik determinacji
Modele regresji Związki między cechami można rozpatrywać za pomocą 2 różnych modeli.
Modele regresji model I Jesteśmy w stanie wyodrębnić zmienną niezależną X i zmienną zależną Y. Zmienna niezależna X nie jest zmienną losową, zależy od eksperymentatora, np. temperatura, liczba osobników. Nie posiada ona rozkładu zgodnego z normalnym. Z kolei zmienna zależna Y jest zmienną losową, a jej rozkład jest zgodny z normalnym. Model I charakteryzuje zależność jednokierunkowa, tj. Y od X. y = a + bx
Modele regresji – model II Obie zmienne mają rozkład zgodny z normalnym, traktowane są równorzędnie. Kłopotliwe jest wyróżnienie zmiennej zależnej i niezależnej, gdyż obie nie znajdują się pod bezpośrednim wpływem eksperymentatora. Zamiast prostej regresji, obliczamy tzw. oś główną zredukowaną. Oś główna zredukowana to linia prosta, której suma powierzchni wszystkich trójkątów (punkt opisujący parę pomiarów połączony równoległymi do osi x i y odcinkami tworzącymi trójkąty prostokątne) jest najmniejsza. Jej postać jest następująca: y = a + x ( – ni)
Istotność współczynnika regresji Model I H0: =0, zaś alternatywna H1: 0 Model II H0: =0, zaś alternatywna H1: 0
REGRESJA WIELOKROTNA Y= b0 + b1X1 + b2X2 + b3X3.... + ei, gdzie: b0– wyraz wolny; b1, b2, b3 – cząstkowe współczynniki regresji wielokrotnej; e – błąd losowy (reszta); b1 – przyrost wartości zmiennej Y przy zmianie wartości zmiennej niezależnej X1 o jednostkę, niezależnie od pozostałych zmiennych niezależnych.
Kilka zaawansowanych statystycznie problemów dotyczących analizy regresji
Analiza wariancji a analiza regresji
Analiza wariancji a analiza regresji y – odchylenie wartości zmiennej zależnej od wartości średniej dla tej zmiennej d – odchylenie wartości zmiennej zależnej od wartości przewidywanej równaniem regresji yp – odchylenie wartości przewidywanej od wartości średniej, jest to odchylenie wyjaśnione równaniem regresji Odchylenie pomiaru od średniej można rozbić na dwie części: Sumy kwadratów powyższych odchyleń pozostają względem siebie w następującej relacji: y2 = y2p + d2
Istotność modelu regresji Odchylenie przewidywane, czyli yp wyjaśnia współczynnik regresji b, czyli yp= bx. Można więcej przyjąć, że kwadrat tegoż odchylenia ma następującą postać: wzór na współczynnik korelacji:
Analizy wariancji cd. Sum of Squares – Sumy kwadratów odchyleń TSS – suma kwadratów odchyleń (Zmienność ogólna – Razem skorygowane) MSS – suma kwadratów odchyleń, zmienność międzygrupowa (Model) ESS – suma kwadratów odchyleń, zmienność wewnątrzgrupowa (Błąd)
Ogólna suma kwadratów = wyjaśniona + niewyjaśniona, tj. TSS = MSS + ESS Wartość F – to stosunek zmienności zmiennej zależnej wyjaśnionej modelem do zmienności, która nie została wyjaśniona modelem regresji.
Automatyczne metody doboru zmiennych do modelu (Regresja hierarchiczna) Metody selekcji krokowej: FORWARD (krokowa postępująca) Jest to metoda, która polega na stopniowym dołączaniu do modelu kolejnych zmiennych. W pierwszym kroku tworzony jest model z jedną zmienną niezależną, zmienną, którą charakteryzuje najniższy poziom istotności z nią związany. W następnym kroku tworzony jest na tej samej zasadzie model z dwiema zmiennymi niezależnymi itd. Postępowanie trwa tak długo, aż nie zostanie znaleziona już zmienna, dla której poziom istotności jest mniejszy aniżeli 0.50, w takiej też sytuacji R2 jest najwyższe.
Metody selekcji BACKWARD (krokowa wsteczna) Punktem wyjścia jest model z wszystkim deklarowanymi zmiennymi. Kolejne kroki tejże metody polegają na usuwaniu pojedynczo zmiennych, które najmniej wnoszą do modelu, tzn. p jest największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne charakteryzują się p poniżej 0.10. STEPWISE (krokowa) Metoda będąca kombinacją dwóch poprzednich metod. Domyślny poziom istotności, przy którym zmienna jest wprowadzana i usuwana z modelu wynosi 0.15.
Miary jakości (dobroci) modelu R-Square, R2 (współczynnik determinacji) Adj R-sq – poprawiony współczynnik statystyka Cp SBC – Schwarz’s Bayesian Criterion, AIC – Akaike’s Information Criterion.
R-Square (współczynnik determinacji) Informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. To jest inaczej kwadrat współczynnika korelacji. Przyjmuje wartość od 0 do 1 (0-100%).
Adj R-sq Poprawiony współczynnik determinacji, zawiera poprawkę na liczbę zmiennych niezależnych w równaniu regresji.
Statystyka Cp, prosty wskaźnik MSEp – średni kwadrat odchyleń dla modelu z liczbą zmiennych niezależnych równą p (włącznie z wyrazem wolnym) MSEfull – średni kwadrat odchyleń dla modelu z wszystkimi wskazanymi zmiennymi (włącznie z wyrazem wolnym) n – liczba obserwacji p – liczba parametrów, tj. liczba cech + 1.
Cp Biorąc pod uwagę liczbę zmiennych oraz statystykę Cp, należy stwierdzić, że te modele są właściwe, dla których Cp jest mniejsze lub równe p+1, tzn. Cpp+1. Spośród porównywanych modeli, ten jest lepszy, dla którego Cp jest najniższe.
Kryteria oceny modelu AIC i SBC AIC (Akaike’s Information Criterion) AIC = n ln(ESS/n)+2p SBC (Schwarz’s Bayesian Criterion) SBC = n ln(ESS/n)+(p) ln(n) Spośród rozpatrywanych modeli ten jest najlepszy, w przypadku którego obie statystyki przyjmują najniższą wartość.
Ocena założeń regresji Włączenie do modelu regresyjnego zmiennej wymaga spełnienia wielu założeń: Zmienne niezależne winny być nielosowe. Model winien być linowy względem parametrów. Liczba obserwacji musi być większa od liczby parametrów. Niezmiernie ważna jest między innymi ocena reszt. Resztę należy rozumieć jako różnicę między rzeczywistą a oszacowaną wartością zmiennej zależnej:
Badanie reszt Wartość oczekiwana reszt, dla każdej oszacowanej wartości wynosiła 0. Reszty powinny posiadać rozkład normalny w każdym punkcie szacowanej wartości zmiennej zależnej. Reszty posiadają podobną wariancję w każdym punkcie szacowanej zmiennej (homoscedastyczność) Są niezależne (nieskorelowane).
Współliniowość Oprócz oceny reszt konieczne jest prześledzenie współliniowości zmiennych (collinearity). Do wskaźników oceniających współliniowość należy, m.in. VIF, CI i VP. Eliminacja współliniowości polega na usunięciu z modelu cech, które są liniową kombinacją innych zmiennych niezależnych.
COLLIN Użycie opcji COLLIN w modelu wariancji pozwala obliczyć, tzw. Condition index (CI) oraz Variance proportions (VP).
VIF (Variance Inflation Factor) zwany jest współczynnikiem podbicia wariancji. VIF pozwala wychwycić wzrost wariancji ze względu na współliniowość cechy. VIF > 10 wskazuje na obecną współliniowość.
Condition index (CI) oraz Variance proportions (VP) Jak interpretować CI? CI pomiędzy 10 a 30 wskazuje na słabą współliniowość CI między 30 a 100 dowodzi silniejszej współliniowości. CI > 100 świadczy o bardzo silnej współliniowości. VP > 0.5 świadczy również o istnieniu współliniowości.
Współliniowość, SAS proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ /vif collin;run;quit;