Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

1 Analiza współzależności cech statystycznych Dr hab. Dariusz Piwczyński.

Podobne prezentacje


Prezentacja na temat: "1 Analiza współzależności cech statystycznych Dr hab. Dariusz Piwczyński."— Zapis prezentacji:

1 1 Analiza współzależności cech statystycznych Dr hab. Dariusz Piwczyński

2 Hasła z domu i mediów Ucz się a wyrosną z Ciebie ludzie Pij mleko będziesz wielki Każdy wypalony papieros skraca Twoje życie o 5 minut 2

3 Wzrost i stopy 3

4 4 Graficzna ocena zależności Możliwe sytuacje: Zależności dodatnie Zależności ujemne Brak zależności

5 Szereg dwucechowy, winniczek (21, 18)

6 6 Wykresy rozrzuty, zależność dodatnia

7 7 Wykres rozrzutu, zależność ujemna

8 8 Wykres rozrzutu, zależność dodatnia (b. słaba)

9 9 Wykres w MS Excel

10 Przemieszczamy wskaźnik myszy na jeden z punktów, a następnie z pop-menu wybieramy Dodaj linię trendu Zaznaczamy wskazane pola! 10

11 11 Ostateczny wynik

12 12 Określanie zależności między cechami za pomocą liczb Analiza korelacji Analiza regresji

13 13 Korelacje to inaczej zależność między zmiennymi. Współczynnik korelacji – jest podstawową, najczęściej stosowaną miarą zależności. Określa on ogólną zależność między badanymi cechami. Najczęściej obliczaną miarą zależności jest współczynnik korelacji prostoliniowej (Pearsona)

14 14 Współczynnik korelacji r xy jest liczbą niemianowaną, przyjmującą wartości od -1 do +1. r xy zbliżony do -1 lub 1 – całkowita zależność cech X i Y r xy zbliżony do 0 – brak jakiejkolwiek zależności Skala Guillforda

15 15 Współczynnik korelacji Znak korelacji informuje nas o kierunku zależności a wartość bezwzględna o sile zależności r xy = r yx (zależność symetryczna) lub

16 16 Kowariancja między cechami (S xy ) Jest to średnia z iloczynów odchyłek każdej pary punktu danych. Należy używać kowariancji w celu określenia zależności pomiędzy dwoma zbiorami danych. Na przykład można sprawdzić, czy większe przychody związane są z wyższym poziomem wykształcenia.

17 17 Badanie istotności współczynnika korelacji Hipoteza zerowa w przypadku badania zależności między cechami posiada następującą postać: H 0 : = 0, zaś alternatywna H 1 : 0 (ro) Istotność korelacji badana jest po to, aby przekonać się czy zależność jaką stwierdzono w próbie będzie miała miejsce również w populacji, z której próba ta pochodzi.

18 Testy istotności dla współczynnika korelacji, n < 122 Jeżeli |t| > t ; n-2 to mamy podstawę do odrzucenia H 0. t ; n-2 odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni swobody równej n – 2.

19 Testy istotności dla współczynnika korelacji, duże próby Jeżeli |z| > u to mamy podstawę do odrzucenia H 0.

20 Rozwiązanie 20 Długość (X)Szerokość (Y) XY suma759,50637, suma kwadratów25685, ,25 wariancja27,5319,20

21 Weryfikacja hipotezy zerowej 21 t 0,05 2,074 t 0,01 2,819

22 Współczynnik korelacji Spearmana (lokat) Ten typ korelacji wykorzystujemy do korelowania cech niemierzalnych oraz mierzalnych, ale gdy interesuje nas lokata w próbie. Z tego też względu, muszą istnieć dwa kryteria wg, których możemy uporządkować elementy w próbie. Współczynnik korelacji rang r s Spearmana waha się w przedziale liczbowym od –1 do +1. Ten typ korelacji wykorzystujemy do korelowania cech niemierzalnych oraz mierzalnych, ale gdy interesuje nas lokata w próbie. Z tego też względu, muszą istnieć dwa kryteria wg, których możemy uporządkować elementy w próbie. Współczynnik korelacji rang r s Spearmana waha się w przedziale liczbowym od –1 do

23 Współczynnik korelacji rang d i – różnica pomiędzy lokatami uzyskanymi przez obiekt w dwóch ocenach n – liczba elementów w próbie 23

24 Zadanie: (Żuk, Biometria stosowana) Na wystawie zootechnicznej dwóch sędziów oceniało niezależnie od siebie, pokrój zwierząt i na podstawie tych ocen każdy z sędziów uszeregował stawkę 10 osobników od najlepszego do najgorszego. Sprawdź czy pomiędzy ocenami sędziów istnieje zależność między tymi ocenami? Na wystawie zootechnicznej dwóch sędziów oceniało niezależnie od siebie, pokrój zwierząt i na podstawie tych ocen każdy z sędziów uszeregował stawkę 10 osobników od najlepszego do najgorszego. Sprawdź czy pomiędzy ocenami sędziów istnieje zależność między tymi ocenami? 24

25 Dane ID sędzia 1 sędzia

26 r s = 0,261?r s = 0,261? Istnieje pewna zależność między ocenami sędziów, lecz nie wiadomo, czy taka zależność wystąpi w populacji (czy przy ocenie dalszych zwierząt przez tych sędziów będzie występować taka zgodność jak w pierwszej ocenie?). Istnieje pewna zależność między ocenami sędziów, lecz nie wiadomo, czy taka zależność wystąpi w populacji (czy przy ocenie dalszych zwierząt przez tych sędziów będzie występować taka zgodność jak w pierwszej ocenie?). Przeprowadzamy wnioskowanie statystyczne, weryfikujemy hipotezę o niezależności uporządkowań. Przeprowadzamy wnioskowanie statystyczne, weryfikujemy hipotezę o niezależności uporządkowań. 26

27 Istotność Wartości krytyczne odczytujemy dla n=10 i =0,05 i 0,01 (ale tylko do 10 obiektów). Wartości krytyczne odczytujemy dla n=10 i =0,05 i 0,01 (ale tylko do 10 obiektów). Wartość krytyczna równa się 0,64 zatem nie można odrzucić hipotezy zerowej, iż obydwa uporządkowania są niezależne. Wartość krytyczna równa się 0,64 zatem nie można odrzucić hipotezy zerowej, iż obydwa uporządkowania są niezależne. 27

28 28 Regresja Regresja prostoliniowa – ocena wartości jednej cechy na podstawie drugiej. Prognozowanie (predykcja) wartości jednej cechy Y na podstawie wartości drugiej cechy X.

29 29 Współczynnik regresji Informuje o ile zmieni się wartość jednej zmiennej, jeżeli wartość drugiej zmieni się o jednostkę. Punkty równania szacuje się metodą najmniejszych kwadratów (MNK).

30 30 MNK

31 Równanie prostej regresji Jeżeli założymy, że y jest funkcją x, to równanie prostej regresji y względem x ma następującą postać:

32 Równanie prostej regresji Jeżeli założymy, że x jest funkcją y, to równanie prostej regresji x względem y ma następującą postać:

33 33 Współczynnik regresji Y - zmienna zależna, X - zmienna niezależna X - zmienna zależna, Y - zmienna niezależna b xy b yx

34 34 Graficzna interpretacja b = tg( ) a

35 35 Graficzna interpretacja y = a + b yx x b - współczynnik regresji – tangens kąta tworzonego przez prostą regresji i oś OX (skośność - slope) a - odległość punktu przecięcia osi OY przez prostą (wyraz wolny - constant, intercept)

36 36 Zastosowanie równia regresji Jeżeli (b) i (a) są znane, to równanie regresji można użyć do przewidywania wartości jednej cechy (Y) na podstawie zmiennej wartości drugiej cechy (X) dla dowolnego elementu populacji. Estymatorami parametrów i są wymiary uzyskane z prób: b i a.

37 Analiza regresji w SAS Pierw.bł.śr.-kw. (Root MSE) – odchylenie standardowe błędu, pierwiastek kwadratowy MSE (Średni kwadrat odchyleń dla zmienności spowodowanej modelem). Służy do określania jakości modelu, im niższy Root MSE, tym lepszy model. Wsp.Zmienności (CoeffVar) = (RootMSE)/średnia arytmetyczna zmiennej Y*100; Ocena parametru – oszacowane parametry, Wartość t – statystyka t, t = parameter / błąd standardowy Model - zmienność zmiennej zależnej wyjaśniona poprzez model regresji. Błąd - zmienność zmiennej zależnej niewyjaśniona równaniem regresji.

38 38 Miara jakości modelu regresji R 2 (współczynnik determinacji) – informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0 do 1 (0-100%). y p – odchylenie wartości przewidywanej równaniem od wartości średniej y – odchylenie rzeczywistej wartości zmiennej zależnej od wartości średniej

39 Wykres rozrzutu

40 40 Współczynnik determinacji

41 Modele regresji Związki między cechami można rozpatrywać za pomocą 2 różnych modeli.

42 42 Modele regresji model I Jesteśmy w stanie wyodrębnić zmienną niezależną X i zmienną zależną Y. Zmienna niezależna X nie jest zmienną losową, zależy od eksperymentatora, np. temperatura, liczba osobników. Nie posiada ona rozkładu zgodnego z normalnym. Z kolei zmienna zależna Y jest zmienną losową, a jej rozkład jest zgodny z normalnym. Model I charakteryzuje zależność jednokierunkowa, tj. Y od X. y = a + bx

43 43 Modele regresji – model II Obie zmienne mają rozkład zgodny z normalnym, traktowane są równorzędnie. Kłopotliwe jest wyróżnienie zmiennej zależnej i niezależnej, gdyż obie nie znajdują się pod bezpośrednim wpływem eksperymentatora. Zamiast prostej regresji, obliczamy tzw. oś główną zredukowaną. Oś główna zredukowana to linia prosta, której suma powierzchni wszystkich trójkątów (punkt opisujący parę pomiarów połączony równoległymi do osi x i y odcinkami tworzącymi trójkąty prostokątne) jest najmniejsza. Jej postać jest następująca: y = a + x ( – ni)

44 Istotność współczynnika regresji Model I H 0 : =0, zaś alternatywna H 1 : 0 Model II H 0 : =0, zaś alternatywna H 1 : 0

45 45 REGRESJA WIELOKROTNA Y= b 0 + b 1 X 1 + b 2 X 2 + b 3 X e i, gdzie: b 0 – wyraz wolny; b 1, b 2, b 3 – cząstkowe współczynniki regresji wielokrotnej; e – błąd losowy (reszta); b 1 – przyrost wartości zmiennej Y przy zmianie wartości zmiennej niezależnej X 1 o jednostkę, niezależnie od pozostałych zmiennych niezależnych.

46 Kilka zaawansowanych statystycznie problemów dotyczących analizy regresji

47 47 Analiza wariancji a analiza regresji

48 y – odchylenie wartości zmiennej zależnej od wartości średniej dla tej zmiennej d – odchylenie wartości zmiennej zależnej od wartości przewidywanej równaniem regresji y p – odchylenie wartości przewidywanej od wartości średniej, jest to odchylenie wyjaśnione równaniem regresji Odchylenie pomiaru od średniej można rozbić na dwie części: Sumy kwadratów powyższych odchyleń pozostają względem siebie w następującej relacji: y 2 = y 2 p + d 2

49 Istotność modelu regresji Odchylenie przewidywane, czyli y p wyjaśnia współczynnik regresji b, czyli y p = b x. Można więcej przyjąć, że kwadrat tegoż odchylenia ma następującą postać: wzór na współczynnik korelacji:

50 Analizy wariancji cd. 50 Sum of Squares – Sumy kwadratów odchyleń TSS – suma kwadratów odchyleń (Zmienność ogólna – Razem skorygowane) MSS – suma kwadratów odchyleń, zmienność międzygrupowa (Model) ESS – suma kwadratów odchyleń, zmienność wewnątrzgrupowa (Błąd)

51 51 Ogólna suma kwadratów = wyjaśniona + niewyjaśniona, tj. TSS = MSS + ESS Wartość F – to stosunek zmienności zmiennej zależnej wyjaśnionej modelem do zmienności, która nie została wyjaśniona modelem regresji.

52 Automatyczne metody doboru zmiennych do modelu (Regresja hierarchiczna) 52 Metody selekcji krokowej: FORWARD (krokowa postępująca) Jest to metoda, która polega na stopniowym dołączaniu do modelu kolejnych zmiennych. W pierwszym kroku tworzony jest model z jedną zmienną niezależną, zmienną, którą charakteryzuje najniższy poziom istotności z nią związany. W następnym kroku tworzony jest na tej samej zasadzie model z dwiema zmiennymi niezależnymi itd. Postępowanie trwa tak długo, aż nie zostanie znaleziona już zmienna, dla której poziom istotności jest mniejszy aniżeli 0.50, w takiej też sytuacji R 2 jest najwyższe.

53 Metody selekcji 53 BACKWARD (krokowa wsteczna) Punktem wyjścia jest model z wszystkim deklarowanymi zmiennymi. Kolejne kroki tejże metody polegają na usuwaniu pojedynczo zmiennych, które najmniej wnoszą do modelu, tzn. p jest największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne charakteryzują się p poniżej STEPWISE (krokowa) Metoda będąca kombinacją dwóch poprzednich metod. Domyślny poziom istotności, przy którym zmienna jest wprowadzana i usuwana z modelu wynosi 0.15.

54 Miary jakości (dobroci) modelu 54 R-Square, R 2 (współczynnik determinacji) Adj R-sq – poprawiony współczynnik statystyka Cp SBC – Schwarzs Bayesian Criterion, AIC – Akaikes Information Criterion.

55 R-Square (współczynnik determinacji) 55 Informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. To jest inaczej kwadrat współczynnika korelacji. Przyjmuje wartość od 0 do 1 (0-100%).

56 Adj R-sq 56 Poprawiony współczynnik determinacji, zawiera poprawkę na liczbę zmiennych niezależnych w równaniu regresji.

57 Statystyka Cp, prosty wskaźnik 57 MSE p – średni kwadrat odchyleń dla modelu z liczbą zmiennych niezależnych równą p (włącznie z wyrazem wolnym) MSE full – średni kwadrat odchyleń dla modelu z wszystkimi wskazanymi zmiennymi (włącznie z wyrazem wolnym) n – liczba obserwacji p – liczba parametrów, tj. liczba cech + 1.

58 Cp 58 Biorąc pod uwagę liczbę zmiennych oraz statystykę Cp, należy stwierdzić, że te modele są właściwe, dla których Cp jest mniejsze lub równe p+1, tzn. Cp p+1. Spośród porównywanych modeli, ten jest lepszy, dla którego Cp jest najniższe.

59 Kryteria oceny modelu AIC i SBC 59 AIC (Akaikes Information Criterion) AIC = n ln(ESS/n)+2p SBC (Schwarzs Bayesian Criterion) SBC = n ln(ESS/n)+(p) ln(n) Spośród rozpatrywanych modeli ten jest najlepszy, w przypadku którego obie statystyki przyjmują najniższą wartość.

60 Ocena założeń regresji 60 Włączenie do modelu regresyjnego zmiennej wymaga spełnienia wielu założeń: Zmienne niezależne winny być nielosowe. Model winien być linowy względem parametrów. Liczba obserwacji musi być większa od liczby parametrów. Niezmiernie ważna jest między innymi ocena reszt. Resztę należy rozumieć jako różnicę między rzeczywistą a oszacowaną wartością zmiennej zależnej:

61 Badanie reszt 61 Wartość oczekiwana reszt, dla każdej oszacowanej wartości wynosiła 0. Reszty powinny posiadać rozkład normalny w każdym punkcie szacowanej wartości zmiennej zależnej. Reszty posiadają podobną wariancję w każdym punkcie szacowanej zmiennej (homoscedastyczność) Są niezależne (nieskorelowane).

62 Współliniowość 62 Oprócz oceny reszt konieczne jest prześledzenie współliniowości zmiennych (collinearity). Do wskaźników oceniających współliniowość należy, m.in. VIF, CI i VP. Eliminacja współliniowości polega na usunięciu z modelu cech, które są liniową kombinacją innych zmiennych niezależnych.

63 COLLIN 63 Użycie opcji COLLIN w modelu wariancji pozwala obliczyć, tzw. Condition index (CI) oraz Variance proportions (VP).

64 VIF (Variance Inflation Factor) 64 zwany jest współczynnikiem podbicia wariancji. VIF pozwala wychwycić wzrost wariancji ze względu na współliniowość cechy. VIF > 10 wskazuje na obecną współliniowość.

65 Condition index (CI) oraz Variance proportions (VP) 65 Jak interpretować CI? CI pomiędzy 10 a 30 wskazuje na słabą współliniowość CI między 30 a 100 dowodzi silniejszej współliniowości. CI > 100 świadczy o bardzo silnej współliniowości. VP > 0.5 świadczy również o istnieniu współliniowości.

66 Współliniowość, SAS proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ /vif collin;run;quit;


Pobierz ppt "1 Analiza współzależności cech statystycznych Dr hab. Dariusz Piwczyński."

Podobne prezentacje


Reklamy Google