Analiza współzależności cech statystycznych

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza współzależności
Dane dotyczące sprzedaży wody mineralnej
Analiza współzależności
Metody ekonometryczne
Statystyka w doświadczalnictwie
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
BIOSTATYSTYKA I METODY DOKUMENTACJI
Analiza korelacji.
Prognozowanie na podstawie modelu ekonometrycznego
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Analiza współzależności dwóch zjawisk
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Korelacja, autokorelacja, kowariancja, trendy
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Seminarium 2 Krzywe kalibracyjne – rodzaje, wyznaczanie, obliczanie wyników Równanie regresji liniowej Współczynnik korelacji.
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
dr hab. Ryszard Walkowiak prof. nadzw.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Modelowanie ekonometryczne
Hipotezy statystyczne
Korelacja rang.
Zagadnienia regresji i korelacji
Kilka wybranych uzupelnień
Statystyka ©M.
Podstawy statystyki, cz. II
Planowanie badań i analiza wyników
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Elementy geometryczne i relacje
Ekonometria stosowana
Weryfikacja hipotez statystycznych
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Statystyczne parametry akcji Średnie Miary rozproszenia Miary współzależności.
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Treść dzisiejszego wykładu l Metoda Najmniejszych Kwadratów (MNK) l Współczynnik determinacji l Koincydencja l Kataliza l Współliniowość zmiennych.
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Analiza współzależności zjawisk
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
Zapis prezentacji:

Analiza współzależności cech statystycznych Dr hab. Dariusz Piwczyński

Hasła z domu i mediów Ucz się a wyrosną z Ciebie ludzie Pij mleko będziesz wielki Każdy wypalony papieros skraca Twoje życie o 5 minut

Wzrost i stopy

Graficzna ocena zależności Możliwe sytuacje: Zależności dodatnie Zależności ujemne Brak zależności

Szereg dwucechowy, winniczek (21, 18)

Wykresy rozrzuty, zależność dodatnia

Wykres rozrzutu, zależność ujemna

Wykres rozrzutu, zależność dodatnia (b. słaba)

Wykres w MS Excel

Wykres w MS Excel Zaznaczamy wskazane pola! Przemieszczamy wskaźnik myszy na jeden z punktów, a następnie z pop-menu wybieramy Dodaj linię trendu Zaznaczamy wskazane pola!

Ostateczny wynik

Określanie zależności między cechami za pomocą liczb Analiza korelacji Analiza regresji

Korelacje to inaczej zależność między zmiennymi. Współczynnik korelacji – jest podstawową, najczęściej stosowaną miarą zależności. Określa on ogólną zależność między badanymi cechami. Najczęściej obliczaną miarą zależności jest współczynnik korelacji prostoliniowej (Pearsona)

Współczynnik korelacji rxy jest liczbą niemianowaną, przyjmującą wartości od -1 do +1. rxy zbliżony do „-1” lub „1” – całkowita zależność cech X i Y rxy zbliżony do „0” – brak jakiejkolwiek zależności Skala Guillforda

Współczynnik korelacji Znak korelacji informuje nas o kierunku zależności a wartość bezwzględna o sile zależności rxy = ryx (zależność symetryczna) lub

Kowariancja między cechami (Sxy) Jest to średnia z iloczynów odchyłek każdej pary punktu danych. Należy używać kowariancji w celu określenia zależności pomiędzy dwoma zbiorami danych. Na przykład można sprawdzić, czy większe przychody związane są z wyższym poziomem wykształcenia.

Badanie istotności współczynnika korelacji Hipoteza zerowa w przypadku badania zależności między cechami posiada następującą postać: H0:  = 0, zaś alternatywna H1:   0  (ro) Istotność korelacji badana jest po to, aby przekonać się czy zależność jaką stwierdzono w próbie będzie miała miejsce również w populacji, z której próba ta pochodzi.

Testy istotności dla współczynnika korelacji, n < 122 Jeżeli |t| > t; n-2 to mamy podstawę do odrzucenia H0. t; n-2 odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni swobody równej n – 2.

Testy istotności dla współczynnika korelacji, duże próby Jeżeli |z| > u to mamy podstawę do odrzucenia H0.

Rozwiązanie Długość (X) Szerokość (Y) XY suma 759,50 637,50 21533.00 suma kwadratów 25685,75 18092,25 wariancja 27,53 19,20

Weryfikacja hipotezy zerowej 2,074 t0,01 2,819

Współczynnik korelacji Spearmana (lokat) Ten typ korelacji wykorzystujemy do korelowania cech niemierzalnych oraz mierzalnych, ale gdy interesuje nas lokata w próbie. Z tego też względu, muszą istnieć dwa kryteria wg, których możemy uporządkować elementy w próbie. Współczynnik korelacji rang rs Spearmana waha się w przedziale liczbowym od –1 do +1.

Współczynnik korelacji rang di – różnica pomiędzy lokatami uzyskanymi przez obiekt w dwóch ocenach n – liczba elementów w próbie

Zadanie: (Żuk, Biometria stosowana) Na wystawie zootechnicznej dwóch sędziów oceniało niezależnie od siebie, pokrój zwierząt i na podstawie tych ocen każdy z sędziów uszeregował stawkę 10 osobników od najlepszego do najgorszego. Sprawdź czy pomiędzy ocenami sędziów istnieje zależność między tymi ocenami?

Dane ID sędzia 1 sędzia 2 1 1 4 2 4 1 3 2 3 4 7 10 5 8 2 6 3 6 7 10 5 8 6 8 9 9 7 10 5 9

rs = 0,261? Istnieje pewna zależność między ocenami sędziów, lecz nie wiadomo, czy taka zależność wystąpi w populacji (czy przy ocenie dalszych zwierząt przez tych sędziów będzie występować taka zgodność jak w pierwszej ocenie?). Przeprowadzamy wnioskowanie statystyczne, weryfikujemy hipotezę o niezależności uporządkowań.

Istotność Wartości krytyczne odczytujemy dla n=10 i =0,05 i 0,01 (ale tylko do 10 obiektów). Wartość krytyczna równa się 0,64 zatem nie można odrzucić hipotezy zerowej, iż obydwa uporządkowania są niezależne.

Regresja Regresja prostoliniowa – ocena wartości jednej cechy na podstawie drugiej. Prognozowanie (predykcja) wartości jednej cechy Y na podstawie wartości drugiej cechy X.

Współczynnik regresji Informuje o ile zmieni się wartość jednej zmiennej, jeżeli wartość drugiej zmieni się o jednostkę. Punkty równania szacuje się metodą najmniejszych kwadratów (MNK).

MNK Współzależność między dwiema cechami można wyrazić w sposób graficzny, tj. nanosząc punkty na płaszczyznę zawierającą osie współrzędnych. Jeżeli współzależność między cechami jest duża, to punkty na płaszczyźnie układają się wzdłuż pewnej linii (współzależność prostoliniowa lub krzywoliniowa)

Równanie prostej regresji Jeżeli założymy, że y jest funkcją x, to równanie prostej regresji y względem x ma następującą postać:

Równanie prostej regresji Jeżeli założymy, że x jest funkcją y, to równanie prostej regresji x względem y ma następującą postać:

Współczynnik regresji Y - zmienna zależna, X - zmienna niezależna X - zmienna zależna, Y - zmienna niezależna bxy  byx

Graficzna interpretacja b = tg()  a

Graficzna interpretacja y = a + byx  x b - współczynnik regresji – tangens kąta tworzonego przez prostą regresji i oś OX (skośność - slope) a - odległość punktu przecięcia osi OY przez prostą (wyraz wolny - constant, intercept)

Zastosowanie równia regresji Jeżeli (b) i (a) są znane, to równanie regresji można użyć do przewidywania wartości jednej cechy (Y) na podstawie zmiennej wartości drugiej cechy (X) dla dowolnego elementu populacji. Estymatorami parametrów  i  są wymiary uzyskane z prób: b i a.

Analiza regresji w SAS Pierw.bł.śr.-kw. (Root MSE) – odchylenie standardowe błędu, pierwiastek kwadratowy MSE (Średni kwadrat odchyleń dla zmienności spowodowanej modelem). Służy do określania jakości modelu, im niższy Root MSE, tym lepszy model. Wsp.Zmienności (CoeffVar) = (RootMSE)/średnia arytmetyczna zmiennej Y*100; Ocena parametru – oszacowane parametry, Wartość t – statystyka t, t = parameter / błąd standardowy Model - zmienność zmiennej zależnej wyjaśniona poprzez model regresji. Błąd - zmienność zmiennej zależnej niewyjaśniona równaniem regresji.

Miara jakości modelu regresji R2 (współczynnik determinacji) – informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0 do 1 (0-100%). yp – odchylenie wartości przewidywanej równaniem od wartości średniej y – odchylenie rzeczywistej wartości zmiennej zależnej od wartości średniej

Wykres rozrzutu

Współczynnik determinacji

Modele regresji Związki między cechami można rozpatrywać za pomocą 2 różnych modeli.

Modele regresji model I Jesteśmy w stanie wyodrębnić zmienną niezależną X i zmienną zależną Y. Zmienna niezależna X nie jest zmienną losową, zależy od eksperymentatora, np. temperatura, liczba osobników. Nie posiada ona rozkładu zgodnego z normalnym. Z kolei zmienna zależna Y jest zmienną losową, a jej rozkład jest zgodny z normalnym. Model I charakteryzuje zależność jednokierunkowa, tj. Y od X. y = a + bx

Modele regresji – model II Obie zmienne mają rozkład zgodny z normalnym, traktowane są równorzędnie. Kłopotliwe jest wyróżnienie zmiennej zależnej i niezależnej, gdyż obie nie znajdują się pod bezpośrednim wpływem eksperymentatora. Zamiast prostej regresji, obliczamy tzw. oś główną zredukowaną. Oś główna zredukowana to linia prosta, której suma powierzchni wszystkich trójkątów (punkt opisujący parę pomiarów połączony równoległymi do osi x i y odcinkami tworzącymi trójkąty prostokątne) jest najmniejsza. Jej postać jest następująca: y = a + x ( – ni)

Istotność współczynnika regresji Model I H0: =0, zaś alternatywna H1: 0 Model II H0: =0, zaś alternatywna H1: 0

REGRESJA WIELOKROTNA Y= b0 + b1X1 + b2X2 + b3X3.... + ei, gdzie: b0– wyraz wolny; b1, b2, b3 – cząstkowe współczynniki regresji wielokrotnej; e – błąd losowy (reszta); b1 – przyrost wartości zmiennej Y przy zmianie wartości zmiennej niezależnej X1 o jednostkę, niezależnie od pozostałych zmiennych niezależnych.

Kilka zaawansowanych statystycznie problemów dotyczących analizy regresji

Analiza wariancji a analiza regresji

Analiza wariancji a analiza regresji y – odchylenie wartości zmiennej zależnej od wartości średniej dla tej zmiennej d – odchylenie wartości zmiennej zależnej od wartości przewidywanej równaniem regresji yp – odchylenie wartości przewidywanej od wartości średniej, jest to odchylenie wyjaśnione równaniem regresji   Odchylenie pomiaru od średniej można rozbić na dwie części: Sumy kwadratów powyższych odchyleń pozostają względem siebie w następującej relacji: y2 = y2p + d2

Istotność modelu regresji Odchylenie przewidywane, czyli yp wyjaśnia współczynnik regresji b, czyli yp= bx. Można więcej przyjąć, że kwadrat tegoż odchylenia ma następującą postać: wzór na współczynnik korelacji:

Analizy wariancji cd. Sum of Squares – Sumy kwadratów odchyleń TSS – suma kwadratów odchyleń (Zmienność ogólna – Razem skorygowane) MSS – suma kwadratów odchyleń, zmienność międzygrupowa (Model) ESS – suma kwadratów odchyleń, zmienność wewnątrzgrupowa (Błąd)

Ogólna suma kwadratów = wyjaśniona + niewyjaśniona, tj. TSS = MSS + ESS Wartość F – to stosunek zmienności zmiennej zależnej wyjaśnionej modelem do zmienności, która nie została wyjaśniona modelem regresji.

Automatyczne metody doboru zmiennych do modelu (Regresja hierarchiczna) Metody selekcji krokowej: FORWARD (krokowa postępująca) Jest to metoda, która polega na stopniowym dołączaniu do modelu kolejnych zmiennych. W pierwszym kroku tworzony jest model z jedną zmienną niezależną, zmienną, którą charakteryzuje najniższy poziom istotności z nią związany. W następnym kroku tworzony jest na tej samej zasadzie model z dwiema zmiennymi niezależnymi itd. Postępowanie trwa tak długo, aż nie zostanie znaleziona już zmienna, dla której poziom istotności jest mniejszy aniżeli 0.50, w takiej też sytuacji R2 jest najwyższe.

Metody selekcji BACKWARD (krokowa wsteczna) Punktem wyjścia jest model z wszystkim deklarowanymi zmiennymi. Kolejne kroki tejże metody polegają na usuwaniu pojedynczo zmiennych, które najmniej wnoszą do modelu, tzn. p jest największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne charakteryzują się p poniżej 0.10. STEPWISE (krokowa) Metoda będąca kombinacją dwóch poprzednich metod. Domyślny poziom istotności, przy którym zmienna jest wprowadzana i usuwana z modelu wynosi 0.15.

Miary jakości (dobroci) modelu R-Square, R2 (współczynnik determinacji) Adj R-sq – poprawiony współczynnik statystyka Cp SBC – Schwarz’s Bayesian Criterion, AIC – Akaike’s Information Criterion.

R-Square (współczynnik determinacji) Informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. To jest inaczej kwadrat współczynnika korelacji. Przyjmuje wartość od 0 do 1 (0-100%).

Adj R-sq Poprawiony współczynnik determinacji, zawiera poprawkę na liczbę zmiennych niezależnych w równaniu regresji.

Statystyka Cp, prosty wskaźnik MSEp – średni kwadrat odchyleń dla modelu z liczbą zmiennych niezależnych równą p (włącznie z wyrazem wolnym) MSEfull – średni kwadrat odchyleń dla modelu z wszystkimi wskazanymi zmiennymi (włącznie z wyrazem wolnym) n – liczba obserwacji p – liczba parametrów, tj. liczba cech + 1.

Cp Biorąc pod uwagę liczbę zmiennych oraz statystykę Cp, należy stwierdzić, że te modele są właściwe, dla których Cp jest mniejsze lub równe p+1, tzn. Cpp+1. Spośród porównywanych modeli, ten jest lepszy, dla którego Cp jest najniższe.

Kryteria oceny modelu AIC i SBC AIC (Akaike’s Information Criterion) AIC = n  ln(ESS/n)+2p SBC (Schwarz’s Bayesian Criterion) SBC = n  ln(ESS/n)+(p)  ln(n) Spośród rozpatrywanych modeli ten jest najlepszy, w przypadku którego obie statystyki przyjmują najniższą wartość.

Ocena założeń regresji Włączenie do modelu regresyjnego zmiennej wymaga spełnienia wielu założeń: Zmienne niezależne winny być nielosowe. Model winien być linowy względem parametrów. Liczba obserwacji musi być większa od liczby parametrów. Niezmiernie ważna jest między innymi ocena reszt. Resztę należy rozumieć jako różnicę między rzeczywistą a oszacowaną wartością zmiennej zależnej:

Badanie reszt Wartość oczekiwana reszt, dla każdej oszacowanej wartości wynosiła 0. Reszty powinny posiadać rozkład normalny w każdym punkcie szacowanej wartości zmiennej zależnej. Reszty posiadają podobną wariancję w każdym punkcie szacowanej zmiennej (homoscedastyczność) Są niezależne (nieskorelowane).

Współliniowość Oprócz oceny reszt konieczne jest prześledzenie współliniowości zmiennych (collinearity). Do wskaźników oceniających współliniowość należy, m.in. VIF, CI i VP. Eliminacja współliniowości polega na usunięciu z modelu cech, które są liniową kombinacją innych zmiennych niezależnych.

COLLIN Użycie opcji COLLIN w modelu wariancji pozwala obliczyć, tzw. Condition index (CI) oraz Variance proportions (VP).

VIF (Variance Inflation Factor) zwany jest współczynnikiem podbicia wariancji. VIF pozwala wychwycić wzrost wariancji ze względu na współliniowość cechy. VIF > 10 wskazuje na obecną współliniowość.

Condition index (CI) oraz Variance proportions (VP) Jak interpretować CI? CI pomiędzy 10 a 30 wskazuje na słabą współliniowość CI między 30 a 100 dowodzi silniejszej współliniowości. CI > 100 świadczy o bardzo silnej współliniowości. VP > 0.5 świadczy również o istnieniu współliniowości.

Współliniowość, SAS proc reg data=owce.dysekcja; model prmoszac=KULMIE LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmLMZ /vif collin;run;quit;