Wieloczynnikowa analiza wariancji

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Wykład 9 Analiza wariancji (ANOVA)
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza współzależności
Analiza współzależności
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Nowy kod Statistica 6.1 HEN6EUEKH8.
Mgr Sebastian Mucha Schemat doświadczenia:
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Próby niezależne versus próby zależne
Analiza wariancji ANOVA efekty główne
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Analiza wariancji.
Jednoczynnikowa analiza wariancji (ANOVA)
Rozkład t.
Hipotezy statystyczne
Metoda analizy wariancji.
Analiza wariancji jednoczynnikowa
Analiza wariancji.
Testy nieparametryczne
Analiza współzależności cech statystycznych
Testy nieparametryczne
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Modelowanie ekonometryczne
Hipotezy statystyczne
Kilka wybranych uzupelnień
Statystyka ©M.
Podstawy statystyki, cz. II
Analiza wariancji ANOVA czynnikowa ANOVA
Testy statystycznej istotności
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
Testowanie hipotez statystycznych
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Ekonometryczne modele nieliniowe
STATYSTYKA Pochodzenie nazwy:
Analiza wariancji ANOVA czynnikowa ANOVA
Weryfikacja hipotez statystycznych
Testowanie hipotez Jacek Szanduła.
Statystyczna analiza danych
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
KONTRASTY Zastosowanie statystyki w bioinżynierii ćw 5.
Korelacja i regresja liniowa
Zapis prezentacji:

Wieloczynnikowa analiza wariancji

Analiza wariancji w SAS Procedura ANOVA ANOVA – Analysis of variance (Analiza wariancji) Procedura GLM General Linear Models (Ogólne modele liniowe)

Model liniowy analizy wariancji Yij =  + i + eij gdzie: Yij – wartość cechy j-tego obiektu pochodzącego z i- tej grupy;  – średnia ogólna, obliczona dla całej populacji; i – efekt i-tej grupy, tj. różnica między średnią dla i- tej grupy i dla całej populacji. Można ten efekt traktować jako przewagę i-tej grupy nad przeciętną dla całej populacji; eij – błąd losowy, resztowy.

Wartość prognozowana i reszty

Błąd losowy Błąd losowy jest odchyleniem danej obserwacji od średniej grupy, z jakiej ona pochodzi. Spowodowany jest zmiennością przypadkową, a ta dotyczy konkretnej obserwacji. Błąd jest to taka część obserwowanej zmienności, która nie jest wytłumaczona za pomocą modelu.

Czynniki stałe w modelu (Modele stałe) Z reguły liczba poziomów czynnika stałego jest niewielka. W badaniach uwzględniamy z góry określone poziomy czynnika. Wnioski odnosimy wyłącznie do tych poziomów czynnika, które zostały uwzględnione w analizie. Przykładem czynnika stałego może być: płeć, grupa żywieniowa, rasa, rok badań, stado, sezon doju próbnego.

Model stały (Model I) Yij =  + i + eij i – stały efekt i-tej grupy, tj. różnica między średnią dla i-tej grupy i dla całej populacji. Można ten efekt traktować jako przewagę i- tej grupy nad przeciętną dla całej populacji;

Czynniki losowe (Modele losowe) Liczba poziomów czynnika losowego jest zwykle duża. Badaniom poddany jest losowy podzbiór wszystkich poziomów czynnika. Wnioski odnosimy do wszystkich poziomów czynnika, nawet tych, które nie zostały uwzględnione w eksperymencie, np. twierdzimy, że rasa wpływ na udział tłuszczu w mleko. Przykładem czynnika losowego jest efekt matki, ojca, grupy genetycznej, rasy.

Modele losowe (Model II) Yij =  + Ai + eij gdzie: Ai – losowy efekt i-tej grupy, tj. różnica między średnią dla i-tej grupy i dla całej populacji,

Modele stałe a losowe Różnica między czynnikami stałymi oraz losowymi jest dość płynna, w dużej mierze zależy od postawionego do rozwiązania problemu.

Modele krzyżowe Yijk= + i + j + ()ij + eijk gdzie: ()ij – efekt interakcji pomiędzy czynnikami (poprawka ze względu na interakcję).

Klasyfikacja krzyżowa

Dane – krety

Dwuczynnikowa ANOVA - rezultaty Yijk= + i + j + eijk

Tabela dwuczynnikowej analizy wariancji g – liczba poziomów czynnika F1, b – liczba poziomów czynnika F2

Dwuczynnikowa analiza wariancji z interakcją Yijk= + i + j + ()ij + eijk

Brak istotnej interakcji

Dwuczynnikowa ANOVA, wysoko istotna interakcja Presumin an alpha of 0.05, you reject the null hypothesis. You have sufficent evidence to conclude there is an interaction between two factors. To confirm the conlclusion about interaction between the factors examin the means plot. Erroneous – (ereness) błędne Because of the interaction, the tests for individual factor effects may be misleading due to masking of these effects by the interaction. Therefore, testing the means for the two factors separately might lead to erroneous conclusions.

Wysoko istotna interakcja

Wyłączenie interakcji z modelu Zaleca się, aby z modelu wyeliminować takie interakcje, które są nieistotne statystycznie. Zwiększa się tym samym siłę działania czynników głównych. Jest to tym bardziej uzasadnione, jeśli: liczba stopni swobody dla błędu jest mniejsza aniżeli 5 oraz średni kwadrat odchyleń dla interakcji podzielony przez wariancję błędu jest mniejszy aniżeli 2.

Model hierarchiczny Yijk =  + i + (j)i + eijk gdzie: i – efekt stada, (j)i – czynnik zagnieżdżony, np. tj. wpływ ojca.

Przykład zagnieżdżenia Jest to sytuacja, w której określone poziomy czynnika rozważane są w obrębie czynnika nadrzędnego. np. kozioł czy też tryk kryje samice wyłącznie w wybranych stadach.

Typy sum kwadratów odchyleń Type SS1: Modele hierarchiczne, regresja wielomianowa. Istotna jest kolejność czynników. Type SS2: W sytuacji, gdy interesują nas efekty główne a interakcje są nieistotne statystycznie. Type SS3: Każdy element traktowany jest oddzielnie, indywidualnie. Type SS4: Stosowany, gdy istnieją brakujące podklasy. Wszystkie typy sum kwadratów odchyleń są sobie równe dla układów zbalansowanych!

Modele ze zmienną towarzyszącą (regresją) Yijk= + ai + bj + (ab)ij + βX1 + eijk gdzie: (ab)ij – efekt interakcji pomiędzy czynnikami (poprawka ze względu na interakcję). βX1 – regresja (zmienna towarzysząca).

Diagnostyka modelu

Diagnostyka modelu r-kwadrat (R-Square) (R2) = SKM/SKO; Wskaźnik determinacji informuje, w jakim stopniu zmienne niezależne (czynniki) objaśniają zmienność cechy zależnej. Jeżeli wartość jest zbliżona do 0, tzn. że czynniki w żaden sposób nie wyjaśniają zmienności cechy ilościowej. Średnia - średnia arytmetyczna dla całej populacji. Pierwiastek (Root) MSE – pierwiastek kwadratowy średniego kwadratu odchyleń dla zmienności wewnątrzgrupowej Wsp. war (Coeff Var) – wskaźnik zmienności = Root MSE / Mean * 100 The CoeffVar expresses the root MSE (the estimate of the standard deviation for all treatments) as a percentage of the mean. It is a unitless measure that is useful in comparing the variability of two sets of data with different units of measure or different magnitudes (wielkość, znaczenie, rozmiary)

Dylemat Czy masa ciała we wszystkich porach jest zróżnicowana? Czy są takie pory roku, w których masa ciała jest podobna?

Wykres pudełkowy

Testy a posteriori W sytuacji, gdy wyniki analizy wariancji dają podstawę do odrzucenia hipotezy zerowej, wykonujemy tzw. testy niezaplanowane, zwane inaczej testami a posteriori. Niedopuszczalne jest stosowanie testu t-Studenta w przypadku większej liczby porównywanych średnich (więcej niż 2), gdyż drastycznie rośnie błąd I rodzaju dla całego doświadczenia. Przy jednej parze błąd ten wynosić może 0,05, ale przy 4 średnich (6 możliwych porównań) prawdopodobieństwo, że się pomylimy wynosi: 1 - 0,956 = 1 - 0,735, czyli aż 0.265.

Testy wielokrotnych porównań (post hoc) Testy wielokrotnych porównań wykonujemy wtedy, gdy na podstawie analizy wariancji stwierdzimy, iż czynnik wpływa istotnie na badaną cechę!!!! We want to deterine which means are significantly different. Multiple comparisions are also known as post hoc tests. The test enable us to ake this determination.

Grupa średnich jednorodnych Grupy jednorodne: są to takie grupy średnich, które nie różnią się statystycznie ze sobą. Procedury, które zmierzają do wyróżnienia grup jednorodnych nazywają się procedurami porównań wielokrotnych, procedurami jednoczesnego wnioskowania lub post-hoc. Testy te wykorzystujemy przy analizie wariancji wykonywanej w ramach Modelu I.

Test NIR [test najmniejszych istotnych różnic] (LSD [least significant differences]). Jest najstarszym historycznie testem wielokrotnych porównań. Zaproponowany przez Fishera w 1949. Jego idea polega na wyznaczeniu tzw. najmniejszych istotnych różnic i porównaniu ich z różnicami średnich. Jest to test najmniej odporny na wzrost liczby wielokrotnych porównań, ponieważ poziom istotności odnosi się do pojedynczego porównania. W takim przypadku bardzo szybko wzrasta poziom istotności całego eksperymentu. Wobec powyższych test NIR stosowany jest jako test towarzyszący innym testom. Jeśli bezwzględna wartość różnicy średnich z próby jest większa aniżeli tzw. najmniejsza istotna różnica (NIR), to możemy stwierdzić, iż jest ona istotna statystycznie.

Test Dunnett Służy do porównania grup doświadczalnych z grupą kontrolną.

Test Duncana Test Duncana jest oparty na studentyzowanym rozstępie. Poziom istotności dla całego doświadczenia wynosi 1-(1-)n-1. W sytuacji, gdy n rośnie do nieskończoności poziom ten rośnie do jedności. W związku z czym, przy dużej liczbie porównywanych średnich prawdopodobieństwo popełnienia błędu drastycznie rośnie. Test ten stosowany jest raczej jako test towarzyszący innym testom. Test Duncana umożliwia tworzenie grup jednorodnych, czyli takich, pomiędzy którymi nie występują różnice istotne statystycznie na podstawie prób niezależnych.

Kolejność działań przy wykonywaniu testu Duncana: Porządkujemy rosnąco ciąg uzyskanych średnich arytmetycznych Wybieramy parę średnich do porównania Odczytujemy z tabel testu Duncana wartości krytyczne. Uzależnione są one od poziomu istotności, liczby stopni swobody oraz typu rozstępu. Typ rozstępu - liczba wartości średnich zawartych w jednym ciągu pomiędzy porównywanymi średnimi. Wyliczamy tzw. istotny obszar zmienności: D*Sd D – odczytujemy w zależności od liczby stopni swobody (zmienność wewnątrzgrupowa) oraz typu rozstępu.

Test Duncana cd.   S2w – wariancja dla zmienności wewnątrzgrupowej; ngr – przeciętna liczebność grupy k – liczba grup doświadczalnych, n­i­ – liczebność grupy Jeżeli |xi - xj|  Sd*D0,05 to różnica pomiędzy średnimi jest istotna statystycznie; Jeżeli |xi - xj|  Sd*D0,01 to różnica pomiędzy średnimi jest wysoko istotna statystycznie; Jeżeli |xi - xj| < Sd*D0,05 to różnica pomiędzy średnimi jest nieistotna statystycznie.

Test Duncana

Test Duncana  Porównywane grupy uporządkowane są malejąco. Średnie, przy których znajduje się ta sama litera stanowią, tzw. grupę średnich jednorodnych, tzn. które nie różnią się ze sobą.

Nanoszenie istotności

Scheffé test Jest testem najbardziej konserwatywnym, co oznacza, że rzadziej będziemy odrzucać pojedyncze porównania niż w przypadku innych testów. Test Scheffe zapewnia łączny poziom istotności dla wszystkich porównywanych par. Test ten doskonale nadaje się nie tylko do porównania par cech, ale również uwzględnia wszelkie kontrasty. To test najbardziej zachowawczy, gdyż błąd pierwszego rodzaju jest najmniejszy.

Test Scheffé

Test wielokrotnych porównań Tukey’a Jest oparty o studentyzowany rozkład. Jest to test najbardziej polecany do porównania par średnich. Pozwala on wyznaczać grupy średnich jednorodnych. Występuje w dwóch odmianach: równa liczebność próbek, nierówna liczebność próbek (test Spjotvolla i Stolinea). Test Tukea jest bardziej konserwatywny aniżeli NIR, lecz mniej niż test Scheffé. Błąd pierwszego rodzaju jest przy tym teście mniejszy aniżeli w przypadku NIR, Duncan,a ponadto gwarantuje on jednakowy poziom istotności dla wszystkich porównywanych par. Conservative test tend to find fewer significant differences than might otherwise be found.

Test Tukey przypisywać attribute - attributed

Test Duncana i Scheffé Wykazano różnice istotne między średnią masą ciała samic kontrolowanych jesienią a wszystkimi pozostałymi porami roku. Nie stwierdzono jednak różnic istotnych między zwierzętami odłowionymi wiosną, latem i zimą!

Modyfikujemy kod

Program po zmianach Dopisaliśmy dodatkowe 2 linie pozwalające na porównania przy poziomie istotności równym 0,01 Program zapisujemy i Uruchamiamy

Efekty