Metoda analizy wariancji.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Test zgodności c2.
Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Wykład 9 Analiza wariancji (ANOVA)
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Nowy kod Statistica 6.1 HEN6EUEKH8.
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Średnie i miary zmienności
Jednoczynnikowa analiza wariancji (ANOVA)
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Analiza wariancji.
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Hipotezy statystyczne
Wyrażenia algebraiczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Testy nieparametryczne
Analiza reszt w regresji
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Modelowanie ekonometryczne
Hipotezy statystyczne
Zagadnienia regresji i korelacji
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Statystyka ©M.
Ekonometria stosowana
Planowanie badań i analiza wyników
Ekonometria stosowana
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Weryfikacja hipotez statystycznych
1 D. Ciołek Analiza danych przekrojowo-czasowych – wykład 7 Analiza danych przekrojowo-czasowych Wykład 7: Testowanie integracji dla danych panelowych.
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Testowanie hipotez Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 11
Testy nieparametryczne
Statystyka matematyczna
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Korelacja i regresja liniowa
Zapis prezentacji:

Metoda analizy wariancji

Analiza wariancji Metoda analizy wariancji została opracowana w latach dwudziestych przez R. Fishera, znajdując najpierw zastosowanie w doświadczalnictwie rolniczym. Uogólniając, analiza wariancji jest techniką badania, czy określone czynniki wywierają wpływ na analizowaną cechę. Rozpatrzmy pewną populację generalną , w której obserwujemy zmienną losową .

Analiza wariancji (c.d.) Załóżmy dalej, że istnieje pewien czynnik oddziaływujący na wartości tej zmiennej i pozwalający na wydzielenie a podpopulacji (co najmniej dwóch podpopulacji): .... Celem analizy wariancji jest zweryfikowanie hipotezy o równości średnich generalnych w podpopulacjach:

Analiza wariancji - czynnik badany Czynnik oddziaływujący na wartości zmiennej losowej dość często nazywany jest czynnikiem badanym lub klasyfikacyjnym. Czynnik ten może mieć charakter zarówno ilościowy, jak i jakościowy. W doświadczalnictwie rolniczym przykładem czynnika o charakterze ilościowym może być choćby nawożenie mineralne NPK, a czynnikiem jakościowym np. odmiany pszenicy.

Poziomy czynnika badanego Przez poziomy czynnika badanego rozumiemy konkretne jego wartości wpływające na sposób sklasyfikowania wartości zmiennej losowej. W przypadku wspomnianego nawożenia NPK poziomami tego czynnika są konkretne dawki, np. 120, 180 i 240 kg NPK. W przypadku czynnika jakościowego (np. odmiany pszenicy), będą to konkretne odmiany. W sytuacji podanej wyżej rozpatrywane są konkretne poziomy czynnika, dlatego tego typu czynnik nazywamy stałym. Można jednak poziomy czynnika traktować jako reprezentację wszystkich możliwych jego poziomów (np. dawek NPK czy odmian). Tak traktowany czynnik ma charakter czynnika losowego.

Jedno i wieloczynnikowa analiza wariancji Można rozważać takie eksperymenty, że na daną zmienną losową oddziaływuje tylko jeden czynnik, mamy wtedy do czynienia z jednoczynnikową analizą wariancji. W sytuacjach, gdy czynników klasyfikujących jest więcej, mówimy o wieloczynnikowej analizie wariancji. Analizie wariancji można poddać pojedynczą cechę, mówimy wtedy o jednozmiennej analizie wariancji oznaczanej symbolicznie jako ANOVA. Analiza wariancji może dotyczyć wielu cech jednocześnie, mówimy wtedy o wielozmiennej analizie wariancji - MANOVA.

Jednoczynnikowa analiza wariancji Weryfikacja hipotezy zerowej o jednoczesnej równości średnich generalnych w podpopulacjach: wymaga pobrania próby losowej (z reguły w wyniku odpowiednio zaplanowanego eksperymentu) o liczebnościach odpowiednio . Oznaczmy wyniki próby przez , gdzie jest wskaźnikiem poziomów czynnika badanego (klasy-fikacyjnego), a jest wskaźnikiem powtórzeń (replikacji).

ANOVA 1 (c.d.) Każdą obserwację można zapisać jako sumę wspólnej średniej generalnej m, efektu i-tego poziomu czynnika badanego (klasyfikacyjnego) ai oraz efektu czynnika losowego eij: (1) O efektach losowych zakładamy, że mają rozkład i są niezależne. Z modelu (1) wynika, że wartość oczekiwana w i-tej grupie jest równa: (2)

ANOVA 1 (c.d.) Z wzoru (2) wynika, że efekt ai jest odchyleniem średniej w danej grupie od średniej ogólnej: (3) Tym samym hipotezę o jednoczesnej równości średnich generalnych możemy zapisać w postaci: (4) Procedura weryfikacyjna powyższej hipotezy opiera się na udziale zróżnicowania między średnimi w grupach w stosunku do ogólnego zróżnicowania danej cechy.

ANOVA 1 (c.d.) Na podstawie wyników próby losowej rozdzielimy ogólną zmienność na dwa niezależne składniki (zgodnie z modelem 1): zmienność między grupami mierzącą wpływ czynnika badanego (klasyfikującego). zmienność wewnątrz grup będącą miarą zróżnicowania przypadkowego. W kolejnym kroku ocenimy wkład obu zmienności w ogólną zmienność badanej cechy i na tej podstawie będziemy wnioskować o prawdziwości hipotezy zerowej.

Tabela analizy wariancji ANOVA 1 (c.d.) Tabela analizy wariancji Źródło Stopnie Suma kw. Średni kw. Femp F zmienności swobody odchyleń odchyleń Czynnik vA SSA MSA FA Błąd vE SSE MSE Całkowita vT SST gdzie:

Obliczenia analizy wariancji Dalsze wzory analizy wariancji:

Wnioskowanie w analizie wariancji Przy prawdziwości statystyka ma rozkład F-Fishera z liczbami stopni swobody vA i vE. Jeżeli więc , to H0 odrzucamy jako zbyt mało prawdopodobną. Merytorycznie formułujemy wniosek, że czynnik klasyfikacyjny istotnie wpływa na wartości badanej cechy. Oznacza to jednocześnie, że co najmniej jedna średnia grupowa (obiektowa) różni się od pozostałych.

Wnioskowanie w analizie wariancji (c.d.) W dalszej części zajmiemy się sposobami szczegółowego porównania średnich grupowych w takiej sytuacji. W sytuacji, gdy (lub krytyczny poziom istotności jest większy od przyjętego ) nie mamy podstaw do odrzucenia hipotezy zerowej i tym samym badanie statystyczne wpływu czynnika klasyfikacyjnego jest zakończone. Oznacza to, że ewentualne różnice między średnimi grupowymi (w próbie) mają tylko charakter losowy.

Porównania szczegółowe W przypadku odrzucenia hipotezy zerowej wiemy, że co najmniej jedna średnia grupowa różni się od pozostałych. Problemem pozostaje rozdzielenie średnich na tzw. grupy jednorodne. Pod pojęciem grupy jednorodnej będziemy rozumieć taki zestaw średnich w populacjach, w którym dla każdej pary średnich próbkowych zachodzi związek:

Porównania szczegółowe (c.d.) Najmniejsza istotna różnica może być skonstruowana z użyciem różnych statystyk (najczęściej): t-Studenta (LSD) t studentyzowanego rozstępu (NIR Tukey’a -HSD, Newmana-Keulsa) F (NIR Scheffego) Ogólnie NIR będziemy wyznaczać wg wzoru: gdzie jest wartością tablicową odpowiedniej statystyki, a Sr błędem różnicy średnich.

Porównania szczegółowe (c.d.) W sytuacji, gdy w próbie losowej w każdej podgrupie mamy taką samą liczbę obserwacji (powiedzmy równą n) błąd różnicy średnich wyznaczamy z wzoru: W tych przypadkach, gdy liczba obserwacji w podgrupach jest różna, można skorzystać z wzoru: gdzie

Przykład liczbowy W celu porównania oceny ogólnej 5 wybranych produktów spożywczych zaplanowano odpowiedni eksperyment, w wyniku którego uzyskano poniższe wyniki: P1 P2 P3 P4 P5 1 8 8 7 7 7 2 7 9 7 9 6 3 7 8 8 7 7 4 8 9 7 8 6 Dane powyższe zostaną opracowane zgodnie z modelem liniowym jednoczynnikowej analizy wariancji:

Przykład liczbowy (c.d.) Obliczamy odpowiednie sumy i średnie: P1 P2 P3 P4 P5 1 8 8 7 7 7 37 2 7 9 7 9 6 38 3 7 8 8 7 7 37 4 8 9 7 8 6 38 Sumy 30 34 29 31 26 150 średnie 7.50 8.50 7.25 7.75 6.50 7.50 Obliczamy dalej: Poprawka = 150*7.50 = 1125 SST = (82 + 72 + ... + 62) - P = 1140 - 1125 = 15 SSA = (30*7.50 + ... + 26*6.50) - P = 1133.50 - 1125 = 8.5

Przykład liczbowy (c.d.) Pozostałe obliczenia zestawiamy już w tabeli analizy wariancji. Zmienność St. sw. S.S M.S Femp. F0.05 Produkt 4 8.5 2.125 4.904* 3.06 Błąd 15 6.5 0.43 Całkowita 19 15 Wnioskowanie: Ponieważ hipotezę o braku zróżnicowania między produktami odrzucamy. Oznacza to jednocześnie, że istnieją co najmniej 2 grupy jednorodne.

Przykład liczbowy, szczegółowe porównania Obliczamy i dalej NIR Tukey’a Poniżej mamy uporządkowane średnie dla produktów i ich podział na grupy jednorodne. P2 8.50 a P4 7.75 0.75 ab P1 7.50 1.00 0.25 ab P3 7.25 1.25 0.50 ab P5 6.50 2.00 1.25 b

Analizy wieloczynnikowe Wieloczynnikowe analizy wariancji rozpatrzymy na przykładzie dwuczynnikowej analizy. Model liniowy tego typu analizy może mieć postać: (5) W modelu tym, poza efektami głównymi czynników badanych A i B pojawia się efekt współdziałania (interakcji) tych czynników: abij . Pod pojęciem interakcji będziemy rozumieć wzajemny wpływ poziomów jednego czynnika na poziomy drugiego z nich. Badanie interakcji dostarcza informacji na pytanie, czy analizowana cecha reaguje tak samo na zmiany poziomów jednego czynnika na tle zmian poziomów drugiego z nich.

Analizy wieloczynnikowe (c.d.) Tabela analizy wariancji modelu (5) Źródło Stopnie Suma kw. Średni kw. Femp F zmienności swobody odchyleń odchyleń Czynnik A vA SSA MSA FA Czynnik B vB SSB MSB FB Inter. AB vAB SSAB MSAB FAB Błąd vE SSE MSE Całkowita vT SST Analiza wykona wg tego modelu pozwala na zweryfikowanie trzech hipotez zerowych:

Analizy wieloczynnikowe Szczegółowe porównania W przypadku stwierdzenia istotności wpływu czynnika A, czy czynnika B przeprowadzamy szczegółowe porównanie odpowiednich średnich obiektowych stosując standardową procedurę porównań. Błędy różnicy średnich, niezbędne do wyznaczenia odpowiednich NIR-ów wyznaczamy wg wzorów:

Szczegółowe porównania (c.d.) W przypadku istotności interakcji powinniśmy wyznaczyć dwa NIR-y: jeden dla porównań poziomów czynnika A przy ustalonych poziomach czynnika B oraz drugi dla porównań poziomów czynnika B przy ustalonych poziomach czynnika A. W przypadku analizy wariancji zgodnie z modelem (5) NIR-y te będą się tylko różniły wartościami krytycznymi odpowiednich statystyk (jeżeli czynniki A i B mają różną liczbę poziomów). Błąd różnicy średnich znajdujemy z wzoru:

Interpretacja graficzna interakcji Wygodną formą prezentacji interakcji jest przygotowanie odpowiedniego wykresu. Poniżej pokazana jest interakcja (istotna) dwóch czynników (doświadczenia x produkty).

Planowanie i analiza doświadczeń wieloczynnikowych Przedstawiony w modelu (5) schemat analizy dwuczynnikowej był jednym z najprostszych przykładów eksperymentu z krzyżową klasyfikacją czynników. W eksperymentach tego typu każdy poziom czynnika A występuje z każdym poziomem czynnika B. Możliwe jest także takie zaplanowanie eksperymentu, gdzie poziomy jednego czynnika występują tylko z niektórymi poziomami drugiego czynnnika. W takiej sytuacji mówimy o klasyfikacji hierarchicznej.

Planowanie i analiza doświadczeń wieloczynnikowych Doświadczenie dwuczynikowe może być także zaplanowane w taki sposób, że najpierw rozmieszczmy poziomy pierwszego czynnika, a dopiero wewnątrz nich rozmieszczamy poziomy drugiego czynnika. Doświadczenia planowane zgodnie z takim schematem noszą nazwę układów zależnych (albo split-plot), a analiza wykonywana jest zgodnie z modelem: (6)

Weryfikacja założeń w analizie wariancji Metoda analizy wariancji zakłada, że analizowana cecha pochodzi z populacji o rozkładzie normalnym oraz że wariancje tej cechy są takie same we wszystkich podpopulacjach. Wymaga to weryfikacji hipotezy zerowej postaci: wobec alternatywy dla co najmniej jednej pary wskaźników i, l. Tak sformułowana hipoteza zerowa może być weryfikowana testami Bartletta, Cochrana lub Hartleya.

Weryfikacja założeń - test Bartletta Test Bartleta wykorzystuje statystykę: gdzie a jest średnim kwadratem odchyleń (wariancją w próbie) w i-tej grupie.

Test Bartletta (c.d.) Jeżeli spełnione jest założenie o normalności rozkładu i hipoteza H0 jest prawdziwa, to statystyka  ma rozkład 2 z liczbą stopni swobody v = a - 1. Jeżeli więc , to H0 musimy odrzucić na korzyść hipotezy alternatywnej. Tym samym analiza wariancji nie może być wykonywana (przynajmniej bezpośrednio na danych oryginalnych). Test Bartletta może być stosowany praktycznie we wszystkich sytuacjach, jeżeli chodzi o liczbę replikacji w podklasach.

Przekształcenia danych oryginalnych W przypadku niespełnienia założenia o jednorodności wariancji można podjąć próbę jej stabilizacji poprzez np. logarytmowanie wartości próby. Działania takie noszą nazwę transformacji danych. Transormacja danych wyjściowych może być także stosowana w tych sytuacjach, gdy cecha w populacji nie ma rozkładu normalnego. Celem transformacji będzie wtedy sprowadzenie rozkładu tej cechy do co najmniej symetrycznego. Jedną z możliwych transformacji jest wykorzystanie średnich w miejsce danych oryginalnych.