Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie dr Marta Marszałek
Analiza wariancji (Analysis of variance = ANOVA) jest statystyczną metodą rozstrzygania o: - istnieniu różnic między średnimi w kilku grupach (subpopulacjach), (lub inaczej o:) - istnieniu wpływu wyodrębnionego czynnika na rozkład cechy w grupach. Przedmiotem badania jest r grup (subpopulacji) wyodrębnionych w związku z działaniem pewnego czynnika (treatment).
ANOVA Wpływ każdego czynnika rozpatrywany jest: o d r ę b n i e modele jednoczynnikowe (jednoczynnikowa analiza wariancji) łącznie modele wieloczynnikowe (wieloczynnikowa analiza wariancji)
Analiza wariancji - przykłady Czy średnie plony na czterech poletkach doświadczalnych są istotnie zróżnicowane w wyniku zasilania pól różnymi nawozami? Czy wykształcenie kobiet jest czynnikiem istotnie różnicującym przeciętną liczbę dzieci w gospodarstwie domowym? Czy lojalność klientów wobec konkretnej stacji paliw (X,Y,Z) i tankowanie tylko na jednej z nich wpływa na przeciętne zużycie paliwa przez samochód?
Analiza wariancji - hipotezy Założenie: Zmienne Y i (i=1…r) mają rozkład N o średniej m i oraz jednakowej we wszystkich populacjach wariancji σ 2. H 0 : m 1 = m 2 =…. = m r (wyodrębniony czynnik nie ma wpływu na rozkład badanej cechy) H 1 : m i ≠ m j dla co najmniej jednej pary i, j (wyodrębniony czynnik ma wpływ na rozkład badanej cechy, gdyż średnie w co najmniej dwóch populacjach różnią się)
Analiza wariancji - założenia cd. 1. Próby pobrane zostały w sposób niezależny z każdej z r populacji, 2. Badana cecha w każdej z populacji ma rozkład N o jednakowej wariancji σ 2. Populacje o rozkładzie normalnym z różnymi średnimi, ale o tej samej wariancji
Z każdej grupy pobieramy niezależną próbę losową o liczebności n i i rozpatrujemy zmienne objaśniane Y i. Nr obserwacji (k) Numer grupy ( i ) 12…….r ni123...ni [y ki ] Liczebność grupyn1n1 n2n2 …….nrnr Średnie grupoweȳ 1 ȳ 2 …….ȳ r Czy te średnie różnią się na tyle znacząco, żeby uznać za istotny wpływ badanego czynnika?
Równość wariancyjna Całkowita suma kwadratów odchyleń od średniej ogólnej SST = SSE + SSB SSE (sum of squares for error) Zmienność wewnątrzgrupowa (zmienność niewyjaśniona) SSB (sum of squares between groups) Zmienność międzygrupowa (zmienność wyjaśniona)
Zróżnicowanie całkowite SST (Sum of Squares Total)
Zróżnicowanie międzygrupowe (suma kwadratów odchyleń międzygrupowych)
Zróżnicowanie wewnątrzgrupowe (suma kwadr. odchyleń wewnątrzgrupowych) SSE (Sum of Squares for Error) wynika z różnic występujących wewnątrz każdej grupy średnia dla i-tej grupy
Podział odchylenia całkowitego danej obserwacji y ki od średniej ogólnej ȳ jako suma odchylenia wyjaśnionego i błędu losowego
Analiza wariancji Źródło zmiennościSuma kwadratów odchyleń Stopnie swobodyŚredni kwadrat odchyleń Zróżnicowanie międzygrupowe – czynnik SSBr-1MSB Zróżnicowanie wewnątrzgrupowe – błąd losowy SSEn-rMSE Zróżnicowanie całkowite SSTn-1- +=+=
Krok po kroku - decyzja ANOVA Brak podstaw do odrzucenia H0 StopOdrzucenie H0 Dalsza analiza
Porównania wielokrotne. Porównywanie średnich w populacji parami Metoda najmniejszej istotnej różnicy Fishera (LSD - least significant difference) polega na porównaniu różnic między parami średnich z próby z pewną wielkością zwaną najmniejszą istotną różnicą (LSD) t α - wartość z rozkładu t-Studenta dla n-r stopni swobody. Jeśli dla dwóch średnich zachodzi: to różnica między tymi średnimi jest statystycznie istotna
Dziękuję dr Marta Marszałek