Jednoczynnikowa analiza wariancji (ANOVA) ANalysis Of VAriance Analizę wariancji wykorzystuje się do testowania hipotezy o różnicy pomiędzy kilkoma średnimi. Jeżeli mamy przetestować różnice między więcej niż dwoma średnimi to nie można zastosować statystyki t opartej na błędzie standardowym różnicy pomiędzy średnimi ponieważ przeprowadzanie kilkukrotnych testów t prowadzi do drastycznego zwiększenia prawdopodobieństwa popełnienia błędu I rodzaju. Rozważmy eksperyment analizujący wpływ "szumu tła" na efektywność czytania. Osoby biorące udział w eksperymencie zostały podzielone na 3 grupy: 1. czytanie tekstu przez 30 min bez szumu, 2. czytanie z umiarkowanym szumem w tle, 3. czytanie z głośnym szumem w tle.
Czy natężenie szumu w tle ma wpływ na efektywność czytania? H0: µ1 = µ2 = µ3, gdzie: µ1 jest średnią dla próbki z zerowym szumem, µ2 ze średnim poziomem szumu, µ3 dla wysokiego poziomu szumu. Czynnikiem, którego wpływ badamy jest: natężenie szumu, czynnik ten posiada 3 poziomy: brak szumu, średni i wysoki szum. Hipoteza H0 jest testowana przez porównanie dwóch rodzajów wariancji: - SSE (Sum Square Error) – suma kwadratów błędu oparta jest na wariancji wewnątrz-próbkowej (szacuje rozproszenie w kategoriach) - SSC (Sum Square Column) – suma kwadratów kolumn, liczona jest dla średnich z kategorii (wariancja między-próbkowa)
Jeżeli H0 jest prawdziwa to SSE i SSC powinny być zbliżone. Jeżeli hipoteza H0 jest fałszywa to SSc powinno być większe od SSE. Dlatego jeżeli SSC jest znacząco większe od SSE to można odrzucić H0. W analizie wariancji całkowita wariancja zostaje podzielona na składniki według źródeł wariancji. W jednoczynnikowej ANOVA całkowita wariancja próby zostaje podzielona na dwa składniki: jeden identyfikowany z wybraną zmienną objaśniającą, drugi z efektami przypadkowymi. Statystyka F jest stosunkiem tych dwóch składników i jest testowana względem rozkładu F po to, aby ustalić czy zmienna objaśniająca wyjaśnia istotną część całkowitej wariancji. Test F jest „testem stosunku wariancji” - wymaga porównania dwóch wariancji, które występuję jako licznik i mianownik ułamka: mamy υ1 stopni swobody dla wariancji licznika i υ2 stopni swobody dla wariancji mianownika.
SSE SSC i - numer kategorii, i zawiera się w przedziale (1:k) k - liczba kategorii j - numer elementu w i-tej kategorii ni - liczebność i-tej kategorii SSE SSC średnia dla wszystkich próbek (ogólna)
Liczba stopni swobody SSC: ν1 = k - 1 Liczba stopni swobody SSE: ν2 = N - k Obliczoną wartość F porównujemy z Fkr o ν1 i ν2 stopni swobody. H0 odrzucamy gdy F > Fkr
Test dopasowania - chi kwadrat gdzie: E - częstość oczekiwana, O - częstość obserwowana Test chi kwadrat stosuje się do porównania jednej próby z rozkładem oczekiwanym Próba składa się z obserwacji zgrupowanych w dwie lub więcej rozłącznych kategorii, częstości obserwowane w każdej kategorii są porównywane z częstościami oczekiwanymi Liczba stopni swobody: df = k - 1, gdzie k - liczba kategorii Jedynym parametrem rozkładu jest liczba stopni swobody (df). Cechy rozkładu: dodatnia skośność, która zmniejsza się wraz ze wzrostem liczby stopni swobody, średnia rozkładu równa jest liczbie stopni swobody (df), moda wypada przy df-2
Przykłady: 1. Próba ustalenia czy w godzinach porannych mewy mają skłonność do przelotów w górę rzeki czy też w dół rzeki. 2. Testowanie zróżnicowania preferencji klienta względem różnych produktów rynkowych. 3. Testowanie istotności różnicy między liczbą chłopców i dziewczynek w klasie. 4. Wpływ rzeźby (dno doliny, stok, wysoczyzna, teren pagórkowaty itp.) na lokalizację osad indian z plemienia Huron. 5. Porównanie rozkładu z próby z rozkładem teoretycznym, np. Gaussa
Testowanie zgodności rozkładu Ei = N (F(YG) - F(YD)) F - dystrybuanta rozkładu normalnego N - liczebność całej próby YG - górna granica kategorii i-tej YD - dolna granica kategorii i-tej Ei - liczebność w kategorii i-tej wynikające z rozkładu normalnego H0 - dane cechują się rozkładem normalnym H1 - rozkład z próby różni się istotnie od rozkładu normalnego df = k - 1, gdzie k - liczba kategorii