Testy nieparametryczne – testy zgodności
Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz testy losowości próby. Testy nieparametryczne, w przeciwieństwie do testów parametrycznych, mają tę zaletę, że nie wymagają założeń w odniesieniu do postaci rozkładu cechy w zbiorowości generalnej.
Test zgodności χ² (chi-kwadrat) Test zgodności χ² należy do najstarszych testów statystycznych i został zaprojektowany przez K. Pearsona. Test ten pozwala sprawdzić hipotezę, że populacja ma określony typ rozkładu, to znaczy określoną postać funkcyjną dystrybuanty. Poważnym ograniczeniem w zastosowaniu testu zgodności χ² jest wymóg dysponowania odpowiednio dużą (zwykle kilkudziesięcioelementową) próbą.
Elementy próby dzieli się bowiem na kilka rozłącznych klas i postuluje się, aby w każdej klasie znalazło się co najmniej 8 elementów. Zatem próba n-elementowa rozkłada się na k rozłącznych klas (wymaga się, aby k ≥ 5) o liczebnościach n 1, n 2,…, n k, przy czym n i ≥ 8, i=1,…,k. Z założeń tych wynika, że n ≥ 40, gdzie
Formułujemy hipotezę zerową H 0 :F(x)=F 0 (x), która głosi, że zmienna losowa X ma rozkład o dystrybuancie należącej do klasy dystrybuanty wyróżnionego typu rozkładu F 0 (x). Hipotezę alternatywną konstruujemy przez zaprzeczenie H 0, czyli H 1 : F(x)≠F 0 (x).
Rozkład empiryczny, utożsamiany ze znajomością n i, porównujemy z rozkładem hipotetycznym poprzez zastosowanie statystyki: która przy założeniu prawdziwości H 0 ma rozkład χ² o k-r-1 stopniach swobody (k – liczba przedziałów klasowych, r - liczba szacowanych parametrów). Symbol n i oznacza liczebność empiryczną i-tego przedziału klasowego, p i oznacza prawdopodobieństwo, że zmienna losowa X o rozkładzie hipotetycznym przyjmuje wartości należące do i-tej klasy.
Mnożąc p i przez liczebność całej próby n, otrzymujemy liczebności teoretyczne, tj. takie, jakie powinny wystąpić, gdy H 0 jest prawdziwa. Jeśli χ² ≥ χ² α, wówczas hipotezę zerową należy odrzucić na korzyść H 1. W przeciwnym razie brak podstaw do jej odrzucenia.
Losowa próba licząca n = 200 niezależnych obserwacji wagi noworodków (w kg) dała następujące wyniki: Na poziomie istotności 0,05 zweryfikować hipotezę, że rozkład wagi noworodków jest rozkładem normalnym. Waga1,0 – 1,41,4 – 1,81,8 – 2,22,2 – 2,62,6 – 3,0 Liczebność
Wyłoniono próbę losową złożoną z 400 czteroosobowych rodzin, w których odnotowano roczne wydatki na turystykę i rekreację przypadające na członka rodziny. Na poziomie α=0,05 zweryfikować hipotezę, że rozkład wydatków na turystykę i rekreację jest rozkładem normalnym. Wydatki na turystykę i rekreację Liczba rodzin n i [ ]50 ( ]100 ( ]150 ( ]80 ( ]20
,230,10930,10943,66,440,960, ,280,38970,280112,0-12,0144,001, ,660,74540,386142,47,657,760, ,610,94630,20180,4-0,40,160, ,00000,05421,6-1,62,560,119 X400xx1,000X0x
Test zgodności λ-Kołmogorowa Drugim testem zgodności, obok testu χ², jest test λ- Kołmogorowa. Służy on do weryfikowania hipotezy, że cecha X ma w zbiorowości generalnej określony rozkład typu ciągłego; najczęściej jest to rozkład normalny. Warunki dotyczące danych z próby są takie same jak w teście χ². Hipotezy H 0 i H 1 można sformułować następująco: H 0 : F(x)=F 0 (x) H 1 : F(x)≠F 0 (x)
Sprawdzian hipotezy ma postać: gdzie: przy czym F n (x) oznacza dystrybuantę empiryczną, a F 0 (x) dystrybuantę hipotetyczną (teoretyczną).
Wartość dystrybuanty empirycznej dla danego x obliczamy następująco: w którym n isk jest skumulowaną liczebnością odpowiadającą wartościom cechy nie większym od x. Statystyka λ przy założeniu prawdziwości H 0 ma asymptotyczny rozkład λ-Kołmogorowa.
Z uwagi na to, że D mierzy rozbieżność miedzy dystrybuantą teoretyczną a empiryczną, zbiór krytyczny będą tworzyły tylko zbyt duże wartości λ, tak więc będzie to zbiór prawostronny określony równością gdzie λ α odczytujemy z tablic Kołmogorowa w ten sposób, że Q(λ α )=1-α.
Producent proszku do prania uważa, że rozkład wagi pudełka proszku jest N(m,σ). Na podstawie 150 wylosowanych niezależnie do próby pudełek otrzymano: Testem λ Kołmogorowa na poziomie istotności 0,05 zweryfikować hipotezę, że waga proszku w pudełku ma rozkład normalny. Waga pudełka proszku (w gramach) Liczba pudełek
H 0 : X – waga proszku w pudełku ma rozkład N(m,σ) H 1 : X – ma rozkład różny od rozkładu N(m,σ) Parametry m i σ nie są znane, zatem szacujemy je na podstawie próby – otrzymujemy
x i1 u i1 nini n isk F n (x)F 0 (x) 585-1,3316 0,110,08850, , ,330,34460, , ,670,69150, , ,920,91920, , ,98930,0107
Otrzymaliśmy:
Test zgodności Kołmogorowa-Smirnowa Test służy do weryfikacji hipotezy, że dwie populacje mają jednakowy rozkład, co jest równoważne ze stwierdzeniem, że dwie próby pochodzą z tej samej populacji. Badamy dwie populacje, w których cecha ma rozkład ciągły opisany odpowiednio dystrybuantami F 1 (x) i F 2 (x). Hipotezy H 0 i H 1 mają postać: H 0 : F 1 (x)=F 2 (x) H 1 : F 1 (x)≠F 2 (x)
Sprawdzianem hipotezy jest statystyka: gdzie: przy czym n 1, n 2 oznaczają liczebności prób z obu populacji, F* n 1 (x), F* n 2 (x) dystrybuanty empiryczne wyznaczone na podstawie prób.
Statystyka ma przy założeniu prawdziwości H 0 asymptotyczny rozkład λ-Kołmogorowa. Zbyt duże wartości sprawdzianu wskazują, że hipoteza H 0 może być nieprawdziwa, a więc relacja wyznaczająca zbiór krytyczny oraz sposób wyznaczania wartości krytycznej są takie same jak w teście λ-Kołmogorowa, tzn. P(λ n ≥λ α )=α, przy czym λ α odczytujemy z tablic λ- Kołmogorowa, tak że Q(λ α )=1-α.
Na podstawie danych otrzymanych z dwóch wylosowanych niezależnie próbach na poziomie istotności α = 0,05 zweryfikować hipotezę, że rozkład wieku lekarzy na wsi i w mieście jest taki sam. Wiek Liczba lekarzy wiejskichmiejskich
H 0 : F 1 (x)=F 2 (x) H 1 : F 1 (x)≠F 2 (x) 0,0860,20,40,6860,8570,9711 0,050,1250,3250,550,8250,9251 0,0360,075 0,1360,0320,0460
Ponieważ odrzucamy hipotezę, że rozkład wieku lekarzy w mieście i na wsi jest taki sam, co jest równoznaczne ze stwierdzeniem, że struktury wieku lekarzy w mieście i na wsi są różne.