Weryfikacja hipotez statystycznych Hipoteza statystyczna – założenie co do wartości parametru (parametrów) rozkładu prawdopodobieństwa. Test statystyczny – narzędzie weryfikacji tej hipotezy. Hipoteza prosta – zakłada wartości wszystkich parametrów rozkładu. Hipoteza złożona – co wartość co najmniej jednego parametru jest nieznana (np. zakładamy tylko postać funkcyjną rozkładu). Hipoteza zerowa (Ho) – hipoteza, którą weryfikujemy. Hipoteza alternatywna (H1) – co najmniej jeden z parametrów rozkłady jest różny od tego z hipotezy zerowej.
Błędy popełniane podczas weryfikacji hipotez statystycznych Błąd pierwszego rodzaju (false negative) – odrzucenie prawdziwej hipotezy Ho. Błąd drugiego rodzaju (false positive) –przyjęcie fałszywej hipotezy Ho.
Poziom istotności (a) P(|x|³xo)=a (test dwustronny) P(x³xo)=a (test jednostronny) Obszar krytyczny (Sc): P(xÎSc|Ho)=a Poziom istotności definiuje prawdopodobieństwo popełnienia błędu pierwszwego rodzaju (odrzucenia prawdziwej hipotezy zerowej).
Moc testu: prawdopodobieństwo odrzucenia hipotezy zerowej w zależności od hipotezy alternatywnej. M(Sc,l)=P(XÎSc|H)=P(XÎSc|l) Test najmocniejszy hipotezy prostej Ho względem hipotezy alternatywnej H1: P(Sc,l1)=1-b=max Test jednostajnie najmocniejszy: test najmocniejszy względem jakiejkolwiek hipotezy alternatywnej.
Test F Fishera równości wariancji Mamy dwie populacje o rozkładzie normalnym (np. przypadek pomiaru tej samej wielkości różnymi przyrządami). Pytanie: czy te populacje mają tą samą wariancję. W tym celu rozważamy iloraz F=s12/s22
Porównywanie wartości średnich (test Studenta)
Weryfikacja hipotezy, że x=l0
Weryfikacja hipotezy o równości wartości średnich z dwóch serii pomiarów
Test c2 dobroci dopasowania gi: wynik i-tego pomiaru fi: wartość teoretyczna wyniku i-tego pomiaru si: odchylenie standardowe i-tego pomiaru. Wielkości ui mają rozkład normalny o zerowej średniej i jednostkowej wariancji a zatem wielkość T ma rozkład c2 o N-p stopniach swobody, gdzie p jest liczbą estymowanych parametrów funkcji f. Dopasowanie uznajemy za złe na poziomie istotności a jeżeli T>c21-a
Zastosowanie testu c2 do weryfikacji hipotezy o rozkładzie częstości obserwacji f(x) x } } } } x1 x2 … xk … xr
npi: wartość oczekiwana liczby obserwacji w i-tym przedziale ni: liczba obserwacji wielkości w i-tym przedziale; n: całkowita liczba obserwacji. npi: wartość oczekiwana liczby obserwacji w i-tym przedziale Wartość oczekiwana wariancji liczby obserwacji. Hipotezę o zgodności rozkładu obserwowanego z rozkładem założonym odrzucamy na poziomie istotności a jeżeli C2>c21-a dla f stopni swobody. f=liczba stopni swobody=r-p-1 gdzie p jest liczbą parametrów rozkładu (najwyżej r-1 stopni swobody).
Przykład: porównanie liczby zliczeń par elektron-pozyton w komorze pęcherzykowej naświetlonej promieniowaniem g z rozkładem Poissona. C2=10.44 C20.99=16.81 Nie ma zatem podstaw do odrzucenia rozkładu Poissona.
Zastosowanie testu c2 do analizy tabeli wkładów x, y: zmienne losowe mogące przyjmować wartości odpowiednio x1, x2,…, xk oraz y1, y2,…, yl. Każdej kombinacji zmiennych (xi,yj) przyporządkowana jest liczba obserwacji nij. y1 y2 … yl x1 n11 n12 n1l x2 n21 n22 n2l xk nk1 nk2 nkl Jeżeli zmienne są współzależne na poziomie istotności a to C2>c21-a dla f=kl-1-(k+l-2)=(k-1)(l-1) stopni swobody.
Przykład z medycyny: ocena skuteczności dwóch metod leczenia danej choroby. x1: pierwsza metoda leczenia x2: druga metoda leczenia y1: przypadki wyleczone y2: przypadki niewyleczone y1 y2 x1 n11=a n12=b x2 n21=c n22=d f=liczba stopni swobody=(2-1)(2-1)=1 Jeżeli metody leczenia mają różną skuteczność to C2>c21-a