Elementy Rachunku Prawdopodobieństwa i Statystyki Wykład 11 Wstęp do teorii estymacji Przedziały ufności Testowanie hipotez statystycznych – podejmowanie decyzji – słowo wstępne Tomasz Szumlak, WFiIS, 14/06/2013
Statystyka -> funkcja Z.L.-ych O estymatorach Statystyka -> funkcja Z.L.-ych Konkretna wartość statystyki zależy od próby losowej Statystyka sama jest Z.L. Statystyk używamy do estymacji parametrów populacji Wybrana statystyka nazywana jest nieobciążonym estymatorem danego parametru populacji, jeżeli, jej wartość oczekiwana jest równa temu parametrowi. Odpowiadająca danemu estymatorowi wartość (t.j. wyznaczona dla konkretnej próby) nazywana jest wówczas nieobciążoną estymatą parametru. Przykład Wartość oczekiwana i wariancja z próby ( , ), zdefiniowane jak poniżej:
są nieobciążonymi estymatorami wartości średniej oraz wariancji populacji: dla konkretnej próby wyznaczymy więc wartości: które nazwiemy estymatami nieobciążonymi wartości oczekiwanej i wariancji badanej populacji. Jeżeli rozkłady eksperymentalne dwóch typów statystyk posiadają tą samą wartość oczekiwaną to wyboru jednej z nich możemy dokonać na podstawie wartości ich wariancji. Mówimy że, estymator o mniejszej wariancji charakteryzuje się większą wydajnością Np. dla rozkładu normalnego – rozkłady średnich raz median (z pobranych prób) charakteryzują się taką samą wartością oczekiwaną , jednakże wariancja rozkładu średnich jest mniejsza niż rozkładu median.
Estymacja punktowa i przedziałowa. Jeżeli estymata pewnego parametru populacji wyrażona jest przy pomocy jednej liczby to nazywamy ją punktową Jeżeli na drodze pomiaru uzyskamy dwa punkty, które stanowią krańce przedziału, który powinien (wierzymy w to na gruncie analizy statystycznej) zawierać estymowany parametr, mówimy wówczas o estymacji przedziałowej. Przykład Mierzymy głębokość penetracji amunicji typu X w pewnym materiale. Podając wynik jako: dokonujemy estymacji punktowej. Jeżeli natomiast podamy wynik w formie: to dokonujemy estymacji przedziałowej. Poza wartością parametru estymowanego podajemy również informację dotyczącą niepewności (lub inaczej precyzji) pomiaru.
Przedziały ufności dla estymowanych parametrów. Rozważmy pewną statystykę St, której rozkład posiada wartość oczekiwaną oraz wariancję odpowiednio: Jeżeli założymy, że rozkład ten jest w przybliżeniu normalny, wówczas spodziewamy się, że wartości tej statystyki powinny zawierać się w przedziałach: z prob. odpowiednio: 68.27%, 95.45% oraz 99.73%. Odpowiada to stwierdzeniu, że estymowany parametr znajduje się z takim samym prob. w przedziałach: Przedziały te nazywane są przedziałami ufności na danym poziomie (np. 95.45%). Pamiętając własności rozkładu normalnej zmiennej standardowej, możemy użyć znacznie wygodniejszego (ze względów praktycznych) zapisu:
Przedziały ufności dla estymowanych parametrów. Poziomy ufności (wyrażone w procentach) odpowiadają w sposób jednoznaczny wartościom krytycznym zc i vice versa – znając wartość krytyczną możemy wyznaczyć poziom ufności. W ogólności, możemy spotkać się ze statystykami, które podlegają innym rozkładom niż normalny (np. wariancja - ), wówczas, musimy odpowiednio zmodyfikować przedziały ufności. Poziom ufności
Przedziały ufności dla wartości średnich z prób. Przypadek dużych próbek (n > 30) Statystyka jest wartością oczekiwaną dla próby: 95% oraz 99% przedziały ufności podajemy jako: W ogólności dany przedział ufności dla wartości średniej z populacji dany jest: odpowiednio, w przypadku losowania bez zwracania (małe populacje) W ogólności, wartość odchylenia standardowego dla populacji nie jest znana! Stosujemy odpowiedni estymator (S – wariancja z próby).
Przedziały ufności dla wartości średnich z prób. Przypadek małych próbek (n < 30) Różnica polega na tym, że zamiast rozkładu normalnego używamy rozkładu t-Studenta aby uzyskać odpowiednie przedziały ufności: Normalny
Przykład (niezniszczalny przykład rozkładu wysokości…) Chcemy poznać rozkład wysokości studentów uniwersytetu University, pobieramy w tym celu próbę losową o liczności n = 100. Cała populacja N = 1865. Po pomiarach dostaliśmy następujące wartości średniej i wariancji z próby: nieobciążona i wydajna estymata prawdziwej wartości oczekiwanej populacji: nieobciążona i wydajna estymata prawdziwej wariancji populacji: Dla estymowanej wartości średniej, możemy następnie wyznaczyć 99% przedział ufności: Dla otrzymanej próbki mamy:
Przedziały ufności dla różnic i sum statystyk. Sumy i różnice: Jeżeli badamy wartości oczekiwane: Przykład Dwa typy żarówek (wykład 9): A i B. Średni czas życia dla typu A wynosi 1400 h dla typu B wyznaczono 1200 h. Odpowiednie odchylenia standardowe czasu życia wynoszą 120 oraz 80 h. Przedział ufności 99% dla różnicy wartości oczekiwanych:
Przedziały ufności dla wariancji (rozkład normalny). Poprzednio stwierdziliśmy, że Z.L.: Posiada rozkład χ2 o n – 1 stopni swobody. Możemy więc wyznaczyć odpowiednie przedziały ufności. Odchylenie standardowe populacji znajduje się więc (z 99% prob.) w przedziale:
Przykład Badamy rozkład wzrostu uczniów pewnej szkoły (N = 800). Pobieramy próbę n = 18 i wyznaczamy odchylenie standardowe z próby s = 5.8 cm. Chcemy wyznaczyć 99% przedział ufności dla prawdziwego odchylenia standardowego całej populacji. Krańce przedziału ufności 99%: W naszym przypadku n – 1 = 16 – 1 = 15 stopni swobody, odpowiednie wartości dla rozkładu χ2 znajdujemy z tablic: oraz Czyli:
Testowanie hipotez – wstęp. Podejmowanie decyzji dotyczącej badanej populacji używając informacji z pobranej próby – decyzje statystyczne. Np. czy nowy program nauczania na uczelniach jest lepszy niż stary? Czy nowy lek jest lepszy niż ten poprzedniej generacji. Hipotezy statystyczne – hipotezy zerowe. Zwykle w procesie podejmowania decyzji, musimy dokonać „rozsądnego założenia” co do własności R.G.P. opisującego badaną cechę. W ten sposób tworzymy tzw. hipotezę zerową (może być fałszywa!). Np. badamy czy dana moneta jest symetryczna Nasza hipoteza zerowa, H0, może być następująca: zakładam, że moneta jest uczciwa, lub w języku statystyki p(R) = p(O) = 0.5 Hipoteza, która różni się od zerowej nazywana jest hipotezą alternatywną, H1. Np. moneta jest w istocie fałszywa: p(R) = 0.65
Hipotezy i znaczącość (significance). Powiedzmy, że przyjęliśmy pewną hipotezę zerową jako prawdziwą - H0 Pobieramy próbę w celu weryfikacji – jeżeli uzyskane wyniki różnią się znacznie od przyjętej hipotezy – w sensie statystycznym różnica może wynikać z fluktuacji lub wskazywać, że hipoteza „zerowa” jest fałszywa. Np. rzucimy 20 razy monetą i dostaniemy 16 reszek to możemy nabrać wątpliwości co do uczciwości badanej monety. Narzędzia i reguły podejmowania decyzji opisuje właśnie teoria testowania hipotez.