Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby Odchylenie standardowe z próby s: Służy do oceny zmienności w zbiorze danych Gdy n wzrasta s zbliża się do odchylenia standardowego w populacji Używane do przewidywań dotyczących poszczególnych obserwacji
Błąd standardowy średniej SE = : Służy do oceny niepewności związanej z estymacją średniej w populacji Maleje wraz ze wzrostem n Używane do przewidywań dotyczących średniej
Jak duża powinna być próba? Poprzez wybór odpowiedniego n możemy uzyskać PU o odpowiedniej (dowolnie małej) szerokości Możemy estymować z zadaną precyzją Przykład: ustal rozmiar próby tak aby 95% PU dla średniej miał szerokość 5.
Załóżmy, że =10. Wtedy Na ogół nie znamy . Możemy wykonać badanie wstępne (mała próba) aby oszacować .
Założenia (jeszcze raz) Próba musi być losowa Każdy element w populacji ma jednakową szansę na wybór Poszczególne wybory są od siebie niezależne Jeżeli te założenia nie są spełnione to wzrost n może nie gwarantować zmniejszenia SE.
Przedział ufności dla frakcji w populacji Estymujemy p za pomocą Chcemy skonstruować przedział ufności dla p Moglibyśmy skorzystać z rozkładu Bernoulliego ale wymagałoby to uciążliwych rachunków. Korzystamy z przybliżenia rozkładu Bernoulliego rozkładem normalnym Gdy Y ma rozkład Bernoulliego (n, p) i n jest duże, wtedy Y ma w przybliżeniu rozkład nornmalny
= Y/n ma średnią i = Zatem ma w przybliżeniu rozkład
Przedział ufności dla p Klasyczny przedział ufności uzyskuje się zastępując p przez (we wzorze na ). Klasyczne przedziały ufności zachowują się źle gdy y jest bliskie 0 – wtedy PU często zawiera ujemne wartości. My będziemy korzystali z następującej poprawki: Centrum przedziału będzie (zamiast ). Przypomnijmy, że Z/2 jest taką liczbą, że Pr(Z < - Z/2) = Pr(Z > Z/2) = /2 Dla 95% PU, = 0.05 i Z/2 = 1.96.
Definiujemy SE dla wynosi Dla 95% PU Wstawiamy Z0.025 = 1.96 i dostajemy
Przedział ufności dla p Skonstruujemy przybliżony przedział ufności dla p, z centrum w Użyjemy kwantyli z rozkładu normalnego Z/2 Dla 95% PU użyjemy Z0.025 =1.96 Dla 90% PU użyjemy Z0.05 =1.65; dla 99% PU użyjemy Z0.005=2.58. przybliżony 95% PU dla p wynosi
Przykład: Złapano 125 myszy i 6 z nich ma nakrapiane na biało brzuszki p = frakcja myszek w całej populacji, które mają nakrapiane na biało brzuszki 95% PU dla p:
90% PU dla p
Mamy 90% pewności że frakcja myszek w całej populacji, które mają brzuszki nakrapiane na biało zawiera się w przedziale między a . Zauważmy, że 90% PU jest niż 95% PU i że przedziały te mają różne środki.
Jak duża powinna być próba ? Chcemy aby 95% PU miał zadaną długość. Jak ustalić rozmiar próby ? Uwaga – długość przedziału zależy od , którego nie znamy Jeżeli mniej więcej wiemy jakie jest p, to możemy tą przybliżoną wartość użyć w równaniu na długość przedziału. Jeżeli nie mamy żadnych wstępnych informacji to używamy p = 0.5. Ten wybór jest bezpieczny i gwarantuje, że przedział ufności skonstruowany w oparciu o próbę o wyliczonym rozmiarze będzie nie szerszy od założonego.
Przykład Chcemy aby SE było równe .005 (odpowiedni przedział ufności ma długość około 0.02). Przypuszczamy, że prawdziwe p jest bliskie .05. Potrzebujemy myszy.
Nie wiemy nic o p. Potrzebujemy myszy.
Dwie niezależne próby Czasami chcemy porównać wartości pewnej zmiennej w dwóch populacjach. Przykłady Grupa zabiegowa i kontrolna Lekarstwo a placebo Pacjenci biorący dwa podobne lekarstwa Mężczyźni a kobiety Dwie różne linie genetyczne
Rozkład cechy Y w populacji 1 jest N(1, 1): bierzemy próbę o rozmiarze n1, y1, s1, SE1 = Rozkład cechy Y w populacji 2 jest N(2, 2) : bierzemy próbę o rozmiarze n2,,, y2,s2, SE2 =
Jaka jest różnica między średnimi w obu populacjach, 1-2 ? Chcemy wyestymować 1 - 2 i otrzymać przedział ufności y1-y2 jest estymatorem 1-2 Aby skonstruować przedział ufności musimy wyznaczyć SE
Standardowy błąd dla różnicy dwóch średnich Jak policzyć SE dla y1-y2? Dwa sposoby: ``nieuśrednianie’’ i ``uśrednianie’’. gdy n1 = n2 obie metody dają te same wyniki Na ogół będziemy używać ``nieuśrednionego’’ SE. Metodę ``uśredniania’’ zastosujemy gdy będzie można założyć, że 1=2 (albo gdy o to poprosi wykładowca). W obu przypadkach SE liczone jest jako pewna kombinacja s1 and s2
Metoda zwykła (``nieuśrednianie’’) Liczymy SE1 = i SE2 = osobno w obu próbach.
Liczymy standardowy błąd różnicy średnich:
Metoda ``uśredniania’’ W obu próbach liczymy SS : SS1 and SS2, i obliczamy „uśrednioną wariancję": sc2 =
``Uśredniony’’ błąd standardowy wynosi
Podsumowanie obu metod Metoda ``nieuśredniania’’ (N)SEy1-y2 = =
Metoda ``uśredniania’’ SS1 = (n1–1)s12 = (y-y1)2 w próbie 1 SS2 = (n2–1)s22 = (y-y2)2 w próbie 2 ``uśredniona’’ wariancja sc2 = (U)SEy1-y2 =
Przykład: próba 1: n1 = 15, y1 = 75, SS1 = 600
Wyniki z obu metod nie są takie same ale są dość podobne. Zauważmy, że s1 = 6.55 i s2 = 5.77 (dość podobne).