Statystyka matematyczna Wnioskowanie statystyczne Statystyka matematyczna na podstawie uzyskanej próby wyciągamy wnioski o cechach zbiorowości generalnej Weryfikacja postawionych hipotez statystycznych podejmowanie decyzji o prawdziwości lub fałszywości hipotezy statystycznej Estymacja (ocena) nieznanych parametrów Parametry rozkładu Estymacja punktowa wyznaczamy z próby tylko niektóre parametry (punkty) rozkładu np. wartość oczekiwana Nie potrafimy podać dokładności uzyskanej oceny. Estymacja przedziałowa podajemy przedziały ufności dla nieznanych wartości pewnych parametrów rozkładu, np. wartości oczekiwanej i wariancji Postać rozkładu Małgorzata Podogrodzka, SGH ISiD
Estymacja - podstawowym narzędziem jest estymator estymatorem Tn parametru Q rozkładu populacji generalnej nazywamy statystykę z próby Tn = t (x1, x2 ,x3 ,x4 ,x5 , ... , xn), która służy do oszacowania wartości tego parametru różnica między estymatorem a wartością parametru nazywa się błędem szacunku (estymacji) d = Tn - Q standardowy błąd szacunku to D(Tn) względny błąd szacunku to D(Tn) / Q Małgorzata Podogrodzka, SGH ISiD
Małgorzata Podogrodzka, SGH ISiD Mamy dwóch zawodników A i B – którego wybierzemy / który celniej strzela ? A N ∞ im więcej strzelamy tym lepsze średnie wyniki E(X) gdzie średnie wyniki są lepsze? D(X) gdzie jest mniejsza ? B Małgorzata Podogrodzka, SGH ISiD
własności estymatora: 1. zgodny jeśli estymator jest stochastycznie zbieżny do szacowanego parametru jeśli estymator jest nieobciążony oraz jego wariancja spełnia relację 2. nieobciążony jeśli wartość oczekiwana estymatora jest równa parametrowi populacji, do oszacowania którego służy jeżeli E(Tn) Q, to estymator jest obciążony, a różnicę między tymi wyrażeniami nazywamy obciążeniem estymatora Małgorzata Podogrodzka, SGH ISiD
Małgorzata Podogrodzka, SGH ISiD 3. najbardziej efektywny jeżeli estymator jest nieobciążony i ma najmniejszą wariancję spośród wszystkich estymatorów jeśli n to wariancja estymatora przyjmuje wartości coraz bliższe wariancji estymatora najefektywniejszego i wtedy występuje asymptotyczna efektywność Małgorzata Podogrodzka, SGH ISiD
Małgorzata Podogrodzka, SGH ISiD Estymatory punktowe z próby i ich własności Małgorzata Podogrodzka, SGH ISiD
Małgorzata Podogrodzka, SGH ISiD
Małgorzata Podogrodzka, SGH ISiD dla każdej próby możemy określić P(kd <Q <kg)=pi Q - parametr rozkładu Małgorzata Podogrodzka, SGH ISiD
Małgorzata Podogrodzka, SGH ISiD Rozkład statystyki z próby dla średniej Małgorzata Podogrodzka, SGH ISiD
Małgorzata Podogrodzka, SGH ISiD PRZEDZIAŁY UFNOŚCI ale dużym n Małgorzata Podogrodzka, SGH ISiD
Małgorzata Podogrodzka, SGH ISiD Nie obowiązuje ! Małgorzata Podogrodzka, SGH ISiD
Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej jego postaci funkcyjnej (np. rozkład normalny) jego wartości parametrów (np. średnia, wariancja) prawdziwość przypuszczenia oceniana jest na podstawie wyników próby losowej !!!! Testem statystycznym nazywamy regułę postępowania, która każdej możliwej próbie losowej pobranej z populacji generalnej przyporządkowuje decyzję przyjęcia lub odrzucenia stawianej hipotezy. parametryczne testy istotności służą do weryfikacji hipotez dotyczących parametrów rozkładu testy zgodności służą do weryfikacji hipotezy o zgodności rozkładu z próby z rozkładem teoretycznym
Błąd I rodzaju polega na odrzuceniu hipotezy zerowej pomimo, że jest ona prawdziwa Błąd II rodzaju polega na przyjęciu hipotezy zerowej pomimo, że jest ona fałszywa. Testy najmocniejsze – testy minimalizujące prawdopodobieństwo popełnienia błędu II rodzaju przy ustalonym z góry poziomie prawdopodobieństwa popełnienia błędu I rodzaju Moc testu M(w) – prawdopodobieństwo odrzucenia fałszywej hipotezy H0 i przyjęcia w to miejsce prawdziwej hipotezy alternatywnej Związek między mocą testu i prawdopodobieństwem błędu II rodzaju:
ZASADY BUDOWY TESTÓW ISTOTNOŚCI 1. formułujemy hipotezę zerową H0 oraz hipotezę alternatywną H1, 2. na podstawie próby losowej X1, X2, X3 … wyznaczamy pewną statystykę Zn (sprawdzian hipotezy H0), której rozkład określa się przy założeniu, że hipoteza H0 jest prawdziwa, 3. wyznaczamy taki obszar wartości statystyki Zn oznaczany jako K (obszar krytyczny testu), aby dla z góry określonego małego prawdopodobieństwa (tzw. poziom istotności) był spełniony warunek: P(Zn ϶ K)= α (poziom istotności) 4. jeżeli otrzymana w wyniku konkretnej próby wartość statystyki Zn: - przyjmie wartość z obszaru K, sprawdzaną hipotezę H0 odrzucamy na korzyść hipotezy H1, - znajdzie się poza obszarem K, stwierdzamy jedynie, że nie ma podstaw do odrzucenia sprawdzanej hipotezy H0.
PARAMETRYCZNE TESTY ISTOTNOŚCI I. dla wartości średniej w zbiorowości generalnej I.1. założenia: populacja generalna ma rozkład normalny ze znanym odchyleniu standardowym hipotezę weryfikujemy za pomocą n-elementowej próby Etapy weryfikacji: 1. Postawienie hipotez wobec hipotezy alternatywnej: a. b. c. 2. Wyznaczenie statystyki Zn (statystyka z próby) za sprawdzian hipotezy zerowej przyjmujemy średnią arytmetyczną jeżeli hipoteza zerowa jest prawdziwa to statystyka o postaci ma rozkład N(0,1):
3. Wyznaczenie obszaru krytycznego a. ustalamy wartość uα (tzw. wartość krytyczną), która nie powinna przekraczać modułu statystyki U, w taki sposób w rozkładzie N(0,1), aby dla ustalonego poziomu α zachodziła relacja: wartości zmiennej U spełniające nierówność |U| ≥ uα stanowią obszar krytyczny testu, tzn.:
b. ustalamy wartość krytyczną uα, która nie powinna przekraczać statystyki U, w taki sposób w rozkładzie N(0,1), aby dla ustalonego poziomu α zachodziła relacja: wartości zmiennej U spełniające nierówność U ≥ uα stanowią obszar krytyczny testu, tzn.:
c. ustalamy wartość krytyczną uα, która powinna być większa niż statystyka U, w taki sposób w rozkładzie N(0,1), aby dla ustalonego poziomu α zachodziła relacja: wartości zmiennej U spełniające nierówność U ≤ uα stanowią obszar krytyczny testu, tzn.: 4. Podjęcie decyzji weryfikacyjnej
I.2 . Założenia: populacja generalna ma rozkład normalny o nieznanym odchyleniu standardowym hipotezę weryfikujemy za pomocą małej, n-elementowej próby (n<120). do weryfikacji hipotezy wykorzystujemy statystykę, która ma rozkład t-Studenta o n-1 stopniach swobody postaci I.3. Założenia: populacja generalna ma dowolny rozkład z nieznanymi parametrami, hipotezę weryfikujemy za pomocą dużej, n-elementowej próby (n>120).
Przykład 1. Zakłada się, że średni czas dojazdu pracowników do pracy wynosi 35 min. Czy to założenie jest słuszne, skoro wiadomo, że czas dojazdu do pracy podlega rozkładowi normalnemu z odchyleniem standardowym 5 min oraz badając 250 osób stwierdzono, że średni czas dojazdu w tej grupie pracowników wynosił 38 min. 2. Przypuszcza się, że średnia liczba punktów uzyskanych na egzaminie maturalnym wynosić więcej niż 42. Badając w roku 2014 grupę 210 uczniów stwierdzono, że średnia liczba punktów wynosiła 44 z odchyleniem standardowym 10. Czy przyjęte założenie jest zatem słuszne? 3. Twierdzi się, że średnia roczna liczba Polaków na stałe osiedlających się poza granicami kraju wynosi mniej niż 5tys. Czy to przypuszczenie jest prawdziwe, skoro na podstawie obserwacji zebranych z ostatnich 20 lat wiadomo, że średnia roczna liczba osób na stałe osiedlających się poza granicami kraju wynosiła 4,8tys. z odchyleniem standardowym 0,4tys. Dodatkowo przyjmujemy, że w ciągu roku liczba osób na stałe osiedlających się poza granicami kraju może być opisana rozkładem normalnym.
I.4. Założenia: populacja generalna ma rozkład normalny, hipotezę weryfikujemy za pomocą n-elementowej próby obserwacje do prób dobierane są parami i zakładamy, że różnice tych zmiennych mają w populacji rozkład normalny do weryfikacji hipotezy wykorzystujemy statystykę, która ma rozkład t-Studenta o n-1 stopniach swobody postaci
Przykład Twierdzi się, że w pewnej miejscowości w Polsce średnia roczna liczba zjadanych batonów czekoladowych „Kasia” przez mężczyzn jest wyższa niż u kobiet. W celu sprawdzenia tego przypuszczenia, zbadano 200 kobiet i 200 mężczyzn i stwierdzono, że w pierwszej z tych populacji średnia roczna liczba zjadanych batonów wynosiła 20 a odchylenie standardowe 5. W drugiej zaś populacji miary te przyjmowały odpowiednio wartości 22 i 8. Ponadto zakłada się, że różnica w liczbie zjadanych batonów czekoladowych między tymi populacjami ma rozkład normalny. Przypuszcza się, że dokładność wykonania pewnego elementu przez pracownika A jest wyższa jak u pracownika B. W celu sprawdzenia tego założenia, dokonano pomiaru 250 elementów wykonanych przez każdego z tych pracowników i stwierdzono, że średnia niedokładność w przypadku pracownika A wynosiła 0,5 min z 20% zróżnicowaniem, a w przypadku pracownia B odpowiedni 0,51 i 15%. Ponadto zakłada się, że różnica w niedokładności wykonywanych elementów przez tych pracowników ma rozkład normalny.
NIEPARAMETRYCZNE TESTY ISTOTNOŚCI I. Testy zgodności dla rozkładu normalnego w zbiorowości generalnej stawiamy hipotezę zerową, że populacja generalna ma rozkład określony pewną dystrybuantą F0(X) wobec hipotezy alternatywnej F1(X), że jest to nieprawdą 2. Wyznaczenie statystyki z próby losujemy z populacji dużą próbę, której wyniki porządkujemy w rozkład empiryczny, przez utworzenie r rozłącznych klas wartości badanej zmiennej w próbie, przyjmując, że H0 jest prawdziwa. Liczymy prawdopodobieństwo pi dla zmiennej losowej z i-tej klasy (rozkład hipotetyczny) oceniamy zgodność rozkładu empirycznego z rozkładem hipotetycznym tj. liczebności empirycznej z liczebnością hipotetyczną wyznaczamy statystykę, która przy założeniu prawdziwości hipotezy zerowej ma rozkład ch kwadrat o (r-k-1) stopniach swobody (k-liczba parametrów rozkładu, które zostały oszacowane na podstawie rozkładu empirycznego):