Estymacja parametrów statystycznych – podstawowe pojęcia
Estymacja – po co i dlaczego? Jeśli jesteśmy w stanie zebrać wszystkie informacje na temat interesującej nas zbiorowości wówczas do pełnego opisu wystarczą nam metody statystyki opisowej. W wielu jednak sytuacjach mówiąc o zbiorowości opieramy się na danych pochodzących z próby. Aby prawidłowo uogólniać wyniki z próby na populację generalną należy stosować metody statystyki indukcyjnej.
Estymacja – po co i dlaczego? Procedur uogólniania wyników z próby losowej na zbiorowość dostarcza dział wnioskowania statystycznego. Wnioskowanie przybiera postać: estymacji parametrów statystycznych czyli szacowania nieznanych wartości parametrów np. średniej arytmetycznej w zbiorowości generalnej, odchylenia standardowego. testowania hipotez, które z kolei dotyczy weryfikacji przypuszczeń odnośnie określonego poziomu zmiennej losowej lub kształtu rozkładu w populacji generalnej.
Estymacja – po co i dlaczego? W każdym przypadku mamy do czynienia z ryzykiem błędu statystycznego ale dzięki wnioskowaniu ryzyko jego popełnienia może być kontrolowane przez badacza. Na podstawie danych uzyskanych z próby losowej obliczamy statystyki z próby, które są estymatorami parametrów populacji generalnej stąd estymacja.
Estymator – szacowany parametr Estymator – wielkość (charakterystyka, miara), obliczona na podstawie próby, służąca do oceny wartości nieznanych parametrów populacji generalnej.
Estymator – cechy: Dobór właściwej statystyki, będącej najlepszym estymatorem parametru w populacji generalnej dokonuje się na podstawie właściwości estymatorów (nieobciążony, zgodny, efektywny, dostateczny). Estymatory minimalizują błąd pojawiający się w badaniach częściowych
Estymator nieobciążony Estymator nieobciążony to ten, którego przeciętna wartość jest dokładnie równa wartości szacowanego parametru. Innymi słowy, przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony jest równa wartości szacowanego parametru. Obciążoność oznacza, że oszacowania dostarczone przez taki estymator są obarczone błędem systematycznym
Estymator - efektywność Estymator jest tym efektywniejszy, im mniejsza jest jego wariancja i odchylenie standardowe.
Estymator - zgodność Zgodność oznacza, że wartość estymatora zgodnego będzie bliska paramereu z populacji, będzie wzrastać wraz ze wzrostem proby
Estymator - dostateczny Estymator dostateczny zawierać będzie wszystkie informacje o szacowanym parametrze, jakie występują w próbie.
Założenia estymacji czyli kiedy ma zastosowanie? W praktyce jesteśmy zmuszeni do szacowania wartości parametrów wyłącznie na podstawie statystyk otrzymanych z próby – są one wystarczające, gdyż z godnie z centralnym twierdzeniem granicznym rozkład z próby zbliża się do rozkładu normalnego, bez względu ma kształt populacji.
Założenia estymacji czyli kiedy ma zastosowanie? Choć konkretne wartości z próby losowej różnią się od prawdziwych wartości odpowiadających im parametrów w populacji generalnej to stosując metody estymacji przedziałowej można odpowiedzieć na pytanie w jakim marginesie błędu poruszamy się, jak duży jest przedział liczbowy, który z przyjętym prawdopodobieństwem pokryje „nieznaną” wartość parametru.
…wróć – rozkład normalny to znaczy? W statystycznym wnioskowaniu o parametrach i rozkładach w populacjach generalnych na podstawie wyników badań prób losowych popełniane są błędy przypadkowe, których rozkład jest normalny lub granicznie normalny. Zawiera się w tym merytoryczny sens statystycznej indukcji, czyli wnioskowania. Na podstawie tej prawidłowości, skonstruowane zostały wszystkie metody estymacji parametrów oraz metody weryfikacji hipotez
…wróć – rozkład normalny to znaczy? Rozkład normalny jest rozkładem częstości, którego obraz przypomina kształtem dzwon, krzywa taka posiada 3 zasadnicze cechy: Jest jednomodalna Jest symetryczna Jej końce zbliżają się asomptotycznie do osi wartości – wykres funkcji dla wartości dążących do plus nieskończoności będzie zbliżać się do osi odciętych ale nigdy ich nie przetnie, ba nawet nie dotknie
Rozkład normalny
Rozkład nie - normalny? Rozkład normalny swoją nazwę zawdzięcza temu, że jest to typ rozkładu częstości, który jest charakterystyczny dla szeregu wskaźników społecznych w populacji ludzkiej: wzrost, waga, współczynnik inteligencji. Nie oznacza że inne typy rozkładów częstości są nienormalne
Założenia estymacji – tablice statystyczne Stosując metody estymacji korzystamy z właściwości rozkładu normalnego, który jest stablicowany, tak że przy określonych wartościach zmiennej standaryzowanej Z odczytujemy wartości konkretnych prawdopodobieństw np. wiemy, że w odległości jednego odchylenia standardowego od wartości oczekiwanej znajduje się ponad 68% obserwacji natomiast w odległości dwóch odchyleń standardowych znajduje się ponad 95% obserwacji
Skąd to wiemy? – z tablic statystycznych!!! Wartość zmiennej Z odczytujemy z wartości w pierwszym wierszu i kolumnie np. 0,95 to 0,9 + 0,05 przecięcie tych dwóch wartości w środku tabeli daje wynik prawdopodobieństwa. Spójrzmy na wartość Z dla 1,00 równa się ona 0,34135 (prawdopodobieństwo), jest to tablica rozkładów jednostronnych dlatego mnożymy razy 2 co równa się 0,6827 stąd ponad 68%, możemy to przedstawić za pomocą wykresu:
Estymacja - pojęcia Korzystając z tablic rozkładu normalnego łatwo nam odczytać prawdopodobieństwo z którym interesująca nas wartość parametru np. średniej arytmetycznej znajdzie się w granicach pewnego przedziału liczbowego. Przedział ten to przedział ufności, który pokrywa nam nieznaną wartość interesującego nas parametru. Prawdopodobieństwo o którym mowa to z kolei współczynnik ufności i wynosi p= 1-α, gdzie α to określone przez badacza małe prawdopodobieństwo niepokrycia szacowanego parametru wyznaczonym przedziałem liczbowym.
Możemy też powiedzieć, że z prawdopodobieństwem 1-α wartość szukanego parametru Z znajdzie się w przedziale –Z (α/2) do Z (α/2).
Estymacja - pojęcia Współczynniki ufności są odpowiednikami poziomów istotności czyli α dla testu dwustronnego Powyższe rozważania są trafne jeśli znamy odchylenie standardowe z populacji Gdy nie znamy posługujemy się estymatorem odchylenia standardowego z próby – stąd rozkład przybiera postać rozkładu t – Studenta (o czym szerzej na kolejnych slajdach)
Poziom istotności – współczynnik ufności
Przykład Zosi i Jasia Zosia wypełniając test inteligencji uzyskała wynik 115 punktów Jaś 80. To dużo czy mało jeśli średnia równa się 100 (na skali 0 – 200) a odchylenie standardowe równa się 10? Ile osób prawdopodobnie będzie lepszych a ile gorszych od Jasia i Zosi?
Założenia Pole pod krzywą to 100% co w wymiarze bezwzględnym stanowi 1,0. Pole pod krzywą wynosi więc 1, rozkład jest symetryczny więc pole po lewej stronie od średniej to 0,5 i po prawej 0,5. Prawdopodobieństwo wylosowania osoby poniżej i powyżej średniej jest takie samo. Zosia uzyskał wynik lepszy od średniej a więc jej odpowiada pole po prawej stronie średniej Jasiowi po lewej.
Działania Proporcji osób które prawdopodobnie lepiej zalicza test od Zosi odpowiada pole pod krzywą normalną na prawo od średniej. Zacznijmy od policzenia różnicy pomiędzy wynikiem Zosi a średnią: X - µ = 115 – 100 = 15, tę różnicę dzielimy przez odchylenie standardowe 15/10 = 1,5 zgodność z formułą standaryzacji – wynik ten oznacza, że IQ Zosi znajduje się w odległości 1,5 odchylenia standardowego od średniej
Otwieramy tablice Szukamy z = 1,5 = 0,43319 = 0,4332 (to pole jakie jest pod krzywą od średniej do punktu 1,5, i od średniej do – 1,5 ) 0,4332*2=0,8664 1 – 0,8664 = 0,1336 0,1336/2= 0,0668 (to pole od punktu 1,5 do plus nieskończoności i od –1,5 do minus nieskończoności)
Odpowiedź: Wobec powyższego 6,68% będzie miało prawdopodobnie lepszy wynik od Zosi gorszy zaś 93,32% Zosia jest mądra Jaś nie zobaczmy: 80-100/10=-2,0 (- oznacza że wartość Jasia jest po lewej stronie od średniej) Wartość Z = 0,4772 * 2 = 0,9544 1 – 0,9544 = 0,0456/2 = 0,0228 Jaś będzie lepszy tylko od niewiele ponad 2 % osób.
Zosia - wykres
Jak korzystać z tablic statystycznych? Jak odczytać Z dla współczynnika ufności równego 1- α = 0,95? Jeśli korzystamy z tabeli standardowego rozkładu Z to wygląda to następująco: Z tablicy standaryzowanego rozkładu normalnego wiemy, że Z przyjmuje wartość z przedziału od 0 do Z aby uwzględnić przedział od –Z do 0 musimy 0,95/2 = 0, 4750 i takiego prawdopodobieństwa szukamy wewnątrz tabeli odczytujemy odpowiadające jej wartości Z 1,9 + 0,06 + 1,96 a więc przedział który nas interesuje wynosi od -1,96 do 1,96. To przedział w którym z 0,95 prawdopodobieństwem mieści się szukany parametr.
Estymacja dla n<30 Rozkład t Studenta (pseudonim Gosseta, który wprowadził tą statystykę) w odróżnieniu od Z stasujemy dla grup małych z reguły n<30. Kluczowe dla testu t są stopnie swobody df. Rozkład t charakteryzuje się większą niepewnością w porównaniu z testem Z. Odchylenie standardowe z próby znacznie odbiega od odchylenia standardowego z populacji generalnej. df = n-1 – wzór na stopnie swobody dla jednej próby
Stopnie swobody ale właściwe jak to rozumieć? Wyobraźmy sobie formułę matematyczną x1 + x2+ x3 = 10 jeśli x3 równa się 5 to x1 może równać się 2 a x2 =3 lub też x1=1 to x2 =4 Takie równanie ma więc dwa stopnie swobody przy założeniu x3=5 dwie wartości (x1 i x2) mogą być różne
Jak odczytać wartość w tablicach? Przy odczytywaniu należy zwrócić uwagę czy tabela zawiera jednostronny czy dwustronny obszar krytyczny. Np. jak oszacować 99 procentowy obszar ufności przy próbie 20 osobowej? 1-0,99= 0,01 szukamy tej wartości w pierwszym wierszu po czym przesuwamy się w dół do 19 stopni swobody i odczytujemy t Dla jednostronnego 0,01/2 = 0,005 później postępujemy jak wyżej
Im krótszy przedział (różnica między górną i dolną granicą przedziału), tym bardziej precyzyjna jest estymacja przedziałowa. Im wyższa jest wartość współczynnika ufności, tym większa jest długość przedziału.