STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii
WNIOSKOWANIE STATYSTYCZNE
przewidywanie, szacowanie, wyciąganie wniosków dotyczących populacji na podstawie danych z próby podstawą wnioskowania jest fragmentaryczna informacja o populacji (próba to tylko wycinek populacji) metody wnioskowania statystycznego nie dostarczają informacji z całkowitą pewnością, ale pozwalają określić precyzję (błąd) informacji
Metody wnioskowania statystycznego ESTYMACJA Szacowanie na podstawie informacji z próby wartości charakteryzujących rozkład badanej cechy statystycznej, czyli szacowanie wartości parametrów WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Sprawdzenie słuszności przypuszczeń dotyczących rozkładu cechy statystycznej i jego parametrów
ESTYMATORY
Aby wnioskowanie dało jak najlepsze rezultaty, należy korzystać z jak najlepszych narzędzi. Narzędziem wnioskowania jest ESTYMATOR Estymator 1.Statystyka zbudowana na wynikach próby 2.Może być to każda wielkość otrzymana dla wyników próby, np. średnia arytmetyczna, dominanta, kolejne kwartyle, odchylenie standardowe, współczynnik zmienności itd.
ESTYMATORY W większości przypadków wnioskowanie sprowadza się do obliczenia wartości oczekiwanej i wariancji O wartości oczekiwanej w populacji wnioskuje się korzystając z miar położenia obliczonych na wynikach z próby O wariancji w populacji wnioskuje się korzystając z miar zróżnicowania obliczonych na wynikach z próby O prawdopodobieństwie jakiegoś zdarzenia (czyli o szansie na występowanie tego zdarzenia w populacji) wnioskuje się korzystając z częstości względnych obliczonych na wynikach z próby Liczbowe charakterystyki całej populacji nazywa się PARAMETRAMI Ich odpowiedniki dla próby nazywa się ESTYMATORAMI Zaś konkretne wartości liczbowe policzone ze wzoru estymatora nazywa się oceną estymatora lub szacunkiem estymatora
ESTYMATORY Aby estymatory mogły być stosowane we wnioskowaniu statystycznym, powinny mieć pewne własności: Te własności to: 1.Nieobciążoność 2.Efektywność 3.Zgodność Estymator T n (statystyka z próby) Parametr populacji θ szacujem σ, w szacujep
Θ NIEOBCIĄŻONOŚĆ Wartość oczekiwana estymatora jest równa parametrowi, do szacowania którego jest wykorzystywany Jeżeli będziemy powtarzali pobieranie prób z populacji i obliczali dla każdej z nich wartości estymatora, to na dłuższą metę przeciętna wartość tych wyników będzie równa wartości parametru, którego szukamy. Inaczej: Nie będzie się pojawiało systematyczne odchylenie się wartości estymatora od wartości poszukiwanego parametru. TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn
Θ OBCIĄŻONOŚĆ systematyczne odchylenie się wartości estymatora od wartości poszukiwanego parametru Jeśli wartość oczekiwana estymatora NIE JEST równa parametrowi, do szacowania którego jest wykorzystywany, to różnicę między nimi nazywamy OBCIĄŻENIEM ESTYMATORA TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn E(T n )
Θ EFEKTYWNOŚĆ Miarą efektywności estymatora jest jego wariancja D 2 (T n ) Im mniejsza wariancja ( = im mniejsze zróżnicowanie wyników), tym efektywniejszy estymator. Porównywanie efektywności estymatorów ma sens tylko wtedy, gdy są one nieobciążone. TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn Oba pistolety są dobrze skalibrowane = nieobciążone. Ale to rozrzut strzałów oddanych czarnym pistoletem jest MNIEJSZY Czarny pistolet jest bardziej efektywny!!! TnTn
Θ ZGODNOŚĆ Wraz ze wzrostem liczebności próby wzrasta pewność, że wartości estymatorów obliczane na podstawie wyników tej próby, nie będą się znacząco różnić od szukanej wartości parametru TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn TnTn
ZGODNOŚĆ 1.Jeśli estymator jest zgodny, to jest przynajmniej asymptotycznie nieobciążony 2.Jeśli: a)estymator jest nieobciążony lub asymptotycznie nieobciążony i b)jego wariancja maleje do zera wraz ze wzrostem liczebności próby będącej podstawą wnioskowania, to jest on estymatorem zgodnym
ESTYMATORY Estymatory nieobciążone dają średnio prawdziwe oceny parametrów Estymatory efektywne dają średnio oceny parametru najmniej różniące się od stanu faktycznego Estymatory zgodne dają oceny tym bliższe prawdy, im liczniejsza jest próba będące podstawą wnioskowania
Kilka uwag o wzorze na wariancję Wzór wykorzystywany w przypadku analizy danych z próby Wariancja w próbie liczona z tego wzoru jest NIEOBCIĄŻONYM estymatorem wariancji w populacji Wzór wykorzystywany w przypadku analizy danych z populacji Wariancja w próbie liczona z tego wzoru jest OBCIĄŻONYM estymatorem wariancji w populacji
ESTYMACJA
PUNKTOWA Za wartość parametru przyjmuje się ocenę jego estymatora obliczoną na podstawie wyników z próby Wysoce precyzyjna (uzyskujemy konkretną wartość parametru), ale nie można określić, na ile można mieć do niej zaufanie PRZEDZIAŁOWA Konstruujemy przedział liczbowy – w statystyce określany mianem PRZEDZIAŁU UFNOŚCI Można tak zrobić, gdyż zakładamy, że nasza próba jest wysokiej wiarygodności, tzn. że odzwierciedla badaną populację
ESTYMACJA PUNKTOWA – przykład 1 W środowisku studenckim pewnej uczelni pojawiły się głosy na temat konieczności zwiększenia liczby godzin z języków obcych. Wśród losowo wybranych 600 studentów 400 poparło ten pogląd Jakie jest punktowe oszacowanie nieznanego odsetka zwolenników tego pomysłu na całej uczelni? Odp. Szukamy oszacowania punktowego frakcji (odsetka) Estymacja punktowa polega na przyjęciu za wartość parametru wartości jego estymatora w próbie Estymatorem punktowym odsetka studentów pewnej uczelni, którzy popierają zwiększenie liczby godzin z języków obcych, jest odsetek studentów popierających ten pomysł w wylosowanej próbie, czyli 400/600 = 2/3 =
ESTYMACJA PUNKTOWA – przykład 2 W losowo wybranej grupie 100 inwestorów giełdowych stwierdzono, że średni wiek wynosi 34 lata, zaś odchylenie standardowe wieku 6 lat. Jakie jest punktowe oszacowanie nieznanego średniego wieku ogółu inwestorów w tym kraju? Odp. Szukamy oszacowania punktowego średniej. W tym przypadku estymacja punktowa polega na przyjęciu za wartość średniej w populacji (nasz szukany parametr) wartości średniej z próby (jego estymatora) 34 lata – czyli tyle, ile wyszło nam na podstawie wyników próby
ESTYMACJA PUNKTOWA ALE CZY NASZE ESTYMACJE SĄ WIARYGODNE = CZY SĄ DOBREJ JAKOŚCI? O jakości estymacji punktowej decyduje ocena zróżnicowania wartości, jakie może przyjmować estymator ocena wielkości BŁĘDU ESTYMATORA BŁĄD STANDARDOWY ESTYMATORA = odchylenie standardowe estymatora = średni błąd szacunku D(T n ) Im mniejszy jest ten błąd, tym dokładniejszy estymator
ESTYMACJA PUNKTOWA BŁĄD ESTYMATORA = odchylenie standardowe estymatora = średni błąd szacunku D(T n ) Przy punktowym szacowaniu średniej (wartości oczekiwanej) do oceny jakości tej estymacji obliczamy BŁĄD STANDARDOWY ŚREDNIEJ Przy punktowym szacowaniu frakcji (odestka) do oceny jakości tej estymacji obliczamy BŁĄD STANDARDOWY FRAKCJI
ESTYMACJA PUNKTOWA Miarą jakości wnioskowania opartego na estymacji punktowej jest BŁĄD WZGLĘDNY BŁĄD WZGLĘDNY V(T n ): V(T n ) ≤ 7,5% wysoce precyzyjna estymacja 7,5% < V(T n ) ≤ 15% wyniki estymacji są dopuszczalne (dostateczne) V(T n ) > 15%wyniki są nie do przyjęcia
ESTYMACJA PUNKTOWA – przykład 1 cd W środowisku studenckim pewnej uczelni pojawiły się głosy na temat konieczności zwiększenia liczby godzin z języków obcych. Wśród losowo wybranych 600 studentów 400 poparło ten pogląd. Estymator punktowy: Błąd standardowy odsetka: Błąd względny: Ta estymacja jest bardzo precyzyjna Świadczy o tym błąd względny mniejszy od 7,5%
ESTYMACJA PUNKTOWA – przykład 2 cd W losowo wybranej grupie 100 inwestorów giełdowych stwierdzono, że średni wiek wynosi 34 lata, zaś odchylenie standardowe wieku 6 lat. Estymatorem punktowym przeciętnego wieku dla wszystkich inwestorów giełdowych jest przeciętny wiek 100 wylosowanych inwestorów giełdowych, czyli 34 lata Błąd standardowy średniej: Błąd względny: Ta estymacja jest bardzo precyzyjna Świadczy o tym błąd względny mniejszy od 7,5%
ESTYMACJA PRZEDZIAŁOWA
ESTYMACJA PUNKTOWA Otrzymujemy jedną liczbę, która jest proponowaną wartością dla szacowanego parametru PRZEDZIAŁOWA Otrzymujemy przedział liczbowy, z którego każda liczba stanowi propozycję dla szacowanego parametru Pozwala ocenić, jak często popełniamy pomyłkę przy estymacji
ESTYMACJA PUNKTOWA PRZEDZIAŁ UFNOŚCI Błąd maksymalny = błąd standardowy * wartość odczytana z tablic (u α lub t α,v ) Środkiem przedziału jest zawsze estymator punktowy Długość przedziału = 2* błąd maksymalny
Przedział ufności dla frakcji Przedział ufności dla średniej
Przedział ufności dla frakcji elementów wyróżnionych Estymator punktowy Błąd standardowy Błąd maksymalny 1 – α poziom ufności 0,9; 0,95; 0,99
ESTYMACJA PRZEDZIAŁOWA – przykład 1 cd W środowisku studenckim pewnej uczelni pojawiły się głosy na temat konieczności zwiększenia liczby godzin z języków obcych. Wśród losowo wybranych 600 studentów 400 poparło ten pogląd. Skonstruować 95% przedział ufności dla nieznanej frakcji zwolenników zwiększenia liczby godzin z języków obcych na tej uczelni Poziom ufności 1 – α = 0,95 α = 0,05
ESTYMACJA PRZEDZIAŁOWA – przykład 1 cd Skonstruować 95% przedział ufności dla nieznanej frakcji zwolenników zwiększenia liczby godzin z języków obcych na tej uczelni Estymator punktowy: Błąd standardowy odsetka:
W ostatnim wierszu tablicy odczytać można wartości u α, gdyż zachodzi t α,v = u α PRZYKŁADOWO u 0,02 = 2,33 u 0,05 = 1,96 u 0,1 = 1,64 u 0,o1 = 2,57
ESTYMACJA PRZEDZIAŁOWA – przykład 1 cd Ten przedział (62,9%; 70,3%) z prawdopodobieństwem 0,95 (z ufnością 95%) zawiera nieznaną wartość odsetka zwolenników pomysłu w całej populacji studentów tej uczelni, czyli każda liczba z tego przedziału może być szukaną wartością parametru, ale może być również tak, że szukana przez nas liczba nie należy do tego przedziału
ESTYMACJA PRZEDZIAŁOWA – przykład 1 cd czyli każda liczba z tego przedziału może być szukaną wartością parametru, ale może być również tak, że szukana przez nas liczba nie należy do tego przedziału Przedział ma długość 0,703 – 0,629 = 0,074 p
Przedział ufności dla średniej Zbudowanie przedziału ufności dla średniej w populacji wymaga ustalenia 3 informacji (kolejność jest istotna): Czy badana cecha ma rozkład normalny? TAKNIE Czy znane jest odchylenie standardowe w tym rozkładzie, czyli σ TAKNIE Czy próba jest duża, czyli czy przekracza n = 100 NIETAK Przedział ufności dla m w rozkładzie N(m, σ), znane σ Przedział ufności dla m w rozkładzie N(m, σ), nieznane σ (ale znamy wtedy S(X), czyli odchylenie standardowe z próby) Przedział ufności dla m w populacji o nieznanym rozkładzie Nic nie można zrobić Wariant 1 Wariant 2 Wariant 3
Przedział ufności dla średniej Wariant 1 Wariant 2 Wariant 3
ESTYMACJA PUNKTOWA – przykład 2 cd W losowo wybranej grupie 100 inwestorów giełdowych stwierdzono, że średni wiek wynosi 34 lata, zaś odchylenie standardowe wieku 6 lat. Oszacuj z ufnością 99% przeciętny wiek wszystkich inwestorów. Estymatorem punktowym przeciętnego wieku dla wszystkich inwestorów giełdowych jest przeciętny wiek 100 wylosowanych inwestorów giełdowych, czyli 34 lata Błąd standardowy średniej: Nie mamy informacji o rozkładzie wieku inwestorów Próba jest duża n ≥ 100
Przedział ufności dla średniej Zbudowanie przedziału ufności dla średniej w populacji wymaga ustalenia 3 informacji (kolejność jest istotna): Czy badana cecha ma rozkład normalny? TAK NIE Czy znane jest odchylenie standardowe w tym rozkładzie, czyli σ TAKNIE Czy próba jest duża, czyli czy przekracza n = 100 NIE TAK Przedział ufności dla m w rozkładzie N(m, σ), znane σ Przedział ufności dla m w rozkładzie N(m, σ), nieznane σ (ale znamy wtedy S(X), czyli odchylenie standardowe z próby) Przedział ufności dla m w populacji o nieznanym rozkładzie Nic nie można zrobić Wariant 1 Wariant 2 Wariant 3
ESTYMACJA PUNKTOWA – przykład 2 cd W losowo wybranej grupie 100 inwestorów giełdowych stwierdzono, że średni wiek wynosi 34 lata, zaś odchylenie standardowe wieku 6 lat. Oszacuj z ufnością 99% przeciętny wiek wszystkich inwestorów.
ESTYMACJA PUNKTOWA – przykład 2 cd Ten przedział (32,458; 35,542) z prawdopodobieństwem 0,99 (z ufnością 99%) zawiera nieznaną wartość średniego wieku inwestorów w całej populacji inwestorów, czyli każda liczba z tego przedziału może być szukaną wartością parametru, ale może być również tak, że szukana przez nas liczba nie należy do tego przedziału
Przedziały ufności – podsumowanie Przy ustalonej liczebności próby przyjęty poziom ufności (1 – α) rozstrzyga o tym, jaka będzie rozpiętość przedziału ufności. Im wyższą wiarygodność (ufność) zagwarantujemy, tym szerszy przedział otrzymamy, czyli mniejszą precyzję. Poziom ufności rozstrzyga tym samym o precyzji oszacowania. Zwiększenie precyzji można uzyskać: 1.zmniejszając wiarygodność (ufność) 2.zwiększając liczebność próby Precyzja oszacowania = błąd maksymalny = połowa rozpiętości przedziału ufności
MINIMALNA LICZEBNOŚĆ PRÓBY
Problemem decyzyjnym w zagadnieniu estymacji jest z jednej strony ustalenie poziomu ufności (precyzji), a z drugiej strony – ustalenie liczebności próby, będącej podstawą wnioskowania statystycznego. Zwykle poprawę precyzji uzyskujemy zwiększając liczebność próby, ale liczebności próby nie można zwiększać w nieskończoność, bo ograniczają ją chociażby koszty badania. Powstaje więc problem ustalenia liczby jednostek niezbędnych, aby przeprowadzić wnioskowanie o ustalonej precyzji.
MINIMALNA LICZEBNOŚĆ PRÓBY Niezbędna liczebność próby przy przyjętej precyzji wnioskowania wynosi: 1.Przy estymacji wartości średniej 2.Przy estymacji wartości p, gdy przewidywana wartość tego parametru jest znana (p * przewidywana wartość parametru) 3.Przy estymacji wartości p, gdy przewidywana wartość tego parametru nie jest znana (za p * przyjmujemy ½)