Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Wnioskowanie statystyczne CZEŚĆ II
Metody losowania próby
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Skale pomiarowe – BARDZO WAŻNE
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
BUDOWA MODELU EKONOMETRYCZNEGO
Estymacja przedziałowa
Wnioskowanie Bayesowskie
Metody wnioskowania na podstawie podprób
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
Analiza korelacji.
Metody Przetwarzania Danych Meteorologicznych Wykład 4
GEOSTATYSTYKA Wykłady dla III roku Geografii specjalność – geoinformacja Estymacja na podstawie danych jednej zmiennej II Alfred Stach Instytut Paleogeografii.
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Średnie i miary zmienności
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Analiza wariancji jednoczynnikowa.
na podstawie materiału – test z użyciem komputerowo generowanych prób
Testy nieparametryczne
dr hab. Dariusz Piwczyński
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Elementy Rachunku Prawdopodobieństwa i Statystyki
Podstawy statystyki, cz. II
Seminarium licencjackie Beata Kapuścińska
U RZĄD S TATYSTYCZNY W R ZESZOWIE Warszawa, kwiecień 2014 Paweł Markocki.
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
Ekonometria stosowana
Statystyka w doświadczalnictwie Wydział Technologii Drewna SGGW Studia II stopnia Wykład 3.
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Statystyczna analiza danych w praktyce
Testowanie hipotez Jacek Szanduła.
Statystyczna analiza danych
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
Statystyczna analiza danych
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
ze statystyki opisowej
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 4 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Statystyka matematyczna
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Model ekonometryczny z dwiema zmiennymi
Estymacja i estymatory
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Monte Carlo, bootstrap, jacknife
statystyka podstawowe pojęcia
Zapis prezentacji:

Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne o średniej, wartości globalnej i ilorazie z prób złożonych – zastosowanie procedury SURVEYMEANS. Estymatory ilorazowe.

Struktura zajęć Szacowane parametry populacji Estymatory średniej dla różnych schematów losowania próby Ilorazowe estymatory średniej Estymatory wartości globalnej Estymator ilorazu Pośrednie metody oceny wariancji estymatorów Procedura SURVEYMEANS Przykład zastosowania procedury SURVEYMEANS

1. Szacowane parametry populacji Rozpatrujemy cechę ilościową Y: Y – cecha badana yi – wartości cechy badanej dla i-tej jednostki 1.1. Średnia cechy Y w populacji: 1.2. Wartość globalna (suma wartości zmiennej) 1.3. Iloraz dwóch wartości globalnych/średnich

2. Estymatory średniej dla różnych schematów losowania próby 2.1. Losowanie proste niezależne Estymatorem średniej populacji jest średnia z próby: Estymator ten jest nieobciążony, tzn.:

Wariancja estymatora średniej: D2 – wariancja estymatora S2 – wariancja cechy badanej w populacji Estymator wariancji estymatora: d2 - estymator wariancji estymatora s2 – estymator wariancji cechy badanej w populacji, czyli wariancja w próbie

2.2. Losowanie proste zależne Estymatorem średniej populacji jest średnia z próby: Estymator ten jest nieobciążony: Wariancja tego estymatora: Estymatorem wariancji jest: - poprawka na bezzwrotność losowania

2.3. Losowanie warstwowe Estymatorem średniej populacji jest średnia z próby warstwowej: Wariancja tego estymatora: - średnia cechy badanej Y w h-tej warstwie - liczebność populacji dla h-tej warstwy - liczebność próby dla h-tej warstwy - udział liczebności h-tej warstwy w populacji

2.4. Warstwowanie po wylosowaniu próby Zał. znane Wh Estymator średniej: Wariancja tego estymatora: - frakcja, jaką stanowi próba w populacji - wariancja estymatora średniej w przyp. los. warstwowego proporcjonalnego Czasami możemy dokonać warstwowania dopiero po wylosowaniu próby. Tak się robi np.. W statystyce małych obszarów, gdzie próbę wylosowaną dla „dużego obszaru” i nawet już zbadaną, dzieli się na małe obszary. Jest to możliwe ,gdy wiemy, jaką część populacji stanowi h-ta warstwa.

2.5. Losowanie dwustopniowe los. dwustopniowe (los. proste zależne na obu stopniach): I stopień – losujemy do próby m jednostek z M jednostek populacji, g - numer jednostki losowania I stopnia II stopień - losujemy do próby ng jednostek z Ng jednostek i - numer jednostki losowania II stopnia Estymator średniej: Podane powyżej wzory mają zastosowanie, gdy są jednakowe prawdopodobieństwa wyboru jednostek do próby na pierwszym stopniu losowania. Gdy prawdopodobieństwa wyboru jednostek losowania I stopnia są różne, to estymatory i ich wariancje są jeszcze bardziej złożone. We wzorze na średnią przed M/n dochodzi jeszcze trzecia suma. Trudno jest obliczyć wariancję takiego złożonego estymatora, w praktyce stosuje się tzw. wagi i różne metody szacowania wariancji, np. Bootstrap. Będzie o tym na przykładzie BAEL.

3. Ilorazowe estymatory średniej 3.1. Ilorazowy estymator średniej bez warstwowania - stosowany, gdy mamy informację o średniej cechy dodatkowej X w populacji cecha dodatkowa X musi być skorelowana z cechą badaną Y potrzebne są dane indywidualne o cesze pomocniczej R - iloraz, r - estymator ilorazu: - średnia cechy pomocniczej X w populacji - średnia cechy pomocniczej X w próbie - średnia cechy badanej Y w próbie

Ilorazowy estymator średniej - jest obciążony jego wariancja: R - iloraz w populacji, - współczynnik korelacji między cechą pomocniczą X i cechą badaną Y Sx - odchylenie standardowe cechy pomocniczej X w populacji Sy - odchylenie standardowe cechy badanej Y w populacji

Ilorazowy estymator średniej jest bardziej efektywny niż średnia z próby, gdy: V(X) - współczynnik zmienności dla cechy pomocniczej X V(Y) - współczynnik zmienności dla cechy badanej Y Współczynnik zmienności cechy jest to iloraz odchylenia standardowego cechy przez średnią arytmetyczną tej cechy.

3.2. Ilorazowy warstwowy estymator średniej stosowany, gdy mamy informację o średniej cechy dodatkowej X w populacji dla każdej z H warstw Rh – iloraz wartości globalnych lub średnich cechy badanej Y i cechy pomocniczej X dla h-tej warstwy: - średnia cechy Y w populacji dla h-tej warstwy - średnia cechy X w populacji dla h-tej warstwy rh – estymator ilorazu wartości globalnych lub średnich cechy badanej Y i cechy pomocniczej X dla h-tej warstwy: - średnia cechy Y w próbie dla h-tej warstwy - średnia cechy X w próbie dla h-tej warstwy

Wariancja ilorazowego warstwowego estymatora średniej - współczynnik korelacji między cechą badaną Y i cechą pomocniczą X dla h-tej warstwy - wariancja cechy badanej Y dla h-tej warstwy - wariancja cechy pomocniczej X dla h-tej warstwy Estymator ten jest obciążony, zgodny (obciążenie maleje wraz ze wzrostem nh).

4. Estymatory wartości globalnej Wartość globalna: Estymator wartości globalnej otrzymamy, mnożąc estymator średniej przez N: Wariancję estymatora wartości globalnej otrzymamy, mnożąc wariancję estymatora średniej przez N2: Estymator wariancji estymatora wartości globalnej: Bardzo często w wielu badaniach statystycznych istnieje potrzeba oszacowania innych parametrów niż średnia: wartości globalnej, liczby i frakcji elementów wyróżnionych, ilorazu dwóch średnich lub ilorazu dwóch wartości globalnych, np.? - pytanie do studentów

5. Estymator ilorazu - mają zastosowanie wzory podane przy ilorazowym estymatorze średniej na r

6. Pośrednie metody oceny wariancji estymatorów W przypadku złożonych schematów losowania próby do szacowania parametrów populacji są stosowane estymatory warstwowe lub/i złożone „wielopiętrowe” estymatory zaliczające się do estymatorów typu ilorazowego. Ta złożoność schematów losowania próby i estymatorów jest w praktyce omijana poprzez użycie w procesie estymacji tzw. wag. Estymator średniej ma postać ilorazu:

Bezpośrednia estymacja wariancji estymatorów parametrów populacji jest utrudniona w przypadku złożonych schematów losowania próby i złożonych estymatorów. W takich sytuacjach do oceny wariancji estymatorów można wykorzystać metody pośrednie: linearyzację Taylora (ang. Taylor series linearization), metodę bootstrapową, metodę jackknife, metodę półprób zrównoważonych (ang. balanced repeated replication), metodę grup losowych (ang. interpenetrating sub-samples).

7. Procedura SURVEYMEANS PROC SURVEYMEANS opcje słowa kluczowe statystyk; BY zmienne grupujące ; CLASS zmienne jakościowe ; CLUSTER zmienne identyfikujące jednostki los. I stopnia; DOMAIN zmienne domen< zmienna * zmienna zmienna * zmienna * zmienna ... > ; RATIO < 'etykieta' > zmienna licznika / zmienna mianownika; REPWEIGHTS zmienne < / opcje > ; STRATA zmienne warstwujące < / opcje > ; VAR zmienne analizowane ilościowe; WEIGHT zmienna ważąca;

8. Przykład zastosowania procedury SURVEYMEANS Dane: Badanie Budżetów Gospodarstw Domowych GUS 2008 Populacja: ok. 13 mln gospodarstw domowych w Polsce Próba: ok. 37 tys. gospodarstw domowych (0,3%) Schemat losowania próby: dwustopniowy, warstwowy, z różnymi prawdopodobieństwami wyboru na I stopniu losowania. Jednostki losowania I stopnia – terenowe punkty badań. Jednostki losowania II stopnia – mieszkania.

Operaty losowania Na I st. losowania – wykazy rejonów statystycznych, opracowane dla potrzeb NSP 2002, aktualizowane co roku, utworzono 783 tpb (w mieście 250 mieszkań, na wsi 150), przed losowaniem powarstwowane oddzielnie w każdym województwie według klasy miejscowości. Na II st. losowania – wykazy zamieszkanych mieszkań w wylosowanych tpb, opracowane przez urzędy statystyczne.

Konstrukcja wag Wagi pierwotne są odwrotnościami prawdopodobieństw wyboru do próby poszczególnych jednostek: W przypadku losowania wielostopniowego prawdopodobieństwa wylosowania jednostek do próby oraz wagi pierwotne otrzymuje się przez przemnożenie odpowiednio prawdopodobieństw i wag ze wszystkich stopni losowania próby. Prawdopodobieństwo wybrania j-tej jednostki losowania II stopnia w i-tej jednostce losowania I stopnia wynosi: Wagi pierwotne skorygowano danymi o strukturze gospodarstw domowych wg liczby osób w podziale na miasto i wieś z NSP 2002. Suma wag jest estymatorem liczebności populacji

Prezentacja wybranych wyników Oceny: parametrów błędów standardowych ocen współczynników zmienności ocen efekt schematu

Wydatki gospodarstw domowych – proc surveymeans Podregiony 66