Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałJarosław Grzybowski Został zmieniony 8 lat temu
1
ADI 2016 Henryk Banaszak, Zakład Statystyki, Demografii i Socjologii Matematycznej habanasz@is.uw.edu.pl habanasz@is.uw.edu.pl
2
Repetytorium: wartość oczekiwana i wariancja zmiennej losowej
3
Repetytorium: wariancja zmiennej losowej Repetytorium: parametry zmiennych losowych niezależnych stochastycznie nzal stoch
4
Repetytorium: ciąg zmiennych losowych kompletnie niezależnych stochastycznie
5
Pułapki wnioskowania statystycznego Pułapka 1: ujemny odsetek Pułapka 2: non-response Pułapka 3: ułomna rzeczywistość
6
Pułapka 1: ujemny odsetek
7
Doświadczenie losowe Z populacji uprawnionych do głosowania wylosowano ze zwracaniem 400 osób. Spośród 400 wylosowanych w wyborach zamierza wziąć udział 250. Na poziomie ufności 0,95 oszacuj populacyjną proporcję deklarujących udział w wyborach Wniosek Wynik doświadczenia Założenie 1 Poziom ufności = 0,95 Reguła wnioskowania Oszacowanie odch std estymatora (!) Dokładność oszacowania Typowy schemat estymacji przedziałowej Teoria: CTG Założenie 2
8
Dokładność oszacowań populacyjnej proporcji a liczebność losowej próby UWAGA: dla prostej próby losowanej ze zwracaniem !!!
9
Proporcja w populacji Minimalny rozmiar próby n 0,50 30 0,40 50 0,30 80 0,20 200 0,10 600 0,05 1400 Źródło: W.G.Cochran, Sampling Techniques, John Wiley and Sons, New York, 1953, s..41 Granice stosowalności CTG w estymacji populacyjnej proporcji Używanie CTG poza granicami jego stosowalności prowadzi czasami do absurdu
10
DaneZ populacji uprawnionych do głosowania wylosowano ze zwracaniem 400 osób. Wśród wylosowanych 15 zamierza głosować na kandydata X. Na poziomie ufności 0,95 oszacuj populacyjną proporcję zamierzających głosować na kandydata X Wniosek TO niemożliwe !!!!! Centralne twierdzenie graniczne – pułapka niskich proporcji Dokładny przedział ufności dla frakcji wyznaczany z rokładu Znajomość twierdzeń granicznych jest potrzebna w sytuacjach nietypowych
11
Pułapka 2: non- response
12
Populacja n -elementowa próba wylosowana z populacji Niedostępni, n 2 Zbadani, n 1 Response rate = = Pułapka niepełnej realizacji próby próba
13
Response rate a dokładność oszacowań Populacja dostępnychPopulacja nie-dostępnych n = 2000 n 1 = 1600 n 2 = 400 Quasi-przedział ufności dla frakcji populacyjnej
14
Pułapka 3: ułomna rzeczywistość
15
Dokładność oszacowań zależy nie tylko od liczebności próby Populacja Schemat doboru próby Próba wylosowana lista obiektów populacji Operat Złożony wielstopniowy Dziurawa, stara Próba zbadana Non- response (400) No answer (30%) False responses (5%) Field-work Źródła obniżania precyzji oszacowań 1 2 3 4 5 2000 1600 Nierówne p-twa inkluzji
16
Czym się zajmuje teoria doboru prób
17
Przedmiot zaainteresowania teorii Analityczne i symulacyjne, dokładne i przybliżone rozwiązywanie praktycznych problemów statystycznych w procedurach wnioskowania statystycznego : estymacji parametrów populacyjnych rozkładów zmiennych statystycznych (jak jest?) testowania hipotez na temat wartości parametrów populacyjnych rozkładów zmiennych statystycznych (czy jest tak jak twierdzi hipoteza?) Analityczne i symulacyjne, dokładne i przybliżone rozwiązywanie praktycznych problemów statystycznych w procedurach wnioskowania statystycznego : estymacji parametrów populacyjnych rozkładów zmiennych statystycznych (jak jest?) testowania hipotez na temat wartości parametrów populacyjnych rozkładów zmiennych statystycznych (czy jest tak jak twierdzi hipoteza?) 1.Wady operatu losowania 2.Złożony schemat losowania próby 3.Niepełna realizacja próby (non-response) 4.Braki odpowiedzi (missing value) 5.Rekordy fikcyjne 1.Wady operatu losowania 2.Złożony schemat losowania próby 3.Niepełna realizacja próby (non-response) 4.Braki odpowiedzi (missing value) 5.Rekordy fikcyjne Statystyczne problemy wnioskowania z próby o parametrach populacji
18
Program zajęć 1 Wprowadzenie : probabilistyczne podstawy teorii doboru próby Doświadczenie losowe, zdarzenie losowe, prawdopodobieństwo zdarzenia losowego, niezależność zdarzeń. Zmienna losowa, zmienna skokowa, dystrybuanta zmiennej losowej, zmienna ciągła. Zmienna statystyczna a zmienna losowa. Niezleżność zmiennych losowych. Wartość oczekiwana i wariancja zmiennej losowej skokowej i ciągłej. Relacje między zmiennymi losowymi: twierdzenia graniczne, twierdzenia o zbieżności. Populacja, próba, przestrzeń prób, prawdopodobieństwa inkluzji, schemat doboru próby Statystyka z próby, rozkład statystyki z próby, parametry rozkładu statystyki z próby, twierdzenia graniczne Estymator i jego własności: obciążenie, efektywność. Estymacja punktowa i przedziałowa Efektywność estymacji: współczynnik DEFF 2 Jednostopniowe schematy doboru Dobór prosty (SRS) niezleżny i zależny, warstwowy (STRATA) Dobór zespołowy (CLUSTER) Dobór systematyczny (SYSTEMATIC) 3 Wielostopniowe schematy doboru Estymator HT i jego własności w złożonych wielostopniowych schematach doboru próby.. Wyznaczanie dokładności oszacowania parametrów populacji przy złożonych schematach doboru próby: BRR - replikacyjne schematy losowania Linearyzacja estymatorów złożonych Bootstrap, jacknife - re-sampling Oprogramowanie do wyznaczania współczynnika DEFF 4 Braki danych a dokładność oszacowań Modele imputacji: założenia, właściwości PSM, regresja logistyczna 5 Jednostki niedostępne a dokładność oszacowań Quasi-przedział ufności dla frakcji Kalibracja a dokładność szacowania średniej populacyjnej 6 Nielosowe metody tworzenia próby a dokładność oszacowań
19
Rachunek prawdopodobieństwa – podstawa teorii doboru próby Sondaż jest zaplanowanym doświadczeniem losowym opisanym za pomocą pojęć rachunku prawdopodobieństwa Rachunek prawdopodobieństwa zajmuje się doświadczeniami losowymi Pozwala on wyliczyć prawdopodobieństwa pewnnych zdarzeń losowych z wartości prawdopodobieństw innych zdarzeń, dokładnie lub w przybliżeniu, uprzednio wyznaczonych lub założonych. Takie wyliczanie jest jednak możliwe, tylko wtedy, gdy doświadczenie losowe jest opisane jest za pomocą pojęć teorii prawdopodobieństwa Wnioskowanie statystyczne jest sposobem formułowania zdań na temat populacji na podstawie wyników doświadczenia polegającego na wylosowaniu z populacji próby, pomiarze wartości zmiennych dla elementów wylosowanych i dostępnych oraz na wyznaczeniu parametrów ich rozkładów.
20
Podstawowe pojęcia rachunku prawdopodobieństa: doświadczenie losowe Doświadczenie losowe opisane za pomocą pojęć rachunku prawdopodobieństwa zbiór możliwych wyników zdarzenie losowe prawdopodobieństwo zdarzenia losowego prawdopodobieństwo zdarzenia losowego prawdopodobieństwo łączne dwóch lub więcej zdarzeń prawdopodobieństwo łączne dwóch lub więcej zdarzeń prawdopodobieństwo warunkowe prawdopodobieństwo warunkowe niezależność zdarzeń losowych niezależność zdarzeń losowych
21
ωhωh IIIIIIIVP({ ω h } ) ω1ω1 00000,1296 ω2ω2 10000,0864 ω3ω3 0100 ω4ω4 0010 ω5ω5 0001 ω6ω6 11000,0576 ω7ω7 1010 ω8ω8 1001 ω9ω9 0110 ω 10 01010,0576 ω 11 00110,0576 ω 12 01110,0384 ω 13 10110,0384 ω 14 11010,0384 ω 15 01000,0384 ω 16 11110,0256 1,0000 Podstawowe pojęcia rachunku prawdopodobieństa: doświadczenie losowe Doświadczenie: 4-krotny rzut monetą, „0” oznacza wypadła reszka, „1” oznacza wypadł orzeł A wypadła parzysta liczba orłów P(A)=6*0,0576+0,0256=0, 3712 B pierwszym i w drugim rzucie wypadł „orzeł” P(B)=0,0576+0,0384+0,0256=0,1216 P(AB)=0,0576+0,0256=0,0832 P(A|B) P(A) p=0,4 P-two „orzeł” w 1 rzucie
22
Podstawowe pojęcia rachunku prawdopodobieństa: doświadczenie losowe zdrowychory A'A nie pali B'0,540,060,60 pali B0,360,040,40 0,900,101,00 Łączne i brzegowe prawdopodobieństwa dla doświadczenia losowego polegającego na losowaniu zwrotnym z populacji 1 osoby. Skrzyżowanie podziałów populacji ze względu na stan zdrowia (zdrowy-chory) oraz palenie papierosów (nie pali – pali) jest znane i określone czterema odsetkami: 54%6% 36%4% P(A|B) = P(A), co oznacza, że A i B są stochastycznie niezależne
23
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa skokowa ωhωh IIIIIIIVP({ ω h } ) YX ω1ω1 00000,129600 ω2ω2 10000,086411 ω3ω3 0100 10 ω4ω4 0010 10 ω5ω5 0001 10 ω6ω6 11000,057621 ω7ω7 1010 21 ω8ω8 1001 21 ω9ω9 0110 20 ω 10 01010,057620 ω 11 00110,057620 ω 12 01110,038430 ω 13 10110,038431 ω 14 11010,038431 ω 15 01000,038430 ω 16 11110,025641 suma1,0000 Zmienna losowa jest liczbową charakterystyką wyniku doświadczenia losowego Każda wartość skokowej zmiennej losowej Y = y ma swoje prawdopodobieństwo P(Y=y): P(Y=0)=0,1296 P(Y=1)=4*0,0864=0,3456 P(Y=2)=6*0,0576=0,3456 P(Y=3)=4*0,0384=0,1536 P(Y=4)=0,0256 Zatem zmienne losowe skokowe mają swoje rozkłady P(X=0)=0,6384 P(X=1)=0,3616
24
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa skokowa Parametry rozkładu zmiennych losowych skokowych zdefiniowane są analogicznie jak parametry rozkładu zmiennych statystycznych i podobnie oznaczane Y=y P(Y=y) 00,1296 10,3456 2 30,1536 40,0256 X=xP(X=x) 00,6384 10,3616 Rozkłady zmiennych losowych skokowych przedstawiane są analogicznie jak rozkłady zmiennych statystycznych Również twierdzenia na temat parametrów rozkładów zmiennych losowych są analogiczne jak twierdzenia na temat parametrów rozkładów zmiennych statystycznych E(Y)=1,6 D 2 (Y)=0,96 E(X)=0,3516 D 2 (X)= 0,3616*(1-0,3616)
25
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa skokowa Zmienne losowe można definować bez konieczności opisywania doświadczenia losowego, którego możliwych wyników są liczbową charakterystyką. Wystarczy, że dla ustalonego zbioru liczb będących wartościami zmiennej losowej zdefiniujemy sumujące się do jedności ich prawdopodobieństwa. Na przykład tak: Prawdopodobieństwa przyporządkowane liczbom 0,1,2,3 i 4 są ich funkcją oraz dwóch stałych: stałej n=4 oraz stałej p=0,4 Prawdopodobieństwa przyporządkowane liczbom 0,1,2,3 i 4 są ich funkcją oraz dwóch stałych: stałej n=4 oraz stałej p=0,4 Zmienna losowa tak zdefinowana ma rozkład Bernouliego o parametrach n=4 oraz p=0,4, co zapisujemy: Y B(n=4; p=0,4) Zmienna losowa tak zdefinowana ma rozkład Bernouliego o parametrach n=4 oraz p=0,4, co zapisujemy: Y B(n=4; p=0,4) Każda parta stałych n oraz 0 < p < 1 definiuje zmienną losową Y B(n;p) o wartościach y = 0, 1, 2,…, n bo dla każdego y się wyznaczyć P(Y=y) podstawiając y, n i p do wzoru: Wedle tej funkcji powstały prawdopodobieństwa wartości 0, 1, 2, 3, 4 Zmiennej Y w poprzednim przykładzie Wedle tej funkcji powstały prawdopodobieństwa wartości 0, 1, 2, 3, 4 Zmiennej Y w poprzednim przykładzie
26
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa skokowa Z postaci funkcji wiążącej wartości zmiennej losowej z ich prawdopodobieństwami wynikają wartości parametrów rozkładu tej zmiennej. Na przykład, jeśli Y B(n;p), to W naszym przykładzie z doświadczeniem losowym Gdybyśmy zatem wiedzieli, że Y ma rozkład B(4;0,4) nie musielibyśmy wyznaczać jej rozkładu. Różnice między zmienną statystyczną a zmienną losową: zmienna statystycznazmienna losowa jak się definiuje zmienną przyporządkowuje liczby wszystkim obiektom populacji przyporządkowuje prawdopodobieństwa wszystkim liczbom rzeczywistym co trzeba zrobić aby wyznaczyć rozkład zmiennej zliczyć ile razy każda z warości zmiennej występuje w populacji wyliczyć prawdopodobieństwa z funkcji definiującej zmienną co trzeba zrobić aby wyznaczyć parametry rozkładu zmiennej wyznaczyć parametr z rozkładu zmiennej zastosować twierdzenia o parametrach rozkładu zmiennej wynikających z jej definicji
27
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa skokowa Łączny rozkład zmiennych losowych oraz stochastyczna ich niezależność definiowane są analogicznie jak dla zmienych statystycznych. Wtedy łączne prawdopodobieństwa wartości x i oraz y j dwuwymiarowej zmiennej losowej (X, Y) oznaczane przez definiuje funkcja, która każdej parze liczb ( x i, y j ) przyporządkowuje prawdobodobieństwa sumujące się do jedności: Łączny rozkład zmiennych losowych oraz stochastyczna ich niezależność definiowane są analogicznie jak dla zmienych statystycznych. Wtedy łączne prawdopodobieństwa wartości x i oraz y j dwuwymiarowej zmiennej losowej (X, Y) oznaczane przez definiuje funkcja, która każdej parze liczb ( x i, y j ) przyporządkowuje prawdobodobieństwa sumujące się do jedności: (X, Y)123 0 0,080,120,200,40 1 0,060,090,150,30 2 0,040,060,100,20 3 0,020,030,050,10 0,200,300,501,00 Oczywiście, dla x i {0,1,2,3} oraz y j {1,2,3} Dwie zmienne losowe są stochastycznie niezależne, jeśli każde ich łączne prawdopodobieństwo jest funkcją odpowiednich prawdopodobieństw brzegowych : W powyższym przykładzie zmienne losowae X i Y są stochastycznie niezależne Przykład (X,Y)
28
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa skokowa Zmienna losowa utworzona z sumy identycznych i niezależnych od siebie zmiennych losowych ma rozkład wynikający z liczby składników tej sumy oraz prarametów rozkładu pojedynczej zmiennej. Każda ze zmiennych X i opisuje doświadczenie losowe które może zakończyć się na dwa sposoby oznaczone liczbami 1 i 0, zaś prawdopodobieństwo zdarzenia „1” wynosi p. Jeśli zmienne te są kompletnie niezależne stochastycznie, to ich suma ma rozkład B(n;p) Każda ze zmiennych X i opisuje doświadczenie losowe które może zakończyć się na dwa sposoby oznaczone liczbami 1 i 0, zaś prawdopodobieństwo zdarzenia „1” wynosi p. Jeśli zmienne te są kompletnie niezależne stochastycznie, to ich suma ma rozkład B(n;p) a wtedy parametry rozkładu zmiennej Y wynikają wprost z n i p Wiele zmiennych losowych ważnych we wnioskowaniu statystycznym daje się przedstawić jako sumy prostych zmiennych losowych opisujących schematy prostych doświadczeń losowych. Dotyczy to także zmiennych losowych ciągłych, reprezentujących doświadczenia losowe, w których zbiór możliwych wyników nie jest – jak w wypadku zmiennych skoskowych – skończony.
29
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa ciągła Doświadczenie z ruletką o 20 przegródkach Doświadczenie z ruletką bez przegródek, ze strzałką zatrzymującą się gdzieś na obwodzie koła o długości 20 cm Widać, że funkcji prawdopodobieństwa nie da się zdefiniować podobnie jak dla zmiennej skokowej. Ale przecież strzałka gdzieś się zatrzyma. Prawdopodobieństwo to daje się jednak okreśłić dla każdego pod-przedziału obwodu koła – zatem odcinka [0,20] na osi liczb rzeczywistych Prawdopodobieństwo pojedynczego wyniku Funkcja o argumentach postaci (0, r] i wartościach z [0,1] to dystrybuanta zmiennej losowej
30
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa ciągła Przykład - zmienna losowa o rozkładzie prostokątnym na odcinku [a,b] Definicja za pomocą funkcji gęstości prawdopodobieństwa Relacja między funkcją gęstości prawdopodobieństwa i dystrybuantą zmiennej losowej Dystrybuanta – powierzchnia pod krzywą gęstości Przykład - zmienna losowa – ruletka bez przegródek na obwodzie o długosci odcinka [a,b] Przykład - zmienna losowa – ruletka bez przegródek na obwodzie o długosci odcinka [a,b] podłożonym magnesem Z definicji ciągłej zmiennej losowej wynikają parametry jej rozkładu zwane momentami
31
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa ciągła Ważne zmienne losowe: N( , σ ) N(0,1) t(n) 2 Ważne zmienne losowe: N( , σ ) N(0,1) t(n) 2 Zbieżności funkcji niezależnych z miennych losowych - jak powstały zmienne t oraz 2
32
Rozkład normalny =10 Rozkład normalny standaryzowany Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa ciągła
33
Zmienna losowa o rozkładzie t – Studenta ma rozkład podobny do N(0,1) lecz o wariancji nieco większej od 1. Jest to odchylenie średniej z próby standaryzowane oszacowaniem populacyjnej wariancji:
34
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa ciągła jest sumą k niezależnych stochastycznie kwadratów zmiennych normalnych standaryzowanych:
36
Podstawowe pojęcia rachunku prawdopodobieństa: zmienna losowa ciągła „Prawa wielkich liczb” czyli twierdzenia o zbieżności rozkładów przy nieograniczonym wzroście liczebności próby – prawie wszystkie rozkłady stają się „normalne” Ze wzrostem n (długości serii) rozkład liczby „sukcesów” w serii zbiega do rozkładu normalnego Ze wzrostem n (liczebności próby) rozkład zmiennej t-Studenta zbiega do rozkładu normalnego Ze wzrostem n (liczby składników sumy) rozkład zmiennej 2 zbiega do rozkładu normalnego
37
Twierdzenie o zbieżności rozkładu średniej z próby do rozkładu normalnego (CTG) Dokładność oszacowania Minimalna liczebność próby Przykład twierdzenia granicznego dla średniej z próby
38
próba nr składpróbyX1X2średnia 1a1 11 1 2 a212 1,5 3a1a312 1,5 5a2a121 1,5 9a3a121 1,5 4a1a413 2 6a2 22 2 7 a322 2 10a3a222 2 11a3 22 2 13a4a131 2 8a2a423 2,5 12a3a423 2,5 14a4a232 2,5 15a4a332 2,5 16a4 33 3 Populacja a1a1 a2a2 a3a3 a4a4 Zmienna 1223
39
Jak szybko rozkład Bernouliego zbiega do rozkładu normalnego ? 0,25 0,75 1- n=50 n=10 n=100 0,25 0,75 1- 0,25 0,75 1- Proporcja „sukcesów” w serii Dla frakcji 0,1 400.
40
Podstawowe pojęcia rachunku prawdopodobieństa – zastosowania Jakie jest prawdopodobieństwo realizacji X odchylających się od swojej wartości oczekiwanej nie więcej niż o dwa odchylenia standardowe ? Rozkład liczby „sukcesów” w serii 400 doświadczeń, prawdopodobieństwo „sukcesu” w pojedynczym doświadczeniu równym 0,10 Prawdopodobieństwo to daje się wyznaczyć dokładnie
41
Podstawowe pojęcia rachunku prawdopodobieństa – zastosowania Przypadek 3: znana jest wartość oczekiwana zmiennej X oraz jej wariancja. Załóżmy, że zmienna losowa X ma rozkład zbliżony do normalnego: X ~ N(40,6) Zmienna N(40,6) jest ciągła, więc P(X=28)=0) Rysunek na tablicy - powierzchnie Dokladnie wyliczone prawdopodobieństwo wynosi 0,964
42
Podstawowe pojęcia rachunku prawdopodobieństa – zastosowania 1.Jaka byłaby rozbieżność między odpowiedzią dokładną a przybliżeniem wykorzystującym zbieżność do rozkładu normalnego, gdyby: a)Wartość p była dużo niższa od 0,10 b)Wartość p była w granicach 0,10-0,90 2.Czy możliwa jest odpowiedź na tego typu pytanie, jeśli wiadomo, że n jest duże lecz nie znamy wartości p ? Sondaż jest zaplanowanym doświadczeniem losowym opisanym za pomocą pojęć rachunku prawdopodobieństwa Wynikiem sondażu jest wartość estymatora (statystyki) w zrealizowanej, przebadanej próbie Estymator jest zmienną losową. Aby móc wnioskować z próby o parametrach populacji trzeba wiedzieć, jak rozkład tej zmiennej losowej zależy od stanu populacji Aby odpowiadać na pytanie zadawane poprzednio trzeba wiedzieć: 1.Jaka jest wartość oczekiwana rozkładu estymatora 2. Jaka jest jego wariancja 3. Jaki jest kształt (typ) rozkładu estymatora Aby odpowiadać na pytanie zadawane poprzednio trzeba wiedzieć: 1.Jaka jest wartość oczekiwana rozkładu estymatora 2. Jaka jest jego wariancja 3. Jaki jest kształt (typ) rozkładu estymatora
43
Teoria doboru próby czyli jak rozkłady estymatorów zależą od sposobu losowania
44
Populacja skończona N-elementowa U = {u 1, u 2,..., u N } Zmienna statystyczna funkcja rzeczywista Y określona na zbiorze U, tj. Y: U → R Próba : (a) n-elementowy ciąg obiektów wylosowanych z populacji s = (u 1 (s), u 2 (s),..., u n (s)), u i (s) U; obiekty wylosowane mogą się powtarzać, co jest możliwe przy losowaniu ze zwracaniem ( SRS) (b)n-elementowy podzbiór obiektów wylosowanych z populacji U; w poojedynczej próbie obiekty się nie powtarzają, co jest cechą losowania bez zwracania (SRSWOR) Próba : (a) n-elementowy ciąg obiektów wylosowanych z populacji s = (u 1 (s), u 2 (s),..., u n (s)), u i (s) U; obiekty wylosowane mogą się powtarzać, co jest możliwe przy losowaniu ze zwracaniem ( SRS) (b)n-elementowy podzbiór obiektów wylosowanych z populacji U; w poojedynczej próbie obiekty się nie powtarzają, co jest cechą losowania bez zwracania (SRSWOR) Przestrzeń prób zbiór S składający się ze wszystkich (n-elementowych) prób, które można wybrać z populacji U: S={s 1, s 2,...., s M } Pojęcia podstawowe Oznaczeniezapis „u i s” oznacza „obiekt u i jest elementem próby s” z przestrzeni prób S
45
Prawdopodobieństwo inkluzji prawdopodobieństwo bycia wylosowanym przysługujące kazdemu elementowi populacji lub parze elementów Prawdopodobieństwa inkluzji Prawdopodobieństwo inkluzji pierwszego rzędu i - prawdopodobieństwo pojedynczego obiektu u i bycia wylosowanym w którejkolwiek z prób możłiwych do wylosowania z populacji U: Prawdopodobieństwo inkluzji drugiego rzędu i j - prawdopodobieństwo znalezienia się w tej samej próbie (którejkolwiek z możłiwych do wylosowania) obu obiektów u i, u i :
46
Schemat doboru próby ( ang. sampling design) para (S, P S ), gdzie S to przestrzeń prób, zaś P S to funkcja prawdopodobieństwa, która każdej próbie s S przyporządkowuje prawdopodobieństwo jej wylosowania P S (s). Oczywiście Schemat doboru próby ( ang. sampling design) para (S, P S ), gdzie S to przestrzeń prób, zaś P S to funkcja prawdopodobieństwa, która każdej próbie s S przyporządkowuje prawdopodobieństwo jej wylosowania P S (s). Oczywiście Schemat doboru próby (sampling design) Schemat doboru (losowania) można definiować na dwa sposoby: Określając prawdopodobieństwo P S (s) wylosowania każdej (z możliwych do wylosowania) próby s z przestrzeni S. Określając sposób wyznaczania prawdopodobieństw P S (s) z prawdopodobieństw inkluzji pierwszego rzędu i
47
Statystyka z próby Zmienna losowa określona w przestrzeni prób, jest funkcją rzeczywistą f określoną na zbiorze S: f : S → R Statystyka z próby Zmienna losowa określona w przestrzeni prób, jest funkcją rzeczywistą f określoną na zbiorze S: f : S → R Statystyka z próby jest liczbową charakterystyką składu póby zdefiniowaną za pomocą wartości zmiennych statystycznych zdefiowanych w populacji, z której próba została wylosowana. Przykłady statystyk: a)Wartość zmiennej Y dla elementu wylosowanego jako pierwszy b)Najmniejsza wartość zmiennej Y w próbie c)Wartość zmiennej Y występująca w próbie najczęściej d)Wartość zmiennej Y dla elementu środkowego w próbie e)Suma wartości zmiennej Y f)Średnia wartość zmiennej Y g)Współczynnik korelacji liniowej między zmiennymi X i Y w próbie h)Iloraz sumy wartości zmiennych X i Y w póbie
48
Statystyka z próby Rozkład statystyki z próby rozkład zmiennej losowej f : S → R Rozkład statystyki z próby zależy od schematu doboru próby i rozkładu zmiennych określonych w populacji, z której próba jest losowana. Z tego wynika możłiwość wnioskowania o rozkładzie zmiennych w populacji na podstawie wartości tych zmiennych odnotowanych w wylosowanej próbie.
49
Pojęcia podstawowe: ilustracja 1 lpobiekt Y ii 1 u1u1 1 1/3 2 u2u2 5 3 u3u3 2 4 u4u4 3 5 u5u5 3 6 u6u6 4 Populacja U ze zmienną Y su 1 (s)u 2 (s)Y(u 1 (s))Y(u 2 (s))P S (s) s1s1 u1u1 u2u2 15 1/303,0 s2s2 u1u1 u3u3 12 1/301,5 s3s3 u1u1 u4u4 13 1/302,0 s4s4 u1u1 u5u5 13 1/302,0 s5s5 u1u1 u6u6 14 1/302,5 s6s6 u2u2 u1u1 51 1/303,0 s7s7 u2u2 u3u3 52 1/303,5 s8s8 u2u2 u4u4 53 1/304,0 s9s9 u2u2 u5u5 53 1/304,0 s 10 u2u2 u6u6 54 1/304,5 s 11 u3u3 u1u1 21 1/301,5 s 12 u3u3 u2u2 25 1/303,5 s 13 u3u3 u4u4 23 1/302,5 s 14 u3u3 u5u5 23 1/302,5 s 15 u3u3 u6u6 24 1/303,0 s 16 u4u4 u1u1 31 1/302,0 s 17 u4u4 u2u2 35 1/304,0 s 18 u4u4 u3u3 32 1/302,5 s 19 u4u4 u5u5 33 1/303,0 s 20 u4u4 u6u6 34 1/303,5 s 21 u5u5 u1u1 31 1/302,0 s 22 u5u5 u2u2 35 1/304,0 s 23 u5u5 u3u3 32 1/302,5 s 24 u5u5 u4u4 33 1/303,0 s 25 u5u5 u6u6 34 1/303,5 s 26 u6u6 u1u1 41 1/302,5 s 27 u6u6 u2u2 45 1/304,5 s 28 u6u6 u3u3 42 1/303,0 s 29 u6u6 u4u4 43 1/303,5 s 30 u6u6 u5u5 43 1/303,5 Prawdopodobieństwa wylosowania prób Statystyka z próby Rozkład statystyki z próby Przestrzeń prób S Schemat losowania Prawdopodobieństwa inkluzji
50
yiyi P(Y=y i ) 2 0,1 3 0,2 5 0,3 8 0,4 suma 1,0 Pojęcia podstawowe: ilustracja 2 Rozkład zmiennej Y w populacji U Schemat doboru: losowanie ze zwracaniem próby o liczebności n=2 Prawdopodobieństwa inkluzji i s Y 1 =y i Y 2 =y j P(Y 1 =y i )P(Y 2 =y j )P(s)S 2 (s)*S 2 (s) s1 220,1 0,012,00,00 s2 230,10,2 0,022,50,250,50 s3 250,10,3 0,033,52,254,50 s4 280,10,4 0,045,09,0018,00 s5 320,20,1 0,022,50,250,50 s6 330,2 0,043,00,00 s7 350,20,3 0,064,01,002,00 s8 380,20,4 0,085,56,2512,50 s9 520,30,1 0,033,52,254,50 s10 530,30,2 0,064,01,002,00 s11 550,3 0,095,00,00 s12 580,30,4 0,126,52,254,50 s13 820,40,1 0,045,09,0018,00 s14 830,40,2 0,085,56,2512,50 s15 850,40,3 0,126,52,254,50 s16 880,4 0,168,00,00 Zmienne losowe określone w przestrzeni prób Przestrzeń prób S Prawdopodobieństwa wylosowania prób STATYSTKI Rozkład statystyki
51
Estymator Statystyka f(s) = jest estymatorem populacyjnego parametru gdy służy do jego oszacowania Postulowane własności dobrego estymatora 1. Nieobciążoność 2. Efektywność Jeśli jest nieobciążony, to MSE oznacza mean squared error czyli średni kwadrat błędu estymatora Jeśli jest obciążony, to 2. Obciążenie estymatora
52
Obciążenie i efektywność estymatora Estymator nieobciążony, efektywny Estymator obciążony, efektywny Estymator nieobciążony, nieefektywny Estymator obciążony, nieefektywny Leży na przecięciu osi
53
Wariancja estymatora Tylko w wypadku estymatorów nieobciążonych można zadać pytanie: Jakie jest prawdopodobieństwo realizacji wartości estymatora różniących się od populacyjnego parametru nie więcej niż o c ? Precyzja odpowiedzi zależy od efektywności estymatora - jego „rozrzutu” względem Fundamentalny problem teorii doboru prób : wyznaczyć wariancję estymatora, także dla złożonych schematów losowania
54
Jak rozkład statystyki z próby zależy od parametrów populacji, z ktorej jest losowana
55
lpobiektWarstwaY (Y - ) 2 1u1u1 w1w1 1 4 2u2u2 w1w1 5 4 3u3u3 w1w1 2 1 4u4u4 w2w2 3 0 5u5u5 w2w2 3 0 6u6u6 w2w2 4 1 suma1810 Populacja U i populacyjne parametry zmiennej Y suma średnia *wariancja wariancja
56
Trzy rozkłady s4 u1u1 u4u4 13 1/3642,0 Y1Y1 Y2Y2 P(s) Próba s4 Populacja Teoria doboru próby bada relację między stanem populacji, schematem losowania i parametrami rozkładu statystyki z próby Statystyka z próby
57
Dobór prosty niezależny – losowanie ze zwracaniem nzal-stoch Wszystkie możliwe do wylosowania próby mają identyczne prawdopodobieństwo realizacji Wszystkie obiekty populacji u i mają identyczną szanse znalezienia się w każdej z prób s Wszystkie pary obiektów populacji ( u i, u j ) mają identyczną szanse znalezienia się w każdej z prób s Zmienne reprezentujące wartości zmiennej Y przyporządkowane obiektom n-lelementowej próby pobieranej z populacji U mają identyczne rozkłady i są od siebie stochastycznie niezależne
58
Wartości statystyki „średnia z próby” w przestrzeni wszystkich prób i jej rozkład prawdopodobieństwa Dobór prosty niezależny (losowanie ze zwracaniem) s P(s) s1 u1u1 u1u1 11 1/361,0 s2 u1u1 u2u2 15 1/363,0 s3 u1u1 u3u3 12 1/361,5 s4 u1u1 u4u4 13 1/362,0 s5 u1u1 u5u5 13 1/362,0 s6 u1u1 u6u6 14 1/362,5 s7 u2u2 u1u1 51 1/363,0 s8 u2u2 u2u2 55 1/365,0 s9 u2u2 u3u3 52 1/363,5 s10 u2u2 u4u4 53 1/364,0 s11 u2u2 u5u5 53 1/364,0 s12 u2u2 u6u6 54 1/364,5 s13 u3u3 u1u1 21 1/361,5 s14 u3u3 u2u2 25 1/363,5 s15 u3u3 u3u3 22 1/362,0 s16 u3u3 u4u4 23 1/362,5 s17 u3u3 u5u5 23 1/362,5 s18 u3u3 u6u6 24 1/363,0 s19 u4u4 u1u1 31 1/362,0 s20 u4u4 u2u2 35 1/364,0 s21 u4u4 u3u3 32 1/362,5 s22 u4u4 u4u4 33 1/363,0 s23 u4u4 u5u5 33 1/363,0 s24 u4u4 u6u6 34 1/363,5 s25 u5u5 u1u1 31 1/362,0 s26 u5u5 u2u2 35 1/364,0 s27 u5u5 u3u3 32 1/362,5 s28 u5u5 u4u4 33 1/363,0 s29 u5u5 u5u5 33 1/363,0 s30 u5u5 u6u6 34 1/363,5 s31 u6u6 u1u1 41 1/362,5 s32 u6u6 u2u2 45 1/364,5 s33 u6u6 u3u3 42 1/363,0 s34 u6u6 u4u4 43 1/363,5 s35 u6u6 u5u5 43 1/363,5 s36 u6u6 u6u6 44 1/364,0 W przestrzeni prób S określona została statystyka „ średnia wartości zmiennej Y”
59
Twierdzenia o rozkładach statystyk z próby przy doborze prostym niezależnym nzal-stoch średnia z próby zmienne Y i mają identyczne rozkłady Średnia z próby jest nieobciążonym estymatorem średniej populacyjnej
60
ileIle* 1,01 -2,04,0 1,52 -1,52,34,5 2,05 -1,01,05,0 2,56 -0,50,31,5 3,08 0,0 3,56 0,50,31,5 4,05 1,0 5,0 4,52 1,52,34,5 5,01 2,04,0 razem36 30,0 ileIle* 1,01 1 1,52 3 2,05 10 2,56 15 3,08 24 3,56 21 4,05 20 4,52 9 5,01 5 razem36 108 Rozkład średniej z próby w doborze prostym niezależnym
61
Twierdzenia o rozkładach statystyk z próby przy doborze prostym niezależnym nzal-stoch Dwie odmiany wariancji z póby Wartość oczekiwana *S 2 jest równa wariancji populacyjnej Czy w losowaniu SRS wariancja z próby jest nieobciążonym estymatorem wariancji populacyjnej
62
Dobór prosty niezależny (losowanie ze zwracaniem) Wartość statystyki ile razyile razy x 0,080 0,5126 2,01020 4,5418 8,0216 razem3660 sY1Y2 P(s) s1 11 1/36 1 00 s2 15 1/36 3 48 s312 1/361,50,250,5 s413 1/36212 s513 1/36212 s614 1/362,52,254,5 s7 51 1/36 3 48 s8 55 1/36 5 00 s9 52 1/36 3,5 2,254,5 s1053 1/36412 s1153 1/36412 s1254 1/364,50,250,5 s1321 1/361,50,250,5 s14 25 1/36 3,5 2,254,5 s15 22 1/36 2 00 s16 23 1/36 2,5 0,250,5 s1723 1/362,50,250,5 s1824 1/36312 s1931 1/36212 s2035 1/36412 s21 32 1/36 2,5 0,250,5 s22 33 1/36 3 00 s23 33 1/36 3 00 s2434 1/363,50,250,5 s2531 1/36212 s2635 1/36412 s2732 1/362,50,250,5 s28 33 1/36 3 00 s29 33 1/36 3 00 s30 34 1/36 3,5 0,250,5 s3141 1/362,52,254,5 s3245 1/364,50,250,5 s3342 1/36312 s3443 1/363,50,250,5 s35 43 1/36 3,5 0,250,5 s36 44 1/36 4 00 Wartość statystyki ile razyIle x 0,0080 0,25123 1,0010 2,2549 4,0028 razem3630 S 2 nie jest nieobciążonym estymatorem *S 2 jest nieobciążonym estymatorem
63
Dobór prosty zależny – losowanie bez zwracania Wszystkie możliwe do wylosowania próby mają identyczne prawdopodobieństwo realizacji Wszystkie obiekty populacji u i mają identyczną szanse znalezienia się w każdej z prób s Wszystkie pary różnych obiektów populacji ( u i, u j, i j) mają identyczną szanse znalezienia się w każdej z prób s Zmienne reprezentujące wartości zmiennej Y przyporządkowane obiektom n-lelementowej próby pobieranej z populacji U mają identyczne rozkłady i są od siebie stochastycznie zależne
64
Twierdzenia o rozkładach statystyk z próby przy doborze prostym zależnym średnia z próby zmienne Y i mają identyczne rozkłady lecz nie są niezależne ! zmienne Y i mają identyczne rozkłady lecz nie są niezależne i dlatego wariancja ich sumy nie jest równa sumie wariancji jej składników
65
s s2 u1u1 u2u2 15 1/30 3,04,008,00 s3 u1u1 u3u3 12 1/30 1,50,250,50 s4 u1u1 u4u4 13 1/30 2,01,002,00 s5 u1u1 u5u5 13 1/30 2,01,002,00 s6 u1u1 u6u6 14 1/30 2,52,254,50 s7 u2u2 u1u1 51 1/30 3,04,008,00 s9 u2u2 u3u3 52 1/30 3,52,254,50 s10 u2u2 u4u4 53 1/30 4,01,002,00 s11 u2u2 u5u5 53 1/30 4,01,002,00 s12 u2u2 u6u6 54 1/30 4,50,250,50 s13 u3u3 u1u1 21 1/30 1,50,250,50 s14 u3u3 u2u2 25 1/30 3,52,254,50 s16 u3u3 u4u4 23 1/30 2,50,250,50 s17 u3u3 u5u5 23 1/30 2,50,250,50 s18 u3u3 u6u6 24 1/30 3,01,002,00 s19 u4u4 u1u1 31 1/30 2,01,002,00 s20 u4u4 u2u2 35 1/30 4,01,002,00 s21 u4u4 u3u3 32 1/30 2,50,250,50 s23 u4u4 u5u5 33 1/30 3,00,00 s24 u4u4 u6u6 34 1/30 3,50,250,50 s25 u5u5 u1u1 31 1/30 2,01,002,00 s26 u5u5 u2u2 35 1/30 4,01,002,00 s27 u5u5 u3u3 32 1/30 2,50,250,50 s28 u5u5 u4u4 33 1/30 3,00,00 s30 u5u5 u6u6 34 1/30 3,50,250,50 s31 u6u6 u1u1 41 1/30 2,52,254,50 s32 u6u6 u2u2 45 1/30 4,50,250,50 s33 u6u6 u3u3 42 1/30 3,01,002,00 s34 u6u6 u4u4 43 1/30 3,50,250,50 s35 u6u6 u5u5 43 1/30 3,50,250,50 Dobór prosty zależny (losowanie bez zwracania) ile Ile x 1,522,254,50 2,041,004,00 2,560,251,50 3,060,00 3,560,251,50 4,041,004,00 4,522,254,50 30 20,00
66
Twierdzenia o rozkładach statystyk z próby przy doborze prostym zależnym Wariancje z próby mają teraz inne wartości więc ich wartości oczekiwane są inne niż poprzednio Wartość oczekiwana *S 2 jest równa odciążonej wariancji populacyjnej
67
wariancja S 2 ileIle x S 2 0,00 20 0,25 123 1,00 10 2,25 49 4,00 28 razem 30 S2S2 *S 2 *wariancja *S 2 ileIle x *S 2 0,0 20 0,5 126 2,0 1020 4,5 418 8,0 216 razem 3060 Wartość oczekiwana wariancji z próby w doborze prostym zależnym (bez zwracania)
68
Dobór prosty niezależny i zależny z praktycznego punktu widzenia Gdy liczebność próby stanowi niewielką część liczebności populacji, z której jest losowana, parametry rozkładu statystyk z próby przy doborze zależnym tylko nieznacznie różnią się od parametrów rozkładów statystyk przy doborze niezależnym. Aby się o tym przekonać, wystarczy sprawdzić wartości współczynnika fpc który różnicuje oba schematy losowania W badaniach społecznych rzadko spotyka się sytuacje, w których
69
Dobór warstwowy Definicja (Bracha, 1996) 1.Dla każdego h= 1, 2, …, L ustalone są liczebności próby n h spełniające warunek: h: 2 n h N h a przynajmniej dla jednego h jest n h N h (gdy n h =1 wariancja zmiennej Y w pod-próbie jedno-elementowej jest równa gdy n h = N h wszystkie elemnty warstwy h są wylosowane i wariancja średniej z warstwy jest równa 0 ) Oznaczenia 2.Z każdej warstwy h= 1, 2, …, L losuje się n h elementów 3.Wyniki losowania z warstw są względem siebie niezależne (stochastycznie) Warstwowanie populacji Alokacja próby między warstwy
70
lpobiektWarstwaY 1u1u1 w1w1 1 2u2u2 w1w1 5 3u3u3 w1w1 2 4u4u4 w2w2 3 5u5u5 w2w2 3 6u6u6 w2w2 4 suma18 E(Y)3 D 2 (Y)1,667 Dobór warstwowy - wprowadzenie nr warstwyh12suma liczebność warstwy NhNh 336 waga warstwy WhWh 0,5 1 średnia w warstwie h 2,673,33 wariancja w warstwie 2,890,22 WhWh 1,331,67 3 WhWh 1,440,11 1,56 0,11 WhWh 0,06 0,11 Agregacja średnich Agregacja wariancji Jest nieobciążonym estymatorem
71
Dobór warstwowy WOR Twierdzenia o ważeniu estymatorów warstwowych nieobciążony estymator średniej populacyjnej jest sumą ważoną wagami warstw nieobciążonych estymatorów średnich w warstwach wariancja estymatora średniej populacyjnej jest sumą ważoną kwadratami wag warstw estymatorów wariancji średnich w w warstwach Nieobciążony estymator wariancji estymatora średniej populacyjnej dla losowania bez zwracania Jeśli warstwy populacyjne mają wystaczająco duże liczebności, warstwowe współczynniki fpc są tak bliskie 1, że praktycznie można je pominąć. Pomijanie współczynników fpc w niewielkim stopniu zawyża oszacowanie wariancji estymatora średniej
72
Dobór warstwowy bezzwrotny Jedna warstwa L warstw Nieobciążony estymator Y Nieobciążony estymator wariancji estymatora średniej populacyjnej D 2 ( )
73
Warstwa Y S1S2S3S4S5S6S7S8S9 w1w1 1111111 w1w1 5555555 w1w1 2 222222 w2w2 3333333 w2w2 3333333 w2w2 4 44 44 44 suma 18 suma 1213 910 1314 średnia 3 31,5 3,5 Wariancja 5/333,5 3 3 sumaśrednia 33,25 2,252,50 3,253,50 27 3 Dobór warstwowy alokacja proporcjonalna: estymacja średniej Liczba elementów losowanych z warstwy jest proporcjonalna do udziału liczebności elementów tej warstwy w populacji Przy proporcjonalnej alokacji próby między warstwy średnia z próby wyznaczana jest jak w doborze prostym
74
Warstwa Y ii S1S2S3S4S5S6S7S8S9 w1w1 16/9111111 w1w1 5 555555 w1w1 2 222222 w2w2 3 333333 w2w2 3 333333 w2w2 4 44 44 44 sumaśrednia Estymator sumy 1819,5 13,515 19,521 16218 Prawdopodobieństwo inkluzji elementu i z warstwy h jest identyczne dla wszystkich warstw Dobór warstwowy zależny alokacja proporcjonalna: estymacja sumy Wobec tego Nowa statystyka: estymator populacyjnej sumy wartości Powyższa statystyka jest nieobciążónym estymatorem sumy wartości Y w populacji
75
Dobór warstwowy alokacja proporcjonalna: estymacja wariancji estymatora WarstwaY S1S2S3S4S5S6S7S8S9suma średnia w1w1 1111111 w1w1 5555555 w1w1 2 222222 w2w2 3333333 w2w2 3333333 w2w2 4 44 44 44 suma18 1213 910 1314 16218 średnia 333,25 2,252,50 3,253,50 273 Wariancja 5/3 0,0000,063 0,5630,250 0,0630,250 1,750,194 8880,5 4,5 00,5 0 0 0,3330,354 0,0210,042 0,1880,208 1,750,194 Wariancja estymatora średniej populacyjnej zależy od wewnątrzwarstwowych wariancji zmiennej Y, liczebności warstw oraz liczebnbości prób warstwowych Estymacja wariancji estymatora średniej populacyjnej
76
Dobór warstwowy zależny alokacja nie-proporcjonalna 1 – 3 alocationnounitstrataYs1s2s3 s1s2s3 1u1u1 w1w1 1u1u1 1 12u2u2 w1w1 5u2u2 5 3u3u3 w1w1 2 u3u3 2 4u4u4 w2w2 3u4u4 u4u4 u4u4 333 35u5u5 w2w2 3u5u5 u5u5 u5u5 333 6u6u6 w2w2 4u6u6 u6u6 u6u6 444 n = 4total18111512 3,00 2,753,753,00 5/3 Gdy próba warstwowa nie jest alokowana proporcjonalnie do wielkości warstw zwykła średnia z próby nie jest nieobciążonym estymatorem sredniej populacyjnej Gdy próba warstwowa nie jest alokowana proporcjonalnie do wielkości warstw jednostki z różńych warstw mają różne prawdopodobieństwa inkluzji
77
Dobór warstwowy zależny alokacja nie-proporcjonalna 1 – 3 P-two inkluzji Waga analityczna alokacjanoobiektwarstwa Ys1s2s3 s1s2s3 ii i s1s2s3 1u1u1 w1w1 1u1u1 10,3333,00300 12u2u2 w1w1 5u2u2 50,3333,000150 3u3u3 w1w1 2 u3u3 20,3333,00006 4u4u4 w2w2 3u4u4 u4u4 u4u4 3331,0001,00333 35u5u5 w2w2 3u5u5 u5u5 u5u5 3331,0001,00333 6u6u6 w2w2 4u6u6 u6u6 u6u6 4441,0001,00444 Suma ważona n = 4total18Suma nieważona 111512 1325165418 3 1,005,002,00 5/3 3,33 3,104,172,67
78
Dobór warstwowy zależny alokacja nie-proporcjonalna 3 - 1 P-two inkluzji Waga analityczna alokacjanoobiektwarstwaYS1S2S3 S1S2S3 ii 1/ i S1S2S3 1u1u1 w1w1 1u1u1 u1u1 u1u1 111 1,0001,00111 3 2u2u2 w1w1 5u2u2 u2u2 u2u2 555 1,0001,00555 3u3u3 w1w1 2u3u3 u3u3 u3u3 222 1,0001,00222 4u4u4 w2w2 3u4u4 3 0,3333,00900 1 5u5u5 w2w2 3u5u5 3 0,3333,00090 6u6u6 w2w2 4 u6u6 4 0,3333,000012 Suma ważona total18 Suma nieważona 11 12 17 205418 32,67 5/33,00 4,00 2,83 3,33
79
Własności doboru warstwowego Dobór warstwowy propoprcjonalny może być bardziej efektywny od doboru prostego z tą samą liczebnością próby – wariancja estymatora średniej populacyjnej może być niższa niż wariancja w doborze warstwowym niż prostym. W konsekwencji dokładność oszacowań parametrów populacji na podstawie próby dobieranej warstwowo może być lepsza niż osiągana przy doborze prostym. Możliwość poprawienia efektywności estymacji przy użyciu warstwowego doboru próby rzadko zależy od badacza, gdyż w praktyce populacja jest warstwowana przez zmienne demograficzne a nie zmienne, których badanie dotyczy
80
Warstwowanie populacji w praktyce Warstwowanie populacji jest zazwyczaj niezależne od badacza. Typowe warstwy są definiowane przez zmienne, których rozkłady populacyjne są znane. Tylk wtedy znane są ich liczebności. Oznacza to, że w badaniach społecznych do warstwowania służą najczęściej płeć, wiek i miejsce zamieszkania. Rzadko stosowane są takie zmienne jak wykształcenie i aktywność zawodowa, gdyż ich populacyjne rozkłady zmieniają się szybciej a z powodu polityki informacyjnej GUS trudno uzyskać oszacowanie ich łącznego rozkładu z pozostałymi zmiennymi stratyfikacyjnymi, choć GUS dysponuje ich aktualnymi populacyjnymi szacunkami. Warstwowanie populacji jest zazwyczaj niezależne od badacza. Typowe warstwy są definiowane przez zmienne, których rozkłady populacyjne są znane. Tylk wtedy znane są ich liczebności. Oznacza to, że w badaniach społecznych do warstwowania służą najczęściej płeć, wiek i miejsce zamieszkania. Rzadko stosowane są takie zmienne jak wykształcenie i aktywność zawodowa, gdyż ich populacyjne rozkłady zmieniają się szybciej a z powodu polityki informacyjnej GUS trudno uzyskać oszacowanie ich łącznego rozkładu z pozostałymi zmiennymi stratyfikacyjnymi, choć GUS dysponuje ich aktualnymi populacyjnymi szacunkami. Efektywność warstwowego doboru próby daje się zatem ocenić w sposób pośredni i dopiero po przeprowadzeniu badania, wtedy bowiem daje się oszacować rozmiary wariancji zmiennych będących przedmiotem badania w warstwach definiowanych przez zmienne demograficzne
81
Efektywność (dokładność) oszacowań a schemat doboru próby Czyli o wariancji estymatorów
82
Dokładność oszacowań średniej a schemat doboru Dokładność oszacowania d zależy od: 1.Wariancji zmiennej Y, w populacjji, którą trzeba oszacować na podstawie tej samej próby 2.Wariancji wewnątrz warstw w populacji, zwykle nieznanych (dla doboru warstwowego) 3.Liczebności próby i schematu losowaniazależnych zwykle od budżetu badania 4.Rozkładu estymatora średniej 5.Poziomu ufności (założonego przez badacza) Dokładność oszacowania d zależy od: 1.Wariancji zmiennej Y, w populacjji, którą trzeba oszacować na podstawie tej samej próby 2.Wariancji wewnątrz warstw w populacji, zwykle nieznanych (dla doboru warstwowego) 3.Liczebności próby i schematu losowaniazależnych zwykle od budżetu badania 4.Rozkładu estymatora średniej 5.Poziomu ufności (założonego przez badacza) Przy ustalonej wariancji zmiennej Y w populacji wariancja estymatora populacyjnej średniej zależy od sposobu losowania póby: jej liczebności, schematu losowania i wariancji w warstwach SRSWR SRSWOR Dokładność oszacowania średniej przy założeniu, że estymator średniej jest nieobciążony a jego rozkład wystarczxająco zbliżony do rozkładu normalnego N( , σ/ n) Oba proste schematy doboru dają praktycznie identyczną dokładność oszacowań średniej
83
Jak wyrazić jakość oszacowania zależną od schematu doboru próby W przykładach doboru warstwowego wariancja estymatora zależała od sposobu nieproporcjonalnej alokacji próby między warstwy – raz była mniejsza, raz większa od wariancji uzyskanej w doborze proporcjonalnym. Różniła się również od wariancji uzyskanej przy doborze prostym. 1.Porównaj wariancję estymatora dla danego schematu losowania z wariancją tego samego estymatora uzzyskiwaną dla doboru prostego przy tej samej liczebności próby. 2.Iloraz obu wariancji to względny wpływ schematu doboru na waariancję estymatora, po angielsku design effect, w skrócie DEFF. Idea oceny miary jakosci oszacowań
84
DEFF sd oznacza tu „sampling design” czyli schemat losowania W praktyce różnica między schematami doboru prostego SRS i SWOR jest do pominięcia
85
Co mówi współczynnik DEFF o dokładności oszacowań DEFF sd < 1 DEFF sd > 1 Schemat doboru sd poprawia dokładność oszacowań Schemat doboru sd pogarsza dokładność oszacowań
86
SRSWOR schemat doboru warstwowego wariancja estymatora średniej DEFFsqrt(DEFF) SRSWOR 0,167 2 - 20,1941,171,08 schemat doboru warstwowego wariancja estymatora średniej DEFFsqrt(DEFF) SRSWOR 0,167 3 -10,0560,330,58 schemat doboru warstwowego wariancja estymatora średniej DEFFsqrt(DEFF) SRSWOR 0,167 1 -30,7224,332,08
87
Dobór zespołowy Kiedy – przykłady – dlaczego Na czym polega Obciążenie i wariancja estymatora Efektywność – design effect – intraclass correlation
88
Użycie próby zespołowej podyktowane jest najczęściej względami praktycznymi. kłopoty związane ze sporządzeniem lub znalezieniem odpowiedniego operatu losowania losowanie zespołowe jest tańsze i łatwiejsze w obsłudze od innych schematów (wyjąwszy może próbę systematyczną) nie wymaga więc zatrudnienia wysoko wykwalifikowanych pracowników. Jeżeli np. zespołami są obwody spisowe, to nie trzeba dysponować imiennymi listami mieszkańców wszystkich obwodów, lecz tylko tych, które zostały wylosowane. Bywa też, że dostęp do jednostek badania w zbiorowości generalnej jest trudny i wtedy z konieczności trzeba zastosować losowanie zespołowe (uczniowie !). Użycie próby zespołowej podyktowane jest najczęściej względami praktycznymi. kłopoty związane ze sporządzeniem lub znalezieniem odpowiedniego operatu losowania losowanie zespołowe jest tańsze i łatwiejsze w obsłudze od innych schematów (wyjąwszy może próbę systematyczną) nie wymaga więc zatrudnienia wysoko wykwalifikowanych pracowników. Jeżeli np. zespołami są obwody spisowe, to nie trzeba dysponować imiennymi listami mieszkańców wszystkich obwodów, lecz tylko tych, które zostały wylosowane. Bywa też, że dostęp do jednostek badania w zbiorowości generalnej jest trudny i wtedy z konieczności trzeba zastosować losowanie zespołowe (uczniowie !). Dobór zespołowy: kiedy – dlaczego
89
Populacja podzielona jest na K zespołów Populacja dorosłych mieszkańców Polski: 16 województw 380 powiatów 2478 gmin 28000 obwodów wyborczych 55 000 miejscowości 7 300 000 budynków 13 000 000 mieszkań 16 000 000 gospodarstw domowych Populacja uczniów szkół podstawowych: szkoły podstawowe roczniki w szkołach podstawowych oddziały w ramach tego samego rocznika Populacja aktywnych zwodowo: zatrudnieni w firmach 10+ zatrudnieni w firmach 2-9 zatrudnieni (samo-zatrudnieni) w firmach 1-os Przeciętna wielkość zespołu w populacji Spośród K zespołów w populacji wylosowano k << K Przeciętna wielkość zespołu wylosowanego Dobór zespołowy: oznaczenia - przykłady
90
Wartość zmiennej Y dla i-tego obiektu w zespole j-tym Suma zmiennej Y w zespole j-tym Średnia zmiennej Y w zespole j-tym Średnia Y w populacji Suma zmiennej Y w populacji Dobór zespołowy: oznaczenia Przeciętna suma wartości zmiennej Y w zespole Wariancja zmiennej Y w zespole j-tym
91
Spośród K zespołów w populacji losujemy k Próbę n-elementową stanowią wszystkie obiekty z zespołów wylosowanych Spośród K zespołów w populacji losujemy k Próbę n-elementową stanowią wszystkie obiekty z zespołów wylosowanych Warianty losowania zespołowego: PPS WR – proste losowanie ze zwracaniem prawdopodobieństwami proporcjonalnymi do liczby obiektów w zespole SRS WOR - proste losowanie bez zwracania z prawdopodobieństwami identycznymi dla wszystkich zespołów Na czym polega dobór zespołowy Pakiet SPSS nie umie obsłużyć losowania zespołowego PPSWR (jako pierwszego kroku doboru wielostopniowego), tylko PSSWOR
92
Z wylosowanego do próby zespołu trafiają wszystkie jego elementy, Wobec teggo: 1.Dla wylosowanych n j =N j 2.W wylosowanych zespołach j=1,2,…,k średnie i wariancje są takie same jak w populacji 1.Dla wylosowanych n j =N j 2.W wylosowanych zespołach j=1,2,…,k średnie i wariancje są takie same jak w populacji Na czym polega dobór zespołowy
93
Własności estymatorów w doborze zespołowym: średnia Estymacja średniej SRSWOR PPS WR Co oznacza, że ten sam zespół może być wylosowany więcej niż jeden raz Zwykła suma wartości zmiennej w w próbie dzielona przez oczekiwaną liczebność próby Jest nieobciążonym estymatorem średniej populacyjnej Średnia średnich zespołowych Sumę wartości zmiennej w próbie trzeba dzielić przez kN/K, czyli oczekiwaną liczebność póby a nie faktyczną; SPSS sam tego nie wykona
94
SRSWOR Wariancja sum zespołowych w próbie Wariancja sum zespołowych w populacji Własności estymatorów w doborze zespołowym: wariancja średniej Wariancja estymatora średniej Oszacowanie wariancji estymatora średniej na podstawie próby
95
PPSWR Odciążona wariancja średnich zespołowych w próbie Przeciętna wariancja średnich zespołowych w populacji Zespół traktuje się jak jednostkę obserwacji, wartością cechy dla jednostki jest średnia zespołowa j, liczbę losowanych zespołów k traktuje się jak liczebność próby: Dokładność oszacowania średniej jest proporcjonalna do liczby losowanych zespołów Nie udało mi się znaleźć formuły opisującej wariancję średniej dla doboru PPS lecz bez zwracania; posłużymy się DEFF Własności estymatorów w doborze zespołowym: wariancja średniej Wariancja estymatora średniej Oszacowanie wariancji estymatora średniej na podstawie próby
96
Efektywność losowania zespołowego jest wprost proporcjonalna do zróżnicowania jednostek w obrębie zespołów, czyli ich wewnętrzna zmienność (wariancja wewnątrzzespołowa) powinna być możliwie jak największa, co jednocześnie oznacza, że zmienność między zespołami (wariancja międzyzespołowa) powinna być możliwie mała. Efektywność doboru zespołowego Problem w tym, że w socjologii jednostki wewnątrz zespołów są do siebie raczej zbliżone i w efekcie dobór zespołowy jest mniej efektywny niż dobór prosty. Rho to współczynnik jednorodności zespołów ze względu na rozproszenie (wariancję) zmiennej Y. Nietrafnie nazywany jest współczynnikiem korelacji wewnątrz-zespołowej (ang. ICC – intra-class correlation coefficient)
97
Wpółczynnik jednorodności warstw (intraclass correlation coefficient) Wewnątrz każdego zespołu tworzy się N j (N j -1)/2 par różnych jego elementów Każdy element pary porównywany jest ze średnią zmiennej Y w całej populacji Iloczyny tych odchyleń sumuje się. Suma może być ujemna. Sumę uśrednia się liczbą porównywanych odległości Efektywność doboru zespołowego: ICC w wersji klasycznej
98
Suma iloczynów odchyleń od średniej populacyjnej Liczba iloczynów odchyleń Wariancja całkowita Y w populacji Rho-y (ICC Y ) wyraża frakcję całkowitej wariancji Y „za którą odpowiedzialne są różnice między zespołami”. Efektywność doboru zespołowego: ICC w wersji klasycznej
99
ClusterNjNj MinimumMaximumMeanSDD2D2 136052,141,22 1,49 225042,041,06 1,12 316052,061,39 1,93 49142,111,05 1,11 516496,691,54 2,36 6253107,241,59 2,52 7364107,641,51 2,29 8494107,781,5 2,26 razem2120105,33,01 9,05 Y 4i - Y -4,30 -3,30 -2,30 -1,30 Y 4i - Y Y 4i 111222334 suma -4,30 1 18,49 14,19 9,89 5,59104,92 -4,30 1 18,4914,19 9,89 5,5986,43 -4,30 1 14,19 9,89 5,5967,94 -3,30 2 10,89 7,59 4,2941,25 -3,30 2 10,897,59 4,2930,36 -3,30 2 7,59 4,2919,47 -2,30 3 5,292,998,28 -2,30 3 2,99 -1,30 4 suma361,64 Wyznaczanie sumy iloczynów odchyleń wewnątrz zespołu nr 4 Efektywność doboru zespołowego: ICC w wersji klasycznej – przykład obliczeń
100
ICC wysokie: zespoły są jednorodne – mało zróżnicowane a całkowita wariancja Y jest w wysokim stopniu efektem różnic między nimi ICC niskie: zespoły są wielce zróżnicowane a całkowita wariancja Y jest w niskim stopniu efektem różnic między nimi Efektywność doboru zespołowego: ICC w wersji klasycznej - ilustracja Dlaczego małe ICC jest dobre
101
ICC jest parametrem populacyjnym, który w swojej klasycznej wersji może przybierać wartości ujemne. Jego estymator z próby jest nieobciążony. Estymator ICC wyznaczany na podstawie prób losowanych z populacji, w której podział na zespoły nie różnicuje wartości Y ma rozkład wokół 0. ICC jest niezwykle podobny do eta-kwadrat zmiennej Y ze względu na zmienną X K =1,2, …K (numer zespołu). Wówczas eta-kwadrat to % całkowitej wariancji Y jaki stanowi wariancja średnich warunkowych Y|X K czyli „odsetek całkowitej wariancji Y wyjaśniony przez przynależność do grupy” Dobór zespołowy: ICC w wersji klasycznej
102
Całkowita (TOTAL) suma kwadratów Między-grupowa (BETWEEN groups) suma kwadratów Wewnątrz-grupowa (WITHIN groups) suma kwadratów Dobór zespołowy: ICC w wersji współczesnej Różnice między średnimi grupowymi Zróżnicowanie wewnątrz grup W każdym zespole Y ma taką samą średnią W każdym zespole Y przyjmuje tylko jedną wartość
103
Dobór systematyczny Kiedy – dlaczego Na czym polega Przykład prosty Obciążenie i wariancja estymatora Dobór systematyczny wielokrotny
104
W praktyce sondażowej losowanie systematyczne prowadzi się także bez operatu w badaniach typu „exit-poll”, gdzie osoby wychodzące skądś (przechodzące obok) defimują strumień potencjalnych respondentów. Z którego trzeba wybrać co k-tego. Natężenie tego strumienia oraz rozkład cechy Y są w takich sytuacjach silnie zależne od pory dnia, roku i innych okoliczności definiujących cyklicznie parametry strumienia. Zwykle przed badaniem trudno je ustalić. Ze wzglęu na łatwość losowego porządkowania operatu (jeśli jest w wersji elektronicznej) warto poprzedzić losowanie systematyczne randomizacją porządku Losowanie systematyczne: dlaczego
105
Założenie: elementy populacji da się ponumerować – uporządkować i nadać numery porządkowe. Do próby wybiera się elementy zajmujące w uporządkowaniu miejsce odległe o tę samą liczbę pozycji, nazywaną interwałem losowania lub skokiem (np. co piąty, co trzynasty etc.) Oznaczmy interwał (skok) przez k liczebność próby przez n Punkt startowy przez 1 r k Wariant 1: N = nk liczebność populacji jest wielokrotnością interwału i liczebności próby; r-ta próba składa się z obiektów o numerach porządkowych r, r+k, r+2k, r+3k,..., r+ik,..., r+(n-1)k Wariant 1: N = nk liczebność populacji jest wielokrotnością interwału i liczebności próby; r-ta próba składa się z obiektów o numerach porządkowych r, r+k, r+2k, r+3k,..., r+ik,..., r+(n-1)k Zbiór możliwych prób systematycznych wynosi k Losowanie systematyczne ma dwa warianty Dobór systematyczny: oznaczenia i warianty
106
lpobiektYr=1r=2r=3 1u1u1 11 2u2u2 51 3u3u3 21 4u4u4 31 5u5u5 31 6u6u6 41 τYτY 18 YY 3 σ2Yσ2Y 5/3 Dobór systematyczny, wariant 1: N=nkN=6, n=2, k=3 P(s ) sisi 1/3 1 u1u1 u4u4 13 21 2 u2u2 u5u5 53 41 3 u3u3 u6u6 24 31
107
Wariant 2: N nk. Jest o sytuacja najczęstsza w praktyce - liczebność próby założona nie dzieli bez reszty liczebności populacji. W takich przypadkach dla dowolnego r, 1 r k, do próby nie dostają się elementy o numerach porządkowych wyższych niż nk + MOD(N/n) a niższych niż [nk + MOD(N/n)] Problem gubienia obiektów można rozwiązać na dwa sposoby: 1.Pogodzić się z gubieniem i ograniczyć liczebność próby do pierwszych n wylosowanych obiektów. Wynikające stąd obciążenie estymatora będzie niewielkie gdy liczebność próby jest niewielką częścią liczebności populacji. 2.Zastosowaæ kołowe losowanie systematyczne. Polega ono na losowaniu jednej liczby: 1 < r< N, a następnie na włączaniu do próby obiektów o numerach :..., r - 3 k, r - 2 k, r - k, r, r + k, r + 2 k, r + 3 k,... Zauważmy jednak, że w praktyce n N, co oznacza,że reszta z dzielenia N przez n ( [MOD(N/n)]/N ) jest niewielką częścią populacji i (podobnie jak z fpc ) nie ma znaczenia dla dokładności oszacowań. Pod warunkiem, że uporządkowanie obiektów nie zależy od wartości cechy Y Co 3k =3 r = 1234 114710 225811 336912 4471013 5 6 7 8 9 10 11 12 13 14= N Dobór systematyczny, wariant 2: N nk
108
Próba systematyczna stanowi efekt wyboru co k-tego obiektu populacji przy czym pierwszy obiekt - od którego zaczyna się pobieranie próby - wyznacza się losowo. Pod wieloma względami jest podobna do próby losowanej warstwowo, przy czym warstwy są równoliczne zaś z każdej z nich losowany jest jeden obiekt Jest też podobny do doboru zespołowego, gdyż spośród k zespołów (możliwych prób systematycznych) losuje się dokładnie jeden, a wybór zespołu zależy od wyniku losowania pierwszego elementu Dobór systematyczny : własności estymatorów
109
Jeśli N=nk estymator jest nieobciążony Jeśli N nk estymator jest obciążony lecz obciążenie dla n << N jest do pominięcia Wariancja estymatora średniej jest wyznaczona w k- elementowej przestrzeni prób S, natomiast jej oszacowanie trzeba wykonać przy użyciu tylko jednej z nich. Średnia zmiennej Y w n-elementowej próbie wylosowanej przy użyciu punktu startowego r
110
Wariancja estymatora średniej w doborze systematycznym Przeciętne kwadrat odchylenia obiektów z tej samej próby od średniej Y w tejj próbie; im poszczególne próby są bardziej wewnętrznie zróżnicowane, tym wariancja estymatora jest mniejsza Dobór systematyczny jest bardziej efektywny od doboru prostego jeśli obiekty w tej samej próbie systematycznej będą silnie zróżnicowane, a mniej efektywny, jeśli różnice między nimi będą niewielkie. Jeśli średnia wariancja wewnątrz prób systematycznych jest równa wariancji tej zmiennej w całej populacji – dobór systematyczny jest tak samo efektywny jak dobór prosty. Widać, że dokładność oszacowania zależy od uporządkowania populacji ze względu na wartości zmiennej Y, które zazwyczaj nie jest znane. Randomizacja uporządkowania jest rutynowym sposobem zabezpieczenia przed ryzykiem typu „bad luck ordering”.
111
Wariancja estymatora średniej w złożonym doborze systematycznym 1.Z populacji losujemy g pod-prób przy interwale losowania k = Ng/n, gdzie n oznacza docelową liczebność próby. 2.Każda pod-próba składa się m obiektów ( m = n/g ). 3.Punkt startowy dla każdej z g pod-prób wyznaczamy wśród pierwszych k obieków poulacji 1.Z populacji losujemy g pod-prób przy interwale losowania k = Ng/n, gdzie n oznacza docelową liczebność próby. 2.Każda pod-próba składa się m obiektów ( m = n/g ). 3.Punkt startowy dla każdej z g pod-prób wyznaczamy wśród pierwszych k obieków poulacji Szacowanie wariancji estymatora średniej na podstawie mniejszych prób systematycznych, które łącznie tworzą próbę o docelowej liczebności daje nieobciążone oszacowanie zarówno średniej jak i jej wariancji. Jest nieobciążonym estymatorem Jest nieobciążonym estymatorem wariancji estymatora średniej
112
Wielostopniowe schematy doboru
113
Estymacja przy złożonym schemacie doboru W złożonym schemacie doboru mamy do czynienia z tymi samymi fundamentalnymi problemami: 1.Znalezieniem nieobciążonego estymatora parametru populacji 2.Wyznaczeniem jego wariancji W złożonym schemacie doboru mamy do czynienia z tymi samymi fundamentalnymi problemami: 1.Znalezieniem nieobciążonego estymatora parametru populacji 2.Wyznaczeniem jego wariancji Znalezienie nieobciążonego estymatora parametru populacji a)Estymacja populacyjnej sumy wartości zmiennej estymatorem HT b)Zdefiniowanie parametru populacji jako funkcji populacyjnych sum Znalezienie nieobciążonego estymatora parametru populacji a)Estymacja populacyjnej sumy wartości zmiennej estymatorem HT b)Zdefiniowanie parametru populacji jako funkcji populacyjnych sum
114
Estymacja przy złożonym schemacie doboru Wyznaczenie wariancji estymatora a)Wyliczenie wariancji estymatora HT dla prostych schematów doboru b)Replikacyjny schemat doboru próby (BRR) c)Linearyzacja funkcji definiującej estymator populacyjnego parametru (Taylor) d)Re-sampling (jacknife, bootstrap) Wyznaczenie wariancji estymatora a)Wyliczenie wariancji estymatora HT dla prostych schematów doboru b)Replikacyjny schemat doboru próby (BRR) c)Linearyzacja funkcji definiującej estymator populacyjnego parametru (Taylor) d)Re-sampling (jacknife, bootstrap)
115
Szacowanie sumy wartości zmiennej w populacji Jest nieobciążony Wariancja estymatora sumy Oszacowanie wariancji estymatora sumy na podstawie próby Rozwiązanie to jest ogólne – dla dowolnego schematu losowania Estymator H-T Wymaga jednak znajomości prawdopodobieńst inkluzji drugiego rzędu, których wyznacznie dla nie-prostych schematów losowania bywa skomplikowane, gdyż nie są one identyczne dla wszystkich par obiektów populacji
116
warstwa h wiązka j 123 N hj 122 288 355 410 555 655 755 8 9 NhNh 203060 Wyznaczanie prawdopodobieństw inkluzji pierwszego rzędu w doborze wielostopniowym 3 warstwy - 9 wiązek - 60 obiektów Schemat doboru: 1.Losowanie zespołowe wiazek z warstw 2.Losowanie obiektów z wiązek wylosowanych w kroku 1. Parametry schematu: 1.Liczba wiązek losowanych – 6 2.Alokacja liczby losowanych wiązek między warstwy : nh1=1, nh2=2, nh3=3 3.Sposób losowania wiązek: PPS WOR 4.Liczba obiektów losowanych z każdej wiązki: 2 5.Liczebność próby: 6 x 2 = 12
117
warstwa h Numeryobiektów wiązka j 123 N hj hji nhnh 122 12 1010,201,000,25 288 310 10,800,250,25 355 1115 2020,500,400,25 410 1625 2021,000,200,25 555 2630 2020,500,400,25 655 3135 3030,500,400,25 755 3640 3030,500,400,25 810 4150 3031,000,200,25 910 5160 3031,000,200,25 NhNh 10203060 Wyznaczanie prawdopodobieństw inkluzji w doborze wielostopniowym n h – liczba wiązek losowanych z warstwy h P-two wylosowania wiązki j z warstwy h P-two wylosowania obiektu i z warstwy h z wiązki j Prawdopodobieństwo inkluzji Przykład 2 Excel
118
Wyznaczanie prawdopodobieństw inkluzji drugiego rzędu w doborze wielostopniowym Jest zadaniem trudnym dla schematów złożonych, zwłaszcza, gdy na żadnym etapie losowanie nie jest niezależne, a czassami niewykonalne, gdy brak jest kompletu populacyjnych statystyk dotyczących wielkości warstw i wiązek
119
s1s2s3s4s5s6s7s8s9s10s11s12s13s14s15 ii 1/ i u1u1u1 u1u1 u1u1 u1u1 u1u1 u1u1 u1u1 u1u1 u1u1 u1u1 10/15 15/10 u2u2u2 u2u2 u2u2 u2u2 u2u2 u2u2 u2u2 u2u2 u2u2 u2u2 10/15 15/10 u3u3u3 u3u3 u3u3 u3u3 u3u3 u3u3 u3u3 u3u3 u3u3 u3u3 10/15 15/10 u4u4u4 u4u4 u4u4 u4u4 u4u4 u4u4 u4u4 u4u4 u4u4 u4u4 10/15 15/10 u5u5u5 u5u5 u5u5 u5u5 u5u5 u5u5 u5u5 u5u5 u5u5 u5u5 10/15 15/10 u6 u6u6 u6u6 u6u6 u6u6 u6u6 u6u6 u6u6 u6u6 u6u6 u6u6 10/15 15/10 Podsumowanie własności schematów doboru prostego n=4 N=6 L=2 ij u1u2u3u4u5u6 u1 6/15 u2 6/15 u3 6/15 u4 6/15 u5 6/15 u6 SRS WOR Proste losowanie 4 spośród 6 bez zwracania Prawdopodobieństw inkluzji drugiego rzędu w doborze prostym N=6 L=2 W doborze prostym każda para obiektów populacji ma takie samo prawdopodobieństwo znalezienia się w próbie
120
Podsumowanie własności schematów doboru prostego n=4 N=6 L=2 s4s5s6s7s8s9s10s11s12 ii 1/ i ij u1u2u3u4u5u6 u1 u1u1 u1u1 u1u1 u1u1 u1u1 u1u1 6/9 9/6 u1 3/9 u2 u2u2 u2u2 u2u2 u2u2 u2u2 u2u2 6/9 9/6 u2 3/9 u3 u3u3 u3u3 u3u3 u3u3 u3u3 u3u3 6/9 9/6 u3 3/9 u4 u4u4 u4u4 u4u4 u4u4 u4u4 u4u4 6/9 9/6 u4 3/9 u5 u5u5 u5u5 u5u5 u5u5 u5u5 u5u5 6/9 9/6 u5 3/9 u6 u6u6 u6u6 u6u6 u6u6 u6u6 u6u6 6/9 9/6 u6 Losowanie warstwowe 4 spośród 6 z proporcjonalną alokacją póby między warstwy Prawdopodobieństw inkluzji drugiego rzędu w doborze warstwowym N=6 L=2 Podobnie jest w wypadku losowania warstwowego z proporcjonalna alokacją liczebności próby między populacyjne warstwy
121
Prawdopodobieństw inkluzji drugiego rzędu w doborze warstwowym N=6 L=2 s1s2s3 ii 1/ i ij u1u2u3u4u5u6 u1u1 u1u1 1/33 u1 001/3 u2u2 u2u2 3 u2 01/3 u3u3 u3u3 3 u3 1/3 u4u4 u4u4 u4u4 u4u4 11 u4 3/3 u5u5 u5u5 u5u5 u5u5 11 u5 3/3 u6u6 u6u6 u6u6 u6u6 11 u6 s1s2s3 ii 1/ i ij 123456 u1u1 u1u1 u1u1 u1u1 11u1 3/3 1/3 u2u2 u2u2 u2u2 u2u2 11u2 3/3 1/3 u3u3 u3u3 u3u3 u3u3 11u3 1/3 u4u4 u4u4 3 u4 00 u5u5 u5u5 1/33 u5 0 u6u6 u6u6 1/33 u6 Losowanie warstwowe 4 spośród 6 z nieproporcjonalną alokacją próby między warstwy W wypadku alokacji nieproporcjonalnych prawdopodobieństwa inkluzji ij różnią się !
122
Replikacyjne metody wyznaczania wariancji estymatora Idea replikacji w doborze jednostopniowym: 1.Zamiast jednej próby n=1000 wylosujmy 20 prób po 50 w każdej 2.W każdej z tych 20 wyznaczmy wartość estymatora parametru zmiennej Y 3.Otrzymujemy rozkład estymatora w przestrzeni 20 pób o liczebności 50 4.Wyznaczamy wartość średnią i wariancję tego estymatora Idea replikacji w doborze dwustopniowym BRR (Balanced Repeated Replication ): 1.Z każej wartstwy losujemy parzystą liczbę wiązek 2.Z kazdej wiązki losujemy parzystą liczbę obiektów 3.Tworzymy przestrzeń pod-prób złożonych z połówek „warstwowych” i „wiązkowych” 4.W każdej z nich wyznaczamy wartość estymatora parametru zmiennej Y 5.Otrzymujemy rozkład estymatora w przestrzeni tych pod-prób 6.Wyznaczamy wartość średnią i wariancję tego estymatora
123
Własności replikacyjnej metody wyznaczania wariancji estymatora 1. Idealna replikacja daje zestaw podprób niezależnych losowanych wedle tego schematu doboru 2. Do efektywnego oszacowania wariancji estymatora (za zatem wyznaczenia dokładności oszacowań) przestrzeń replikowanych podprób powinna liczyć co najmniej 25 prób. 3. Aby uzyskać nieobciążone estymatory z przestrzeni prób replikowanych trzeba rozwiązać problem zależności między nimi wynikający z posiadania przez nie części wspólnej 4. Praktyczne wykorzystanie metody replikacyjnej wymaga użycia wyspecjalizowanego oprogramowania, które rozwiąże problem 3.
124
Sub-sampling: jacknife, bootstrap Replikacyjne metody wyznaczania wariancji estymatorów wymagają zaprojektowania schematu doboru tak, aby uzyskać minimalną liczbę niezależnych prodprób. Subsampling polega na tworzeniu przestrzeni takich pod-prób z póby już wylosowanej Subsampling ma dwa warianty: a)Jacknife, polegający na tworzeniu n pod-prób o liczebności (n-1), w których „wycięto” jedenz obiektów wylosowanych b)Bootstrap, polegający na losowaniu ze zwracaniem dużej liczby (100+) pod-prób o zadanej liczebbności; najczęściej równej liczebności próby wylosowanej, stosuje się rónież bootstrap typu m-out-of-n, gdzie próby mają liczebność m<n
125
Własności estymacji jacknife 1. Jeśli klasyczny model jacknife oznaczyć jako jacknife-1, to jacknife-d polega na tworzeniu pod-prób o liczebności n-d zamiast n-1 2. Dla większości parametrów populacji jacknife-1 daje nieobciążone ich oszacowanie a także nieobciążone oszacowania wariacji estymatorów 3. Dla pozostałych parametrów populacji, w tym statystyk pozycyjnych nieobciążone ich oszacowanie a także nieobciążone oszacowania wariacji estymatorów dają estymatory typu jacknife-d
126
Własności metody bootstrap Bootstrap is not simply another statistical technique but is rather a general approach to statistical inference with very broad applicability and very mild modeling assumptions Lovric (2010), International Encyclopedia of Statistical Science, str. 169 Bootstrap is not simply another statistical technique but is rather a general approach to statistical inference with very broad applicability and very mild modeling assumptions Lovric (2010), International Encyclopedia of Statistical Science, str. 169 Przestrzeń pod-prób utworzona metodą bootstrap rozszerzoną o techniki symulacyjne (Monte Carlo) pozwala na efektywne oszacowanie rozkładu estymatora dla danego schematu doboru, w tym jego wartości oczekiwanej, wariancji a także wyznaczenia przedziału ufności i mocy testów. Metoda ta okazuje się efektywna również we wnioskowaniu na podstawie próby z brakami odpowiedzi lub brakami uczestnictwa (non-response) Tylko dla wyjątkowo „złośliwych” (na przykład bardzo skośnych) rozkładów populacyjnych estymatory uzyskiwane metodą bootstrap nie są zgodne (ich wariancja nie maleje systematycznie ze wzrostem liczebności pób) Przedziały ufności dla parametrów populacji wyznaczane metodą bootstrap zawodzą, jak pokazują symulacje, tylko w wypadku prób o niewielkiej liczebności (poniżej 100), co nie jest specjalnien
127
Własności metody bootstrap Proste wersje bootstrap-u stosunkowo łatwo wykonać przy użyciu popularnych poakietów statystycznych, z SPSS włącznie. Można je również uzyskać z ogólnodostępnych społecznościowych repozytoriów W środowisku R boostrap oferują dwa pakiety o nazwie „boostrap” i „boot”. Ten drugi jest młodszy.
128
Linearyzacja estymatora
129
Jeśli druga pochodna funkcji h jest różniczkowalna w otoczeniu a, to h daje się wyrazić jako: przy czym trzeci wyraz sumy (całka) przyjmuje wartości o rząd wielkości mniejsze od porzednich dwóch, w związku z tym funkcję h przybliża się (aproksymuje) za pomocą sumy pierwszych dwóch składników jej rozwinięcia w szereg Taylora, to znaczy: Twierdzenie o rozkładzie w szereg Taylora
130
Każda z sum ma nieobciążony estymator HT dla dowolnego schematu losowania (S, P S ), Liniowa kombinacja zmiennych (Y 1,Y 2, …,Y k ) Zestaw zmiennych (Y 1,Y 2, …,Y k ) oraz ich populacyjnych sum (τ 1,τ 2, …,τ k ) Estymator jej sumy Ma wariancję Wskazówka: rozważ k=2 jest liniową kombinacją estymatorów (a 1,a 2, …,a k ) Statystyka jako liniowa funkcja innych statystyk
131
Rozważmy teraz NIE-liniową funkcję populacyjnych sum (τ 1,τ 2, …,τ k ), h(τ 1,τ 2, …,τ k ). Np.: Linearyzacja tej funkcji polega na jej przybliżeniu (aproksymacji) za pomocą liniowej funkcji zbudowanej z wyrazów rozwinięcia w szereg Taylora
132
Znamy nieobciążone estymatory jej składników populacyjnych sum dla dowolnego schematu losowania Statystyka staje się liniową funkcją poulacyjnych sum Wariancja liniowej funkcji nieobciążonych estymatorów jest względnie łatwa w wyliczaniu Co daje pominęcie składników wyższego rzędu szeregu Taylora:
133
Rozwinięcie w szereg Taylora stosowane jest do wyznaczania wariancji estymatorów: o sumy wartości zmiennej w populacji wykorzystujących kalibrację o takich nieliniowych parametrów populacji, które dają się wyrazić jako różniczkowalne (smooth) funkcje populacyjnych sum: o Iloraz sum o współczynnik regresji liniowej o współczynnik regrsji logistycznej o współczynnik korelacji Linraryzacja Taylora stosuje się dla dowolnego schematu losowania Linraryzacja Taylora daje asymptotycznie nieobciążoną estymację wariancji estymatorów ( asymptotically design unbiased under repeated sampling ) Linearyzacja Taylora – do czego wykorzystywana
134
Zalety linearyzacji Jeśli pochodne czastkowe funkcji definiującej estymator są znane, linearyzacja tej funkcji prawie zawsze doprowadza do oszacowania wariancji estymatora przy dowolnym schemacie doboru próby. Ponadto, algorytmy linearyzacji dla wielu typowych nieliniowych funkcji populacyjnych statystyk: ilorazów, współczynników regresji, tak liniowej jak i logistycznej, są implementowane w oprogramowaniu statystycznym. Słabości linearyzacji Gdy statystyka jest złożoną funkcją parametrów populacji (sum lub średnich) a zwłaszcza, gdy są zdefiniowane z wykorzystaniem wag, trudnością staje sie wyznaczenie cząstkowych pochodnych tej funkcji. Niekiedy trzeba je wyznaczać numerycznie. Przy niedużych próbach wariancja estymatora jest niedoszacowana (zaniżona). Linearyzacja nie pozwala szacować wariancji statystyk pozycyjnych, takich jak mediana i pozostałe kwantyle, gdyż nie dają się one wyrazić przy użyciu różniczkowalnych funkcji populacyjnych sum. Linearyzacja – zalety i wady
135
Oprogramowanie do estymacji dla złożonych schematów doboru BRR Jacknife Bootstrap Taylor WeStat R: bootstrap, boot, regenesis SPSS syntax SPSS Complex Samples
136
Estymacja na podstawie danych niekompletnych
137
Dwa podejścia do estymacji na podstawie danych niekompletnych Deterministyczne Są dwie populacje – dostępnych i niedostępnych Rozwiązanie: quasi-przedział ufności (pułapka nr 2) Probabilistyczne Niekompletność jest reakcją losową, której rozkład pradopodobieństwa trzeba oszacować Rozwiązanie: załóżmyt model wiążący zmienną „responsywność” z innymi zmiennymi
138
Y y y … ? ? ? Y X 1 X2 X2..XkXk … ……… I R 0 ? 11 11 0 ? 0 ? 0 ? … … 0? 1 0 0? 0? 1 0 0? 0? 1 0 1 1 P(I i = 1) = π i P(R i = 1) = φ i X 1 X2X2..XkXk Zmienne stratyfikacyjne o znanych rozkładach populacyjnych Ri Ri IiIi Y X 1 X2X2..XkXk Prawdopodobieństwo udziału w sondażu Prawdopodobieństwo inkluzji Estymacja na podstawie danych niekompletnych: nonresponse
139
1. Missing Completely at Random MAR Założenia na temat relacji między skłonnością do udziału w sondażu R a Y, X oraz I Prawdopodobieństwo udziału w sondażu nie zależy ani od cechy Y ani od zzmiennych stratyfikacyjnych X ani od prawdopodobieństwa inkluzji 2. Missing at Random Given Covariates Prawdopodobieństwo udziału w sondażu zależy od zmiennych stratyfikacyjnych X lecz nie zależy od cechy Y 3. Not Missing at Random (NMAR) Prawdopodobieństwo udziału w sondażu zależy od zmiennych stratyfikacyjnych X oraz od cechy Y Znalezienie nieobciążonych i efektywnych estymatorów dla sytuacji 2 i 3 jest trudne i zależne od tego, do jakiego stopnia założenia na temat zależności między R, Y i X są zgodne ze stanem faktycznym. Podstawowym środkiem uzasadniania procedur estymacyjnych staje się symulacja
140
Ćwiczenia
141
Dobór prosty SRS
142
Teoria Zbiór danych do ćwiczeń nr 1: Losowanie proste i warstwowe Zbiór danych do ćwiczeń nr 1: Losowanie proste i warstwowe Y warstwa 1warstwa 2 razem 11 1 22 2 310 45 5 52 2 razem515 20 Rozkłady zmiennej Y w warstwach populacyjnych h Min(Y h )Max(Y h )E(Y h )D 2 (Y h ) 1.00 153,003,500 2.00 343,33,238 Populacja 153,25,934 Statystyki warstw Statystyki populacyjne Rozkłady zmiennej Y w populacji Podział populacji na warstwy
143
Syntax CD ‘wpisz własną ścieżkę dostępu'. HOST COMMAND=['dir']. DATASET CLOSE ALL. GET FILE 'Dane nr 1_Losowanie proste i warstwowe.sav'. MEAN Y/CELL MIN MAX MEA. * losowanie 4 spośród 20 ---. SET RNG MT/SEED 1. SAMPLE 4 FROM 20. * Sprawdzenie wyniku losowania --. MEAN Y/CELL MIN MAX MEA. * --- uwaga: aktywny zbiór danych zawiera tylko elementy wylosowane --. SAMP-01-0.SPSLosowanie proste z użyciem „SAMPLE”
144
Wyniki losowania prostego n=4 spośród N=20 dla 10 prób próba nrśredniaodch std*S 2 Y 10 2,751,2581,583 4 3,000,8160,666 7 3,000,000 2 3,500,5770,333 5 3,500,5770,333 6 3,501,000 8 3,500,7070,500 9 3,500,5770,333 1 4,000,9570,916 3 4,000,8160,666 suma34,25 -6,329 średnia3,425 -0,633 Średnia dla 10 prób: 3,425 N=20 n=4 SRSWOR Liczba możliwych prób Wariancja estymatora średniej w przestrzeni 10 wylosowanych prób Wariancja estymatora średniej w przestrzeni 4845 możliwych prób
145
Syntax CD ‘wpisz własną ścieżkę dostępu'. HOST COMMAND=['dir']. DATASET CLOSE ALL. GET FIL 'Dane nr 1_Losowanie proste i warstwowe.sav'. MEAN Y BY warstwa/CELL MIN MAX MEA VAR. * losowanie 4 spośród 20 ---. SET RNG MT/SEED 1. COMPUTE x=RV.UNIFORM(0, 1). RANK x/RANK INTO CaseX. COMPUTE I = (CaseX < 5). * I jest zmienną logiczną 0 = fałsz, 1 = prawda -. * aktywny zbiór nie uległ zmianie -. MEAN Y BY I BY warstwa/CELL COU MIN MAX MEA. SAMP01-1.SPSLosowanie proste bez użycia polecenia „SAMPLE”
146
Dobór warstwowy
147
Teoria Zbiór danych do ćwiczeń nr 1: Losowanie proste i warstwowe Zbiór danych do ćwiczeń nr 1: Losowanie proste i warstwowe Y warstwa 1warstwa 2 razem 11 1 22 2 310 45 5 52 2 razem515 20 Rozkłady zmiennej Y w warstwach populacyjnych h Min(Y h )Max(Y h )E(Y h )D 2 (Y h ) 1.00 153,003,500 2.00 343,33,238 Populacja 153,25,934 Statystyki warstw Statystyki populacyjne Rozkłady zmiennej Y w populacji Podział populacji na warstwy
148
Losowanie warstwowe – alokacja proporcjonalna Losowanie warstwowe SRSWOR N=20, n=4 Alokacja propporcjonalna Losowanie warstwowe SRSWOR N=20, n=4 Alokacja propporcjonalna Krok I: ALOKACJA 1. Ustal liczebność populacji i dopisz ją do zbioru jako nową zmienną N (RANK) 2. Ustal liczebność warstw i dopisz je jako nową zmienną Nw (AGGREGATE) 3. Wyznacz alokację próby n między warstwy i dopisz ją jako nową zmienną Sn (RND) Krok II: LOSOWANIE 4. Uporządkuj elementy populacji przy użyciu zmiennej wygenerowanej z rozkładu równomiernego na zbiorze (0, 1) (pamiętaj o ustawieniu generatora liczb losowych) 5. Oznacz liczbą 1 te obiekty, których numer porządkowy w warstwie jest większy lub równy liczebności alokowanej Sn a liczbą zero obietkty pozostałe. Wynik porównania zapisz w zmiennej I. Krok III: WYNIK 6. Sprawdź rozkład zmiennej Y w obu częściach: wylosowanej i niewylosowanej 7. Sprawdź parametry rozkładu zmiennej Y (MIN, MAX, MEAN, VAR) w obu częściach. Krok I: ALOKACJA 1. Ustal liczebność populacji i dopisz ją do zbioru jako nową zmienną N (RANK) 2. Ustal liczebność warstw i dopisz je jako nową zmienną Nw (AGGREGATE) 3. Wyznacz alokację próby n między warstwy i dopisz ją jako nową zmienną Sn (RND) Krok II: LOSOWANIE 4. Uporządkuj elementy populacji przy użyciu zmiennej wygenerowanej z rozkładu równomiernego na zbiorze (0, 1) (pamiętaj o ustawieniu generatora liczb losowych) 5. Oznacz liczbą 1 te obiekty, których numer porządkowy w warstwie jest większy lub równy liczebności alokowanej Sn a liczbą zero obietkty pozostałe. Wynik porównania zapisz w zmiennej I. Krok III: WYNIK 6. Sprawdź rozkład zmiennej Y w obu częściach: wylosowanej i niewylosowanej 7. Sprawdź parametry rozkładu zmiennej Y (MIN, MAX, MEAN, VAR) w obu częściach.
149
CD ‘wpisz własną ścieżkę dostępu'. HOST COMMAND=['dir']. DATASET CLOSE ALL. GET FILE='Dane nr 1_Losowanie proste i warstwowe.sav '. * LOSOWANIE n=4 N=20 ALOKACJA PROPORCJONALNA ---. * 1. ustal liczebności populacji oraz warstw i dopisz je do zbioru jako zmienne PopN i WN. RANK Y/N INTO PopN. RANK Y BY warstwa/N INTO WN. * 2. Ustal liczebność próby i dopisz ją jako zmienną nSamp. COMPUTE nSamp = 4. * 3. Wyznacz proporcjonalną alokację nSamp między warstwy i dopisz ją jako zmienną nW. COMPUTE nW =TRUNC(nSamp*(WN/PopN)). * 4. Uporządkuj losowo obiekty populacji w warstwach przy użyciu zmiennej x wygenerowanej z rozkładu równomiernego na zbiorze (0, 1). SET RNG MT/SEED 1. COMPUTE x=RV.UNIFORM(0,1). RANK x BY warstwa /RANK INTO WRank. * 5. Oznacz liczbą 1 te obiekty, których numer porządkowy WRank w warstwie jest mniejszy lub równy liczebności nW alokowanej w warstwie a liczbą zero obiekty pozostałe. Wynik porównania zapisz w zmiennej I. COMPUTE I = (WRank <= nW). * SPRAWDZENIE WYNIKÓW LOSOWANIA. MEAN Y BY I BY warstwa /CEL MEA COU. SAMP02-1.SPSLosowanie warstwowe alokacja proporcjonalna Syntax
150
Wyniki losowania warstwowego – alokacja proporcjonalna próba nrśrednia 12,75 2 4 8 9 53,00 63,25 7 33,50 suma26,750 średnia2,972 wariancja0,076 Średnia dla 9 prób: Liczba możliwych prób Wariancja estymatora średniej w przestrzeni 10 wylosowanych prób Wariancja estymatora średniej w przestrzeni 4845 możliwych prób
151
Losowanie warstwowe – alokacja równomierna Losowanie warstwowe SRSWOR N=20, n=4 Alokacja równomierna Losowanie warstwowe SRSWOR N=20, n=4 Alokacja równomierna Krok I: ALOKACJA 1. Wyznacz alokację próby nadając zmiennej nW stałą wartość Krok II: LOSOWANIE 2. Uporządkuj elementy populacji przy użyciu zmiennej x wygenerowanej z rozkładu równomiernego na zbiorze (0, 1) (pamiętaj o ustawieniu generatora liczb losowych) 3. Oznacz liczbą 1 te obiekty, których numer porządkowy w warstwie WRank jest większy lub równy liczebności alokowanej nW a liczbą zero obietkty pozostałe. Wynik porównania zapisz w zmiennej I. Krok I: ALOKACJA 1. Wyznacz alokację próby nadając zmiennej nW stałą wartość Krok II: LOSOWANIE 2. Uporządkuj elementy populacji przy użyciu zmiennej x wygenerowanej z rozkładu równomiernego na zbiorze (0, 1) (pamiętaj o ustawieniu generatora liczb losowych) 3. Oznacz liczbą 1 te obiekty, których numer porządkowy w warstwie WRank jest większy lub równy liczebności alokowanej nW a liczbą zero obietkty pozostałe. Wynik porównania zapisz w zmiennej I.
152
SAMP02-2.SPSLosowanie warstwowe alokacja równomierna Syntax CD ‘wpisz własną ścieżkę dostępu'. HOST COMMAND=['dir']. DATASET CLOSE ALL. GET FILE='Dane nr 1_Losowanie proste i warstwowe.sav '. * LOSOWANIE n=4 N=20 ALOKACJA RÓWNOMIERNA 2-2 ---. * 1. Wyznacz rónomierną alokację póby między warstwy i dopisz ją jako zmienną nW. COMPUTE nW = 2. * 2. Uporządkuj losowo obiekty populacji w warstwach przy użyciu zmiennej x wygenerowanej z rozkładu równomiernego na zbiorze (0, 1). SET RNG MT/SEED 1. COMPUTE x=RV.UNIFORM(0,1). RANK x BY warstwa /RANK INTO WRank. * 3. Oznacz liczbą 1 te obiekty, których numer porządkowy WRank w warstwie jest mniejszy lub równy liczebności nW alokowanej w warstwie a liczbą zero obiekty pozostałe. Wynik porównania zapisz w zmiennej I. COMPUTE I = (WRank <= nW). * SPRAWDZENIE WYNIKÓW LOSOWANIA. MEAN Y BY I BY warstwa /CEL MEA COU.
153
Wyniki losowania warstwowego – alokacja równomierna próba nrśrednia 12,75 23,25 3 42,75 52,25 62,50 7 83,25 9 suma25,750 średnia2,861 wariancja0,140 Średnia dla 9 prób: Liczba możliwych prób Wariancja estymatora średniej w przestrzeni 9 wylosowanych prób Wariancja estymatora średniej w przestrzeni 4845 możliwych prób
154
Losowanie warstwowe – alokacja optymalizująca Losowanie warstwowe SRSWOR N=20, n=4 Alokacja optymalizująca Losowanie warstwowe SRSWOR N=20, n=4 Alokacja optymalizująca Krok I: ALOKACJA 1.Wyznacz alokację próby nadając zmiennej nW wartości wyliczone dla poszczególnych warstw ( RECODE … INTO ) Krok II: LOSOWANIE 2. Uporządkuj elementy populacji przy użyciu zmiennej x wygenerowanej z rozkładu równomiernego na zbiorze (0, 1) (pamiętaj o ustawieniu generatora liczb losowych) 3. Oznacz liczbą 1 te obiekty, których numer porządkowy w warstwie WRank jest większy lub równy liczebności alokowanej nW a liczbą zero obietkty pozostałe. Wynik porównania zapisz w zmiennej I. Krok I: ALOKACJA 1.Wyznacz alokację próby nadając zmiennej nW wartości wyliczone dla poszczególnych warstw ( RECODE … INTO ) Krok II: LOSOWANIE 2. Uporządkuj elementy populacji przy użyciu zmiennej x wygenerowanej z rozkładu równomiernego na zbiorze (0, 1) (pamiętaj o ustawieniu generatora liczb losowych) 3. Oznacz liczbą 1 te obiekty, których numer porządkowy w warstwie WRank jest większy lub równy liczebności alokowanej nW a liczbą zero obietkty pozostałe. Wynik porównania zapisz w zmiennej I.
155
SAMP02-3.SPSLosowanie warstwowe alokacja optymalizująca Syntax CD ‘wpisz własną ścieżkę dostępu'. HOST COMMAND=['dir']. DATASET CLOSE ALL. GET FILE='Dane nr 1_Losowanie proste i warstwowe.sav '. * LOSOWANIE n=4 N=20 ALOKACJA OPTYMALIZUJĄCA 3-1 ---. * 1. Wyznacz alokację póby między warstwy i dopisz ją jako zmienną nW. RECODE warstwa (1 = 3) (2 = 1) INTO nW. * 2. Uporządkuj losowo obiekty populacji w warstwach przy użyciu zmiennej x wygenerowanej z rozkładu równomiernego na zbiorze (0, 1). SET RNG MT/SEED 1. COMPUTE x=RV.UNIFORM(0,1). RANK x BY warstwa /RANK INTO WRank. * 3. Oznacz liczbą 1 te obiekty, których numer porządkowy WRank w warstwie jest mniejszy lub równy liczebności nW alokowanej w warstwie a liczbą zero obiekty pozostałe. Wynik porównania zapisz w zmiennej I. COMPUTE I = (WRank <= nW). * SPRAWDZENIE WYNIKÓW LOSOWANIA. MEAN Y BY I BY warstwa /CEL MEA COU.
156
próba nrśrednia 12,00 22,25 32,75 4 5 63,00 73,25 83,75 94,00 suma26,500 średnia2,944 wariancja0,372 Średnia dla 9 prób: Liczba możliwych prób Wariancja estymatora średniej w przestrzeni 9 wylosowanych prób Wariancja estymatora średniej w przestrzeni 4845 możliwych prób Wyniki losowania warstwowego – alokacja optymalizująca
157
Wyniki trzech wariantów losowania warstwowego
158
Losowanie zespołowe
159
Zbiór danych do ćwiczeń nr 2: losowanie zespołowe i systematyczne Zbiór danych do ćwiczeń nr 2: losowanie zespołowe i systematyczne ClusterNhNh MinimumMaximumMeanSD 1 36 052,141,22 2 25 042,041,06 3 16 052,061,39 4 9 142,111,05 5 16 496,691,54 6 25 3107,241,59 7 36 4107,641,51 8 49 4107,781,50 razem 212 0105,303,01 Statystyki wiązek Statystyki populacyjne
160
Plan ćwiczeń: losowanie zespołowe N=212, 8 zespołów 9<= N h <= 49 Losowanie zespołowe: SRS WOR nClust = 2 (oczekiwana liczebność próby n 53) jednakowe p-twa wyboru zespołu, losowanie bez zwracania N=212, 8 zespołów 9<= N h <= 49 Losowanie zespołowe: SRS WOR nClust = 2 (oczekiwana liczebność próby n 53) jednakowe p-twa wyboru zespołu, losowanie bez zwracania Algorytm losowania zespołowego SRS WOR 1.Utwórz roboczą zmienną "ileClust" wskazującą liczbę losowanych wiązek 2.Umieść ją w zbiorze o nazwie 'TempClust.SAV‘ ( AGGREGATE ) zawierającym opócz tego tylko numery wiązek (zmienna Clust) 3.Otwórz zbiór 'TempClust.SAV‘ 4.Wylosuj z niego założoną w „ile” liczbę zespołów oznaczając je wartościami I=1 (patrz ćwiczenie SRS) 5.Posortuj ( SORT ) obiekty w zbiorze 'TempClust.SAV‘ ze względu na numer wiązki (zmienna Clust) 6. Połącz zbiór populacyjny ze zbiorem 'TempClust.SAV‘ ( MERGE ADD VARIABLES ) 7.Sprawdź wynik losowania: numeryy wiązek i średnią Y wśród wylosowanych obiektów Algorytm losowania zespołowego SRS WOR 1.Utwórz roboczą zmienną "ileClust" wskazującą liczbę losowanych wiązek 2.Umieść ją w zbiorze o nazwie 'TempClust.SAV‘ ( AGGREGATE ) zawierającym opócz tego tylko numery wiązek (zmienna Clust) 3.Otwórz zbiór 'TempClust.SAV‘ 4.Wylosuj z niego założoną w „ile” liczbę zespołów oznaczając je wartościami I=1 (patrz ćwiczenie SRS) 5.Posortuj ( SORT ) obiekty w zbiorze 'TempClust.SAV‘ ze względu na numer wiązki (zmienna Clust) 6. Połącz zbiór populacyjny ze zbiorem 'TempClust.SAV‘ ( MERGE ADD VARIABLES ) 7.Sprawdź wynik losowania: numeryy wiązek i średnią Y wśród wylosowanych obiektów
161
CD ‘wpisz własną ścieżkę dostępu'. HOST COMMAND=['dir']. GET FILE='Dane nr 2_Losowanie zespołowe i systematyczne.sav'. MEAN Y BY Clust/CELL MEA. * Utwórz roboczą zmienną "ileClust" wskazującą liczbę losowanych wiązek i umieść ją w zbiorze o nazwie 'TempClust.SAV‘ (AGGREGATE - AGGR) zawierającym opócz tego tylko numery wiązek (zmienna Clust). COMPUTE ileClust = 2. AGGR/OUT 'TempClust.SAV'/BREAK=Clust /ile = MEAN(ileClust). * Otwórz zbiór 'TempClust.SAV‘. GET FIL 'TempClust.SAV'. * Wylosuj z niego założoną w „ile” liczbę zespołów oznaczając je wartościami I=1. SET RNG MT/SEED 1. COMPUTE x=RV.UNIFORM(0, 1). RANK x/RANK INTO I. COMPUTE I = (I <= ile). * Posortuj (SORT) obiekty w zbiorze 'TempClust.SAV‘ ze względu na numer wiązki Clust). SORT CAS BY Clust. * Połącz zbiór populacyjny ze zbiorem 'TempClust.SAV‘ (MERGE ADD VARIABLES). MATCH FILES /TABLE=* /FILE='Dane nr 2_Losowanie zespołowe i systematyczne.sav' /BY Clust. * Sprawdź wynik losowania. MEA Y BY I BY Clust/CEL MEA COU. SAMP03-1.SPS Losowanie zespołowe k=2 K=8 N=212 dobór SRSWOR jednakowe p-twa wyboru zespołu, losowanie bez zwracania Syntax
162
Plan ćwiczeń: losowanie zespołowe N=212, 8 zespołów 9<= N h <= 49 Losowanie zespołowe: PPS WOR nClust = 2 (oczekiwana liczebność próby n 53) N=212, 8 zespołów 9<= N h <= 49 Losowanie zespołowe: PPS WOR nClust = 2 (oczekiwana liczebność próby n 53) Algorytm losowania zespołowego PPS 1.Utwórz roboczą zmienną "ileClust" wskazującą liczbę losowanych wiązek 2.Utwórz zmienną „PopN” wskazującą ile obiektów liczy populacja 3.Umieść nowe zmienne w zbiorze o nazwie 'TempClust.SAV‘ ( AGGREGATE ) zawierającym także numery wiązek (zmienna Clust) oraz liczbę obiektów w każdej z nich przechowywaną zapisaną w zmiennej ClustN. 4.Otwórz zbiór 'TempClust.SAV‘ i uporządkuj losowo jego rekordy ‘ (wiązki) 5.Podziel zbiór na tyle grup, ile wiązek masz wylosować. Numer grupy zapisz w zmiennej „grupa” 6.Połącz zbiór populacyjny ze zbiorem 'TempClust.SAV‘ ( MERGE ADD VARIABLES ) 7.Wylosuj z każdej grupy po 1 obiekcie wedle schematu PPS (uwaga: AGG-ADD) 8.Sprawdź wyniki Algorytm losowania zespołowego PPS 1.Utwórz roboczą zmienną "ileClust" wskazującą liczbę losowanych wiązek 2.Utwórz zmienną „PopN” wskazującą ile obiektów liczy populacja 3.Umieść nowe zmienne w zbiorze o nazwie 'TempClust.SAV‘ ( AGGREGATE ) zawierającym także numery wiązek (zmienna Clust) oraz liczbę obiektów w każdej z nich przechowywaną zapisaną w zmiennej ClustN. 4.Otwórz zbiór 'TempClust.SAV‘ i uporządkuj losowo jego rekordy ‘ (wiązki) 5.Podziel zbiór na tyle grup, ile wiązek masz wylosować. Numer grupy zapisz w zmiennej „grupa” 6.Połącz zbiór populacyjny ze zbiorem 'TempClust.SAV‘ ( MERGE ADD VARIABLES ) 7.Wylosuj z każdej grupy po 1 obiekcie wedle schematu PPS (uwaga: AGG-ADD) 8.Sprawdź wyniki
163
CD ‘wpisz własną ścieżkę dostępu'. HOST COMMAND=['dir']. GET FILE='Dane nr 2_Losowanie zespołowe i systematyczne.sav'. MEAN Y BY Clust/CELL MEA. * -- Utwórz roboczą zmienną "ileClust" wskazującą liczbę losowanych wiązek i umieść ją w zbiorze o nazwie 'TempClust.SAV‘ (AGGREGATE) zawierającym opócz tego tylko numery wiązek. COMPUTE ileClust = 2. AGGR/OUT 'TempClust.SAV'/BREAK=Clust /ile = MEAN(ileClust). * -- Otwórz zbiór 'TempClust.SAV‘ i uporządkuj losowo jego rekordy. GET FIL 'TempClust.SAV'. SET RNG=MT MTINDEX= 1. COMPUTE x = RV.UNIFORM(0,1). SORT CAS BY x. * -- Podziel zbiór na tyle grup, ile wiązek masz wylosować; numer grupy zapisz w zmiennej „grupa”. COMPUTE grupa = MOD($CaseNum, ileClust)+1. * Posortuj zbiór 'TempClust.SAV‘ ze względu na numer wiązki (Clust) a potem połącz go ze zbiorem populacyjnym (MERGE ADD VARIABLES). SORT CAS BY Clust. MATCH FILES /TABLE=* /FILE='Dane nr 2_Losowanie zespołowe i systematyczne.sav' /BY Clust. * -- Wylosuj z każdej grupy po 1 obiekcie wedle schematu PPS i oznacz pierwszy element w grupie wartością 1 zmiennej Los. SET RNG=MT MTINDEX= 2. COMPUTE x = RV.UNIFORM(0,1). RANK x BY grupa /RANK INTO LosRank. RECODE LosRank (1=1) (ELSE = 0) INTO Los. * -- dodaj binarny znacznik bycia wylosowanym I pozostałym obiektom wiązki, w której Los=1. AGGREGATE /OUTFILE=* MODE=ADDVARIABLES /BREAK=Clust /I =SUM(Los). * -- sprawdź wynik losowania -. MEA Y BY I BY Clust/CEL MEA COU. SAMP03-2.SPSLosowanie zespołowe k=2 dobór PPS losowanie bez zwracania Syntax
164
SRSWORPPSWR próba nr średnia 1 2,12 3,54 2 2,13 3,85 3 5,04 4,23 4 5,22 4,64 5 5,34 4,89 6 5,34 5,39 7 8 7,02 6,90 9 7,59 10 7,72 suma 52,9254,14 5,295,41 3,432,05 DEFF 26,9316,07 SRS WOR Liczba możliwych prób 8(8-1)/2=28 Wariancja estymatora średniej w przestrzeni możliwych prób n=53 dla doboru doboru prostego bez zwracania Wyniki losowania zespołowego k=2 SRS – PPS PPS WR Liczba możliwych prób 8 2 =64
165
Losowanie systematyczne
166
Zbiór danych do ćwiczeń nr 2: losowanie zespołowe i systematyczne Zbiór danych do ćwiczeń nr 2: losowanie zespołowe i systematyczne ClusterNhNh MinimumMaximumMeanSD 1 36 052,141,22 2 25 042,041,06 3 16 052,061,39 4 9 142,111,05 5 16 496,691,54 6 25 3107,241,59 7 36 4107,641,51 8 49 4107,781,50 razem 212 0105,303,01 Statystyki wiązek Statystyki populacyjne
167
Plan ćwiczeń: losowanie systematyczne N=212, 8 zespołów 9<= N h <= 49 Losowanie systematyczne (a) n= 53bez randomizacji porządku obiektów N=212, 8 zespołów 9<= N h <= 49 Losowanie systematyczne (a) n= 53bez randomizacji porządku obiektów Algorytm losowania systematycznego bez randomizacji 1.Wyznacz k i wylosuj z rozkładu równomiernego punkt startowy r, 1 < r < k [EXCEL] 2.Wyznacz resztę z dzielenia przez k numeru porządkowego obiektu ($CaseNum, MOD) i utwórz zmienną „CoKtory”, która ją przechowuje 3.Utwórz zmienną I oznaczającą obiekt wylosowany spełniający warunek CoKtory+1 = r Algorytm losowania systematycznego bez randomizacji 1.Wyznacz k i wylosuj z rozkładu równomiernego punkt startowy r, 1 < r < k [EXCEL] 2.Wyznacz resztę z dzielenia przez k numeru porządkowego obiektu ($CaseNum, MOD) i utwórz zmienną „CoKtory”, która ją przechowuje 3.Utwórz zmienną I oznaczającą obiekt wylosowany spełniający warunek CoKtory+1 = r
168
CD ' wpisz własną ścieżkę dostęu'. HOST COMMAND=[ 'dir' ]. DATASET CLOSE ALL. GET FILE='Dane nr 2_Losowanie zespołowe i systematyczne.sav'. MEA Y BY Clust /CEL MEA. * -- Losowanie systematyczne bez randomizacji n=53 k= 4 ---. * -- punkty startowe to r = 1,2,3 lub 4 ------------------------. * -- wylosujemy wszystkie możliwe próby -----------------------. * -- w pętli DO REPEAT tworzymy cztery warianty r oraz I ------. COMPUTE k = 4. DO REPEAT r = 0 TO 3 /I = I1 TO I4. COMPUTE I = (k= MOD(($CaseNum+r),k)+1). END REPEAT. * -- Sprawdź wyniki ------------------------------------. MEA Y BY I1 TO I4 BY Clust/CEL COU. MEA Y BY I1 TO I4 /CEL MEA. SAMP03-3.SPSLosowanie systematyczne bez randomizacji N=212 n=53 k=4 Syntax
169
Plan ćwiczeń: losowanie systematyczne N=212, 8 zespołów 9<= N h <= 49 Losowanie systematyczne (b) n= 53z randomizacją porządku obiektów N=212, 8 zespołów 9<= N h <= 49 Losowanie systematyczne (b) n= 53z randomizacją porządku obiektów Algorytm losowania systematycznego poprzedzonego randomizacją 1.Uporządkuj obiekty populacji ze względu na wartości zmiennej losowej x wygenerowanej z rozkładu równomiernego [0,1] 2.Wyznacz k i wylosuj z rozkładu równomiernego punkt startowy r, 1 < r < k [EXCEL] 3.Wyznacz resztę z dzielenia przez k numeru porządkowego obiektu ($CaseNum, MOD) i utwórz zmienną „CoKtory”, która ją przechowuje 4.Utwórz zmienną I oznaczającą obiekt wylosowany spełniający warunek CoKtory+1 = r Algorytm losowania systematycznego poprzedzonego randomizacją 1.Uporządkuj obiekty populacji ze względu na wartości zmiennej losowej x wygenerowanej z rozkładu równomiernego [0,1] 2.Wyznacz k i wylosuj z rozkładu równomiernego punkt startowy r, 1 < r < k [EXCEL] 3.Wyznacz resztę z dzielenia przez k numeru porządkowego obiektu ($CaseNum, MOD) i utwórz zmienną „CoKtory”, która ją przechowuje 4.Utwórz zmienną I oznaczającą obiekt wylosowany spełniający warunek CoKtory+1 = r
170
CD ' wpisz własną ścieżkę dostęu'. HOST COMMAND=[ 'dir' ]. DATASET CLOSE ALL. GET FILE='Dane nr 2_Losowanie zespołowe i systematyczne.sav'. MEA Y BY Clust /CEL MEA. * -- Losowanie systematyczne poprzedzone randomizacją ---. COMPUTE k = 4. SET RNG=MT MTINDEX= 1. COMPUTE x = RV.UNIFORM(0,1). SORT CAS BY x. COMPUTE I = (k= MOD(($CaseNum),k)+1). * -- Sprawdź wyniki ------------------------------------. MEA Y BY I BY Clust/CEL MEA. SAMP03-4.SPSLosowanie systematyczne N=212 n=53 k=4 poprzedzone randomizacją porządku obiektów w populacji Syntax
171
SRSWORPPSWR próba nr średnia 1 4,89 4,94 2 4,96 3 5,47 5,15 4 5 5,32 6 5,385,45 7 5,51 8 9 5,47 5,57 10 5,85 suma 21,2153,42 5,3025,342 0,0580,075 DEFF 0,4550,590 Przy ustalonym porządku zbioru obiektów populacji liczba możliwych prób k=4 Wariancja estymatora średniej w przestrzeni możliwych prób n=53 dla doboru SRS WOR Porównanie wyników losowania systematycznego N=212, k=4
172
Losowanie wielostopniowe
173
Zbiór danych do ćwiczeń nr 3: losowanie wielostopniowe warstwa h NhNh 1 10 2 20 3 30 PopN 60 warstwa h wiązka j 123 N hj 122 288 355 410 555 655 755 8 9 NhNh 203060 h Min(Y h )Max(Y h )E(Y h )D(Y h ) 1.00 5108,201,75 2.00 041,251,07 3.00 0105,304,48 Populacja0104,434,11 Rozkłady zmiennej Y w warstwach Liczebności warstw Statystyki warstw Statystyki populacyjne
174
GET FILE= Dane nr 3_Losowanie wielostopniowe.SAV’. * * MEAN Y BY Strata BY Clust/CELL MIN MAX MEA VAR. * *. * MEAN Y BY I BY Strata BY Clust/CELL MEA COU. SAMP04-1.SPS Losowanie dwustopniowe z alokacją proporcjonalną L. wiązek = 6, z każdej wiązki SRS WOR 2 obiekty
175
GET FILE= Dane nr 3_Losowanie wielostopniowe.SAV’. * * MEAN Y BY Strata BY Clust/CELL MIN MAX MEA VAR. * *. * MEAN Y BY I BY Strata BY Clust/CELL MEA COU. SAMP04-1.SPS Losowanie dwustopniowe z alokacją rónomierną L. wiązek = 6, z każdej wiązki SRS WOR 2 obiekty
177
Twierdzenia graniczne w wnioskowaniu z próby
178
Wykorzystanie parametrów rozkładu statystyki z próby do wnioskowania o parametrach rozkładu zmiennej w populacji bez założeń ma temat kształtu (typu) tego rozkładu 1.Twierdzenie Czebyszewa 2.Środki nie-analityczne Problem Jak za pomocą statystyki z póby oszacować nieznaną populacyjną średnią bez znajomości rozkładu tej statystyki lecz wiedząc jaka jest wartość oczekiwana i wariancja tej statystyki Rozwiązania
179
Twierdzenie Czebyszewa postać ogólna dla dowolnej zmiennej X Dla średniej z póby losowanej w sposób prosty niezależny znamy jej wartość oczekiwaną i wariancję, wobec tego: Prawdopodobieństwo wylosowania takiej n -elementowej próby, że w przedziale o szerrokości t utworzonym wokół średniej z próby będzie się znajdowała średnia populacyjna jest funkcją: szerokości przedziału t, wariancji populacyjnej oraz liczebności póby n Dla średniej z póby losowanej w sposób prosty zależny znamy jej wartość oczekiwaną i wariancję, wobec tego:
180
t =0,95 ile razy występuje - t + t Prawda (1) czy Fałsz (0) ile razy trafia 1,01 0,12,000 1,52 0,62,500 2,05 1,13,000 2,56 1,63,516 3,08 2,14,018 3,56 2,64,516 4,05 3,15,000 4,52 3,65,500 5,01 4,16,000 razem36 20 Estymacja przedziałowa średniej populacyjnej przy użyciu nierówności Czebyszewa Dobór prosty niezależny Prawdopodobieństwo dokładne Prawdopodobieństwo wyznaczone z nierówności Czebyszewa
181
t =0,95 ile razy występuje - t+ t Prawda (1) czy Fałsz (0) ile razy trafia 1,5 20,62,50 0 2,0 41,13,00 0 2,5 61,63,51 6 3,0 62,14,01 6 3,5 62,64,51 6 4,0 43,15,00 0 4,5 23,65,50 0 razem30 18 Estymacja przedziałowa średniej populacyjnej przy użyciu nierówności Czebyszewa Dobór prosty zależny Prawdopodobieństwo dokładne Prawdopodobieństwo wyznaczone z nierówności Czebyszewa
Podobne prezentacje
© 2025 SlidePlayer.pl Inc.
All rights reserved.