Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wnioskowanie statystyczne CZEŚĆ III dr Urszula Gierałtowska.

Podobne prezentacje


Prezentacja na temat: "Wnioskowanie statystyczne CZEŚĆ III dr Urszula Gierałtowska."— Zapis prezentacji:

1 Wnioskowanie statystyczne CZEŚĆ III dr Urszula Gierałtowska

2 Wnioskowanie statystyczne Zadaniem statystyki matematycznej jest wnioskowanie o populacji generalnej na podstawie populacji próbnej. Wnioskowanie to polegać może na weryfikacji przyjętego modelu teoretycznego. Na jego podstawie formułowana jest hipoteza, z kolei wnioskowanie ma ją potwierdzić lub odrzucić. Hipoteza powinna być tak sformułowana, aby można było ją łatwo przyjąć lub odrzucić. Hipoteza statystyczna – każde przypuszczenie dotyczące poszczególnych parametrów (charakterystyk) lub rozkładu określonej zmiennej losowej, że o prawdziwości lub fałszywości tego przypuszczenia można wnioskować w oparciu o losowo pobraną próbę realizacji tej zmiennej losowej. Wnioskowanie o słuszności postawionej hipotezy nazywamy sprawdzianem hipotezy lub weryfikacją hipotezy.

3 Wnioskowanie statystyczne Rodzaje hipotez: Hipoteza statystyczna PARAMETRYCZNA (parametryczne testy istotności) precyzuje wartość parametru w rozkładzie populacji gen. NIEPARAMETRYCZNA (nieparametryczne testy istotności) orzeka o typie rozkładu TESTY ZGODNOŚCI sprawdzają hipotezę, że populacja ma określony typ rozkładu TESTY SPRAWDZAJĄCE CZY 2 PRÓBY POCHODZĄ Z JEDNEJ POPULACJI Hipotezy: – proste – w jednoznaczny sposób określa zarówno typ rozkładu (rodzinę dystrybuant), jak i wartości parametrów, od których zależy dystrybuanta rozpatrywanej zmiennej losowej, – złożona – nie określa rozkładu w sposób jednoznaczny (hipotezy nieparametryczne mają charakter złożony, gdyż nie uwzględniają wartości parametrów rozkładu)

4 Wnioskowanie statystyczne Weryfikacja hipotez statystycznych polega na zastosowaniu określonego schematu postępowania zwanego testu statystycznego, który rozstrzyga, przy jakich wynikach z próby sprawdzoną hipotezę należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia. Hipoteza zerowa – hipoteza sprawdzająca oznaczana H 0 – jest to hipoteza poddana procedurze weryfikacyjnej, w której zakładamy, że różnica między analizowanymi parametrami lub rozkładami wynosi zero. Hipoteza alternatywna – hipoteza, którą skłonni jesteśmy przyjąć, jeżeli w świetle wyników próby statystycznej należy odrzucić hipotezę H 0. Oznaczamy ją H 1. Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach próby hipotezę sprawdzaną H 0 można przyjąć oraz przy jakich należy ją odrzucić. Dla kształtu rozkładu pewnej zmiennej losowej określa się hipotezę zerową w następujący sposób: która mówi, że dana dystrybuanta rozkładu empirycznego uzyskanego z próby F(x) jest elementem pewnego zbioru funkcji rozkładu teoretycznego o określonej dystrybuancie. Hipoteza alternatywna będzie w tym przypadku sformułowana następująco:

5 Wnioskowanie statystyczne Podejmując decyzję przyjęcia lub odrzucenia hipotezy narażamy się na popełnienie błędu I rodzaju, polegającego na odrzuceniu hipotezy prawdziwej, jak i na popełnienie błędu II rodzaju, polegającego na przyjęciu hipotezy fałszywej. Konstrukcja testu zależy od postaci hipotezy zerowej H 0 (bezpośrednio weryfikowanej) oraz postaci hipotezy alternatywnej H 1 (konkurencyjnej do H 0 ). Decyzja Hipoteza H 0 jest prawdziwajest fałszywa Przyjąć H 0 decyzja poprawna 1 - decyzja błędna Błąd drugiego rodzaju Odrzucić H 0 decyzja błędna Błąd pierwszego rodzaju (poziom istotności) decyzja poprawna 1 – Moc testu

6 Wnioskowanie statystyczne Błąd pierwszego rodzaju ( ), który polega na odrzuceniu hipotezy zerowej, mimo że jest ona prawdziwa. Błąd ten zwany jest poziomem istotności. Poziom istotności wskazuje, na jak mały błąd zgadzamy się przy weryfikacji hipotezy zerowej. Poziom istotności określa dopuszczalną częstość wystąpienia wyników niezgodnych z przyjętymi założeniami na skutek losowego charakteru próby. Błąd drugiego rodzaju ( ) polega na przyjęciu hipotezy zerowej, gdy jest ona w rzeczywistości fałszywa. Moc testu: prawdopodobieństwo 1-, tj. prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona fałszywa, a hipoteza alternatywna jest prawdziwa. Testem najmocniejszym jest ten, którego, przy ustalonym poziome istotności, wartość jest najmniejsza. 1.Moc zależy od odległości między wartością parametru zakładaną w hipotezie zerowej a prawdziwą wartością parametru – im większa odległość tym większa moc. 2.Moc zależy od wielkości odchylenia standardowego w populacji – im mniejsze odchylenie, tym większa moc. 3.Moc zależy od liczebności próby – im liczniejsza próba, tym większa moc. 4.Moc zależy od poziomu istotności testu – im niższy poziom istotności, tym mniejsza moc testu.

7 Wnioskowanie statystyczne 1.określić hipotezę zerową H 0 i alternatywną H 1 ; 2.określić poziom istotności oraz wielkość próby n (lub prób), a w pewnych przypadkach wielkości zbiorowości generalnej N; 3.określić zastosowany sposób losowania; 4.w przypadku testu parametrycznego sprawdzić rozkład zbiorowości generalnej; 5.wybrać odpowiedni test statystyczny dla oceny hipotezy zerowej; 6.obliczyć wartość charakterystyki testu na podstawie danych uzyskanych z próby (lub prób); 7.znaleźć w tablicach statystycznych wartość krytyczną na danym poziomie istotności i wyznaczyć obszar przyjęcia i odrzucenia hipotezy zerowej; 8.podjąć decyzję. Budowa testu istotności:

8 Wnioskowanie statystyczne Do weryfikacji hipotez parametrycznych najczęściej wykorzystywanymi testami są: dla dużej próby statystyka u, dla małej próby statystyka t-Studenta. Są to tzw. testy istotności, które znajdują zastosowanie w sytuacji, gdy interesuje nas pytanie, czy hipotezę zerową można odrzucić – a nie badamy innych hipotez. Z tym, że statystyka u wykorzystuje rozkład normalny, z kolei statystyka t rozkład t-Studenta. Reguła decyzyjna przy testowaniu hipotezy statystycznej polega na porównaniu wartości sprawdzianu z wartościami rozgraniczającymi obszary odrzucenia i nieodrzucenia. Hipotezę zerową odrzucamy wtedy i tylko wtedy, gdy sprawdzian wpada w obszar odrzucenia przy przyjętym poziomie istotności. Obszarem odrzucenia hipotezy statystycznej jest taki zbiór liczb, że jeżeli sprawdzian przyjmie wartość z tego zbioru, to hipotezę zerową odrzucimy. Obszar odrzucenia określany jest jako obszar krytyczny. Obszarem nieodrzucenia (przyjęcia) hipotezy statystycznej jest taki zbiór liczb, że jeżeli sprawdzian przyjmie wartość z tego zbioru, to hipotezy zerowej nie odrzucimy. Wartość krytyczna testu – wartość zmiennej losowej o określonym rozkładzie, która przy danym poziomie istotności stanowi koniec przedziału odrzucenia.

9 Wnioskowanie statystyczne Przed przystąpieniem do testowania muszą być sformułowane obie hipotezy: zerowa i alternatywna. Testem dwustronnym jest test, którego obszar odrzucenia składa się z wartości położonych pod dwoma ogonami krzywej gęstości rozkładu sprawdzianu (przy założeniu prawdziwości hipotezy zerowej) Test jednostronny zostanie zastosowany, jeżeli chcemy sprawdzić, czy parametr przyjmie wartość większą lub mniejszą od określonej liczby. Wybór jedno- lub dwustronnego testu hipotezy statystycznej jest wyznaczony przez potrzebę działania. Jeżeli działanie będzie podjęte, gdy parametr przekroczy pewną wartość a, to alternatywną hipotezą będzie, że parametr jest większy od a i zastosujemy test prawostronny. Jeżeli zaś działanie będzie podjęte, gdy parametr przyjmie wartość mniejszą od a, to alternatywną hipotezą będzie, że parametr jest mniejszy od a i zastosujemy test lewostronny. W przypadku testów jednostronnych prawdopodobieństwo popełnienia błędu pierwszego rodzaju wyobraża pole pod jednym ogonem krzywej gęstości

10 Wnioskowanie statystyczne Wnioskowanie w testach istotności Jeżeli wartość statystyki z próby należy do obszaru krytycznego odrzucamy H 0 na korzyść H 1 (przyjmujemy H 1 ) Jeżeli wartość statystyki z próby nie należy do obszaru krytycznego brak podstaw do odrzucenia H 0 (co nie jest jednoznaczne z przyjęciem H 0 ) Jeżeli hipotezę zerową odrzucimy na poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności. Jeżeli hipotezę zerową odrzucimy na poziomie istotności, to możemy jej nie odrzucić na mniejszym poziomie istotności.

11 Wnioskowanie statystyczne Wartość p (p-value) Wartością p jest najniższy poziom istotności, przy którym hipoteza zerowa mogłaby być odrzucona przy otrzymanej wartości sprawdziany. Wartość p to prawdopodobieństwo otrzymania takiej wartości sprawdzianu, jaką otrzymaliśmy – lub wartości skrajniejszej – przy założeniu że hipoteza zerowa jest prawdziwa. W przypadku testu dwustronnego wartość p jest miarą sumy dwóch pól pod krzywą gęstości rozkładu znajdujących się na prawo od dodatniej o na lewo od ujemnej wartości sprawdzianu. W przypadku testów jednostronnych jest miarą pola pod krzywą gęstości rozkładu na prawo od wartości sprawdzianu (test prawostronny) lub na lewo (test lewostronny). Przy danym poziomie istotności a odrzucić hipotezę zerową można wtedy i tylko wtedy, jeżeli wartość p. Jeżeli p >, to brak jest podstaw do odrzucenia H 0.

12 Wnioskowanie statystyczne Test dla średniej 1° zakładamy, że zmienna losowa X ma rozkład normalny o znanym odchyleniu standardowym próba jest dość duża (powyżej 30), pobrana z populacji o rozkładzie N(. Estymatorem parametru jest H 0 : = 0 H 1 : 0 lub > 0 lub < 0 Standaryzując otrzymujemy zmienną losowąktóra ma rozkład N(0, 1). a) jeżeli H 1 : 0 b) jeżeli H 1 : > 0 c) jeżeli H 1 : < 0 2° zakładamy, że zbiorowość generalna ma dowolny rozkład ciągły o nieznanych parametrach, a próba jest duża (n > 50). Estymatorem parametru jest Wartość statystyki testu:która ma rozkład N(0, 1). W obu przypadkach obszar krytyczny uzależniony jest od postaci hipotezy alternatywnej:

13 Wnioskowanie statystyczne 3° Zbiorowość generalna ma rozkład normalny o parametrach N( ) o nieznanych parametrach, a próba jest mała (n < 30). Korzystamy ze statystyki t- Studenta z n-1 stopniami swobody. Statystyka testowa ma postać:Obszary krytyczne mają postać: a) jeżeli H 1 : 0 b) jeżeli H 1 : > 0 c) jeżeli H 1 : < 0

14 Wnioskowanie statystyczne Test dla dwóch średnich H 0 : = 2 H 1 : 2 lub > 2 lub < 2 1° Badamy dwie populacje generalne mające rozkłady normalne N( 1, 1 ) i N( 2, 2 ), przy czym odchylenie standardowe 1 i 2 są znane. Statystyka testu ma postać: 2° Zmienna X ma w jednej populacji generalnej ma rozkład N( 1, 1 ) i w drugiej populacji generalnej ma rozkład N( 2, 2 ) lub dowolny inny rozkład o odpowiednio: średniej wartości 1 i o skończonej, ale nieznanej wartości wariancji 1 2 oraz średniej wartości 2 i o skończonej, ale nieznanej wartości 2 2. Próby duże. Statystyka testu ma postać: 3° Badamy dwie populacje generalne mające rozkłady normalne N( 1, 1 ) i N( 2, 2 ), przy czym odchylenie standardowe nie są znane, ale wiadomo, że 1 = 2 (wariancje nie różnią się istotnie między sobą). Próby małe. Statystyka testu ma postać:

15 Wnioskowanie statystyczne W dwóch sklepach badano utargi: Przykład a)w sklepie A przeciętny utarg wynosi 5,5 tyś. zł ( = 0,1) b)w sklepie B przeciętny utarg jest mniejszy niż 7 tyś. zł ( = 0,01) c)sklep A osiąga niższą wartość utargu niż sklep B ( = 0,01)

16 Wnioskowanie statystyczne Test dla dwóch średnich – próby powiązane Dane pochodzą z dwóch populacji powiązanych i są powiązane w pary. Dla każdej z par wyznaczmy różnicę d i = y i – x i Zakładamy, że populacja różnic ma rozkład normalny – w przypadku małej próby (n – 1 < 30) statystyką testową jest – w przypadku dużej próby (n – 1 > 30) statystyką testową jest Dla 7 losowo wybranych roślin chmielu wykonano pewne doświadczenie: zapylono połowę roślin, a drugą – nie. Przykład Na poziomie istotności 0,05 zweryfikować hipotezę, że zapylanie roślin zwiększa masę nasion.

17 Wnioskowanie statystyczne Test dla wariancji H 0 : = 0 2 H 1 : 0 2 lub > 0 2 lub < 0 2 1° zakładamy, że zmienna losowa X ma rozkład normalny o nieznanym odchyleniu standardowym średniej próba jest mała (poniżej 30), pobrana z populacji o rozkładzie N(. Estymatorem parametru jest a) jeżeli H 1 : 0 b) jeżeli H 1 : 2 > 2 0 c) jeżeli H 1 : 2 < 2 0 2° zakładamy, że badana cecha populacji ma rozkład N(, ) o nieznanym i. Duża próba. Estymatorem parametru jest

18 Wnioskowanie statystyczne Test dla wskaźnika struktury H 0 : p = p 0 H 1 : p p 0 lub p > p 0 lub p < p 0 Zbiorowość generalna ma rozkład dwupunktowy z parametrem p. Wylosowano próbę n > 100. W próbie losowej o liczebności n jest m elementów spełniających pewien warunek (wartość proporcji z próby powinna spełniać warunek: 0,2 < p < 0,8). Wówczas statystyką testową jest Test dla dwóch wskaźników struktury H 0 : p 1 = p 2 H 1 : p 1 p 2 lub p 1 > p 2 lub p 1 < p 2 Zbiorowości generalne mają rozkład dwupunktowy z parametrami p 1 i p 2. Liczebności prób powinny spełniać relacje: n 1 > 100 i n 2 > 100. Statystka testowa wynosi – proporcja dla próby połączonej

19 Wnioskowanie statystyczne Powierzchnia [m 2 ] Liczba mieszkań W spółdzielni mieszkaniowej przeprowadzono badanie struktury mieszkań oddawanych do zasiedlenia według ich powierzchni. Otrzymano wyniki: a)sprawdzić na poziomie istotności 0,05, że odchylenie standardowe powierzchni mieszkania jest mniejsze od 14 m 2 b)czy można twierdzić, że odsetek dużych mieszkań (powyżej 60 m 2 ) stanowi więcej niż 20 % ogółu mieszkań (współczynnik istotności 0,03) Przykład 1. Podczas juwenaliów studentom zadano pytanie czy lubi Pan/Pani alkohol. Przebadano 180 studentek i 120 studentów. Na pytanie twierdząco odpowiedziało 50 studentek i 40 studentów. Czy można twierdzić, że frakcja lubiących alkohol mężczyzn jest taka sama jak kobiet (współczynnik istotności 0,04).

20 Wnioskowanie statystyczne Test dla współczynnika korelacji H 0 : = H 1 : lub > lub < Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów – mała próba (n – 2 120)– duża próba (n – 2 > 120) H 0 : = H 1 : lub > lub < Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów (niekoniecznie dużo). Jeżeli r xy jest współczynnikiem korelacji liniowej z próby i jest współczynnikiem korelacji w tej zbiorowości, to rozkład zmiennej losowej jest w przybliżeniu normalny N(0, 1).

21 Wnioskowanie statystyczne Wartość działki [w tys. zł] Powierzchnia działki [w arach] Na podstawie transakcji kupna-sprzedaży działek budowlanych w Szczecinie w grudniu 1995 roku otrzymano następujące informacje: Przykład a)zbadać istotność współczynnika korelacji pomiędzy wartością działki a jej powierzchnią (poziom istotności 0,05), b)czy można twierdzić, że współczynnik korelacji pomiędzy wartością działki a powierzchnią jest większy od 0,7 (poziom istotności 0,04).

22 Wnioskowanie statystyczne Testów parametrycznych nie stosujemy, gdy zmienne mają charakter jakościowy czy też uporządkowany. Testy nieparametryczne wykorzystujemy w sytuacji, gdy nie są spełnione założenia wymagane przez testy parametryczne, jak: zmienne mierzalne, posiadające rozkład zgodny normalnym (w odniesieniu do dużych populacji n > 100 zamiast testów nieparametrycznych możemy stosować testy parametryczne, mimo że sama zmienna nie posiada rozkładu normalnego. Jest to możliwe ze względu na fakt, że rozkład średnich z tych prób ulega normalizacji). Testy nieparametryczne oparte są na porównywaniu całych rozkładów, a nie określonych parametrów tych rozkładów. Testy nieparametryczne mają znacznie mniejszą moc niż testy parametryczne, co oznacza, że za ich pomocą trudniej jest odrzucić hipotezę zerową niż za pomocą testów parametrycznych. Łatwiej więc popełnić błąd II rodzaju, tzn. przyjąć nieprawdziwą hipotezę zerową. W testach nieparametrycznych do odrzucenia hipotezy zerowej potrzebne są zwykle próby o większej liczebności niż w odpowiadających im testach parametrycznych. Weryfikacja nieparametryczna

23 Wnioskowanie statystyczne Nieparametryczne testy istotności można podzielić na trzy zasadnicze grupy: – testy zgodności – zawdzięczają swoją nazwę temu, że sprawdza się za ich pomocą zgodność rozkładu empirycznego z próby z rozkładem hipotetycznym (zmiennej skokowej lub ciągłej) lub też zgodność dwóch lub więcej rozkładów empirycznych z próby. Spośród najbardziej popularnych testów wyróżnia się test zgodności 2, test zgodności Kołmogorowa, test Kołmogorowa – Smirnowa. a)test zgodności 2 możemy wykorzystywać do badania zgodności cech mierzalnych, jak i niemierzalnych (jedyny test do badania zgodności cech niemierzalnych). W celu weryfikacji hipotezy zerowej buduje się szereg rozdzielczy o r klasach (r 5) i liczebnościach n i (n i 5). Następnie porównuje się liczebności teoretyczne (wyznaczone w oparciu o prawdopodobieństwo p i charakterystyczne dla rozkładu hipotetycznego), które powinny występować w klasie i (gdyby hipoteza H 0 była poprawna) z liczebnościami empirycznymi. Statystyką testową jest statystyka 2, a obszar krytyczny jest prawostronny wyznaczany w oparciu o statystykę 2 odczytaną dla zadanego poziomu istotności oraz r-k-1 stopni swobody (k – liczba szacowanych parametrów rozkładu hipotetycznego). Test ten może być stosowany zarówno kiedy dystrybuanta hipotetyczna jest skokowa, jak i ciągła (statystyka 2 nie zależy od tego, jaka jest postać dystrybuanty zmiennej X),

24 Wnioskowanie statystyczne b)test Kołmogorowa – sprawdza, czy rozkład w populacji dla pewnej zmiennej losowej, różni się od założonego rozkładu teoretycznego, gdy znana jest jedynie pewna skończona liczba obserwacji tej zmiennej. Często wykorzystywany jest on w celu sprawdzenia, czy zmienna ma rozkład normalny. Punktem wyjścia jest analiza bezwzględnych różnic pomiędzy dystrybuantą hipotetyczną a dystrybuantą empiryczną. Największa różnica służy do budowy statystyki, której rozkład służy do budowy obszaru krytycznego. Test ten może być stosowany jedynie, kiedy dystrybuanta hipotetyczna jest ciągła, a liczebność próby duża (powyżej 100), c)test Kołmogorowa-Smirnowa jest uogólnieniem wcześniejszego testu – jest używany do sprawdzenia, czy dwa jednowymiarowe rozkłady prawdopodobieństwa różnią się od siebie (dwie próby pochodzą z tej samej populacji). W teście analizuje się jedynie różnice pomiędzy dystrybuantami empirycznymi. Niewątpliwą zaletą testu jest możliwość wykorzystania go w trakcie badań rozkładów bardzo nielicznych prób (poniżej 100). – testy losowości – weryfikujące hipotezę, że próba ma charakter losowy, np. test serii (test serii Stevensa, Walda-Wolfowitza) – np. test medianowy (elementom poniżej mediany przyporządkowuje się np. symbol A, a elementom powyżej mediany – symbol B; pod pojęciem serii rozumiemy każdy ciąg identycznych elementów w zbiorze uporządkowanym według ustalonego wcześniej kryterium),

25 Wnioskowanie statystyczne – testy niezależności – sprawdzające hipotezę o niezależności dwóch zmiennych losowych, np. test niezależności 2, który stosowany jest w przypadku badania niezależności cech niemierzalnych (jakościowych) lub w przypadku badania niezależności cechy jakościowej z ilościową. Przedmiotem badania jest populacja generalna, z której pobrano n-elementową próbę (n > 30), a wyniki sklasyfikowano w postaci tablicy wg jednej cechy w r wierszach i wg drugiej cechy w k kolumnach. Wnętrze tablicy niezależności stanowią liczebności n ij elementów próby, które spełniają jednocześnie kryteria zawarte w i-tym wierszu i j-tej kolumnie. Tablica niezależności jest podstawą weryfikacji nieparametrycznej hipotezy zerowej głoszącej, że w populacji nie ma zależności między cechami (zmiennymi) X i Y.

26 Wnioskowanie statystyczne H 0 : P(X = x i, Y = y j ) = P(X = x i ) · P(Y = y j ), czyli, że cechy X i Y są niezależne H 1 : P(X = x i, Y = y j ) P(X = x i ) · P(Y = y j ), czyli, że cechy X i Y są zależne, Do weryfikacji powyższych hipotez stosuje się statystykę 2 : Liczebności teoretyczne wyznacza się wg formuły: gdzie n i., n.j – liczebności brzegowe Z tablic rozkładu odczytujemy wartość statystyki 2 odczytaną przy poziomie istotności i przy (r – 1)(k – 1) stopniach swobody (r – liczba wierszy w tablicy niezależności, k – liczba kolumn). Obszar krytyczny jest obszarem prawostronnym, zatem decyzja weryfikacyjna może być następująca: – jeżeli 2 2 a; (r - 1)(k - 1) – H 0 odrzucamy na rzecz hipotezy alternatywnej H 1 – jeżeli 2 < 2 a; (r - 1)(k - 1) – nie ma podstaw do odrzucenia H 0 o niezależności cech

27 Wnioskowanie statystyczne Przykład Badając wpływ lokalizacji na cenę uzbrojonych działek budowlanych otrzymano poniższą tablicę: Cena 1 m 2 Lokalizacja niemodnaprzeciętnamodna Zbadać, czy cechy są zależne (poziom istotności 0,05)


Pobierz ppt "Wnioskowanie statystyczne CZEŚĆ III dr Urszula Gierałtowska."

Podobne prezentacje


Reklamy Google