Weryfikacja hipotez statystycznych

Slides:



Advertisements
Podobne prezentacje
Opinie, przekonania, stereotypy
Advertisements

Testowanie hipotez statystycznych
Testowanie hipotez Jacek Szanduła.
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Ekonometria stosowana Slajdy pomocnicze Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Ekonometria Wykład 1 Uwarunkowania modelowania ekonometrycznego. Uogólniona metoda najmniejszych kwadratów dr hab. Mieczysław Kowerski.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Wypadkowa sił.. Bardzo często się zdarza, że na ciało działa kilka sił. Okazuje się, że można działanie tych sił zastąpić jedną, o odpowiedniej wartości.
WSPÓŁRZĘDNE GEOGRAFICZNE.  Aby określić położenie punktu na globusie stworzono siatkę geograficzną, która składa się z południków i równoleżników. Południk.
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
Ogólnopolska Konferencja Naukowa Finanse – Statystyka – Badania Empiryczne 26 październik 2016 rok Wrocław Katedra Prognoz i Analiz Gospodarczych Uniwersytet.
Dowodzenie twierdzeń Autor: Patryk Kostrzewski. Dowodzenie twierdzeń pozwala stwierdzić prawdziwość twierdzenia. W tym celu przeprowadza się rozumowanie.
Estymacja parametrów statystycznych – podstawowe pojęcia
Analiza danych procesu Podstawowe miary procesu
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
mutacyjnego algorytmu ewolucyjnego
Wyznaczanie miejsc zerowych funkcji
Katedra Międzynarodowych Studiów Porównawczych
terminologia, skale pomiarowe, przykłady
Przywiązanie partnerów a ich kompetencje społeczne
Wyniki egzaminu gimnazjalnego Matematyka Rok szkolny 2016/1017
Rachunek prawdopodobieństwa i statystyka
Modele SEM założenia formalne
Statystyka matematyczna
Podstawy automatyki I Wykład /2016
Pojedyńczy element, mała grupa
Opracowała: Monika Grudzińska - Czerniecka
Zajęcia przygotowujące do matury rozszerzonej z matematyki
Wnioskowanie statystyczne. Estymacja i estymatory.
Ekonometria stosowana
Hipotezy statystyczne
„There are three kinds of lies: lies, damned lies, and statistics”
Metody Eksploracji Danych (2)
Własności statystyczne regresji liniowej
Repetytorium z probabilistyki i statystyki cz.2
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Wnioskowanie statystyczne. Estymacja i estymatory.
REGRESJA WIELORAKA.
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
TESTY NIEPARAMETRYCZNE
WYBRANE ZAGADNIENIA PROBABILISTYKI
Wybrane testy w MZI i UMM
Testy statystycznej istotności
Własności asymptotyczne metody najmniejszych kwadratów
dr Robert Kowalczyk, PWSZ Płock
Zapis prezentacji:

Weryfikacja hipotez statystycznych Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie Weryfikacja hipotez statystycznych dr Marta Marszałek e-mail: marta.marszalek@sgh.waw.pl

Wnioskowanie statystyczne Estymacja Weryfikacja hipotez statystycznych Szacowanie wartości parametrów rozkładu populacji (lub jego postaci funkcyjnej) na podstawie próby losowej. Sprawdzanie przypuszczeń dot. parametrów rozkładu populacji (lub jego postaci funkcyjnej) na podstawie próby losowej.

Hipoteza statystyczna Hipoteza statystyczna – dowolne przypuszczenie dotyczące parametrów lub postaci funkcyjnej rozkładu populacji generalnej. Prawdziwość tego przypuszczenia jest sprawdzana na podstawie próby losowej. Hipotezy parametryczne – przypuszczenia dotyczące parametrów populacji generalnej Hipotezy nieparametryczne – przypuszczenia dotyczące kształtu rozkładu populacji generalnej (postaci funkcyjnej).

Hipotezy parametryczne przypuszczenia dotyczące parametrów populacji generalnej. 1. Hipoteza zerowa (ma zawsze postać równości), np: H0: m=28; m1=m2; p=0,6 ; p1=p2 2. Hipoteza alternatywna (H1) – konkurencyjna do H0 (Uwaga: nie zawsze jest zaprzeczeniem do H0!)

Cel weryfikacji hipotez Podstawą weryfikacji hipotezy jest założenie, że Ho jest prawdziwa (np. m=28; przeciętna l. punktów = 28). Prawdziwość hipotezy (przypuszczenia) sprawdzamy na podstawie wyników próby losowej. Obliczona na podstawie próby wartość estymatora ( 𝑿 ) nie powinna znacząco odbiegać od założonej wartości, a jeśli różni się to powinno zdarzać się to rzadko (tj. z niewielkim prawdopodobieństwem). Uzyskanie wyniku z próby znacząco różniącego się od spodziewanej wartości parametru podważa prawdziwość założenia (hipotezy zerowej).

Test statystyczny Test statystyczny – „narzędzie” stosowane do weryfikacji hipotezy statystycznej. To reguła postępowania rozstrzygająca, jakie wyniki próby pozwalają uznać sprawdzaną hipotezę za fałszywą i ją odrzucić, a jakie nie dają podstaw do podjęcia takiej decyzji. Test należy budować tak, aby uchronić się przed popełnieniem: błędu I rodzaju (odrzucenie hipotezy prawdziwej), błędu II rodzaju (przyjęcie hipotezy fałszywej).

Wniosek o hipotezie nie odrzucać odrzucać Rzeczywistość: Hipoteza H0 Wniosek o hipotezie nie odrzucać odrzucać prawdziwa prawidłowy nieprawidłowy błąd I rodzaju nieprawdziwa błąd II rodzaju Błąd I rodzaju – błąd wnioskowania statystycznego polegający na odrzuceniu hipotezy, gdy w rzeczywistości jest ona prawdziwa.   Błąd II rodzaju – błąd wnioskowania statystycznego polegający na nieodrzuceniu hipotezy, gdy w rzeczywistości jest ona fałszywa.

Poziom istotności α Prawdopodobieństwo popełnienia błędu I rodzaju = poziom istotności α (w praktyce 𝛼 ≤ 0,1). Równoczesna minimalizacja prawdopodobieństw popełnienia obu błędów nie jest możliwa. Teoria statystyki oferuje m.in. : testy najmocniejsze – decyzje podejmuje się minimalizując prawdop. popełnienia błędu II rodzaju przy ustalonym z góry poziomie prawdop. popełnienia błędu I rodzaju. testy istotności – decyzję podejmuje się przy ustalonym prawdopodobieństwie popełnienia błędu I rodzaju. Kwestia błędu II rodzaju jest pomijana.

Etapy weryfikacji hipotez statystycznych Sformułowanie hipotezy zerowej H0 i hipotezy alternatywnej H1 Wybór odpowiedniego testu weryfikacyjnego [in. estymatora (statystyki)] – w celu sprawdzenia H0. Wyznaczenie wartości empirycznej testu (na podstawie wyników próby). Wyznaczenie obszaru krytycznego (obszaru odrzuceń hipotezy zerowej). Decyzja weryfikacyjna i wniosek (jeśli test przyjmie wartość należącą do obszaru krytycznego – H0 odrzucamy, w przeciwnym przypadku stwierdzamy brak podstaw do odrzucenia H0).

Co to znaczy „znacząco” różnić się? Ogólny wzór testu: 𝑋 − 𝑚 0 𝜎 𝑛 = 𝑒𝑠𝑡𝑦𝑚𝑎𝑡𝑜𝑟 −ℎ𝑖𝑝𝑜𝑡𝑒𝑡𝑦𝑐𝑧𝑛𝑎 𝑤𝑎𝑟𝑡𝑜ść 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑢 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑜𝑤𝑦 𝑏łą𝑑 𝑒𝑠𝑡𝑦𝑚𝑎𝑡𝑜𝑟𝑎 Co to znaczy „znacząco” różnić się? Odległość między wartością testu – estymatorem (np. 𝑋 ) i hipotetyczną wartością parametru (np. 𝒎𝟎) mierzy się wielokrotnością odchylenia standardowego statystyki będącej testem. Jeśli ta odległość jest większa niż kilka odchyleń standardowych (np. 1,96) to następuje odrzucenie H0 (lub inaczej) niewłączenie hipotetycznej wartości parametru do przedziału ufności.

Weryfikacja hipotez – decyzje weryfikacyjne Rezultat weryfikacji hipotezy: jeśli test przyjmie wartość należącą do obszaru krytycznego – H0 odrzucamy, jeśli wartość testu znajdzie się poza obszarem krytycznym to stwierdzamy brak podstaw do odrzucenia H0. np. 𝑡 𝑒𝑚𝑝 =3,15 𝜆=(−∞;−2,228>∪<2,228;+∞) 𝜆:(−∞;−2,228>∪<2,228;+∞) x np. 𝑢 𝑒𝑚𝑝 =0,75 𝜆:<1,96;+∞)

Test istotności dla wartości średniej (𝒎) w populacji generalnej o rozkładzie normalnym ze znanym σ Założenie: Populacja gener. ma rozkład N, m - nieznane, σ - znane Hipotezy: H0: m=m0 H1: m≠m0 Test weryfikacyjny dla H0: 𝑥 z próby, o rozkładzie 𝑁(𝑚; 𝜎 𝑛 ) Jeśli H0 jest prawdziwa to statystyka: ma rozkład N(0,1) i jej moduł nie powinien przyjmować zbyt dużych wartości, tzn. nie powinien przekraczać tzw. wartości krytycznej 𝑢𝛼, takiej, że 𝑃( 𝑈 ≥𝑢𝛼)=𝛼

Wyznaczanie obszaru krytycznego (obszaru odrzucenia hipotezy zerowej) Obszar nieodrzucenia 1-α obszar odrzucenia obszar odrzucenia α/2 α/2 -uα uα u

Przykład – test istotności dla m w populacji o rozkładzie normalnym ze znanym σ Należy sprawdzić przypuszczenie, że przeciętna liczba punktów uzyskanych na egzaminie ze statystyki wynosi 28. Zakłada się, że ta zmienna ma rozkład normalny z odchyleniem standardowym 5. W losowej próbie 25 studentów otrzymano X̄ = 29,2; s=4,5. Przyjąć α=0,05. H0: m=28 czyli m0= 28 H1: m≠28 X̄ ma rozkład , więc ma rozkład N(0,1) Czy 1,2 - to dużo czy mało?

Przykład – test istotności dla m w populacji o rozkładzie normalnym ze znanym σ Z tablic 𝑢0,05=1,96, więc ǀ𝑢ǀ<𝑢0,05 czyli obliczona wartość nie należy do obszaru krytycznego 𝜆:(− ∞, −1,96> 𝜐 <1,96, ∞). Decyzja weryfikacyjna: Na poziomie istotności 𝛼=0,05 brak podstaw do odrzucenia 𝐻 0 , Interpretacja (odpowiedź): to oznacza, że przeciętna liczba punktów uzyskana z egzaminu ze statystyki wynosi 28.

Wyznaczanie obszaru krytycznego (obszaru odrzucenia hipotezy zerowej) Obszar nieodrzucenia 0,95 obszar odrzucenia obszar odrzucenia 0,025 0,025 . -1,96 1,2 1,96 • u Decyzja: Na poziomie istotności 𝛼=0,05 brak podstaw do odrzucenia H0, Interpretacja (odpowiedź): średnia liczba punktów uzyskanych z egzaminu ze statystyki wynosi 28.

Testy jednostronne Test prawostronny: H0: m=m0 H1: m>m0 Prawostronny obszar krytyczny: < u2α, +∞) taki, że P(U≥u2α)=α

Wyznaczanie prawostronnego obszaru krytycznego Obszar nieodrzucenia 1-α obszar odrzucenia α u2α

Testy jednostronne Test lewostronny: H0: m=m0 H1: m<m0 Lewostronny obszar krytyczny: (-∞, -u2α,> taki, że P(U≤-u2α)=α

Wyznaczanie lewostronnego obszaru krytycznego Obszar nieodrzucenia 1-α obszar odrzucenia α -u2α

Krytyczny poziom istotności α Krytyczny poziom istotności α* (significant level, probability level, p-value, istotność) – najniższy poziom istotności, przy którym hipoteza zerowa, dla otrzymanej wartości testu, może być odrzucona, (inaczej mówiąc) – to poziom istotności, przy którym następuje zmiana decyzji weryfikacyjnej. Jeśli α* ≤ α - H0 odrzucamy α* > α - brak podstaw do odrzucenia H0

Krytyczny poziom istotności α* ≤ α Obszar nieodrzucenia 1-α α - poz.istotności u2α •uobl α* - kryt. poz. istotn. α* ≤ α : H0 odrzucamy

Krytyczny poziom istotności α* > α Obszar nieodrzucenia 1-α α – poz.istotności u2α •uobl α* –kryt. poz. istotn. α* > α: brak podstaw do odrzucenia H0

Test istotności dla wartości średniej w populacji generalnej o rozkładzie N, σ - nieznane, mała próba Założenia: Populacja gener. ma rozkład N, m, σ - nieznane, n - małe Hipotezy: H0: m=m0 H1: m≠m0 Test weryfikacyjny dla H0: , która przy założeniu prawdziwości H0 ma rozkład t-Studenta z n-1 stopniami swobody i jej moduł nie powinien przyjmować zbyt dużych wartości, tzn. nie powinien przekraczać tzw. wartości krytycznej tα takiej, że 𝑃(│𝑡│≥𝑡𝛼)=𝛼

Test istotności dla wartości średniej w populacji generalnej o dowolnym rozkładzie, duża próba. Założenia: populacja generalna ma dowolny rozkład, m, σ - nieznane, n - duże Sfromułowanie hipotezy: H0: m=m0 H1: m≠m0 Test weryfikacyjny: korzystamy z granicznego rozkładu 𝑥 z próby. Jeśli H0 jest prawdziwa to statystyka: ma asymptotyczny rozkład N(0,1) Dwustronny obszar krytyczny testu wyznaczamy w oparciu o relację: 𝑃(│𝑈│≥ 𝑢𝛼)=𝛼

Test istotności dla dwóch średnich w populacji generalnej o rozkładzie normalnym ze znanymi σ1 i σ2 Założenia: X1:N(m1,σ1) ; X2:N(m2,σ2), σ1 i σ2 - znane Sformułowanie hipotezy: H0: m1 = m2 H1: m1 ≠ m2 Jeśli H0 jest prawdziwa to statystyka: ma rozkład N(0,1) Dwustronny obszar krytyczny testu wyznaczamy w oparciu o relację: 𝑃(│𝑈│≥ 𝑢𝛼)=𝛼

Test istotności dla dwóch średnich w populacji generalnej o rozkładzie normalnym z nieznanymi, ale jednakowymi σ1 i σ2 Założenia: X1:N(m1,σ1) ; X2:N(m2,σ2), 𝜎1=𝜎2=𝜎 nieznane Sformułowanie hipotezy: H0: m1 = m2 H1: m1 ≠ m2 Jeśli H0 jest prawdziwa to statystyka: ma rozkład t-Studenta o 𝑣=𝑛1+𝑛2−2 Dwustronny obszar krytyczny testu wyznaczamy w oparciu o relację: 𝑃(│𝑡│≥ 𝑡𝛼)=𝛼

Test istotności dla dwóch średnich w populacji generalnej o dowolnym rozkładzie Założenia: X1i X2 mają dowolne rozkłady o nieznanych parametrach, 𝑛 1 , 𝑛 2 − duże Sformułowanie hipotezy: H0: m1 = m2 H1: m1 ≠ m2 Jeśli H0 jest prawdziwa to statystyka: ma rozkład as.N(0,1) Dwustronny obszar krytyczny testu wyznaczamy w oparciu o relację: 𝑃(│𝑈│≥ 𝑢𝛼)=𝛼

Test istotności dla różnicy średnich – próby zależne Założenia: Różnice par zmiennych Ri=Xi1-Xi2 mają rozkład N(mR,σR) Sformułowanie hipotezy: H0: mR = m0 H1: mR ≠ m0 Niech: Test weryfikacyjny: to statystyka która przy założeniu prawdziwości H0 ma rozkład t-Studenta z 𝑛−1 stopniami swobody. Obszar krytyczny: 𝑃(│𝑡│≥𝑡𝛼)=𝛼

Test istotności dla frakcji Założenia: Populacja ma rozkład 0−1 z parametrem p (frakcja w populacji, prawdopodobieństwo), n- duże Sformułowanie hipotezy: H0: p = p0 H1: p ≠ p0 Test weryfikacyjny dla H0: 𝒑 = 𝑿 𝒏 , (wskaźnik struktury z próby) o rozkładzie as. N (por. do odpowiedniego twierdz. granicznego) Jeśli H0 jest prawdziwa to statystyka: ma rozkład asN(0,1) Dwustronny obszar krytyczny: 𝑃(│𝑈│≥ 𝑢𝛼)=𝛼

Test istotności dla różnicy frakcji Założenia: Dwie populacje mają rozkład 0−1 z parametrami: p1 i p2 (frakcje elementów wyróżnionych), n1 i n2 - duże Sformułowanie hipotezy: H0: 𝑝1 = 𝑝2 H1: 𝑝1 ≠ 𝑝2 Frakcje (wskaźniki struktury z prób): 𝑝 1 = 𝑋 1 𝑛 1 , 𝑝 2 = 𝑋 2 𝑛 2 Wspólna frakcja z próby: 𝑝 = 𝑋 1 + 𝑋 2 𝑛 1 + 𝑛 2 Jeśli H0 jest prawdziwa to statystyka: ma rozkład as.N(0,1) Dwustronny obszar krytyczny: 𝑃(│𝑈│≥ 𝑢𝛼)=𝛼

Dziękuję dr Marta Marszałek e-mail: marta.marszalek@sgh.waw.pl