Hipotezy statystyczne

Slides:



Advertisements
Podobne prezentacje
Hipotezy statystyczne
Advertisements

Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Stężenia Określają wzajemne ilości substancji wymieszanych ze sobą. Gdy substancje tworzą jednolite fazy to nazywa się je roztworami (np. roztwór cukru.
MATLOS „JAK TEORIA MA SIĘ DO PRAKTYKI?”. Cel projektu: Sprawdzamy, jaka jest zależność między prawdopodobieństwem a częstością zdarzenia.
Excel 2007 dla średniozaawansowanych zajęcia z dnia
Ekonometria stosowana Slajdy pomocnicze Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
 Czasem pracy jest czas, w którym pracownik pozostaje w dyspozycji pracodawcy w zakładzie pracy lub w innym miejscu wyznaczonym do wykonywania pracy.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
1 Organizacje a kontrakt psychologiczny We współczesnym świecie człowiek otoczony jest szeregiem kontraktowych zobowiązań. To pewien rodzaj powiązań, zależności,
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Definiowanie i planowanie zadań typu P 1.  Planowanie zadań typu P  Zadania typu P to zadania unikalne służące zwykle dokonaniu jednorazowej, konkretnej.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
Renata Maciaszczyk Kamila Kutarba. Teoria gier a ekonomia: problem duopolu  Dupol- stan w którym dwaj producenci kontrolują łącznie cały rynek jakiegoś.
Dorota Kwaśniewska OBRAZY OTRZYMYWA NE W SOCZEWKAC H.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
Ogólnopolska Konferencja Naukowa Finanse – Statystyka – Badania Empiryczne 26 październik 2016 rok Wrocław Katedra Prognoz i Analiz Gospodarczych Uniwersytet.
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Estymacja parametrów statystycznych – podstawowe pojęcia
Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Badanie współczynnika inbredu
mutacyjnego algorytmu ewolucyjnego
Katedra Międzynarodowych Studiów Porównawczych
SYSTEM KWALIFIKACJI, AWANSÓW I SPADKÓW
terminologia, skale pomiarowe, przykłady
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Przywiązanie partnerów a ich kompetencje społeczne
Rachunki zdań Tautologiczność funkcji
Prowadzący: dr Krzysztof Polko
Liczby pierwsze.
Rachunek prawdopodobieństwa i statystyka
Modele SEM założenia formalne
Moje szczęście.
Pojedyńczy element, mała grupa
Opracowała: Monika Grudzińska - Czerniecka
Wnioskowanie statystyczne. Estymacja i estymatory.
Ekonometria stosowana
„There are three kinds of lies: lies, damned lies, and statistics”
Własności statystyczne regresji liniowej
Weryfikacja hipotez statystycznych
Wpływ wybranych czynników na występowanie zaburzeń snu w chorobie Parkinsona Weronika Urbaś1, Anna Grażyńska1, Magdalena Doręgowska2, Joanna Siuda2, Monika.
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Wnioskowanie statystyczne. Estymacja i estymatory.
Znajdowanie liczb pierwszych w zbiorze
REGRESJA WIELORAKA.
Wyrównanie sieci swobodnych
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
TESTY NIEPARAMETRYCZNE
Program na dziś Wprowadzenie Logika prezentacji i artykułu
TESTY NOMINALNE Warunki egzaminu.
WYBRANE ZAGADNIENIA PROBABILISTYKI
Prognoza ryzyka ING w skali miesiąca Symulacja historyczna
Testy statystycznej istotności
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Hipotezy statystyczne dr hab. Dariusz Piwczyński 2018-12-09

Po co hipotezy? do... badania założeń dotyczących średniego poziomu cechy w populacji generalnej: wydajność mleka dla określonej rasy bydła wynosi 6700 kg oceny różnicy między dwiema grupami: czy istnieje różnica między dwiema grupami zwierząt żywionych paszami o różnym składzie pod względem przyrostów dobowych? badania zależności między cechami: czy istnieje zależność pomiędzy ilością wypalanych papierosów a zachorowalnością na nowotwór płuc? porównania rozkładów zmiennych: badamy czy zmienna przyrosty dobowe posiada rozkład zgodny z normalnym. 2018-12-09

Weryfikacja hipotez statystycznych polega na doborze określonego schematu postępowania zwanego testem statystycznym, który rozstrzyga, przy jakich wynikach z próby sprawdzoną hipotezę należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia. 2018-12-09

Hipotezy możemy podzielić na: parametryczne, tj. takie, które dotyczą wartości parametrów statystycznych populacji, np. średniej arytmetycznej czy odchylenia standardowego nieparametryczne – dotyczą postaci rozkładu zmiennej lub losowości próby. 2018-12-09

Rodzaje hipotez Hipoteza, która podlega sprawdzeniu zwana jest hipotezą zerową (H0) Konkurencyjną dla niej hipotezą jest hipoteza alternatywna (H1). 2018-12-09

Hipotezy jednostronne i dwustronne Na podstawie pewnych przesłanek zakładamy, że masa ciała samic gatunku kret wynosi 92 g. H0: µ = 92 g Alternatywna hipoteza: H1: µ < 92 g (hipoteza jednostronna) H1: µ > 92 g (hipoteza jednostronna) H1: µ ≠ 92 g (hipoteza dwustronna) 2018-12-09

Hipoteza zerowa Hipotezę zerową, dotyczącą wartości oczekiwanych można zapisać następująco: H0: μ1 = μ2 np. zakładamy, że średnia masa ciała samic i samców gatunku kret (w populacji generalnej) jest taka sama. H0: E(X1) = E(X2) ~ H0: μ1 = μ2 2018-12-09

Założenie! Przystępując do weryfikacji hipotezy zerowej, zakładamy iż jest ona prawdziwa. 2018-12-09

Błąd pierwszego rodzaju (α) Polega na odrzuceniu hipotezy zerowej, mimo że jest ona prawdziwa. Błąd ten zwany jest poziomem istotności. Najczęściej przyjmuje wartości 0,05; 0,01 czy 0,001. Poziom istotności wskazuje, na jak mały błąd „zgadzamy się” przy weryfikacji hipotezy zerowej. Poziom istotności określa dopuszczalną częstość wystąpienia wyników niezgodnych z przyjętymi założeniami na skutek losowego charakteru próby. 2018-12-09

Błąd drugiego rodzaju (β) Polega na przyjęciu hipotezy zerowej, gdy jest ona w rzeczywistości fałszywa. 2018-12-09

Błędy towarzyszące testowaniu hipotez Hipoteza zerowa Decyzja Przyjąć H0 Odrzucić H0 prawdziwa decyzja prawidłowa błąd I rodzaju fałszywa błąd II rodzaju

Moc testu 1- , jest to prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona fałszywa, a hipoteza alternatywna jest prawdziwa. Testem najmocniejszym jest ten, którego, przy ustalonym poziome istotności α, wartość  jest najmniejsza. 2018-12-09

Moc testu – test t-Studenta 2018-12-09

Moc testu – analiza wariancji Title 'Ustalenie mocy testu - analiza nwariancji'; proc glmpower data = moc.kret; class plec poraRoku siedlisko; model masa = plec poraRoku plec*poraRoku siedlisko; power stddev = 14.46 ntotal = 111 power = .; run; 2018-12-09

Formułowanie i weryfikowanie hipotez statystycznych: Sformułowanie hipotezy zerowej i alternatywnej. Wybór testu lub testów określających reguły postępowania przy weryfikacji hipotezy zerowej. Określenie poziomu istotności, a tym samym wyznaczenie obszaru krytycznego hipotezy. Formułowanie – na podstawie wyników z próby, testu i przyjętych założeń - wniosku końcowego. 2018-12-09

Obszar krytyczny Zbiór wszystkich wartości danej statystyki, dla których hipoteza zerowa jest odrzucana. 2018-12-09

Pojedyncza próba, rozkład normalny, znane σ Obliczone u porównujemy z wartością tablicową uα. Jeżeli |u| ≥ uα to mamy podstawę do odrzucenia hipotezy zerowej. 2018-12-09

Pojedyncza próba, rozkład normalny lub inny, nieznane σ, duża próba n > 30 Obliczone u porównujemy z wartością tablicową uα. Jeżeli |u| ≥ uα to mamy podstawę do odrzucenia hipotezy zerowej. 2018-12-09

Pojedyncza próba, rozkład normalny, nie jest znane σ, próba jest mała – średni błąd średniej arytmetycznej 2018-12-09

Czy mamy podstawę do odrzucenia H0 = 92 g?

H1: µ ≠ 92 g H1: µ < 92 g 2018-12-09

Wartości krytyczne Wartości krytyczne rozkładu t-Studenta można otrzymać w wyniku zastosowania funkcji: =rozkład.t.odwr.ds(α; ν)

Wartości krytyczne, P(|t|  t,) = 

Podjęcie decyzji Ponieważ obliczona wartość statystyki t jest większa niż wartość krytyczna, odrzucamy hipotezę H0. Nie mamy podstaw do stwierdzenia, że przeciętna masa samic w populacji generalnej to 92 g.

Enterprise guide

EG, typ test t Jednopróbkowy

EG, Wskazujemy zmienną do analizy

EG, definiujemy H0 = 92 g

Eg, wyniki „Pr” – prawdopodobieństwo (p-value) – błąd z jakim należy się liczyć odrzucając hipotezę zerową – prawdopodobieństwo otrzymania wyniku.

Porównujemy 2 grupy, Układ doświadczenia Niezależny a wiązany!

Doświadczenie dwugrupowe Formułujemy hipotezę zerową i alternatywną H0: µ1 = µ2 H1: µ1  µ2

Porównujemy 2 grupy – kryteria doboru testu Rozkład normalny? TAK Czy znane wariancje (pop. generalnej? NIE Czy równe wariancje? Test t dla równych wariancji Test t dla nierównych wariancji Test U Duże próby? n1 i n2≥30 (50)? Test Z Testy nieparametryczne Porównujemy 2 grupy – kryteria doboru testu 2018-12-09

Istota porównań – najmniejsza istotna różnica (NIR, LSD) Jest to wartość różnicy między średnimi, która może być jeszcze uznana za wartość losową. Jeśli różnica między średnimi jest większa niż NIR to znaczy, że są efektem czynnika kontrolowanego w doświadczeniu. 2018-12-09 wks – wartość krytyczna danej statystyki, np. t-Studenta, u

SD – średni błąd różnicy średnich 1. Dwie próby, nierówne wariancje Test t dla nierównych wariancji (test Cochrana-Coxa) Statystyka testująca t SD – średni błąd różnicy średnich Rozkład statystyki testującej: t-Studenta 2018-12-09

Ustalenie liczby stopni swobody

2. Dwie próby, równe wariancje, Test t Statystyka testująca t Rozkład statystyki testującej: t-Studenta o  = n1 + n2 – 2 2018-12-09

3.Rozkład normalny, znane wariancje odnoszące się do populacji generalnej (test U) Statystyka testująca: Rozkład statystyki testującej: N(0; 1)

4. Rozkład dowolny, duże próby, nie jest znana wariancja Statystyka testująca: Rozkład statystyki testującej: N(0; 1)

Przykład H0: µ♂ = µ♀; H1: µ♂  µ♀ Naszym zamiarem jest porównanie samic i samców gatunku kret w zakresie masy ciała. Próby są małe (n < 30), zakładamy że cecha posiada rozkład zgodny z normalnym. Nie znamy wariancji w populacji generalnej. Z kolei wariancje populacji próbnych są różne. H0: µ♂ = µ♀; H1: µ♂  µ♀

Przykład cd., Test Cochrana-Coxa Z jakich wzorów korzystamy?

Wartości krytyczne,  = 0,05 -2,064 2,064 2.064 0,01 2.797 0,001 3.745 -2,064 2,064 Obliczona wartość statystyki t to 3,145 =ROZKŁAD.T.ODW(0.05;24)

Decyzja Ze względu na fakt, iż obliczona wartość statystyki |t| jest większa niż wartość krytyczna przy p = 0,01 odrzucamy hipotezę zerową. Stwierdzamy tym samym, że grupy różnią się między sobą wysoko istotnie.

Test dla dwóch wariancji Zanim przystąpimy do zbadania hipotezy zerowej dotyczącej wartości przeciętnych, musimy zweryfikować hipotezę dotyczącą podobieństwa wariancji! Jednym z kryteriów uwzględnianych w trakcie doboru właściwego testu do porównania dwóch wartości oczekiwanych jest ustalenia czy wariancje odnoszące się do tychże porównywanych populacji są jednakowe.

Podobieństwo zmienności Hipoteza zerowa o równości wariancji w porównywanych populacjach posiada następującą postać: H0: σ21 = σ 22 zaś alternatywna zakładająca różnice w zakresie zmienności:H1: σ21  σ22

Statystyka F Wykorzystywana jest do weryfikacji hipotezy o równości dwóch wariancji Jeżeli wariancje porównywanych grup nie są sobie równe, to w powyższym wzorze, w liczniku umieszczamy wariancję o wyższej wartości!!! Obliczoną wartość statystyki porównujemy z wartością tablicową ustaloną dla określonego poziomu istotności i liczby stopni swobody.

Rozkład F

Test FISHERA Mamy podstawę do odrzucenia H0 zakładającej podobieństwo wariancji w grupie samic i samców! W praktyce oznacza, że zmienność masy ciała samic i samców w populacji generalnej jest różna.

zatem test Cochrana-Coxa

Decyzja Obliczone prawdopodobieństwo jest mniejsze niż 0,01 (oczywiście mniejsze niż 0,05) zatem mamy podstawę do odrzucenia H0 i przyjęcia H1. Co to oznacza? Możemy uznać, że przeciętna masa ciała samic i samców w populacji generalnej jest różna!

Jaka różnica? Stwierdzamy, że różnica między płciami w zakresie masy ciała jest wysoko istotna.

Test t w SAS, wybór typu tesu

EG, ustalamy zmienne

Wykres

EG, wyniki 3. odczytujemy zatem wyniki dotyczące testu t dla wariancji Nierównych 1. Rozstrzygamy czy wariancje są równe? 2. Nie są!

Wykres pudełkowy

Wykres pudełkowy wartości cechy, które oddalone od krawędzi skrzynki więcej niż wynosi półtora odstępu międzykwartylowego (1,5 x IQR)

Doświadczenie wiązane, przykład Wymiary grubości rogówki (mierzonej w jej centrum, μm) oka ludzkiego przed założeniem szkieł kontaktowych (GL0) i po 2 tygodniach od ich noszenia (GL2)

Hipotezy Hipotezę zerowa – zakładamy, że grubość rogówki oka ludzkiego przed założeniem i po dwóch tygodniach noszenia szkieł kontaktowych jest taka sama. H0: µ1 = µ2 Hipoteza alternatywna – zakładamy, że grubość rogówki oka ludzkiego przed założeniem i po dwóch tygodniach noszenia szkieł kontaktowych jest różna. H1: µ1  µ2

Doświadczenie wiązane, obliczamy wartość statystyki t – średnia z indywidualnych różnic między wymiarami grubości rogówki w 2 terminach kontroli – błąd standardowy różnicy – wariancja zmiennej di 2018-12-09

Doświadczenie wiązane, MS Excel nasze dane

Doświadczenie wiązane, MS Excel Tworzymy zmienną di di = GL0 – GL2

Doświadczenie wiązane, MS Excel Obliczamy średnią kolumny di Obliczamy wariancję kolumny di Obliczamy błąd standardowy różnicy Obliczamy statystykę t

Decyzja Obliczona wartość statystyki t: |t| = 1,56 Wartość krytyczna t(0,05; 21) = 2,080 Nie mamy podstaw do odrzucenia hipotezy zerowej, ponieważ obliczona przez nas wartość statystyki t jest mniejsza niż wartość krytyczna odczytana przy poziomie istotności 0,05 i liczbie stopni swobody 21. Można zatem stwierdzić, że noszenie soczewek kontaktowych nie wpływa statystycznie na zmianę grubości rogówki.

Doświadczenie zależne, MS Excel Wykorzystujemy funkcję t.test() T.TEST() T.TEST(B2:B23;C2:C23;2;1) Obliczone prawdopodobieństwo jest większe niż 0,05. Nie ma podstaw do odrzucenia H0. T.TEST Koniecznie musimy wpisać „1” w miejsce Typ – oznacza to doświadczenie wiązane

Analiza za pomocą EG Wybieramy rodzaj analizy statystycznej Wybieramy typ testu t

Wskazujemy zmienne analizowane

Oglądamy wyniki

Testy dla wskaźników struktury

Test dla jednego wskaźnika struktury

Czy uważasz się za osobę szczęśliwą? Czy można przyjąć, że 50% ludzi uważa się za szczęśliwych w życiu?

Rozpoczynamy eksperyment Zadajemy pytanie, zestawiamy wyniki!!! Szczęśliwi Nieszczęśliwi 268 73

Obliczamy proporcje Szczęśliwi Nieszczęśliwi Suma końcowa m 268 73 341 Stosunek 0,786 0,214

Weryfikujemy hipotezę zerową Hipoteza ta zakłada, że wskaźnik struktury (udział osób szczęśliwych) jest równy określonej wartości p0, tj. H0 : p = 0,5 (H1 : p ≠ 0,5) m – liczba osobników posiadających daną cechę, n – liczebność całej populacji.

Decyzja Obliczoną wartość statystyki u porównujemy z wartością krytyczną u. u0,05= 1,96 Obliczona wartość statystyki u jest większa niż wartość tablicowa, zatem odrzucamy hipotezę zerową, że 50% ludzi jest szczęśliwych.

Test dla dwóch wskaźników struktury

Czy udział szczęśliwych kobiet jest taki sam jak szczęśliwych mężczyzn?

Nasz eksperyment, cd. Uwzględniliśmy płeć badanych osób. Płeć Szczęśliwi Nieszczęśliwi Suma końcowa Kobiety 185 55 240 Mężczyźni 83 18 101 268 73 341

Nasz eksperyment, cd. Uwzględniliśmy płeć badanych osób. Płeć Szczęśliwi, % Kobiety (p1) 0,771 Mężczyźni (p2) 0,822

Weyfikujemy hipotezę zerową Hipoteza zerowa zakłada, że proporcja szczęśliwych kobiet jest taka sama jak szczęśliwych mężczyzn, czyli: H0 : p1 = p2 Hipoteza alternatywna: H1 : p1 ≠ p2

Statystyka testowa u Wskaźnik struktury dla obydwu grup jednocześnie:

Obliczamy statystykę testową u Wskaźnik struktury dla obydwu grup jednocześnie:

Decyzja Obliczoną wartość statystyki u porównujemy z wartością krytyczną u0,05. u = -1,048; u0,05 = 1,96 Obliczona wartość statystyki u jest mniejsza niż wartość krytyczna – nie mamy podstaw do odrzucenia hipotezy zerowej. Uznajemy zatem, że stopnień odczuwania jest taki sam u obojga płci.

Przedział ufności dla wskaźnika struktury, n>100

Centralne twierdzenie graniczne Jeżeli z populacji, w której zmienna losowa posiada rozkład z wartością oczekiwaną  i wariancją 2, pobierzemy próbę odpowiednio liczną składającą się z n elementów, to średnia arytmetyczna obserwacji ma w przybliżeniu rozkład normalny z parametrami  i . Wynika z tego, że zmienna losowa ma rozkład normalny standaryzowany.

Duża próba, mała próba Mała próba n < 30 Duża n  30 Dla małych prób statystyka t ma rozkład t-Studenta. W przypadku dużych prób przechodzi w rozkład normalny – zmienna u posiadać będzie rozkład normalny.

Hipoteza o zgodności rozkładu empirycznego z rozkładem teoretycznym H0: X ~ N(, ) 2018-12-09