Statystyka matematyczna

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

ESTYMACJA PRZEDZIAŁOWA
Test zgodności c2.
Wnioskowanie statystyczne CZEŚĆ II
Ocena dokładności i trafności prognoz
Rangowy test zgodności rozkładów
Analiza wariancji jednoczynnikowa
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Estymacja przedziałowa
Test zgodności Joanna Tomanek i Piotr Nowak.
Metody wnioskowania na podstawie podprób
Opinie, przekonania, stereotypy
Wnioskowanie statystyczne CZEŚĆ III
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Metody Przetwarzania Danych Meteorologicznych Wykład 4
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Testy nieparametryczne
Średnie i miary zmienności
Analiza wariancji.
Rozkład t.
Hipotezy statystyczne
Konstrukcja, estymacja parametrów
Testowanie hipotez statystycznych
Hipotezy statystyczne
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Modelowanie ekonometryczne
Hipotezy statystyczne
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Weryfikacja hipotez statystycznych
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Testowanie hipotez Jacek Szanduła.
STATYSTYKA sposób na opisanie zjawisk masowych Mirosław Sadowski TRANSGRANICZNY UNIWERSYTET TRZECIEGO WIEKU W ZGORZELCU.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
STATYSTYKA – kurs podstawowy wykład 6 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Wnioskowanie statystyczne. Próbkowanie (sampling)
Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013
Testy nieparametryczne
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Wnioskowanie statystyczne Weryfikacja hipotez statystycznych
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
Estymacja i estymatory
Własności asymptotyczne ciągów zmiennych losowych
Zapis prezentacji:

Statystyka matematyczna Wnioskowanie statystyczne Statystyka matematyczna na podstawie uzyskanej próby wyciągamy wnioski o cechach zbiorowości generalnej Weryfikacja postawionych hipotez statystycznych podejmowanie decyzji o prawdziwości lub fałszywości hipotezy statystycznej Estymacja (ocena) nieznanych parametrów Parametry rozkładu Estymacja punktowa wyznaczamy z próby tylko niektóre parametry (punkty) rozkładu np. wartość oczekiwana Nie potrafimy podać dokładności uzyskanej oceny. Estymacja przedziałowa podajemy przedziały ufności dla nieznanych wartości pewnych parametrów rozkładu, np. wartości oczekiwanej i wariancji Postać rozkładu Małgorzata Podogrodzka, SGH ISiD

Estymacja - podstawowym narzędziem jest estymator estymatorem Tn parametru Q rozkładu populacji generalnej nazywamy statystykę z próby Tn = t (x1, x2 ,x3 ,x4 ,x5 , ... , xn), która służy do oszacowania wartości tego parametru różnica między estymatorem a wartością parametru nazywa się błędem szacunku (estymacji) d = Tn - Q standardowy błąd szacunku to D(Tn) względny błąd szacunku to D(Tn) / Q Małgorzata Podogrodzka, SGH ISiD

Małgorzata Podogrodzka, SGH ISiD Mamy dwóch zawodników A i B – którego wybierzemy / który celniej strzela ? A N ∞ im więcej strzelamy tym lepsze średnie wyniki E(X) gdzie średnie wyniki są lepsze? D(X) gdzie jest mniejsza ? B Małgorzata Podogrodzka, SGH ISiD

własności estymatora: 1. zgodny jeśli estymator jest stochastycznie zbieżny do szacowanego parametru jeśli estymator jest nieobciążony oraz jego wariancja spełnia relację 2. nieobciążony jeśli wartość oczekiwana estymatora jest równa parametrowi populacji, do oszacowania którego służy jeżeli E(Tn)  Q, to estymator jest obciążony, a różnicę między tymi wyrażeniami nazywamy obciążeniem estymatora Małgorzata Podogrodzka, SGH ISiD

Małgorzata Podogrodzka, SGH ISiD 3. najbardziej efektywny   jeżeli estymator jest nieobciążony i ma najmniejszą wariancję spośród wszystkich estymatorów  jeśli n to wariancja estymatora przyjmuje wartości coraz bliższe wariancji estymatora najefektywniejszego i wtedy występuje asymptotyczna efektywność Małgorzata Podogrodzka, SGH ISiD

Małgorzata Podogrodzka, SGH ISiD Estymatory punktowe z próby i ich własności Małgorzata Podogrodzka, SGH ISiD

Małgorzata Podogrodzka, SGH ISiD

Małgorzata Podogrodzka, SGH ISiD dla każdej próby możemy określić P(kd <Q <kg)=pi Q - parametr rozkładu Małgorzata Podogrodzka, SGH ISiD

Małgorzata Podogrodzka, SGH ISiD Rozkład statystyki z próby dla średniej Małgorzata Podogrodzka, SGH ISiD

Małgorzata Podogrodzka, SGH ISiD PRZEDZIAŁY UFNOŚCI ale dużym n Małgorzata Podogrodzka, SGH ISiD

Małgorzata Podogrodzka, SGH ISiD Nie obowiązuje ! Małgorzata Podogrodzka, SGH ISiD

Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej jego postaci funkcyjnej (np. rozkład normalny) jego wartości parametrów (np. średnia, wariancja) prawdziwość przypuszczenia oceniana jest na podstawie wyników próby losowej !!!! Testem statystycznym nazywamy regułę postępowania, która każdej możliwej próbie losowej pobranej z populacji generalnej przyporządkowuje decyzję przyjęcia lub odrzucenia stawianej hipotezy. parametryczne testy istotności służą do weryfikacji hipotez dotyczących parametrów rozkładu testy zgodności służą do weryfikacji hipotezy o zgodności rozkładu z próby z rozkładem teoretycznym

Błąd I rodzaju polega na odrzuceniu hipotezy zerowej pomimo, że jest ona prawdziwa Błąd II rodzaju polega na przyjęciu hipotezy zerowej pomimo, że jest ona fałszywa. Testy najmocniejsze – testy minimalizujące prawdopodobieństwo popełnienia błędu II rodzaju przy ustalonym z góry poziomie prawdopodobieństwa popełnienia błędu I rodzaju Moc testu M(w) – prawdopodobieństwo odrzucenia fałszywej hipotezy H0 i przyjęcia w to miejsce prawdziwej hipotezy alternatywnej Związek między mocą testu i prawdopodobieństwem błędu II rodzaju:

ZASADY BUDOWY TESTÓW ISTOTNOŚCI 1. formułujemy hipotezę zerową H0 oraz hipotezę alternatywną H1, 2. na podstawie próby losowej X1, X2, X3 … wyznaczamy pewną statystykę Zn (sprawdzian hipotezy H0), której rozkład określa się przy założeniu, że hipoteza H0 jest prawdziwa, 3. wyznaczamy taki obszar wartości statystyki Zn oznaczany jako K (obszar krytyczny testu), aby dla z góry określonego małego prawdopodobieństwa (tzw. poziom istotności) był spełniony warunek: P(Zn ϶ K)= α (poziom istotności) 4. jeżeli otrzymana w wyniku konkretnej próby wartość statystyki Zn: - przyjmie wartość z obszaru K, sprawdzaną hipotezę H0 odrzucamy na korzyść hipotezy H1, - znajdzie się poza obszarem K, stwierdzamy jedynie, że nie ma podstaw do odrzucenia sprawdzanej hipotezy H0.

PARAMETRYCZNE TESTY ISTOTNOŚCI I. dla wartości średniej w zbiorowości generalnej I.1. założenia:  populacja generalna ma rozkład normalny ze znanym odchyleniu standardowym  hipotezę weryfikujemy za pomocą n-elementowej próby Etapy weryfikacji: 1. Postawienie hipotez wobec hipotezy alternatywnej: a. b. c. 2. Wyznaczenie statystyki Zn (statystyka z próby) za sprawdzian hipotezy zerowej przyjmujemy średnią arytmetyczną jeżeli hipoteza zerowa jest prawdziwa to statystyka o postaci ma rozkład N(0,1):

3. Wyznaczenie obszaru krytycznego a. ustalamy wartość uα (tzw. wartość krytyczną), która nie powinna przekraczać modułu statystyki U, w taki sposób w rozkładzie N(0,1), aby dla ustalonego poziomu α zachodziła relacja: wartości zmiennej U spełniające nierówność |U| ≥ uα stanowią obszar krytyczny testu, tzn.:

b. ustalamy wartość krytyczną uα, która nie powinna przekraczać statystyki U, w taki sposób w rozkładzie N(0,1), aby dla ustalonego poziomu α zachodziła relacja: wartości zmiennej U spełniające nierówność U ≥ uα stanowią obszar krytyczny testu, tzn.:

c. ustalamy wartość krytyczną uα, która powinna być większa niż statystyka U, w taki sposób w rozkładzie N(0,1), aby dla ustalonego poziomu α zachodziła relacja: wartości zmiennej U spełniające nierówność U ≤ uα stanowią obszar krytyczny testu, tzn.: 4. Podjęcie decyzji weryfikacyjnej

I.2 . Założenia:  populacja generalna ma rozkład normalny o nieznanym odchyleniu standardowym  hipotezę weryfikujemy za pomocą małej, n-elementowej próby (n<120). do weryfikacji hipotezy wykorzystujemy statystykę, która ma rozkład t-Studenta o n-1 stopniach swobody postaci I.3. Założenia:  populacja generalna ma dowolny rozkład z nieznanymi parametrami,  hipotezę weryfikujemy za pomocą dużej, n-elementowej próby (n>120).

Przykład 1. Zakłada się, że średni czas dojazdu pracowników do pracy wynosi 35 min. Czy to założenie jest słuszne, skoro wiadomo, że czas dojazdu do pracy podlega rozkładowi normalnemu z odchyleniem standardowym 5 min oraz badając 250 osób stwierdzono, że średni czas dojazdu w tej grupie pracowników wynosił 38 min. 2. Przypuszcza się, że średnia liczba punktów uzyskanych na egzaminie maturalnym wynosić więcej niż 42. Badając w roku 2014 grupę 210 uczniów stwierdzono, że średnia liczba punktów wynosiła 44 z odchyleniem standardowym 10. Czy przyjęte założenie jest zatem słuszne? 3. Twierdzi się, że średnia roczna liczba Polaków na stałe osiedlających się poza granicami kraju wynosi mniej niż 5tys. Czy to przypuszczenie jest prawdziwe, skoro na podstawie obserwacji zebranych z ostatnich 20 lat wiadomo, że średnia roczna liczba osób na stałe osiedlających się poza granicami kraju wynosiła 4,8tys. z odchyleniem standardowym 0,4tys. Dodatkowo przyjmujemy, że w ciągu roku liczba osób na stałe osiedlających się poza granicami kraju może być opisana rozkładem normalnym.

I.4. Założenia:  populacja generalna ma rozkład normalny,  hipotezę weryfikujemy za pomocą n-elementowej próby  obserwacje do prób dobierane są parami i zakładamy, że różnice tych zmiennych mają w populacji rozkład normalny do weryfikacji hipotezy wykorzystujemy statystykę, która ma rozkład t-Studenta o n-1 stopniach swobody postaci

Przykład Twierdzi się, że w pewnej miejscowości w Polsce średnia roczna liczba zjadanych batonów czekoladowych „Kasia” przez mężczyzn jest wyższa niż u kobiet. W celu sprawdzenia tego przypuszczenia, zbadano 200 kobiet i 200 mężczyzn i stwierdzono, że w pierwszej z tych populacji średnia roczna liczba zjadanych batonów wynosiła 20 a odchylenie standardowe 5. W drugiej zaś populacji miary te przyjmowały odpowiednio wartości 22 i 8. Ponadto zakłada się, że różnica w liczbie zjadanych batonów czekoladowych między tymi populacjami ma rozkład normalny. Przypuszcza się, że dokładność wykonania pewnego elementu przez pracownika A jest wyższa jak u pracownika B. W celu sprawdzenia tego założenia, dokonano pomiaru 250 elementów wykonanych przez każdego z tych pracowników i stwierdzono, że średnia niedokładność w przypadku pracownika A wynosiła 0,5 min z 20% zróżnicowaniem, a w przypadku pracownia B odpowiedni 0,51 i 15%. Ponadto zakłada się, że różnica w niedokładności wykonywanych elementów przez tych pracowników ma rozkład normalny.

NIEPARAMETRYCZNE TESTY ISTOTNOŚCI I. Testy zgodności dla rozkładu normalnego w zbiorowości generalnej  stawiamy hipotezę zerową, że populacja generalna ma rozkład określony pewną dystrybuantą F0(X) wobec hipotezy alternatywnej F1(X), że jest to nieprawdą 2. Wyznaczenie statystyki z próby  losujemy z populacji dużą próbę, której wyniki porządkujemy w rozkład empiryczny, przez utworzenie r rozłącznych klas wartości badanej zmiennej w próbie,  przyjmując, że H0 jest prawdziwa. Liczymy prawdopodobieństwo pi dla zmiennej losowej z i-tej klasy (rozkład hipotetyczny)  oceniamy zgodność rozkładu empirycznego z rozkładem hipotetycznym tj. liczebności empirycznej z liczebnością hipotetyczną  wyznaczamy statystykę, która przy założeniu prawdziwości hipotezy zerowej ma rozkład ch kwadrat o (r-k-1) stopniach swobody (k-liczba parametrów rozkładu, które zostały oszacowane na podstawie rozkładu empirycznego):