Monte Carlo, bootstrap, jacknife

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

ESTYMACJA PRZEDZIAŁOWA
Wykład 5 Standardowy błąd a odchylenie standardowe
Metody ekonometryczne
Zmienne losowe i ich rozkłady
BUDOWA MODELU EKONOMETRYCZNEGO
Metody wnioskowania na podstawie podprób
Metody ekonometryczne
Statystyka w doświadczalnictwie
Analiza korelacji.
Zofia Hanusz i Joanna Tarasińska Uniwersytet Przyrodniczy w Lublinie
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Wykład 4 Przedziały ufności
Metody Przetwarzania Danych Meteorologicznych Wykład 4
Modele (hipotezy) zagnieżdżone
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Rozkład t.
Hipotezy statystyczne
Testowanie hipotez statystycznych
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
na podstawie materiału – test z użyciem komputerowo generowanych prób
Modelowanie ekonometryczne
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Ekonometria stosowana
Planowanie badań i analiza wyników
Ekonometria stosowana
Ekonometryczne modele nieliniowe
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Ekonometria stosowana
Statystyka w doświadczalnictwie Wydział Technologii Drewna SGGW Studia II stopnia Wykład 3.
Rozkład wariancji z próby (rozkład  2 ) Pobieramy próbę x 1,x 2,...,x n z rozkładu normalnego o a=0 i  =1. Dystrybuanta rozkładu zmiennej x 2 =x 1 2.
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Testowanie hipotez Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Ekonometria WYKŁAD 3 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Testy nieparametryczne
Ekonometryczne modele nieliniowe
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
MNK – podejście algebraiczne
Funkcja reakcji na impuls w nieliniowych modelach VAR
Własności asymptotyczne ciągów zmiennych losowych
Zapis prezentacji:

Monte Carlo, bootstrap, jacknife

Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 9.17, 9.18 Bootstrap: rozdział 13 Slajdy 4-31 wykorzystują materiały z tego podręcznika

Literatura B. Efron (1979) Bootstrap methods: another look at the jackknife, Annals of Statistics 7, 1-26. C.F.J.Wu (1986) Jackknife, bootstrap and other resampling methods in regression analysis, Annals of Statistics 14, 1261-1295. J.Shao, C.F.J.Wu (1989) A general theory for jackknife variance estimation, Annals of Statistics 17, 1176-1197. C.F.J.Wu (1990) On the asymptotic properties of the jacknife histogram, Annals of Statistics 18, 1438-1452.

Monte Carlo Niech oznaczają obserwacje losowo wybrane z populacji Niech oznacza parametr, a niech będzie interesującą nas statystyką, np. estymatorem lub statystyką t:

Monte Carlo Dystrybuanta statystyki oznaczona będzie jako: Często rozkład statystyki nie jest znany w skończonych próbach. Metoda Monte Carlo symuluje numerycznie prawdziwy rozkład statystyki dla wybranych (w skończonych próbach, dla wybranych przypadków)

Opis metody Monte Carlo Wybieramy rozkład i wielkość próby rozkład określa lub jest bezpośrednio ustalony Losujemy niezależnie par z rozkładu (stosując generator liczb pseudolosowych) Liczymy interesującą nas statystykę:

Opis metody Monte Carlo Powtarzamy losowanie B razy (zwykle 1000, 5000) i zapamiętujemy każdy wynik: Wyniki te stanowią próbę losową o wielkości B z rozkładu: ( B – experiments, replications)

Zastosowania Monte Carlo Na podstawie próby możemy policzyć różne charakterystyki rozkładu statystyki. Na przykład: „obciążenie” (ang. bias) błąd średniokwadratowy wariancja rozkładu gdzie:

Zastosowania Monte Carlo Obliczenia błędu 1. rodzaju, np. dla ( ) dwustronnego testu t : Obliczamy Obliczenia kwantyla rozkładu : sortujemy próbę rosnąco kwantyl to liczba nr

Zastosowanie Monte Carlo Precyzja symulacji: We wcześniejszym przykładzie zmienna losowa ma rozkład zero-jedynkowy przyjmuje wartość 1 z prawdopodobieństwem: jest zatem nieobciążonym estymatorem z odchyleniem standardowym Na przykład dla testu z 5% poziomem istotności Dla B =100, 1000, 5000 0,022 ; 0,007 ; 0,003

Przykład 1 Prosty model: Testujemy hipotezę: Statystyka testowa: Teraz testujemy równoważną hipotezę:

Przykład 1 Statystyka testowa ma rozkład: Przyjmijmy dla

Zastosowanie Monte Carlo Dla różnych r mamy różne wartości statystyki Walda, a powinny być identyczne, bo hipoteza H0 jest identyczna, a r wybrane arbitralnie. Przeanalizujmy symulacyjnie błąd 1. rodzaju: 50000 wylosowanych prób obserwacji o odpowiedniej długości , odchyleniu stand. , parametrze i przy założeniu, że .

Zastosowanie Monte Carlo Najlepsze wyniki dla r = 1.

Przykład 2 Model: Testujemy hipotezę: Niech będą oszacowaniami MNK modelu, a wariancją oszacowań.

Przykład 2 Niech . Odchylenie standardowe to: gdzie: to wektor

Przykład 2 Statystyka testowa . Inny zapis hipotezy: gdzie:

Zastosowanie Monte Carlo Niech i niezależne z rozkładu N(0,1) Załóżmy , , Generujemy 50000 prób i liczymy błędy 1. rodzaju:

Bootstrap Niech oznaczają obserwacje losowo wybrane z populacji Niech oznacza parametr, a niech będzie interesującą nas statystyką, Dystrybuanta statystyki oznaczona będzie jako:

Bootstrap Próbujemy przybliżać rozkład statystyki wykorzystując zgodne oszacowanie Rozkładem bootstrap nazywamy rozkład: Niech oznaczają obserwacje losowe wybrane z rozkładu

Bootstrap Statystyka ma rozkład , czyli (bootstrap statistic) Rozkład statystyki jest zmienną losową zależną od

Empiryczna dystrybuanta Rozkład: Analogicznie, zgodnie z metodą momentów: zgodny estymator nieparametryczny dla

Bootstrap Empiryczna dystrybuanta: Funkcje obserwacji z próby:  nieparametryczna metoda bootstrap Funkcje obserwacji z próby: średnia z próby empirycznej

Opis metody bootstrrap Wielkość próby równa wielkości oryginalnej próby Losujemy niezależnie par z rozkładu empirycznego (ze zwracaniem) Liczymy interesującą nas statystykę: Liczba replikacji: B=1000 zwykle wystarcza (teoria: Andrews, Buchinsky 2000)

Bootstrap - zastosowania Obciążenie to . Niech , to Odpowiedniki „bootstrapowe”: Estymator: „Bootstrapowe” oszacowanie obciążenia:

Bootstrap - zastosowania Oszacowanie obciążenia można policzyć: Estymator z (oszacowaną) korektą obciążenia: można by , ale nieznane zatem

Bootstrap - zastosowania Niech . Wariancja Oszacowanie z symulacji bootstrap: wariancja odchylenie standardowe

Bootstrap - zastosowania Przedziały ufności dla : Niech kwantyl z oryginalnego rozkładu, a kwantyl z rozkładu bootstrapowego Można policzyć przedział ufności dla sortując i wyliczając: Lepiej jednak posortować i wstawić kwantyle do:

Bootstrap w modelach regresji Model oryginalny: Symulowanie danych metodą bootstrap prowadzi do modelu: ale

Bootstrap w modelach regresji Rozwiązanie 1: niezależne i losujemy z EDF lub losujemy z rozkładu parametrycznego lub przyjmujemy stałe w replikacjach losujemy z reszt liczonych MNK lub losujemy z rozkładu parametrycznego np.

Bootstrap w modelach regresji Rozwiązanie 2: „wild bootstrap” konstruujemy taki rozkład , że: dla każdego symulujemy z rozkładu dwupunktowego

Metoda jackknife Umożliwia próbkowanie z oryginalnego, często nieznanego rozkładu wybieramy podpróby (m<n) z próby (n) zwykle w sposób deterministyczny Bootstrap - próbkowanie z rozkładu empirycznego

„delete-1” jackknife Podpróby budujemy poprzez usunięcie 1 obsewacji (m=n-1) Nie losujemy podprób, wybieramy wszystkie n możliwych podprób Podpróba bez i-tej obserwacji: x(i)

„delete-1” jackknife pojedyncza replikacja statystyki metodą jackknife: Na przykład: replikacja średniej Wyliczenie końcowej statystyki wymaga wyliczenia wszystkich n replikacji

„delete-1” jackknife Oszacowanie średniej metodą jacknife: Oszacowanie wariancji metodą jacknife Oszacowanie obciążenia estymatora

Jackknife w modelu regresji Oszacowanie parametrów MNK Oszacowanie jacknife: w i-tej replikacji usuwamy parę xi, yi obliczamy „pseudowartości” oszacowanie parametrów (zwykle większa wariancja niż MNK) szacunek wariancji parametrów zwykle obciążony

Problem Metoda „delete-1” jackknife nie nadaje się do wyliczania mediany, kwantyli, histogramu niezgodne i asymptotycznie obciążone oszacowania dla funkcji statystyk niedostatecznie „gładkich” (ang. smooth, gdzie małe zmiany w danych powodują duże zmiany w wartości statystyki)

„delete-d” jackknife Podpróby budujemy poprzez usunięcie d obsewacji (m=n-d) Wybieramy wszystkie możliwe podpróby Do wyliczania kwantyli, histogramu wybieramy

„delete-d” jackknife Oszacowanie średniej metodą jacknife: Oszacowanie wariancji metodą jacknife

„delete-d” jackknife Możliwość zmniejszenia liczby replikacji „balanced subsampling”: m<<J Każdy i występuje w tej samej liczbie f podprób Każda para (i,j), i<j, występuje razem w tej samej liczbie podprób ewentualnie (ale gorsze własności) „grouped jacknife”: n=gh (h – rozmiar grupy usuniętej z próby w i-tej replikacji, g – liczba grup)