Ekonometria Bayesowska Model Probitowy

Slides:



Advertisements
Podobne prezentacje
Opracowali: Patryk Klemczak Tomasz Klemczak ODSIECZ WIEDEŃSKA.
Advertisements

Kształtowanie się granic II Rzeczypospolitej
Wykład 4: Systemy nawigacji satelitarnej
WNIOSEK O PRZYZNANIE POMOCY
POGŁĘBIONA OCENA SYTUACJI FINANSOWEJ NA PODSTAWIE ANALIZY WSKAŹNIKOWEJ
Machine learning Lecture 3
Identyfikacja dansylowanych aminokwasów metodą cienkowarstwowej chromatografii na płytkach poliamidowych Gawahir Hassan.
Mechanika kwantowa dla niefizyków
Program Rozwoju Obszarów Wiejskich
Przyszłe zmiany sposobu finansowania zadań oświatowych
Wybrane bloki i magistrale komputerów osobistych (PC)
HELIOTECHNIKA W chwili obecnej jest niekonkurencyjna w porównaniu ze źródłami konwencjonalnymi, ale jest to „czysta energia” dlatego wiąże się z nią wiele.
Tolerancje i pasowania
B R Y Ł Y P L A T O Ń S K I E.
Bankowość Pieniądz Podstawowe informacje o bankach
Weryfikacja hipotez statystycznych
Krakowskie Sympozjum Naukowo-Techniczne
Zasilacze prądu stałego Czyli rzeczywiste źródła napięcia
Prof. nadzw. dr hab. inż. Jarosław Bartoszewicz
Mechanika kwantowa dla niefizyków
Grzegorz Karasiewicz Katedra Marketingu Wydział Zarządzania UW
1 czerwca w zerówce.
„ Mały Miś i polskie tradycje Bożego Narodzenia”
Box Behnken Design w optymalizacji procesu biosyntezy β-karotenu w hodowlach drożdży Rhodotorula rubra Ludmiła Bogacz-Radomska(1), Joanna Harasym(1,2,3),
Projekt z dnia 30 maja 2017 r. Ustawa z dnia …. ……………
Prof. dr hab. Roman Sobiecki Rachunki makroekonomiczne
CAPS LOCK - CERTYFIKOWANE SZKOLENIA JĘZYKOWE I KOMPUTEROWE
Prezentacje wykonali: Marcin Łukasik Wiktor Kołek
GOSPODAROWANIE ZASOBAMI W ORGANIZACJI
Co to jest SSC Master… SSC Master to platforma elektronicznego obiegu, dekretacji i akceptacji dokumentów w organizacji. Dzięki szerokiemu i elastycznemu.
Podstawy pomagania SPPiIK, 2016 Anna Gromińska.
Chemia biopierwiastków
Sedymentacja.
Współczesne kierunki polityki społecznej
Hiszpania,Portugalia,Litwa,Polska,Turcja,Włochy,Chorwacja Desery.
Prawo pracy – ćwiczenia (IX)
Dotarcie do specyficznej grupy docelowej
Sprawozdanie roczne z realizacji Planu działania Krajowej Sieci Obszarów Wiejskich na lata za rok 2016 Warszawa, 26 czerwca 2017 r. Materiał.
Srebrna Małopolska regionalne inicjatywy na rzecz seniorów
Stan Wojenny.
O UTWORZENIE ZWIĄZKU METROPOLITALNEGO W WOJEWÓDZTWIE ŚLĄSKIM
Wojewódzki Inspektorat Ochrony Środowiska w Białymstoku
ZAWODOZNAWSTWO Materiały zrealizowane w ramach projektu
Wykład 8: Złożone problemy przetwarzania mobilnego
Realizacja sprzężenia od siły w układzie sterowania robotem do zastosowań neurochirurgicznych Dorota Marszalik Wieliczka,
Funkcje generujące w kombinatoryce
Ruch turystyczny w Krakowie w 2015 roku
© dr hab. Inż. Paweł Jabłoński
Adsorpcja faza stała/ gazowa lub ciekła faza ciekła/ gazowa lub ciekła
MODELE EPIDEMIOLOGICZNE
Dowody matematyczne - zadania podstawowe
Zagadnienie prawdy Andrzej Łukasik Zakład Ontologii i Teorii Poznania
Ewolucja gwiazd.
Potencjał chemiczny Potencjał chemiczny ma charakter siły uogólnionej,
STAŁE RÓWNOWAGI REAKCJI PROTOLITYCZNYCH
Optymalizacja sieci drogowej propozycja algorytmu
Nie ma innego – Tylko Jezus Mariusz Śmiałek
W ramach stypendium Ministerstwa Kultury i Dziedzictwa Narodowego
R- Punkt referencyjny (wyjściowy) obrabiarki
Parki krajobrazowe na Podlasiu
Publicznej Szkole Podstawowej nr 4 im. Tadeusza Kościuszki
Materiały pochodzą z Platformy Edukacyjnej Portalu
Zasady poprawnej komunikacji – jak uniknąć konfliktów ?
Gimnazjum nr 3 im. J. Chełmońskiego w Zielonej Górze
Moje dziecko i jego potrzeby.
Edukacja psychologiczna
GMINA RUDZINIEC.
Czym jest mowa nienawiści?
Wykład 7 Prawo urzędnicze.
Zapis prezentacji:

Ekonometria Bayesowska Model Probitowy Aleksandra Truszkiewicz

Wprowadzenie Model probitowy jest powszechnie stosowany, gdy zmienna zależna jest jakościowa. Oznacza to, że wynikiem estymacji jest jednoznaczne wskazanie na jedną z kategorii (np. Zdrowy/Chory, Spłacający kredyt/Niespłacający kredytu..) W niniejszej prezentacji skupimy się na modelach dychotomicznych, czyli mających dwie możliwości odpowiedzi (0 lub 1).

Wprowadzenie teoretyczne Załóżmy, że jednostka ma do podjęcia decyzję pomiędzy dwiema możliwościami. Ekonomista rozwiązałby ten problem tworząc funkcję użyteczności. Niech Uji będzie funkcją użyteczności dla jednostki i (dla i=1,…,N) uwzględniającą dwie możliwości wyboru j (dla j=0,1). Jednostka podejmuje decyzję odpowiadającą 1, gdy U1i ≥ U0i i decyzję odpowiadającą 0 w przeciwnym przypadku. Zatem wybór zależy od różnicy pomiędzy funkcjami użyteczności pomiędzy dwiema alternatywami i definiujemy ją w następujący sposób: y*i=U1i − U0i

Różnica pomiędzy użytecznościami Model probitowy zakłada, że różnica pomiędzy użyteczności może być przedstawiana jako model regresji liniowej. Oznacza to, że różnica pomiędzy użytecznościami dla każdej jednostki zależy od zaobserwowanych dla niej xi (np. odległość do miejsca pracy, wielkość wynagrodzenia, wiek…). Dodatkowym założeniem jest uznanie, że błąd ma rozkład normalny. Ze względu na losowość błędu w modelu probitowym i w innych podobnych modelach, są one określane jako modele losowej użyteczności.

funkcja gęstości prawdopodobieństwa Ekonometryk nie obserwuje bezpośrednio y*i , jedynie wybór jaki ostatecznie zostanie dokonany przez jednostkę i. Jednak y* można traktować jako ukryte dane, a próbnik Gibbsa z rozszerzeniem danych może być wykorzystany do przeprowadzenia wnioskowania Bayesa. Wszystko czego potrzebujemy do dalszego działania to funkcja gęstości prawdopodobieństwa o postaci: p(y*|y, β, h) (dla przypomnienia h = 1 𝜎 2 )

funkcja gęstości prawdopodobieństwa Dla modelu probitowego relacja pomiędzy y i y* przyjmuje następującą formę: yi=1, 𝑔𝑑𝑦 y*i ≥ 0 yi=0, 𝑔𝑑𝑦 y*i < 0 Niezależność pomiędzy poszczególnymi jednostkami oznacza: p(y*|y, β, h) = 𝑖=1 𝑁 p(y∗i|yi, β, h) Dlatego możemy skupić się na p(y∗i|yi, β, h).

Założenia Założenia regresji liniowej implikują, że p(y∗i|β, h) ma rozkład normalny. Do przedstawienia p(y∗i|yi, β, h) łączymy informację o tej normalności z informacją niesioną przez yi. Jeżeli yi=1 otrzymamy rozkład normalny obcięty lewostronnie w zerze. Jeżeli yi=0 otrzymamy rozkład normalny obcięty prawostronnie w zerze. Dokładniej: y∗i|yi, β, h ~N(x′i β, h-1)1(y*i ≥ 0), gdy yi=1 y∗i|yi, β, h ~N(x′i β, h-1)1(y*i < 0), gdy yi=0

Prawdopodobieństwo wyboru Oprócz oszacowanych parametrów, często jest wskazane przedstawienie informacji o prawdopodobieństwie wyboru. Pr(yi=1|β, h) = Pr(y∗i ≥ 0| β, h) = Pr(x′i β + 𝜀i ≥ 0 | β, h) =Pr( ℎ 𝜀i ≥ - ℎ x′i β| β, h) Problem identyfikacji występuje, jeśli wiele wartości parametrów modelu powoduje powstanie tej samej wartości dla funkcji wiarygodności. W modelu probitowym jest nieskończona liczba β oraz h, które tworzą dokładnie ten sam model. Można to przedstawić w następujący sposób: Pr(x′i β + 𝜀i ≥ 0 | β, h) = Pr(x′i cβ + c𝜀i ≥ 0 | β, h), dla każdego dodatniego, stałego c Dopóki c𝜀i ma rozkład N(0,c2h-1) to model jest wciąż dokładnie tym samym modelem probitowym, z innymi współczynnikami i parametrem precyzji.

MCMCpack - MCMCprobit Opcje polecenia MCMCprobit: formula – wzór modelu data – ramka danych (data.frame()) burnin – liczba spalonych powtórzeń dla próbnika Gibbsa mcmc – liczba powtórzeń dla próbnika Gibbsa thin - interwał rozrzedzania stosowany w symulacji. Liczba iteracji Gibbsa jest dzielona przez podaną przez nas wartość. verbose – zmienna, które decyduje o tym czy kolejne kroki próbnika Gibbsa są pokazywane w konsoli. Jeśli wskaźnik jest większy od 0, to numer iteracji i bety są wyświetlane w konsoli, co tyle iteracji ile zostało podane jako wartość wskaźnika.

MCMCpack - MCMCprobit seed – ziarno generatora liczb losowych. Jeśli wpiszemy NA, to domyślnie zostanie użyty generator Mersenne Twister z domyślnym ziarnem losowania równym 12345. Jeżeli wpiszemy liczbę całkowitą to zostanie ona użyta jako ziarno losowania w generatorze Mersenne Twister. Użytkownik może również wpisać do opicji dwa argumenty, aby użyć generatora L'Ecuyer, którego używa się do obliczeń równoległych, domyślnymi wartościami jest – 12345 i 6. beta.start -wartość początkowa wektora beta. Może to być wektor skalarny lub pionowy wektor z wymiarem odpowiadającym liczbie bet. Jeżeli jest to wektor skalarny, to wartość będzie służyć jako wartość początkowa dla wszystkich bet. Wartością domyślną jest NA, w przypadku jej zastosowania do estymacji, jako wartość początkowa, zostanie użyta szacowana metodą największej wiarygodności wartość bety

MCMCpack - MCMCprobit b0 – średnia wartość bety a priori. Może to być wektor skalarny lub pionowy wektor z wymiarem odpowiadającym liczbie bet. Jeżeli jest to wektor skalarny, to podana wartość będzie służyć jako średnia a priori dla wszystkich bet. B0 – precyzja bety a priori. Może być to skalarna lub kwadratowa macierz o wymiarach równych liczbie bet. Jeżeli jest to macierz skalarna, to podana wartość będzie używana jako wskaźnik precyzji a priori dla wszystkich bet. Wartością domyślną jest 0. bayes.resid – parametr decydujący o tym czy powinny zostać zwrócone reszty Bayesa (Albert i Chib, 1995). Domyślnie FALSE oznacza, że ​​nie należy zwracać reszt. Alternatywnie użytkownik może określić tablicę liczb całkowitych, podając numery obserwacji, dla których należy obliczyć i zwrócić reszty. Wartość TRUE zwróci reszty dla wszystkich obserwacji.

MCMCpack - MCMCprobit marginal.likelihood – parametr wskazujący w jaki sposób należy obliczyć marginalne wiarygodność. Opcje to: none, w którym to przypadku nie będzie obliczany marginalnych wiarygodności, Laplace, w którym to przypadku zastosowano przybliżenie Laplace'a (patrz Kass i Raftery, 1995), lub Chib95, w którym to przypadku zastosowano metodę Chib (1995)

Przejdźmy do Przykładu!

Dane do przykładu Dane opisujące dane zawarte w przewodniku filmowym Maltin’a Zestaw danych zawieraja 100 obserwacji i następujące 9 zmiennych: Title Tytuł filmu Year Rok wydania Time Czas (w minutach) Cast Liczba osób z obsady wymieniona w przewodniku Rating Ocena Maltin’a Description Liczba linii tekstu użyta przez Maltin’a do opisu filmu Origin Kraj pochodzenia: 0 = USA, 1 = Wielka Brytania, 2 = Francja, 3 = Włochy, 4 = Kanada Time_code Określenie długości filmu: long = 90 minut i dłużej, short = mniej niż 90 minut Good 1 – otrzymał 3 gwiazdki lub więcej, 0 – dowolna inna ocena

Natural Bayes Factor Wartości mniejsze niż -2 sugerują, że lepiej dopasowany jest model 2, wartości większe niż 2 sugerują, że lepiej dopasowany jest model 1.

Źródła Bayesian Econometrics - Gary Koop MCMCpack – manual http://popgen.sc.fsu.edu/Migrate/Tutorials/Entries/2010/7/12_Day_of_longboard ing.html http://web.sgh.waw.pl/~atoroj/ Dane do przykładu: https://vincentarelbundock.github.io/Rdatasets/datasets.html

Dziękuję