Uogólniony model liniowy

Slides:



Advertisements
Podobne prezentacje
BIOSTATYSTYKA I METODY DOKUMENTACJI Ćwiczenie 1
Advertisements

Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Analiza współzależności zjawisk
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Zmienne losowe i ich rozkłady
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Elementy Modelowania Matematycznego
Symulacja wprowadzania nowego produktu na rynek
Instrumenty o charakterze własnościowym Akcje. Literatura Jajuga K., Jajuga T. Inwestycje Jajuga K., Jajuga T. Inwestycje Luenberger D.G. Teoria inwestycji.
Modele logitowe i probitowe
Statystyka w doświadczalnictwie
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
BIOSTATYSTYKA I METODY DOKUMENTACJI
Mgr Sebastian Mucha Schemat doświadczenia:
Analiza korelacji.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 14 Liniowa regresja
Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Elementy Rachunku Prawdopodobieństwa c.d.
Wprowadzenie do statystycznej analizy danych (SPSS)
Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń.
Modele (hipotezy) zagnieżdżone
Linear Methods of Classification
Test t-studenta dla pojedynczej próby
ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA
Wzory ułatwiające obliczenia
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Analiza wariancji jednoczynnikowa.
Prognozowanie (finanse 2011)
Projekt wykonany przez studentów I roku ARI Politechniki Wrocławskiej:
Planowanie badań i analiza wyników
Wykład 16 Inne zagadnienia z prostej regresji liniowej.
Modelowanie zmiennej licznikowej
Ekonometryczne modele nieliniowe
Regresja wieloraka.
Co to jest dystrybuanta?
Dopasowanie rozkładów
D. Ciołek EKONOMETRIA – wykład 2
Analiza regresji wielokrotnej c.d.
Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku.
Rozkład wariancji z próby (rozkład  2 ) Pobieramy próbę x 1,x 2,...,x n z rozkładu normalnego o a=0 i  =1. Dystrybuanta rozkładu zmiennej x 2 =x 1 2.
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Modele zmienności aktywów Model multiplikatywny Parametry siatki dwumianowej.
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Statystyczna analiza danych
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Wstęp do regresji logistycznej
Model Poissona w ujęciu bayesowskim
Mikołaj Czajkowski Wiktor Budziński
Rozkład z próby Jacek Szanduła.
EKONOMETRIA W3 prof. UG, dr hab. Tadeusz W. Bołt
Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja.
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Wstęp do regresji logistycznej
Korelacja i regresja liniowa
Zapis prezentacji:

Uogólniony model liniowy

y = Xb + e Ogólny model liniowy Każda obserwacja ma rozkład normalny Każda obserwacja ma tą samą wariancję

Dane ‘nienormalne’ Rozkład dwumianowy np. liczba dojonych krów w stadzie Rozkład zdarzeń rzadkich (Poissona) np. liczba osób poszkodowanych wśród ubezpieczonych Rozkład wielomianowy, np. umaszczenie

Uogólniony model liniowy pozwala zastosować model liniowy do ‘nienormalnych danych’ y może być zmienną binarną (zdrowy/chory), wielowartościową (umaszczenie) x – zarówno zmienne ciągłe jak i kategoryzujące

Uogólniony model liniowy L(średnia z y) = b0 + b1x1 + b2x2 +... L to funkcja wiążąca (link)

Funkcje wiążące Rozkład dwumianowy: logit probit log cloglog Rozkład Poissona sqrt

Rozkład dwumianowy Określa prawdopodobieństwo y sukcesów w n próbach, jeżeli w pojedynczej próbie prawdopodobieństwo sukcesu wynosi p Wszystkie próby są takie same i niezależne!

Logit logit(x) = log x 1 - x x – wartość z przedziału 0-1 Gdy x jest prawdopodobieństwem wówczas logit jest ilorazem szans

Iloraz szans (odds) odds = p [0, ) 1 - p Np. gdy p = prawdopodobieństwo zachorowania odds=5 choroba jest 5 razy bardziej prawdopodobna niż zdrowie odds=1/3 szansa zachorowania jest 3 razy mniej prawdopodobna niż zdrowie odds=1 szanse obu zdarzeń są równe

Logarytm ilorazu szans – log odds p log( ) 1 - p (- , ) log odds > 0 szansa zachorowania jest większa niż pozostania przy zdrowiu log odds < 0 szansa pozostania przy zdrowiu jest większa niż zachorowania log odds = 0 szanse obu zdarzeń są równe

logit( pi ) = b0 + b1x1 + b2x2 ... Regresja logistyczna pi – prawd. ‘sukcesu’ dla i-tego przypadku x – zestaw wartości zmiennych objaśniających b – zestaw współczynników regresji

Regresja logistyczna - interpretacja Jeżeli x wzrasta o 1 to logit wzrasta (dodawanie) o b Jeżeli x wzrasta o 1 to iloraz szans mnoży się przez eb

Przykład 0 30 0 0 30 1 1 40 1 1 40 0 1 60 1 1 50 0 1 30 1 0 40 1 1 50 1 0 60 0 Badamy wpływ wieku i palenia na nadciśnienie. Dane: y - nadciśnienie (TAK=1 / NIE=0) x1 - wiek (liczba lat – zmienna ciągła) x2 - palenie (pali=1 / nie pali = 0)

Przykład – rozwiązanie b1 = 0,10 czyli każdy rok zwiększa ryzyko nadciśnienia o e0,10 = 1,10, czyli o 10% b2 = 0,81 a więc palenie zwiększa ryzyko nadciśnienia o e0,81 = 2,2, czyli o 220% b0 = -4.37 (intercept) brak interpretacji

Regresja logistyczna w R Dane mogą być przedstawione w formie surowej, przy czym p = P(y=1) czyli (sukces=1) y <- c( 0, 0, 0, 1, 1, 1 ... ) wiek <- c( 30, 30, 30, 40, 40, 40 ...) palenie <- c( 0, 1, 0, 1, 0, 1 ... ) mojedane <- data.frame(y, wiek, palenie)

Regresja logistyczna w R Dane w formie zbiorczej wiek palenie liczba osób liczba osób chorych zdrowych 0 0 2 30 1 1 2 0 1 0 40 1 1 1 itd. yc <- c( 0, 1, 1, 1, ... ) yz <- c( 2, 2, 0, 1, ... ) y <-cbind( yc, yz ) y to macierz! wiek <- c( 30, 30, 40, 40, ...) palenie <- c( 0, 1, 0, 1, ... ) mojedane <- data.frame(y, wiek, palenie)

Regresja logistyczna w R wynik <- glm( y ~ wiek + palenie, family=binomial(link=logit), data=mojedane) summary( wynik )

Zadanie Zbadaj wpływ wieku na występowanie zwyrodnienia gałki ocznej. 20 35 45 55 70 liczba badanych 50 liczba chorych 6 17 26 37 44