Wstęp do regresji logistycznej

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
Ocena dokładności i trafności prognoz
Statystyka Wojciech Jawień
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Analiza przyczynowości
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza współzależności
Modele logitowe i probitowe
Statystyka w doświadczalnictwie
Uogólniony model liniowy
Analiza korelacji.
Wykład 14 Liniowa regresja
Modele (hipotezy) zagnieżdżone
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Średnie i miary zmienności
Hipotezy statystyczne
dr hab. Ryszard Walkowiak prof. nadzw.
i jak odczytywać prognozę?
Jak mierzyć i od czego zależy?
Ekonometria. Co wynika z podejścia stochastycznego?
Rozkłady wywodzące się z rozkładu normalnego standardowego
Analiza reszt w regresji
Analiza wariancji jednoczynnikowa.
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Badania Operacyjne i Ekonometria. Literatura podstawowa 1.M.Anholcer, H.Gaspars, A.Owczrkowski Przykłady i zadania z badań operacyjnych i ekonometrii.
Hipotezy statystyczne
Zagadnienia regresji i korelacji
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Ekonometria stosowana
Planowanie badań i analiza wyników
Ekonometria stosowana
Ekonometryczne modele nieliniowe
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Konwergencja gospodarcza
Testowanie hipotez statystycznych
Dopasowanie rozkładów
Ekonometryczne modele nieliniowe
Ekonometria stosowana
D. Ciołek EKONOMETRIA – wykład 2
Analiza regresji wielokrotnej c.d.
Rozkład wariancji z próby (rozkład  2 ) Pobieramy próbę x 1,x 2,...,x n z rozkładu normalnego o a=0 i  =1. Dystrybuanta rozkładu zmiennej x 2 =x 1 2.
Weryfikacja hipotez statystycznych
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Statystyka Powtorzenie
Testy nieparametryczne
Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja.
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Wstęp do regresji logistycznej
Analiza przeżycia Ćw 5 - Zastosowanie statystyki w bioinżynierii
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
Zapis prezentacji:

Wstęp do regresji logistycznej Dr Wioleta Drobik-Czwarno

Regresja logistyczna Zmienna zależna jest zmienną dychotomiczną (dwustanową) – przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być: wystąpienie lub brak pewnego zdarzenia (np. śmierć, choroba) przekształcona zmienna innego typu: kategoryczna, ciągła Szerokie zastosowania w: nauki biomedyczne bankowośc i finanse np. szacowanie ryzyka kredytowego kryminalistyka ekologia lingwistyka

Regresja logistyczna Dlaczego nie regresja liniowa? W regresji liniowej zmienne powinny być mierzone na skali ilościowej Problem z predykcją: dla dychotomicznej zmiennej objaśnianej regresja liniowa będzie szacowała wartości spoza akceptowalnego zakresu (poniżej 0 lub powyżej 1) Założenia do modelu nie będą są spełnione: brak rozkładu normalnego dla reszt brak jednorodności wariancji

Funkcja logistyczna Funkcja logistyczna Etapy zmian wartości funkcji logistycznej: Dla początkowych argumentów funkcja przyjmuje wartości bliskie zera Od momentu osiągnięcia wartości progowej następuje nagły wzrost wartości funkcji Po osiągnięciu pewnej wartości dla kolejnych wartości argumentów przyjmuje wartości bliskie 1

Model logistyczny Warunkowe prawdopodobieństwa, że prognozowana zmienna przyjmie wartość 1 dla wartości zmiennych niezależnych e – liczba Eulera ≈ 2,718 0 – stała regresji dla regresji logistycznej i – współczynnik regresji logistycznej dla zmiennej niezależnej http://www.naukowiec.org/wzory/statystyka/regresja-logistyczna_449.html

Założenia dla modelu regresji logistycznej Zmienna Y podlega rozkładowi dwumianowemu Wartość oczekiwana E[y|x]=P(x) jest obliczana na podstawie funkcji logistycznej Wartości wyjściowe są statystycznie niezależne Nie jest wymagana jednorodność wariancji

Regresja logistyczna a regresja liniowa http://www.saedsayad.com/logistic_regression.htm

Szansa Szansa (S; ang. odd) – prawdopodobieństwo wystąpienia zdarzenia (p) w stosunku do prawdopodobieństwa wystąpienia zdarzenia przeciwnego (1-p) Szansa zdarzenia A: Przykład: W trakcie badania 1000 osób, 200 z nich miało podwyższone stężenie glukozy we krwi. Jakie jest prawdopodobieństwo przekroczenia normy? Jaka jest szansa przekroczenia normy? Jaka jest szansa, że stężenie glukozy nie przekroczy normy?

Interpretacja parametrów modelu Model regresji logistycznej - szansa zajścia zdarzenia dla jednej zmiennej objaśniającej X1: Obustronne zlogarytmowanie sprowadza model do postaci liniowej względem parametrów. Logarytm szansy: Przedstawienie modelu na skali logarytmu szansy, sprawia że model logistyczny jest modelem liniowym i jest nazywane przekształceniem logitowym

Interpretacja parametrów modelu Logarytm szansy jest liniowo zależny od zmiennej objaśniającej (X1), dzięki czemu możemy łatwo interpretować współczynnik regresji 1 zmiana wartości logarytmu szansy dla zmiany o jednostkę zmiennej X Jeżeli: eβ1 > 1, to czynnik opisywany przez zmienną X1 ma stymulujący wpływ na wystąpienia badanego zjawiska. eβ1 < 1, to dany czynnik działa ograniczająco eβ1 = 1, to czynnik nie ma wpływu na opisywane zdarzenie.

B – przekroczenie normy Iloraz szans Stosunek szansy wystąpienia zdarzenia w jednej grupie do szansy wystąpienia tego zdarzenia w grupie drugiej Iloraz szans (OR, z ang. odds ratio ) równy jeden oznacza równoważność szans dla porównywanych grup Przykład: Liczba pacjentów w zależności od statusu Status Mężczyzna Kobieta B – przekroczenie normy 162 38 A – parametr w normie 539 261 Oblicz iloraz szans dla przekroczenia normy pod względem analizowanego parametru w grupie mężczyzn w stosunku do grupy kobiet.

Iloraz szans Jeżeli OR > 1, to w pierwszej grupie zajście zdarzenia jest bardziej prawdopodobne OR < 1, to w drugiej grupie zajście zdarzenia jest bardziej prawdopodobne OR = 1, to w obu klasach obserwacji zdarzenie jest tak samo prawdopodobne

Regresja logistyczna Metoda estymacji parametrów Regresja liniowa – metoda najmniejszych kwadratów Regresja logistyczna – metoda największej wiarygodności (ang. maximum likelihood) Metoda największej wiarygodności (ML) wiarygodność danego modelu jest określana jako łączne prawdopodobieństwo otrzymania obserwowanych wartości wyjściowych wyrażonych za pomocą funkcji wybranego modelu regresji wielokrotne estymowanie parametrów modelu, tak by zmaksymalizować prawdopodobieństwo uzyskania takich wyników, jakie osiągnięto w badanej próbie

Weryfikacja modelu i jego parametrów Test LR – ilorazu wiarygodności (ang. Likelihood ratio) wstępna ocena istotności modelu Pozwala na porównanie dwóch modeli: bieżącego i referencyjnego Test Walda statystyczna istotność parametrów modelu β – jest oceną parametru regresji logistycznej Jakość modelu oceniana jest również za pomocą wskaźników: AIC – kryterium informacyjne Akaikego BIC – Bayesowskie kryterium informacyjne Schwartza

Regresja logistyczna w R Dane: admit Akceptacja na uczelnie gre Punkty z testu 380 1 660 800 640 520 760 …

Regresja logistyczna w R Używamy funkcji glm()  uogólnione modele liniowe (generalized linear models) glm(formula, family=familytype(link=”linkfunction”), data=) Współczynniki modelu wraz z testem istotności (test Walda) Miara dopasowania modelu (Akaike Information Criterion)

Regresja logistyczna w R Tabela coefficients: Wiersze tabeli odpowiadają zmiennym objaśniającym i wyrazowi wolnemu dopasowanego modelu I kolumna: wyestymowane współczynniki modelu II kolumna: odchylenie standardowe tych współczynników III kolumna: wartość statystyki testu Walda. IV kolumna: prawdopodobieństwo testowe (p-value) Hipotezą zerową w teście Walda dla współczynników jest nieistotność danej zmiennej objaśniającej

Regresja logistyczna w R Interpretacja: Dla wzrostu zmiennej gpa o jednostkę obserwuje się wzrost logarytmu szans dla bycia przyjętym na uczelnie o 0,003582 Przedziały ufności dla parametrów:

Regresja logistyczna w R Iloraz szans oraz przedziały ufności Parametr: szansa dla bycia przyjętym na uczelnie zwiększa się o 1,0035886 dla wzrostu wartości zmiennej gre o jednostkę Przedział ufności: szansa dla bycia przyjętym na uczelnie zwiększa się o wartość pomiędzy 1,00168 a 1,005568 na 95% dla wzrostu wartości zmiennej gre o jednostkę

Źródła Biecek P. 2013. Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW. Migut K. 2013. Regresja logistyczna w badaniach medycznych i przyrodniczych. Materiały kursowe StatSoft Polska. Institute for Digital Research and Education materials: http://www.ats.ucla.edu/stat/r/dae/logit.html Giemza J., Zwierzchowska K. 2011. Wprowadzenie do modelu regresji logistycznej wraz z przykładem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki. Praca licencjacka pod kierunkiem Przemysława Biecka.