Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Wstęp do regresji logistycznej
Dr Wioleta Drobik-Czwarno
2
Regresja logistyczna Zmienna zależna jest zmienną dychotomiczną (dwustanową) – przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być: wystąpienie lub brak pewnego zdarzenia (np. śmierć, choroba) przekształcona zmienna innego typu: kategoryczna, ciągła Szerokie zastosowania w: nauki biomedyczne bankowośc i finanse np. szacowanie ryzyka kredytowego kryminalistyka ekologia lingwistyka
3
Regresja logistyczna Dlaczego nie regresja liniowa?
W regresji liniowej zmienne powinny być mierzone na skali ilościowej Problem z predykcją: dla dychotomicznej zmiennej objaśnianej regresja liniowa będzie szacowała wartości spoza akceptowalnego zakresu (poniżej 0 lub powyżej 1) Założenia do modelu nie będą są spełnione: brak rozkładu normalnego dla reszt brak jednorodności wariancji
4
Funkcja logistyczna Funkcja logistyczna
Etapy zmian wartości funkcji logistycznej: Dla początkowych argumentów funkcja przyjmuje wartości bliskie zera Od momentu osiągnięcia wartości progowej następuje nagły wzrost wartości funkcji Po osiągnięciu pewnej wartości dla kolejnych wartości argumentów przyjmuje wartości bliskie 1
5
Model logistyczny Warunkowe prawdopodobieństwa, że prognozowana zmienna przyjmie wartość 1 dla wartości zmiennych niezależnych e – liczba Eulera ≈ 2,718 0 – stała regresji dla regresji logistycznej i – współczynnik regresji logistycznej dla zmiennej niezależnej
6
Założenia dla modelu regresji logistycznej
Zmienna Y podlega rozkładowi dwumianowemu Wartość oczekiwana E[y|x]=P(x) jest obliczana na podstawie funkcji logistycznej Wartości wyjściowe są statystycznie niezależne Nie jest wymagana jednorodność wariancji
7
Regresja logistyczna a regresja liniowa
8
Szansa Szansa (S; ang. odd) – prawdopodobieństwo wystąpienia zdarzenia (p) w stosunku do prawdopodobieństwa wystąpienia zdarzenia przeciwnego (1-p) Szansa zdarzenia A: Przykład: W trakcie badania 1000 osób, 200 z nich miało podwyższone stężenie glukozy we krwi. Jakie jest prawdopodobieństwo przekroczenia normy? Jaka jest szansa przekroczenia normy? Jaka jest szansa, że stężenie glukozy nie przekroczy normy?
9
Interpretacja parametrów modelu
Model regresji logistycznej - szansa zajścia zdarzenia dla jednej zmiennej objaśniającej X1: Obustronne zlogarytmowanie sprowadza model do postaci liniowej względem parametrów. Logarytm szansy: Przedstawienie modelu na skali logarytmu szansy, sprawia że model logistyczny jest modelem liniowym i jest nazywane przekształceniem logitowym
10
Interpretacja parametrów modelu
Logarytm szansy jest liniowo zależny od zmiennej objaśniającej (X1), dzięki czemu możemy łatwo interpretować współczynnik regresji 1 zmiana wartości logarytmu szansy dla zmiany o jednostkę zmiennej X Jeżeli: eβ1 > 1, to czynnik opisywany przez zmienną X1 ma stymulujący wpływ na wystąpienia badanego zjawiska. eβ1 < 1, to dany czynnik działa ograniczająco eβ1 = 1, to czynnik nie ma wpływu na opisywane zdarzenie.
11
B – przekroczenie normy
Iloraz szans Stosunek szansy wystąpienia zdarzenia w jednej grupie do szansy wystąpienia tego zdarzenia w grupie drugiej Iloraz szans (OR, z ang. odds ratio ) równy jeden oznacza równoważność szans dla porównywanych grup Przykład: Liczba pacjentów w zależności od statusu Status Mężczyzna Kobieta B – przekroczenie normy 162 38 A – parametr w normie 539 261 Oblicz iloraz szans dla przekroczenia normy pod względem analizowanego parametru w grupie mężczyzn w stosunku do grupy kobiet.
12
Iloraz szans Jeżeli OR > 1, to w pierwszej grupie zajście zdarzenia jest bardziej prawdopodobne OR < 1, to w drugiej grupie zajście zdarzenia jest bardziej prawdopodobne OR = 1, to w obu klasach obserwacji zdarzenie jest tak samo prawdopodobne
13
Regresja logistyczna Metoda estymacji parametrów
Regresja liniowa – metoda najmniejszych kwadratów Regresja logistyczna – metoda największej wiarygodności (ang. maximum likelihood) Metoda największej wiarygodności (ML) wiarygodność danego modelu jest określana jako łączne prawdopodobieństwo otrzymania obserwowanych wartości wyjściowych wyrażonych za pomocą funkcji wybranego modelu regresji wielokrotne estymowanie parametrów modelu, tak by zmaksymalizować prawdopodobieństwo uzyskania takich wyników, jakie osiągnięto w badanej próbie
14
Weryfikacja modelu i jego parametrów
Test LR – ilorazu wiarygodności (ang. Likelihood ratio) wstępna ocena istotności modelu Pozwala na porównanie dwóch modeli: bieżącego i referencyjnego Test Walda statystyczna istotność parametrów modelu β – jest oceną parametru regresji logistycznej Jakość modelu oceniana jest również za pomocą wskaźników: AIC – kryterium informacyjne Akaikego BIC – Bayesowskie kryterium informacyjne Schwartza
15
Regresja logistyczna w R
Dane: admit Akceptacja na uczelnie gre Punkty z testu 380 1 660 800 640 520 760 …
16
Regresja logistyczna w R
Używamy funkcji glm() uogólnione modele liniowe (generalized linear models) glm(formula, family=familytype(link=”linkfunction”), data=) Współczynniki modelu wraz z testem istotności (test Walda) Miara dopasowania modelu (Akaike Information Criterion)
17
Regresja logistyczna w R
Tabela coefficients: Wiersze tabeli odpowiadają zmiennym objaśniającym i wyrazowi wolnemu dopasowanego modelu I kolumna: wyestymowane współczynniki modelu II kolumna: odchylenie standardowe tych współczynników III kolumna: wartość statystyki testu Walda. IV kolumna: prawdopodobieństwo testowe (p-value) Hipotezą zerową w teście Walda dla współczynników jest nieistotność danej zmiennej objaśniającej
18
Regresja logistyczna w R
Interpretacja: Dla wzrostu zmiennej gpa o jednostkę obserwuje się wzrost logarytmu szans dla bycia przyjętym na uczelnie o 0,003582 Przedziały ufności dla parametrów:
19
Regresja logistyczna w R
Iloraz szans oraz przedziały ufności Parametr: szansa dla bycia przyjętym na uczelnie zwiększa się o 1, dla wzrostu wartości zmiennej gre o jednostkę Przedział ufności: szansa dla bycia przyjętym na uczelnie zwiększa się o wartość pomiędzy 1,00168 a 1, na 95% dla wzrostu wartości zmiennej gre o jednostkę
20
Źródła Biecek P Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW. Migut K Regresja logistyczna w badaniach medycznych i przyrodniczych. Materiały kursowe StatSoft Polska. Institute for Digital Research and Education materials: Giemza J., Zwierzchowska K Wprowadzenie do modelu regresji logistycznej wraz z przykładem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki. Praca licencjacka pod kierunkiem Przemysława Biecka.
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.