Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Wstęp do regresji logistycznej
Zastosowanie statystyki w bioinżynierii Materiały na ćwiczenia 4 Dr Wioleta Drobik-Czwarno
2
Regresja logistyczna Zmienna zależna jest zmienną dychotomiczną (dwustanową) – przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być: wystąpienie lub brak pewnego zdarzenia (np. śmierć, choroba) przekształcona zmienna innego typu: kategoryczna, ciągła Przykłady zmiennych dychotomicznych: samica (1), samiec (0) osobnik przeżył (1), nie przeżył (0), zaliczył przedmiot zastosowanie statystyki w bioinżynierii (1), nie zaliczył (0)
3
Regresja logistyczna 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył kolejne 24 h przeżył nie przeżył dawka promieniowania [rad]
4
Regresja logistyczna 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył kolejne 24 h przeżył regresja liniowa? nie przeżył dawka promieniowania [rad]
5
Regresja logistyczna Dlaczego nie regresja liniowa?
W regresji liniowej zmienne powinny być mierzone na skali ilościowej Problem z predykcją: dla dychotomicznej zmiennej objaśnianej regresja liniowa będzie szacowała wartości spoza akceptowalnego zakresu (poniżej 0 lub powyżej 1) Założenia do modelu nie będą są spełnione: brak rozkładu normalnego dla reszt brak jednorodności wariancji
6
Regresja logistyczna 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył następne 24 h przeżył wartość progowa nie przeżył dawka promieniowania [rad]
7
Funkcja logistyczna Funkcja logistyczna
wartość progowa Funkcja logistyczna Etapy zmian wartości funkcji logistycznej: Dla początkowych argumentów funkcja przyjmuje wartości bliskie zera / jedynki Od momentu osiągnięcia wartości progowej następuje nagły wzrost / spadek wartości funkcji Po osiągnięciu pewnej wartości dla kolejnych wartości argumentów przyjmuje wartości bliskie jedynki / zera
8
Model logistyczny Jedna zmienna niezależne
Warunkowe prawdopodobieństwa, że prognozowana zmienna przyjmie wartość 1 dla wartości zmiennych niezależnych e – stała wykładnicza ≈ 2,718 0 – stała regresji dla regresji logistycznej i – współczynnik regresji logistycznej dla zmiennej niezależnej
9
Założenia dla modelu regresji logistycznej
Zmienna Y podlega rozkładowi dwumianowemu, Y ~ B (1, p) Wartość oczekiwana E[y|x]=P(x) jest obliczana na podstawie funkcji logistycznej Wartości wyjściowe są statystycznie niezależne Nie jest wymagana jednorodność wariancji
10
Regresja logistyczna a regresja liniowa
11
Interpretacja parametrów modelu
Model regresji logistycznej - szansa zajścia zdarzenia dla jednej zmiennej objaśniającej X1: Obustronne zlogarytmowanie sprowadza model do postaci liniowej względem parametrów. Logarytm szansy: Przedstawienie modelu na skali logarytmu szansy, sprawia że model logistyczny jest modelem liniowym i jest nazywane przekształceniem logitowym
12
Interpretacja parametrów modelu
Logarytm szansy jest liniowo zależny od zmiennej objaśniającej (X1), dzięki czemu możemy łatwo interpretować współczynnik regresji 1 zmiana wartości logarytmu szansy dla zmiany zmiennej X o jednostkę Jeżeli: eβ1 > 1, to czynnik opisywany przez zmienną X1 ma stymulujący wpływ na wystąpienia badanego zjawiska. eβ1 < 1, to dany czynnik działa ograniczająco eβ1 = 1, to czynnik nie ma wpływu na opisywane zdarzenie.
13
Interpretacja współczynników modelu Szansa
Szansa (S; ang. odd) – prawdopodobieństwo wystąpienia zdarzenia (p) w stosunku do prawdopodobieństwa wystąpienia zdarzenia przeciwnego (1-p) Szansa zdarzenia A: Przykład: W trakcie badania 1000 osób, 200 z nich miało podwyższone stężenie glukozy we krwi. Jakie jest prawdopodobieństwo przekroczenia normy? Jaka jest szansa przekroczenia normy? Jaka jest szansa, że stężenie glukozy nie przekroczy normy?
14
B – przekroczenie normy
Iloraz szans Stosunek szansy wystąpienia zdarzenia w jednej grupie do szansy wystąpienia tego zdarzenia w grupie drugiej Iloraz szans (OR, z ang. odds ratio ) równy jeden oznacza równoważność szans dla porównywanych grup Przykład: Liczba pacjentów w zależności od statusu Status Mężczyzna Kobieta B – przekroczenie normy 162 38 A – parametr w normie 539 261 Oblicz iloraz szans dla przekroczenia normy pod względem analizowanego parametru w grupie mężczyzn w stosunku do grupy kobiet.
15
Iloraz szans Prawdopodobieństwo przekroczenia normy w grupie mężczyzn
Szansa na przekroczenie normy w grupie mężczyzn Prawdopodobieństwo przekroczenia normy w grupie kobiet Szansa na przekroczenie normy w grupie kobiet Iloraz szans Dwukrotnie większa szansa przekroczenia normy dla parametru w grupie mężczyzn w stosunku do kobiet
16
Iloraz szans - interpretacja
Jeżeli: OR > 1, to w pierwszej grupie zajście zdarzenia jest bardziej prawdopodobne OR < 1, to w drugiej grupie zajście zdarzenia jest bardziej prawdopodobne OR = 1, to w obu klasach obserwacji zdarzenie jest tak samo prawdopodobne
17
Regresja logistyczna Metody estymacji parametrów
Regresja liniowa – metoda najmniejszych kwadratów (ang. least squares) Regresja nieliniowa (np. regresja logistyczna) – metoda największej wiarygodności (ang. maximum likelihood) Metoda największej wiarygodności (ML) wiarygodność danego modelu jest określana jako łączne prawdopodobieństwo otrzymania obserwowanych wartości wyjściowych wyrażonych za pomocą funkcji wybranego modelu regresji wielokrotne estymowanie parametrów modelu, tak by zmaksymalizować prawdopodobieństwo uzyskania takich wyników, jakie osiągnięto w badanej próbie
18
Wybór zmiennych objaśniających
Metoda budowy modelu jest określona w zależności od wyboru parametru „direction”: Backward (wtecz) - z modelu zawierającego wszystkie zmienne objaśniające usuwane są najmniej istotne zmienne, dopóki wszystkie zmienne w modelu będą istotne Forward (wprzód) - określa metodę dodawania najbardziej istotnych zmiennych do modelu zawierającego tylko wyraz wolny Both - oznacza metodę, którą do modelu dodajemy zmienną istotną posiadającą najmniejszą p-value, a następnie usuwamy zmienną nieistotną z największą p-value. Kroki te są powtarzane aż model przestaje ulegać zmianie
19
Weryfikacja modelu i jego parametrów
Iloraz wiarygodności – odzwierciedla poprawę przewidywania analizowanego modelu względem modelu zawierającego tylko wyraz wolny (im mniejszy tym lepiej) Test Walda Sprawdzenie statystycznej istotności parametrów modelu β – jest oceną parametru regresji logistycznej
20
Ocena dopasowanie modeli Test Hosmera-Lemenshowa (HS)
Ocenia dopasowanie modelu Metodyka: podział posortowanych przewidywanych prawdopodobieństw na równe grupy (np. decyle), a następnie wyliczenie oczekiwanych częstości wartości wyróżnionej w oparciu o średnie wartości przewidywanych prawdopodobieństw w przedziale. Rozkłady porównujemy testem chi-kwadrat; H0: Rozkłady są jednakowe Ograniczenia: Wrażliwość na liczbę grup, na jaką dzielimy zakres wartości wejściowej – rekomendowany podział na ~10 grup Nie bierze pod uwagę czy założenia dla predykatorów są spełnione Test HS nie powinien być brany pod uwagę jako definitywne źródło oceny dobroci dopasowania
21
Ocena dopasowania modelu Miary oparte na macierzy klasyfikacji
Stan wyróżniony: zajście zdarzenia oznaczone jako 1 Nie przewidziano stanu wyróżnionego (0) Przewidywano stan wyróżniony (1) Nie zaobserwowano stanu wyróżnionego (0) TN prawdziwie ujemne FP fałszywie pozytywne Zaobserwowano stan wyróżniony (1) FN fałszywie negatywne TP prawdziwie pozytywne Frakcja poprawnie sklasyfikowanych obiektów należących do stanu wyróżnionego Frakcja poprawnie sklasyfikowanych obiektów należących do stanu niewyróżnionego Frakcja poprawnie sklasyfikowanych obiektów w stosunku do wszystkich
22
Miary pseudo R2 Współczynnik determinacji R2 – jaka część ogólnej zmienności zmiennej zależnej jest wyjaśniona regresją liniową W uogólnionym modelu liniowym rolę do estymacji parametrów stosujemy metodę największej wiarogodności (ML, ang. maximum likelihood): rolę SST może grać –lnL0 gdzie L0 jest logarytmem funkcji wiarygodności dla modelu zawierającego jedynie wyraz wolny rolę SSR może grać (-2lnL0)-(-2lnLp) gdzie Lp jest logarytmem funkcji wiarygodności dla badanego modelu SSR – suma kwadratów odchyleń wyjaśnionych regresją SST – suma kwadratów odchyleń całkowitych
23
Miary pseudo R2 Współczynnik Coxa-Snella Współczynnik Nagelkerke’a
Zawsze mniejszy niż 1 Współczynnik Nagelkerke’a Modyfikacja współczynnika Coxa-Snella, tak aby jego maksymalna wartość była równa 1
24
Regresja logistyczna w SPSS
1. Otwórz w SPSS plik z danymi testowymi 2. Zakoduj zmienną „surv” jako: 0 = nie przeżył 1 = przeżył Ścieżka SPSS: Analiza>Regresja>Logistyczna
25
Regresja logistyczna w SPSS
zmienna zależna Jeżeli zmienna niezależna ma być traktowana jako zmienna jakościowa zmienna niezależna
26
Regresja logistyczna w SPSS
Zapisz > Zaznacz wartości przewidywane > Dalej > OK
27
Regresja logistyczna w SPSS
Opcje > Dobroć dopasowania Hosmera-Lemeshowa > Dalej > OK
28
Istotność i dopasowanie
Model jest istotny statystycznie p< 0,05 Pseudo R-kwadrat
29
Istotność i dopasowanie
H0: Og = Eg H1: Og ≠ Eg Gdzie: Og – wartości obserwowane Eg – wartości oczekiwane Nie powinien być statystycznie istotny Jest również miara dopasowania modelu, jeżeli p< 0,05 należy odrzucić model
30
Interpretacja modelu Współczynnik B (niestand.) – trudny do interpretacji B0 – przesunięcie funkcji B0 = -2 B0 = 0 B0 = 2
31
Interpretacja Znak współczynnika B Decyduje o postaci krzywej regresji
32
Interpretacja Test Walda, podobny do testu T dla B w R. liniowej
Istotność Testu Walda Test Walda, podobny do testu T dla B w R. liniowej H0: B = 0 H1: B ≠ 0 Iloraz szans dla danego predyktora Można interpretować jako spadek lub wzrost prawdopodobieństwa osiągnięcia sukcesu Exp(B) dla „dose” = na każdy wzrost promieniowania o 1 rad szansa przeżycia spada o 0,6%
33
Interpretacja modelu Specyficzność (Swoistość) Czułość
TN FP FN TP Czułość Dokładność (ACC) Trafnie przewidziany sukces i porażka Procent przewidzianych wartości ogółem (sukcesów i porażek)
34
Krzywa ROC Jakość klasyfikacji dla zmiennej diagnostycznej
Analiza > Krzywa ROC Uwaga! Wcześniej robiąc regresję logistyczną musimy zaznaczyć zapis dla wartość przewidywanych
35
Krzywe ROC Punkt odcięcia
Punkt odcięcia to wartość predykatora (zmiennej diagnostycznej), która najlepiej dzieli badaną zbiorowość na dwie grupy: grupę w której występuje badane zjawisko (1) oraz grupę w której zjawisko nie występuje (0) Domyślny punkt odcięcia: 0.5 (oszacowane prawdopodobieństwo, że zjawisko wystąpiło) Gdy punkt odcięcia zmniejsza się z 1 do 0: czułość rośnie od 0 do 1 – łatwiej nam sklasyfikować przypadki prawdziwie pozytywne, ale rośnie liczba wyników fałszywie pozytywnych specyficzność maleje od 1 do 0 – coraz mniejsza liczba przypadków jest klasyfikowana poprawnie jako negatywne, wiele z nich przechodzi do klasy fałszywie pozytywnych Jaki punkt odcięcia powinien być przyjęty w badaniach przesiewowych oraz chorobach zakaźnych, a jaki przy stawianiu diagnozy przy chorobach groźnych dla życia jednostki (np. AIDS, nowotwory)?
36
Krzywa ROC Jakość klasyfikacji dla zmiennej diagnostycznej
Krzywa wyznaczana dla wszystkich możliwych punktów odcięcia Czułość (oś Y) opisuje częstość względną wystąpień prawdziwie dodatnich 1 – Swoistość (oś X) opisuje częstość względną wystąpień fałszywie dodatnich Dobra klasyfikacja: Dla danego punktu odcięcia czułość > 1 - swoistość Gdy krzywa ROC pokrywa się z przekątną y = x (zielona linia), to decyzja podejmowana na podstawie zmiennej diagnostycznej jest tak samo dobra jak losowy podział badanych obiektów na grupy
37
Pole pod krzywą (AUC) Jakość klasyfikacji dla zmiennej diagnostycznej
Wielkość pola pod krzywą ROC mieści się w przedziale < 0 ; 1 > Krzywa powstaje na podstawie wyznaczonych wartości czułości i swoistości Im większe pole tym dokładniej sklasyfikujemy dane do grupy na podstawie analizowanej zmiennej diagnostycznej Źródło wykresu:
38
Literatura Biecek P Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Migut K Regresja logistyczna w badaniach medycznych i przyrodniczych. Materiały kursowe StatSoft Polska. Institute for Digital Research and Education materials: Stanisz A Modele regresji logistycznej. Wyd. StatSoft Polska. Giemza J., Zwierzchowska K Wprowadzenie do modelu regresji logistycznej wraz z przykładem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki. Praca licencjacka pod kierunkiem Przemysława Biecka.
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.