Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Metody statystyczne II – II poziom ( S.S & SNS) Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak; Ćwiczenia: Wioletta.

Podobne prezentacje


Prezentacja na temat: "Metody statystyczne II – II poziom ( S.S & SNS) Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak; Ćwiczenia: Wioletta."— Zapis prezentacji:

1 Metody statystyczne II – II poziom ( S.S & SNS) Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak; Ćwiczenia: Wioletta Grzenda, Urszula Gach; Dorota Stala, Iga Sikorska 1 Regresja logistyczna - model binarny cz. I

2 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 2 1.Model regresji logistycznej 2.Metoda estymacji modelu 3.Kodowanie zmiennych jakościowych 4.Przykład i interpretacja wyników 5.Testowanie istotności parametrów

3 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 3 Modelowanie – MODEL BINARNEJ REGRESJI LOGISTYCZNEJ Interesuje nas, czy jakieś zjawisko wystąpi czy nie wystąpi w przyszłości i co będzie miało wpływ na prawdopodobieństwo wystąpienia zdarzenia. Ponadto, interesuje nas też identyfikacja czynników, od których zależy czy zdarzenie wystąpi, kierunku oraz siły wpływu determinant, co umożliwić ma prognozowanie interesujących nas zjawisk. Przykłady problemów: 1.Dlaczego pewni ludzie chorują na daną chorobę, a inni nie? 2.Dlaczego jeden konsument kupuje dany produkt, a inny nie?

4 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 4 Zapis modelu RL Zmienną zależną jest zmienna Y, która przyjmuje tylko dwie wartości związane z wystąpieniem lub nie wystąpieniem pewnego zdarzenia losowego A (kodowanie binarne, np. zero-jedynkowe). Y = 1, gdy zaszło zdarzenie A Y = 0, gdy zdarzenie A nie zaszło Y jest zmienną losową o rozkładzie zerojedynkowym.

5 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 5 Analizę zmiennej objaśnianej o charakterze binarnym umożliwia model binarnej regresji logistycznej. W modelu regresji logistycznej estymujemy bezpośrednio prawdopodobieństwo wystąpienia zdarzenia A tj. prawdopodobieństwo gdzie µ jest wartością oczekiwaną zmiennej Y. tzn. µ = E(Y). Przyjmujemy, że to prawdopodobieństwo jest funkcją zależną od zmiennych i zależność ma postać: Oznaczając kombinację liniową zmiennych objaśniających przez Z możemy zapisać: oraz

6 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 6 Funkcja logistyczna Wykres funkcji logistycznej w przedziale -4 < z < 4. Kierunek zmian P w zależności od zmiennej zależy od znaku współczynnika występującego przy tej zmiennej. Jeżeli β i > 0, to wraz ze wzrostem X i wartość prawdopodobieństwa P wzrasta. Mówimy wtedy, że czynnik opisywany przez zmienną X i działa stymulująco na zdarzenie A. Jeżeli β i < 0, to wzrost powoduje spadek wartości P. Mówimy wtedy, że czynnik opisywany przez zmienną działa ograniczająco (limitująco) na zdarzenie A. Zależność P(A) od zmiennych X 1,...,X k jest nieliniowa. Parametry równania logistycznego szacuje się metodą największej wiarygodności (MNW, maksimum likelihood - ML). Jest to metoda iteracyjna.

7 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 7 Zaobserwowane w próbie wartości y 1,…,y n są realizacją n-wymiarowej zmiennej losowej (Y 1,…,Y n ). Każda ze zmiennych Y i (i=1,...n) ma rozkład zerojedynkowy o wartości średniej μ i = P(Y i = 1), gdzie Jeżeli wartości zmiennych objaśniających są ustalone, to rozkład zmiennej losowej (Y 1,…,Y n ) zależy jedynie od parametrów β 1,… β k,. Ponieważ zmienne losowe Y 1,…,Y n są niezależne, prawdopodobieństwo otrzymania zaobserwowanych wartości y 1,…,y n w próbie wynosi: Metoda estymacji Dla ustalonej próby powyższe prawdopodobieństwo jest funkcją parametrów β 0,... β k zwaną funkcją wiarogodności próby. W przypadku stosowania wag dla obserwacji funkcja wiarogodności ma postać: (i-ta obserwacja jest brana pod uwagę w i razy)

8 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 8 Metoda największej wiarogodności (MNW) polega na szukaniu takich wartości nieznanych parametrów, dla których funkcja L przyjmuje wartość maksymalną. Bierze się to z założenia, że w wyniku wylosowania próby powinno zrealizować się zdarzenie o największym prawdopodobieństwie. Wartości estymatorów dla β 0,... β k otrzymane metodą największej wiarogodności oznaczamy b 0,...,b k. Ponieważ funkcja L osiąga maksimum w tych samych punktach, co jej logarytm (tj. funkcja lnL), w praktyce wyznacza się maksimum funkcji lnL. Maksimum to znajduje się metodami rachunku różniczkowego, rozwiązując układ równań j=0,...,k Metoda estymacji W naszym przypadku Układ k+1 równań j=0,...,k jest układem równań nieliniowych. Można go rozwiązać stosując algorytm Newtona-Raphsona. Jest to algorytm iteracyjny.

9 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 9 Po wyznaczeniu wartości estymatorów b 0,...,b k.należy obliczyć ich średnie błędy szacunku. Średnie błędy szacunku estymatorów wyznacza się na podstawie macierzy kowariancji, której estymatorem jest macierz r,s=0,...,k Metoda estymacji

10 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 10 W modelu zmienną binarną będzie nadwaga (zmienna zero-jedynkowa; 1- ma nadwagę 0-nie ma nadwagi). Wartość zmiennej jest określana na podstawie Body Mass Indem BMI, który obliczany jest jako iloraz wzrostu i masy ciała. Im mniejsza wartość BMI, tym ryzyko wystąpienia chorób jest mniejsze. Ustalono krytyczną wartość tego indeksu (25). Wartości powyżej 25 są klasyfikowane jako nadwaga. Do objaśnienia zmiennej zależnej: nadwaga wybrano 9 następujących zmiennych niezależnych: dochod, wydatki, syt_mat, komputer, plec stan_cywilny, wiek, wyd_zyw, fastfood. Przykład modelu logistycznego

11 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 11 Nazwa zmiennejOpis zmiennejWartości/kody NadwagaZmienna binarna informująca o nadwadze1=nadwaga, 0=brak nadwagi DochodDochod respondentaOd do dolarów WydatkiWydatki miesięczne respondentaOd 184 do dolarów K_miejKategoria miejsca zamieszkania1=mała wieś; 2=wieś, 3=małe miasto, 4=średnie miasto, 5=duże miasto, 6=metropolia Syt_matOcena sytuacji materialnej (subiektywna)1=bardzo dobra, 2=raczej dobra,3=przeciętna, 4=raczej zła, 5=zła Stan_cywilnyStan cywilny klienta1=kawaler, panna 2=żonaty, mężatka 3=wdowiec, wdowa 4=rozwiedziony(a) separowany(a) KomputerZmienna binarna informująca czy osoba posiada komputer (wykonuje pracę siedzącą) 1 = posiada komputer, 0 – nie posiada komputera WiekWiek (kalendarzowy) PlecZmienna binarna określająca płeć respondenta 1= mężczyzna, 2=kobieta Wyd_zywWysokość wydatków przeznaczanych na produkty żywnościowe FastfoodZmienna jakościowa opisująca jak często dany respondent je żywność z fastfoodów 1= często (przynajmniej raz w tygodniu, 0 = rzadko lub prawie nigdy (mniej niż 1 raz w tygodniu) Przykład modelu logistycznego

12 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 12 Przykład modelu logistycznego Wśród zmiennych objaśniających mamy dwa rodzaje zmiennych: a) zmienne ciągłe: dochod, wydatki, wiek, lata, wyd_zyw Mogą przyjmować dowolne wartości w ustalonym przedziale zmienności, przy czym wartości obserwowane w próbie są skwantowane jedynie ze względu na dokładność pomiaru. b) zmienne wskaźnikowe (dummy variables): plec, k_miej, syt_mat, stan cywilny, fastfood komputer Mogą przyjmować wartości 0 lub 1 (lub więcej poziomów dychotomicznych). Mówią one o tym, czy jednostka posiada określoną cechę, czy jej nie posiada.

13 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 13 Zbiór danych

14 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 14 Tabela BMI na sex BMIsexRaze m kobietamężczyzn a brak na nadwaga Razem Tabela BMI na komputery BMIkomputeryRazem częstorzadko brak na nadwaga Razem Tabela BMI na fastfoody BMIfastfoodyRazem częstoprawie brak na nadwaga Razem

15 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 15 Wstępna analiza rozkładów Tabela BMI na syt_materialna BMIsyt_materialnaRazem bardzo dobra przeciętnaraczej dobra raczej zła zła brak na nadwaga Razem Tabela BMI na zamieszk BMIzamieszkRazem b małe bardzo duże dużemałewieśśredni e brak na nadwaga Razem

16 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 16

17 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 17 Estymacja – MNW ( Estymacja – MNW ( “maximum likelihood estimation”) Procedura iteracyjna znaleźć ma najlepszy zbiór parametrów (jedyny).

18 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 18 Metoda estymacji Nieznane parametry β 1,… β k, szacujemy na podstawie próby losowej. Niech y 1,…,y n będą zaobserwowanymi wartościami zmiennej zależnej w n-elementowej próbie losowej i niech x 1j,…,x nj będą wartościami j-tej zmiennej objaśniającej (j=1,...,k). Wynik próby możemy zapisać w postaci macierzowej jako: gdzie x i0 =1 (i=1,...,n) Próba powinna być reprezentatywna dla populacji, z której została wylosowana. Jeżeli podejrzewamy, że tak nie jest (np. z powodu odmowy przez niektóre osoby udzielenia odpowiedzi na pytania ankiety), to stosuje się wagi mające na celu zapewnienie zgodności próby i populacji, Różnym obserwacjom nadajemy wtedy różne znaczenie przypisując im wagi (i=1,...,n). Pożądane jest, aby tzn. by suma wag była równa liczbie obserwacji. Oznaczmy wektor wag

19 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 19 Zaobserwowane w próbie wartości y 1,…,y n są realizacją n-wymiarowej zmiennej losowej (Y 1,…,Y n ). Każda ze zmiennych Y i (i=1,...n) ma rozkład zerojedynkowy o wartości średniej μ i = P(Y i = 1), gdzie Jeżeli wartości zmiennych objaśniających są ustalone, to rozkład zmiennej losowej (Y 1,…,Y n ) zależy jedynie od parametrów β 1,… β k,. Ponieważ zmienne losowe Y 1,…,Y n są niezależne, prawdopodobieństwo otrzymania zaobserwowanych wartości y 1,…,y n w próbie wynosi: Metoda estymacji Dla ustalonej próby powyższe prawdopodobieństwo jest funkcją parametrów β 0,... β k zwaną funkcją wiarogodności próby. W przypadku stosowania wag dla obserwacji funkcja wiarogodności ma postać: (i-ta obserwacja jest brana pod uwagę w i razy)

20 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 20 Model z jedna zmienną objaśniającą

21 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 21 Ważne jest aby odpowiednio wybrać kategorię zmiennej objaśnianej, która staje się modelowanym prawdopodobieństwem zajścia zdarzenia Styl kodowania zmiennej niezależnej jest istotny z punktu widzenia rodzaju szacowanego modelu regresji logistycznej. Kategoria odniesienia ma istotne znaczenie w modelu regresji uporządkowanej oraz wielostanowej. W modelu regresji binarnej wpływa na otrzymane oceny parametrów, ale nie wpływa na wartość ilorazu szans.

22 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 22 Różnice w kodowaniu zmiennych objaśniających Z punktu widzenia analizy istotny jest sposób kodowania zmiennych jakościowych. Zmienne mogą, w zależności od liczby kategorii, być kodowane w sposób nominalny (np. binarny-0,1; poprzez przyporządkowanie liczby danej kategorii) lub też w sposób jakościowy, poprzez przypisanie poszczególnym poziomom zmiennej nazwy znakowej (np. kobieta, mężczyzna). Forma kodowania narzuca określony sposób włączenia jej do modelu.

23 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 23

24 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 24

25 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 25 Model Information Data Set WORK.SORTTEMPTABLESORTED Response Variablenadwaga Number of Response Levels 2 Modelbinary logit Optimization TechniqueFisher's scoring Number of Observations Read943 Number of Observations Used943 Probability modeled is nadwaga='nadwaga'. Response Profile Ordered Value nadwagaTotal Frequency 1nadwaga467 2brak nadwagi476 Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Podstawowe informacje o Modelu Spełnione zostało iteracyjne kryterium zbieżności, udało się wyznaczyć parametry największej wiarygodności.

26 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 26 Probability modeled is nadwaga='nadwaga'. Mając oszacowany model możemy obliczać prawdopodobieństwa teoretyczne dla wybranej osoby. Według innej interpretacji są to wartości średnie zmiennej Y, czyli udziały osób z nadwagą w grupie osób reprezentowanych przez określony układ zmiennych objaśniających. nadwaga (należy opuścić czynniki, dla których zmienna objaśniająca wynosi 0, pozostałe uzupełnić zgodnie z wartością zmiennej- w tym dychotomicznej) Analysis of Maximum Likelihood Estimates ParameterDFEstimateStandard Error Wald Chi-Square Pr > ChiSq Intercept <.0001 fastfood <.0001 W analizowanym przykładzie modelu z jedną zmienną objaśniającą formalny zapis przedstawia się następująco!

27 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 27 Przykład modelu logistycznego- interpretacja Oznacza to, że 86,6% osób o wymienionych cechach ma nadwagę, inaczej mówiąc jeżeli je się fastfoody to prawdopodobieństwo, że będzie się miało nadwagę wynosi 0,866. Dla osób o tych samych cechach, ale nie jedzących fastfoodów P=0,036. Fakt, że prawdopodobieństwa się nie dopełniają do jedności wynika to z nieliniowości związku. Dopisek ‘dla osób o tych samych cechach’ lub też ‘przy pozostałych zmiennych ustalonych’ odnosi się do modelu o większej liczbie zmiennych objaśniajacych (poziom ustalony to poziom referencyjny danej zmiennej objaśniającej, np. 1 lub Kobieta). Z=-1,865 Z=-3,2983 je fastfoody nie je fastfoodów

28 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 28 Testowanie hipotez dotyczących współczynników (istotność zmiennej X j ) W kolumnach są wyświetlane współczynniki regresji oraz ich błędy szacunku. Zmienna jest istotna w modelu, jeżeli wartość błędu szacunku jest dostatecznie mała w porównaniu z wartością współczynnika regresji. Do pomiaru tej istotności służy statystyka Walda, podana w kolumnie zatytułowanej Chi-Kwadrat Walda. Statystyka Walda ma rozkład χ 2 z liczbą stopni swobody o 1 mniejszą niż liczba kategorii. Dla zmiennych numerycznych (jak wiek) liczba stopni swobody wynosi zawsze 1. Również dla zmiennych zerojedynkowych liczba stopni swobody wynosi 1. Liczba stopni swobody jest zamieszczona w kolumnie zatytułowanej st.sw.(df). Analysis of Maximum Likelihood Estimates ParameterDFEstimateStandard Error Wald Chi-Square Pr > ChiSq Intercept <.0001 fastfood <.0001

29 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 29 Jeżeli mamy df=1, to wartość statystyki Walda obliczamy ze wzoru: dla zmiennej fastfood mamy Testowanie hipotez dotyczących współczynników (istotność zmiennej X j ) Prawdopodobieństwo testowe dla statystyki Walda jest wyświetlane w kolumnie Pr>ChiKw. Należy je porównywać z przyjętym poziomem istotności (np.0,05). Jeżeli Pr ChiKw < 0,05, to odpowiednia zmienna jest istotna na poziomie 0,05. W modelu statystycznie istotne na poziomie 0,05 są jedynie zmienne komputer i fastfood oraz stała (Pr ChiKw< 0,05). Analysis of Maximum Likelihood Estimates ParameterDFEstimateStandard Error Wald Chi-Square Pr > ChiSq Intercept <.0001 fastfood <.0001 Testowane Hipotezy: H 0 : parametr jest równy zero H 1 : parametr jest różny od zera

30 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 30 Logit Problem w tym, że logit jest czymś innym niż prawdopodobieństwo i jest trudny do interpretacji. Łatwiej rozważać wyrażenie: Wyrażenie to będące stosunkiem prawdopodobieństwa wystąpienia zdarzenia A do prawdopodobieństwa niewystąpienia zdarzenia A nazywamy szansą (ryzykiem względnym)- odds Zapiszmy równanie logistyczne w postaci: albo : gdzie A’ jest zdarzeniem przeciwnym do A. Wyrażenie znajdujące się po lewej stronie równania nazywamy logitem.

31 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 31 Ryzyko względne Jeżeli prawdopodobieństwo zdarzenia A wynosi ½. (jak np. wyrzucenia orła w rzucie monetą), to ryzyko względne wynosi 1 Jeżeli P(A) = 0,9 to Teraz znaczenie współczynników regresji jest następujące. Wartość mówi, ile razy wzrośnie wartość ryzyka względnego, jeżeli wartość j-tej zmiennej objaśniającej wzrośnie o jednostkę. Jeżeli, to

32 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 32 Interpretacja parametrów Odds Ratio Estimates EffectPoint Estimate 95% Wald Confidence Limits fastfood Stała = -3,2983  exp(stała) = 0,  Gdy wszystkie inne zmienne przyjmują wartość zero, iloraz szans bycia otyłym do nie bycia otyłym wynosi 3,4% fastfood = 5,1635  exp = 174,769  Przy ustalonych wartościach pozostałych zmiennych, osoby jedzące często fastfoody mają 175 razy wyższe szanse bycia w otyłym, niż pozostali (nie jedzący fastfoodów). Uwaga! Jeżeli do modelu weszłaby zmienna ciągłą wówczas exp(β) interpretuje się jako przyrost/spadek prawdopodobieństwa bycia otyłym przy wzroście danej cechy o jednostkę (np. przy ustalonych, pozostałych wartościach zmiennych, wzrost dochodów o jednostkę 100 zł, zwiększa szansę bycia otyłym o 1%). Analysis of Maximum Likelihood Estimates ParameterDFEstimateStandard Error Wald Chi-Square Pr > ChiSq Intercept <.0001 fastfood <.0001

33 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 33 Przedziały ufności Przedziały ufności dla ilorazów szans [exp(B)] na poziomie ufności (domyślnie jest 95%)- domyślnie α=0,05. Zmienna jest istotna na danym poziomie α, jeżeli przedział ufności dla exp(β) z współczynnikiem 1-α nie zawiera liczby 1. W modelu otrzymaliśmy 95% przedział ufności dla zmiennych: Odds Ratio Estimates EffectPoint Estimate 95% Wald Confidence Limits fastfood Zatem zmienna fastfood jest istotna statystycznie

34 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 34 Przedział ufności Walda dla parametrów ParametrOcena95% granice przedziału ufności Intercept dochod wydatki syt_mat komputer plec stan_cywilny wiek wyd_zyw fastfood Oceny ilorazu szans EfektOcena punktowa95% granice przedziału ufności Walda dochod1.000 wydatki1.000 syt_mat komputer plec stan_cywilny wiek wyd_zyw fastfood Przedział ufności Walda dla skorygowanych ilorazów szans EfektJednostkaOcena95% granice przedziału ufności dochod wydatki wyd_zyw Przedziały ufności

35 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 35 Różnice w kodowaniu zmiennych- wersja nieprawidłowa! Model z 4 zmiennymi objaśniającymi

36 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 36 Model z 4 zmiennymi objaśniającymi Wersja obowiązująca na ćwiczeniach, interpretowana poniżej Różnice w kodowaniu zmiennych- wersja 1

37 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 37 Różnice w kodowaniu zmiennych- wersja 2

38 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 38 Informacje o poziomie klasyfikacji KlasaWartośćZmienne planowania sexKobieta 1 Mezczyz 0 syt_mater ialna bardzo dobra 1000 przeciętna 0100 raczej dobra 0010 raczej zła 0001 zła 0000 fastczęsto 1 rzadko lub prawie nigdy 0 kompbrak komputera 1 komputer 0 Informacje o poziomie klasyfikacji KlasaWartośćZmienne planowania sexKobieta 1 Mezczyz kompbrak komputera 1 komputer syt_mate rialna bardzo dobra 1000 przeciętna 0100 raczej dobra 0010 raczej zła 0001 zła fastczęsto 1 rzadko lub prawie nigdy KODOWANIE Odniesienie Skutki Sposób kodowania nie ma wpływu na istotność tej zmiennej taktowanej jako całość, ale ma wpływ na wartości stałej regresji i współczynników regresji poszczególnych kategorii danej zmiennej, a zatem na interpretację modelu.

39 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 39 Analiza ocen maksymalnej wiarygodności Parametr St. sw.OcenaBłąd standardowy Chi-kwadrat Walda Pr > chi kw.. Intercept <.0001 fastczęsto <.0001 kompbrak komputera sexKobieta syt_materialnabardzo dobra syt_materialnaprzeciętna syt_materialnaraczej dobra syt_materialnaraczej zła Kodowanie ODNIESIENIE Porównywane są efekty należenia i nie należenia do danej kategorii. Jedna z kategorii jest kategorią referencyjną. W macierzy kontrastów odpowiada jej wiersz złożony z samych zer. Interpretacja oszacowań powinna być taka, że modelowane prawdopodobieństwo wzrośnie lub spadnie, jeżeli dana jednostka wykazuję przynależność do jednej z grup względem kategorii referencyjne (pamiętając, że tylko w jednym przypadku może wystąpić jedynka, bowiem dana osoba musiała wskazać jedną z kategorii).

40 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 40 Kodowanie SKUTKI Wszystkie współczynniki dla kategorii syt_materialna nieistotnie różnią się od średniej. Współczynnik dla sytuacji bardzo dobrej (-0,9178) jest niższy od średniej, współczynniki dla sytuacji przeciętnej, raczej dobrej i raczej złej są wyższe od średniej. Ponieważ w tej metodzie kodowania suma współczynników dla wszystkich kategorii wynosi 0, więc wartość dla sytuacji materialnej bardzo złej (kategoria referencyjna) obliczymy jako -(-0,9178+0,4861+0,2794+0,3017) = -0,1494 Analiza ocen maksymalnej wiarygodności Parametr St. sw.OcenaBłąd standardowy Chi-kwadrat Walda Pr > chi kw.. Intercept fastczęsto <.0001 kompbrak komputera sexKobieta syt_materialnabardzo dobra syt_materialnaprzeciętna syt_materialnaraczej dobra syt_materialnaraczej zła

41 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 41

42 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 42

43 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 43

44 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 44 Programy komputerowe podają prawdopodobieństwo testowe (p-value). Jest to największa wartość poziomu istotności α, przy której nie odrzucamy hipotezy zerowej H 0 :β j = 0 (wszystkie parametry są równe zero). Np. gdyby p-value=0,032, to na poziomie istotności α = 0,05 odrzucamy hipotezę zerową, natomiast na poziomie α = 0,02 nie ma podstaw do odrzucenia hipotezy zerowej. Ogólnie rzecz biorąc, odrzucamy hipotezę zerową, gdy p-value przyjmuje dostatecznie małą wartość. Testowanie hipotez dotyczących współczynników (istotność zmiennej X j ) Ponadto testować również można łączną hipotezę o statystycznej istotności wyestymowanych parametrów modelu. Testowana jest hipoteza zerowa, mówiąca o tym, że wektor parametrów beta jest równy zero (bety są nieistotne statystycznie). Wyniki testów sugerują odrzucenie hipotezy zerowej na korzyść alternatywnej, czyli przynajmniej jeden ze współczynników modelu jest istotnie różny od zera. Testowanie globalnej hipotezy zerowej: BETA=0 TestChi-kwadratSt. sw.Pr > chi kw.. Iloraz wiarygodn <.0001 Ocena <.0001 Wald <.0001 Ogólnie, w modelu jest przynajmniej jeden parametr istotnie różniący się od zera.

45 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 45 Ocena oszacowań modelu z 4 zmiennymi Ogólnie, w modelu jest przynajmniej jeden parametr istotnie różniący się od zera. ALE: interesuje nas, który z parametrów zmiennych w modelu jest istotny, czy istotne ponadto są inne zmienne niż w modelu z jedną zmienną oraz czy w nowym modelu zmienna, która była istotna poprzednio nadal jest istotna. TEST WALDa: Testowana jest hipoteza zerowa o braku istotności poszczególnych zmiennych w modelu na domyślnym poziomie istotności alpha 0,05 W przypadku zmiennych fastfood i komputer brak należy odrzucić hipotezę zerową na korzyść hipotezy alternatywnej. Decyzja : oszacowane parametry zmienny komputer i fastfood statystycznie istotnie różnią się od od zera i pozostają w modelu, pozostałe parametry należy uznać za nieistotnie różne od zera (brak podstaw do odrzucenia hipotezy zerowej) Analiza ocen maksymalnej wiarygodności Parametr St. sw.OcenaBłąd standardowy Chi-kwadrat Walda Pr > chi kw.. Intercept <.0001 fastczęsto <.0001 kompbrak komputera sexKobieta syt_materialnabardzo dobra syt_materialnaprzeciętna syt_materialnaraczej dobra syt_materialnaraczej zła

46 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 46 Przykład modelu logistycznego Oznacza to, że 94% osób o wymienionych cechach ma nadwagę. Dla osób o tych samych cechach, ale nie jedzących fastfoodów P=0,09. Jeżeli powyższe obliczenia wykonamy dla osób jedzących i nie jedzących fastfoody i nie mających komputerów wówczas prawdopodobieństwa wyniosą odpowiednio 89,3 oraz 4,8. Wynika to z nieliniowości związku. Z=-2,2858 Z=2,8203 Posiada komputer oraz je fastfoodyPosiada komputer oraz nie je fastfoodów Jeżeli oszacuje się model z dwiema zmiennymi, wówczas: Analiza ocen maksymalnej wiarygodności Parametr St. sw.OcenaBłąd standardowy Chi-kwadrat Walda Pr > chi kw.. Intercept <.0001 fastczęsto <.0001 kompbrak komputera

47 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 47 Interpretacja parametrów Uwaga! Jeżeli do modelu weszłaby zmienna ciągłą wówczas exp(β) interpretuje się jako przyrost/spadek prawdopodobieństwa bycia otyłym przy wzroście danej cechy o jednostkę (np. przy ustalonych, pozostałych wartościach zmiennych, wzrost dochodów o jednostkę 100 zł, zwiększa szansę bycia otyłym o 1%). Stała = -2,7858  exp(stała) = 0,06168  Gdy wszystkie inne zmienne przyjmują wartość zero, iloraz szans (sznasa, ryzyko) bycia otyłym do nie bycia otyłym wynosi 5% Komputer = -0,6979  exp = 0,498  Przy ustalonych wartościach pozostałych zmiennych, osoby nie posiadające komputera mają dwa razy mniejsze szanse bycia otyłym, niż osoby posiadając komputer. fastfood = 5,37  exp = 165,029  Przy ustalonych wartościach pozostałych zmiennych, osoby jedzące często fastfoody mają o niemal 165 razy wyższe szanse bycia w otyłym, niż jedzący rzadko. Oceny ilorazu szans EfektOcena punktowa 95% granice przedziału ufności Walda fast często vs rzadko lub prawie nigdy komp brak komputera vs komputer UWAGA na interpretację!

48 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 48 ZADANIA dla studentów Zbiór arthrit zawiera 4 zmienne: better, sex, age oraz treat 1.Proszę zbadać zależność poprawy stanu zdrowia (better) od sposobu leczenia (treat-jakościowej), ocenić istotność parametru oraz zinterpretować otrzymane wyniki oraz ilorazy szans 2.Proszę zbadać zależność poprawy stanu zdrowia od pozostałych zmiennych, ocenić istotność parametru oraz zinterpretować otrzymane wyniki oraz ilorazy szans

49 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 49 Projekt 1 -Proszę opracować, na podstawie onlinedoc SAS, procedury służące do estymacji modeli binarnej regresji logistycznej -Szczegółowo pisać należy instrukcje i opcje dla proc logistic -Proszę opracować interpretację do drugiego sposobu kodowania zmiennych jakościowych (skutki)

50 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 50 Regresja logistyczna - model binarny cz. I

51 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 51 1.Omówienie procedury proc logistic 2.Dobór zmiennych do modelu 3.Oszacowanie dobroci modelu 4.Ocena jakości modelu

52 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 52 Nazwa zmiennejOpis zmiennejWartości/kody NadwagaZmienna binarna informująca o nadwadze1=nadwaga, 0=brak nadwagi DochodDochod respondentaOd do dolarów WydatkiWydatki miesięczne respondentaOd 184 do dolarów K_miejKategoria miejsca zamieszkania1=mała wieś; 2=wieś, 3=małe miasto, 4=średnie miasto, 5=duże miasto, 6=metropolia Syt_matOcena sytuacji materialnej (subiektywna)1=bardzo dobra, 2=raczej dobra,3=przeciętna, 4=raczej zła, 5=zła Stan_cywilnyStan cywilny klienta1=kawaler, panna 2=żonaty, mężatka 3=wdowiec, wdowa 4=rozwiedziony(a) separowany(a) KomputerZmienna binarna informująca czy osoba posiada komputer (wykonuje pracę siedzącą) 1 = posiada komputer, 0 – nie posiada komputera WiekWiek (kalendarzowy) PlecZmienna binarna określająca płeć respondenta 1= mężczyzna, 2=kobieta Wyd_zywWysokość wydatków przeznaczanych na produkty żywnościowe FastfoodZmienna jakościowa opisująca jak często dany respondent je żywność z fastfoodów 1= często (przynajmniej raz w tygodniu, 0 = rzadko lub prawie nigdy (mniej niż 1 raz w tygodniu) Przykład modelu logistycznego

53 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 53 proc logistic data=reglog.oty; class syt_materialna ( param =ref) komputer ( param =ref)plec ( param =ref)stan_cywilny ( param =ref) wiek ( param =ref) fast; MODEL nadwaga(ref=first)= dochod wydatki wyd_zyw syt_mat komputer plec stan_cywilny wiek fastfood/ SELECTION=none /*stepwise*/ /* wybór metody selekcji zmiennych niezależnych do modelu, domyślnie sls i sle=0,05 */ CORRB /* korelacje cząstkowe */ RSQUARE /* r-kwadrat i skorygowane R-kwadrat */ LINK=LOGIT /* funkcja linkująca */ CLPARM=BOTH /* wyświetlenie przedziałów ufności dla parametrów */ CLODDS=BOTH /* wyświetlenie przedziałów ufności dla ilorazów szans */ ALPHA=0.05 /* poziom istotności */ OUTROC=WORK.EGOUTROC ROCEPS= /* zapisanie zbioru dla krzywej ROC */ aggregate scale=none lackfit; title 'Model binarny'; UNITS dochod=1000 wydatki=1000 wyd_zyw=100; /* przedziały jednostkowe dla zmiennych ciągłych*/ OUTPUT OUT=WORK.TEMP1456 PREDPROBS=INDIVIDUAL /* zbiór z wyliczonymi prawdopodobieństwami teoret.*/ PREDICTED=_predicted1 /* zmienna z wartościami teoretycznymi*/ RESCHI=_reschi1 RESDEV=_resdev1 /* dewiancja i Pearson Chi-Square*/ DIFCHISQ=_difchisq1 DIFDEV=_difdev1 DFBETAS=_dfbetas0-_dfbetas5 /*wartości DfBeta*/ H=_h1 C=_c1; /*wartości wpływu dla odległości Cook’a oraz pole pod krzywą ROC*/ RUN; proc logistic data = biblioteka.zbior; model y = x1 x2 x3; run; /* zbiór wejściowy */ /* zdefiniowanie zmiennej zależnej i zmiennych niezależnych w modelu oraz kategorii referencyjnej */ /*zmiana dewiancji i statystyki Pearson Chi-square przy wykluczeniu jednostki*/

54 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 54 1.PROC LOGISTIC ;PROC LOGISTIC 2.BY variables ;BY 3.CLASS variable... > ;CLASS 4.CONTRAST 'label' effect values ;CONTRAST 5.EXACT ;EXACT 6.FREQ variable ;FREQ 7.MODEL events/trials = ;MODEL 8.MODEL variable = ;MODEL 9.OUTPUT / ;OUTPUT 10.SCORE ;SCORE 11.STRATA effects ;STRATA 12. TEST equation1 > ;TEST 13.UNITS independent1 = list1 ;UNITS 14.WEIGHT variable ;WEIGHT 1.Wskazanie zbioru danych, opcje ogólne 2.Przeprowadzenie analizy w podgrupach (zbiór musi być wcześniej posortowany) 3.Wskazanie zmiennych jakościowych i określenie ich kodowania 4.Przeprowadzenie testu liniowych ograniczeń, przy czym w testowanym równaniu nie może występować stała 5.Dokładne testy istotności parametrów 6.Wskazanie zmiennej określającej częstości obserwacji (dane pogrupowane) 7.Określenie postaci modelu i opcji, np: wyliczenie dodatkowych miar 8.Zapisanie pewnych informacji do zbioru SAS 9.Obliczenie score (prawdopodobieństw) z gotowego modelu na nowych danych 10.Przeprowadzenie stratyfikowanej regresji logistycznej 11.Zadanie dla jakich zmian wartości zmiennych ciągłych mają być obliczone ilorazy szans 12.Przeprowadzenie testów liniowych ograniczeń 13.Wskazanie zmiennej zawierającej wagi obserwacji

55 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 55 Oprócz weryfikacji istotności oszacowań parametrów modelu istotny jest logiczny i uzasadniony dobór zmiennych objaśniających do modelu. Dobór zmiennych objaśniających do modelu: Korelacja- typowanie zmiennych wykazujących zależności, identyfikacja współliniowych zmiennych objaśniających Korelacja cząstkowa (szacunkowa)- wkład poszczególnych zmiennych niezależnych do pojemności informacyjnej modelu (relacje typu parametr a zmienna objaśniana oraz parametr-parametr) Selekcja- wybór zmiennych do modelu Kolejną kwestią jest analiza istotności interakcji pomiędzy zmiennymi i ich statystyczna istotność. Dobór zmiennych objaśniających do modelu

56 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 56 W przypadku małej liczby zmiennych objaśniających jesteśmy w stanie przeanalizować szczegółowo adekwatność modelu regresji zmiennej objaśnianej względem dowolnego podzbioru tych zmiennych. Duża liczba zmiennych objaśniających wymusza zastosowanie automatycznych metod doboru zmiennych objaśniających. Celem selekcji jest wybór „najlepszego” podzbioru zmiennych objaśniających. Selekcja umożliwia: - ograniczenie dużego zbioru potencjalnych zmiennych objaśniających (spośród grona modeli adekwatnie opisujących dane zjawisko, najlepszym modelem jest model najprostszy), - wyeliminowanie zmiennych, które jedynie hipotetycznie mogły mieć wpływ na obserwowane zjawisko, - zrozumienie istoty zależności pomiędzy zmienną objaśnianą a zmiennymi objaśniającymi, - duża liczba parametrów osłabia jakość estymatorów (powoduje dużą ich zmienność), - eliminacja współliniowości zmiennych objaśniających, współliniowość wpływa negatywnie na stabilność i możliwość interpretacji. Metody selekcji zmiennych objaśniających

57 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 57 Metody selekcji sekwencyjnej: -metoda eliminacji (backward) Inicjuje się w modelu, w którym uwzględniono wszystkie potencjalnie interesujące nas zmienne (krok 1). Następnie, zakładając prawdziwość tego modelu, testuje się indywidualne hipotezy o istotności poszczególnych zmiennych i usuwa się tę zmienną, dla której p-value odpowiadającego testu t jest największym p-value przekraczającym ustalony poziom alpha (krok 2). Potem dopasowujemy mniejszy model z usuniętą zmienną i powracamy do kroku 2. Procedura zostaje przerwana, gdy w pewnym kroku wszystkie p-value są mniejsze od alpha. - metoda dołączania (forward) Startuje od momentu zawierającego tylko stałą (krok 1), następnie wybiera się tę spośród możliwych zmiennych, dla których p-value odpowiadającego mu testu t jest najmniejszą wartością p-value mniejszą od alpha (krok 2).Procedura zostaje przerwana, gdy żadnemu z potencjalnych kandydatów na włącznie do modelu nie odpowiada wartość mniejsza od alpha. -metoda selekcji krokowej (stepwise) Na każdym kroku można odrzucić lub dodać zmienną. Metody selekcji zmiennych objaśniających

58 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 58 Wadą automatycznej selekcji jest to, że pechowy wybór jednej zmiennej dokonany na pewnym etapie selekcji nie może być już później skorygowany. Szczególnie widoczne staje się to, gdy zastosowany zostanie wariant selekcji z ustaloną, wstępną liczbą zmiennych objaśniających (np. dobraną na podstawie wiedzy eksperckiej). Ponadto problematyczny jest również dobór odpowiedniego progu alpha (0,05-0,1 przy procedurze eliminacji; 0,1-0,2 przy procedurze dołączania), któremu nie można nadać jednoznacznej interpretacji. Związane jest to z tym, że testowanych jest wiele hipotez, których wyniki zależą od siebie. Metody selekcji zmiennych objaśniających

59 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 59 Model z 9 zmiennymi objaśniającymi- selekcja

60 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 60

61 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 61

62 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 62

63 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 63 Informacje o poziomie klasyfikacji KlasaWartośćZmienne planowania kompbrak komputera 1 komputer 0 syt_materialnabardzo dobra 1000 przeciętna 0100 raczej dobra 0010 raczej zła 0001 zła 0000 stan_cywkawaler, panna 100 rozwiedziony(a 010 wdowiec, wdowa 001 zonaty, mezatk 000 fastczęsto 1 rzadko lub prawie nigdy 0 sexKobieta 1 Mezczyz 0 Kodowanie w modelu z 9 zmiennymi

64 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 64 Analiza ocen maksymalnej wiarygodności Parametr St. sw.OcenaBłąd standardowy Chi-kwadrat Walda Pr > chi kw.. Intercept <.0001 dochod wiek wydatki fastczęsto <.0001 kompbrak komputera sexKobieta stan_cywkawaler, panna stan_cywrozwiedziony(a stan_cywwdowiec, wdowa syt_materialnabardzo dobra syt_materialnaprzeciętna syt_materialnaraczej dobra syt_materialnaraczej zła Model z 8 zmiennymi bez selekcji- ocena istotności

65 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 65 Oceny ilorazu szans EfektOcena punktowa95% granice przedziału ufności Walda dochod wiek wydatki fast często vs rzadko lub prawie nigdy komp brak komputera vs komputer sex Kobieta vs Mezczyz stan_cyw kawaler, panna vs zonaty, mezatk stan_cyw rozwiedziony(a vs zonaty, mezatk stan_cyw wdowiec, wdowa vs zonaty, mezatk syt_materialna bardzo dobra vs zła syt_materialna przeciętna vs zła syt_materialna raczej dobra vs zła syt_materialna raczej zła vs zła Model z 8 zmiennymi bez selekcji- ocena istotności

66 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 66 No (additional) effects met the 0.05 significance level for entry into the model. Przykład modelu logistycznego- 9 zmiennych po selekcji Interpretacja? Podsumowanie wyboru krokowego KrokEfektSt. sw.Liczba w Chi-kwadrat punktacji Chi-kwadrat Walda Pr > chi kw..Etykieta zmiennej WstawioneUsunięt e 1fast < komp Analiza ocen maksymalnej wiarygodności Parametr St. sw.OcenaBłąd standardowy Chi-kwadrat Walda Pr > chi kw.. Intercept <.0001 fastczęsto <.0001 kompbrak komputera

67 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 67 Współczynnik korelacji cząstkowej Wkład poszczególnych zmiennych objaśniających w modelu regresji logistycznej możemy ocenić na podstawie wartości współczynników korelacji cząstkowej tych zmiennych ze zmienną zależną. gdzie sign(b j ) - znak współczynnika, df j - liczba stopni swobody dla j-tej zmiennej, L (0) - funkcja wiarogodności modelu początkowego tj. modelu, w którym nie występują zmienne objaśniające, a jedynie stała) Jeżeli, to jest przyjmowane

68 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 68 Współczynnik korelacji cząstkowej W naszym przykładzie mamy –2lnL (0) = 1307,19, więc dla zmiennej wiek a dla zmiennej plec

69 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 69 Oszacowanie dobroci modelu Dotychczas tworzyliśmy różne modele regresji logistycznej. Mniejszą uwagę zwracaliśmy na to, czy są to dobre modele. Jak ocenić, czy model jest dobry? W regresji liniowej porównuje się wartości teoretyczne proponowane przez model z rzeczywistymi wartościami zmiennej objaśnianej w zbiorze danych i konstruuje się różne mierniki dobroci dopasowania modelu do danych np. współczynnik determinacji W modelach regresji, w tym w szczególnym przypadku regresji binarnej, sposobów oceny dobroci oszacowań modelu jest wiele. Poniżej omówione zostaną procedury weryfikacji modelu. Przedmiotem weryfikacji modelu jest sprawdzenie czy: Model jest dobrze dopasowany do danych (jak często się myli) Model ma dużą pojemność informacyjną, dobrze opisuje dane zjawisko

70 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 70 Na pytanie czy warto szacować model z danym zestawem zmiennych podpowiedzi pośrednio udzielają testy istotności parametrów, ponieważ nieistotność parametru sugeruje, że nie wnosi on wiele do analizy. Nie dają one jednak odpowiedzi na pytanie czy dana zmienna jest bardzo mało ważna czy też jest całkowicie nieadekwatna dla tego rodzaju analizy. Z punktu widzenia analizy, jeżeli uda się oszacować kilka modeli z różną ilością zmiennych, które są istotne statystycznie, przydatna jest metoda wyboru modelu najlepszego. Warto sobie zadać pytanie który z modeli (z dużą liczbą zmiennych objaśniających [istotnych, nieistotnych], małą czy może wcale zmienne nie wnoszą żadnej istotnej informacji) jest lepszy. Miary dobroci dopasowania

71 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 71 Miary dobroci dopasowania Statystyką przydatną do oceny dobroci dopasowania modelu jest wartość funkcji wiarogodności. W metodzie estymacji wybieraliśmy wartości b 0,…,b k w ten sposób, żeby zmaksymalizować funkcję wiarogodności L. Tutaj jako miary stopnia dopasowania użyjemy statystyki -2lnL tj. minus 2 razy logarytm funkcji wiarogodności (-2 Log Likelihood). Jeżeli hipoteza zerowa mówiąca, że model idealnie pasuje do danych, jest prawdziwa, to statystyka -2lnL ma rozkład χ2 o n-k stopniach swobody. Jeżeli model idealnie pasuje do danych, to funkcji wiarogodności przyjmuje wartość 1 i wtedy -2lnL = 0. W praktyce otrzymujemy wartości L 0. Zbyt duże wartości funkcji -2lnL świadczą o tym, że hipoteza zerowa nie może być prawdziwa i należy ja odrzucić. W tablicy wyników wartość -2lnL odczytujemy w tabeli Model fit statistics.

72 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 72 Miary dobroci dopasowania Są dwie modyfikacje kryterium -2lnL AIC - kryterium informacyjne Akaike (Akaike's Information Criterion) SC - kryterium Schwarza (Schwarz Criterion) W kryteriach AIC i SC wprowadza się karę za dużą liczbę obserwacji i dużą liczbę zmiennych. Należy używać tych statystyk, jeżeli porównujemy modele dla tych samych danych, ale różniące się liczba szacowanych parametrów np. przy stosowaniu regresji krokowej.

73 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 73 Miary dobroci dopasowania Statystyki: informacyjne kryterium Akaike, kryterium Schwarza, oraz podwojony logarytm funkcji wiarygodności z ujemnym znakiem dla modeli ze wszystkimi zmiennymi objaśniającymi są wyraźnie mniejsze niż w przypadku modeli jedynie z wyrazem wolnym, co oznacza, że dopasowanie jest lepsze w przypadku modeli ze zmiennymi. Model z 1 zmiennąModel z 8 zmiennymiModel z 4 zmiennymi Zastanowić się zatem należy, który spośród wszystkich modeli ze zmiennymi jest najlepszy i czego to może wynikać. Czy na podstawie wcześniej uzyskanych informacji można stwierdzić, że istnieje jeszcze lepszy model? Statystyki dopasowania modelu KryteriumTylko wyraz wolny Wyraz wolny i współzmienne AIC SC log L Statystyki dopasowania modelu KryteriumTylko wyraz wolny Wyraz wolny i współzmienne AIC SC log L Statystyki dopasowania modelu KryteriumTylko wyraz wolny Wyraz wolny i współzmienne AIC SC log L Statystyki dopasowania modelu KryteriumTylko wyraz wolny Wyraz wolny i współzmienne AIC SC log L

74 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 74 Reszty Reszty są to różnice między wartościami obserwowanymi i przewidywanymi. Na przykład, jeżeli wystąpiło zdarzenie dla obiektu i, a z modelu wynika, że prawdopodobieństwo zdarzenia wynosi 0,8, to reszta wynosi ponieważsą odchyleniami standardowymi w rozkładzie Bernoulliego. Są to reszty niestandaryzowane. Reszty standaryzowane wynoszą

75 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 75 Reszty Odchylenia (deviance) są obliczane jako Reszty logitowe (logit) są obliczane jako Studentyzowane reszty są obliczane jako zmiana odchylenia (deviance) modelu, gdy dana obserwacja jest usunięta. Różnice między odchyleniami i studentyzowanymi resztami mogą identyfikować nietypowe obserwacje.

76 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 76 Reszty Pearsona i Dewiancji Reszty Pearsona i Dewiancji są przydatne przy identyfikacji obserwacji, które nie są dobrze przewidywane przez model. Reszty Pearsona są składową statystyki chi-kwadrat Pearsona, reszty dewiancji sa składnikiem dewiancji. Statystyka chi-kwadrat Pearsona jest suma kwadratów reszt Pearsona, dewiancja jest sumą kwadratów reszt dewiancji. Kolejnym punktem weryfikacji modelu jest analiza statystyk zgodności dewiancji i Pearsona- mierzących dopasowanie modelu. Zgodnie z teorią, statystyki te mogą być w modelu binarnym estymowane oraz interpretowane, jeżeli liczba unikalnych subpopulacji (grup udzielanych odpowiedzi) minus liczba estymowanych parametrów jest większa od 0.

77 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 77 W prezentowanym przykładzie wyróżniono 4 unikalne profile przy 2 estymowanych parametrach modelu, w związku z czym, wartości statystyk zgodności mogą być interpretowane. Testowana jest hipoteza zerowa, że model jest dobrze dopasowany do danych. Wartości p-value są niższe od domyślnego poziomu istotności 0,05, zatem należy odrzucić hipotezę zerową na korzyść hipotezy alternatywnej; model jest źle dopasowany do danych. Uwaga: bardzo duża liczba profili w stosunku do liczby obserwacji, świadczy o tym, że w wielu komórkach tablicy kontyngencji znalazły się pojedyncze jednostki schematu odpowiedzi na poszczególne pytania, stanowiące zmienne objaśniające w modelu. Bez wątpienia ma to ogromny wpływ na jakość predykcyjną. Number of unique profiles: 4 Statystyki zgodności dewiancji i Pearsona KryteriumWartośćSt. sw.Wartość/st. sw. Pr > chi kw.. Deviance <.0001 Pearson <.0001

78 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 78 Tablice klasyfikacji Z punktu widzenia jakości modelu istotne jest, aby model dobrze szacował i klasyfikował wartości teoretyczne. Celem zbadania jakości klasyfikacji sporządzić można tablice kontyngencji (klasyfikacji) wartości empirycznych zmiennej objaśnianej względem poszczególnych zmiennych objaśniających. Na podstawie modelu chcemy przewidzieć, czy dane zjawisko wystąpiło czy nie. Jeżeli prawdopodobieństwo tego, że osoba ma nadwagę >0.5, to z modelu wynika, że bardziej prawdopodobne jest wystąpienie zjawiska, jeżeli <0.5, to bardziej prawdopodobne jest, że osoba nie ma nadwagi. Pojawia się tu kolejna komplikacja w postaci nierównomiernego rozkładu badanej cechy względem zmiennych objaśniających. W rezultacie model może lepiej szacować tylko jeden wariant zmiennej objaśnianej (rozpoznaje ‘bezbłędnie’ osoby z nadwagą, myli się w przypadku osób bez nadwagi). Response Sample12...rTotal 1n11n11 n12n12...n1rn1r n1n1 2n21n21 n22n22 n2rn2r n2n2 sns1ns1 ns2ns2 n sr nsns Po estymacji modelu można podzielić zbiór obserwacji na dwie części: osoby, dla których pnadwaga>0.5 oraz osoby, dla których pnienadwaga <0.5. Wartość =0.5 możemy arbitralnie zaliczyć do jednej z wymienionych grup lub wyszczególnić.

79 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 79 Tabela nadwaga na komputer nadwaga(nadwaga)komputer(komputer)Razem brak komputerakomputer brak nadwagi nadwaga Razem Tabela nadwaga na fastfood nadwaga(nadwaga)fastfood(fastfood)Raze m żadko lub prawie nigdyczęsto brak nadwagi nadwaga Razem Tablice klasyfikacji Liczebność Procent Tabela 2 fastfood na nadwaga Sterowanie dla komputer=komputer fastfood(fastfood)nadwaga(nadwaga)Razem brak nadwaginadwaga żadko lub prawie nigdy często Razem Tabela 1 fastfood na nadwaga Sterowanie dla komputer=brak komputera fastfood(fastfood)nadwaga(nadwaga)Razem brak nadwaginadwaga żadko lub prawie nigdy często Razem

80 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 80 Tablice klasyfikacji Po estymacji modelu można podzielić zbiór obserwacji na dwie części: osoby, dla których pnadwaga>0.5 oraz osoby, dla których pnienadwaga <0.5. Wartość =0.5 możemy arbitralnie zaliczyć do jednej z wymienionych grup lub wyszczególnić. Idealna sytuacja jest taka, gdy wartości zmiennej zależnej (nadwaga) pokrywają się z wartościami przynależności do teoretycznych klas wyznaczonych przez model. Oznacza to, że model prawidłowo podzielił zbiór osób na dwie kategorie – z nadwagą i tych, którzy nie mają nadwagi. W praktyce tak nigdy nie jest. Są osoby, które maja nadwagę, ale model zalicza je do kategorii osób nie mających nadwagi. Są też osoby, które nie maja nadwagi, ale model zalicza je do kategorii osób z nadwagą. Dokładniej zagadnienie to zostanie omówione nieco później Testy chi-kwardat pozwalają na testowanie niezależności analizowanych zmiennych (pozwala to zweryfikować hipotezę zerową o braku zależności pomiędzy poszczególnymi kategoriami zmiennych).

81 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 81 Dyskryminacja modelu Dyskryminacja modelu mówi nam, jak dobrze model rozróżnia obiekty w obu grupach. Idealny model zawsze przypisuje wyższe prawdopodobieństwo obiektom, dla których wystąpiło zdarzenie niż obiektom, dla których zdarzenie nie wystąpiło. Oznacza to, że oba zbiory nie zachodzą na siebie. Miarami tej zgodności są statystyki dla cech porządkowych. Mówimy, że para obserwacji z różnymi wartościami zmiennej objaśnianej jest zgodna (concordant), gdy niezgodna (discordant), gdy gdzie p i i p l i są przewidywanymi prawdopodobieństwami zdarzenia.

82 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 82 Dyskryminacja modelu Wówczas oblicza się następujące statystyki: Percent Concordant Percent Discordant Percent Tied Pairs Somers' d Goodman-Kruskal Gamma Tau Kendalla C gdzie t - liczba par (y i, y l ) z różnymi wartościami n c - liczba par zgodnych, n d - liczba par niezgodnych, n - liczba obserwacji. Skojarzenie przewidywanych prawdopodobieństw i obserwowanych reakcji Procent zgodnych 88.0 D Somersa Procent niezgodnych 3.7 Gamma Percent Tied 8.3 Tau-a Pary c 0.922

83 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 83 Statystyki D Somersa, Gamma oraz Tau-a testują niezależność zmiennych objaśnianej i objaśniających, na podstawie tablic kontyngencji. Statystyka gamma, dla skali porządkowej, jest nadwyżką zgodnych par ponad niezgodne wyrażana jako procent w stosunku do wszystkich wyodrębnionych par (poza tied). Interpretować ją należy jako proporcjonalną redukcję błędu. Znając zmienne niezależne eliminujemy błąd oszacowania rangowania par o 91 %. Statystyka D Somersa jest modyfiakcją gamma i jest to nadwyżka par zgodnych wyrażona jako procent zgodnych, niezgodnych i związanych. Innymi słowy D Somers jest warunkowym prawdopodobieństwem, że para jest zgodna minus para jest niezgodna. W tablicy przedstawione zostały cztery miary skojarzenia mierzące zdolności predykcyjne modelu. Z 943 analizowanych przypadków 88,0% zostało poprawnie zakwalifikowanych, 3,8% źle, w 8,1% decyzja nie została ogłoszona. Statystyka c jest polem pod powierzchnią krzywej ROC. Krzywa ROC jest wykresem zależności sensitivity (czułości będącej ilorazem liczby przypadków prawidłowo zakwalifikowanych przez model do grupy osób z nadwagą oraz liczby wszystkich przypadków nadwagi); 1-specificity (1- specyficzność; będącej ilorazem liczby przypadków nieprawidłowo zakwalifikowanych jako, ci u których wystąpiła nadwaga do liczby wszystkich przypadków z grupy osób, u których nie stwierdzono nadwagi). Krzywą ROC przedstawia kolejny wykres. Skojarzenie przewidywanych prawdopodobieństw i obserwowanych reakcji Procent zgodnych 88.0 D Somersa Procent niezgodnych 3.7 Gamma Percent Tied 8.3 Tau-a Pary c 0.922

84 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 84 Kalibracja modelu Kalibracja modelu mówi nam, jak silnie wartości obserwowane i przewidywane pasują do siebie w całym przedziale zmienności. Do oceny tego służy test Hosmera i Lemeshowa (1989). Dzielimy obserwacje na 10 w przybliżeniu równych klas rosnąco według oszacowanego prawdopodobieństwa zdarzenia (są to więc grupy decylowe) i badamy rozkład obserwowanych i przewidywanych wartości w tych grupach. Następnie stosujemy test zgodności oparty na statystyce χ 2. Powinna być dostateczna liczebność zbioru, tak aby w większości grup decylowych liczba oczekiwanych zdarzeń przekraczała 5 i żadna grupa nie miała zerowej liczby oczekiwanych zdarzeń. Oblicza się różnice między obserwowanymi wartościami n i i przewidywanymi a następnie

85 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 85 Test Hosmera i Lemeshowa Test Homera i Lemershowa, na podstawie percentyli wyliczonych prawdopodobieństw, podzielił wszystkie obserwacje na 10 grup. Stosując statystykę chi-kwadrat testowane są różnice pomiędzy przewidywaną a obserwowaną liczbą obserwacji w danych grupach. Otrzymane wysokie p-value sugeruje, że model jest dobrze dopasowany, bowiem testowana była hipoteza zerowa o tym, że model jest dobrze dopasowany do danych. Dla rozpatrywanego modelu test ten pokazał na poziomie istotności 0,05 adekwatność modelu, co jest zjawiskiem pożądanym. …ale w modelu po selekcji (gdzie wyróżniono 4 grupy) na poziomie istotności stwierdzić należy brak adekwatności!!! Miejsce na test Hosmera i Lemeshowa GrupaRazemnadwaga = 1nadwaga = 0 EmpiryczneOczekiwaneEmpiryczneOczekiwane Test zgodności Hosmera i Lemeshowa Chi-kwadratSt. sw.Pr > chi kw Test zgodności Hosmera i Lemeshowa Chi-kwadratSt. sw.Pr > chi kw <.0001

86 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 86 Miary dobroci dopasowania Statystyki R 2 Coxa i Snella i R 2 Nagelkerke'a mają na celu oszacowanie zmienności zmiennej zależnej wyjaśnionej przez model w całkowitej zmienności. Mają one interpretację zbliżoną do współczynnika determinacji w klasycznej regresji liniowej (pozwalają ocenić pojemność informacyjną modelu). Większa wartość wartości przeskalowanej świadczy o tym, że wszystkie wprowadzone do tej pory do modelu zmienne są istotne statystycznie, a wprowadzanie zmiennych wpływa na poprawę jakości modelu. Ponieważ R 2 Coxa i Snella nie osiąga maksymalnej wartości 1, Nagelkerke (1991) zaproponował korektę tej statystyki. gdzie R-kwadrat Maksymalnie przeskalowany r-kwadrat

87 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 87 ZADANIA dla studentów 1.Proszę na podstawie zbioru arthrit dokonać selekcji zmiennych do modelu ze zmienną objaśniającą better, ocenić istotność zmiennych, dokonać weryfikacji modelu (dopasowania do danych oraz pojemności informacyjnej), 2.Proszę uzasadnić wybór danej metody kodowania zmiennych oraz zinterpretować otrzymane wyniki, 3.Proszę na podstawie zbioru gosp zbadać zależność zmiennej komputer od pozostałych zmiennych w zbiorze (modelując prawdopodobieństwo ma komputer oraz nie ma komputera), przeprowadzić selekcję, zinterpretować wyniki.

88 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 88 Projekt 2 Projekt powinien zawierać: 1. Estymacja modelu (z porównaniami modeli przy różnych sposobach selekcji zmiennych do modelu) 2. Weryfikacja istotności parametrów 3. Weryfikacja jakości modelu oraz interpretacja otrzymanych wyników

89 Regresja logistyczna z wykorzystaniem narzędzi SAS Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska 89 Dziękuję za uwagę


Pobierz ppt "Metody statystyczne II – II poziom ( S.S & SNS) Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH Wykład: Ewa Frątczak; Ćwiczenia: Wioletta."

Podobne prezentacje


Reklamy Google