Analiza przeżycia Ćw 5 - Zastosowanie statystyki w bioinżynierii

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
Modele oparte o dane przekrojowo-czasowe
Ocena dokładności i trafności prognoz
Wykład 5 Standardowy błąd a odchylenie standardowe
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
Metody ekonometryczne
Statystyka w doświadczalnictwie
Analiza korelacji.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Prognozowanie na podstawie modelu ekonometrycznego
Korelacje, regresja liniowa
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń  Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Rozkład t.
Hipotezy statystyczne
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Testowanie hipotez statystycznych
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Modelowanie ekonometryczne
Statystyka – zadania 4 Janusz Górczyński.
Hipotezy statystyczne
Planowanie badań i analiza wyników
Ekonometryczne modele nieliniowe
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Dopasowanie rozkładów
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Ekonometria stosowana
Analiza regresji wielokrotnej c.d.
Seminarium magisterskie Zajęcia szóste – sprawdzamy jak to jest z przeżywaniem...
Estymatory punktowe i przedziałowe
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
Model ekonometryczny Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Logistyka – Ćwiczenia nr 6
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Analiza przeżycia.
Wstęp do regresji logistycznej
Testy nieparametryczne
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Wstęp do regresji logistycznej
Analiza przeżycia.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Monte Carlo, bootstrap, jacknife
Ćw 10 - Zastosowanie statystyki w bioinżynierii
Korelacja i regresja liniowa
Zapis prezentacji:

Analiza przeżycia Ćw 5 - Zastosowanie statystyki w bioinżynierii Dr Wioleta Drobik-Czwarno

Analiza przeżycia Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw. danych uciętych Obserwacja jest nazywana uciętą jeżeli zdarzenie jeszcze nie nastąpiło i nie mamy wiedzy czy nastąpi czy też nie http://www.analyticsvidhya.com/blog/2014/04/survival-analysis-model-you/

Analiza przeżycia Jest to inaczej analiza czasu trwania Definiujemy dwa zdarzenia: pierwsze musi nastąpić wcześniej niż drugie np. narodziny i śmierć, ślub i rozwód każde może nastąpić tylko raz (np. śmierć) lub za moment kończący przeżycie przyjmujemy pierwsze wystąpienie zdarzenia (np. przerzut nowotworu) Zmienną losową jest czas jaki upływa pomiędzy zdarzeniami

Analiza przeżycia Cechą charakterystyczną danych jest występowanie obserwacji: uciętych – obiektów u których zdarzenie nie nastąpiło w analizowanym czasie, w związku z tym nie mamy pełnej informacji Np. zgon nie nastąpił lub nastąpił z innych przyczyn kompletnych – obiektów u których zdarzenie nastąpiło Konieczne jest precyzyjne zdefiniowanie tzw. punktu końcowego czyli zdarzenia kończącego przeżycie

Cenzurowanie Przykład: Badamy czas życia pacjenta po przeszczepie Brak cenzurowania: Znana jest data przeszczepu i data śmierci pacjenta Cenzurowanie prawostronne: Znana jest data przeszczepu, ale chory pozostaje przy życiu do zakończenia badania Cenzurowanie lewostronne: Nie jest znany czas operacji przeszczepu. Unikamy! A B C Czas trwania badania Czas

Metody stosowane w analizie przeżycia Dlaczego nie tradycyjne modele regresji? Brak spełnionych założeń co do normalności rozkładu Nie biorą pod uwagę wystąpienia cenzurowanych danych Metody stosowana w analizie przeżycia: Opisowe: Tablice trwania przeżycia Nieparametryczne: Estymator Kaplana-Meyera funkcji przeżycia Semiparametryczne: Model proporcjonalnego hazardu coxa

Dane do analizy przeżycia Czas przeżycia Zmienna wskaźnikowa 2 10 1 50 90 Czas przeżycia w jednostkach (latach, miesiącach, dniach,…) Od punktu startowego do punktu kończącego (zdarzenie lub koniec badania) stan pacjenta na końcu okresu przeżycia 0 – zdarzenie kończące przeżycie nie nastąpiło (informacja ucięta) 1 – zdarzenie kończące przeżycie nastąpiło (informacja kompletna)

Tabele trwania życia Jest jedną z najstarszych metod analizy danych dotyczących przeżycia Rozkład czasu życia dzielimy na pewną liczbę przedziałów Dla każdego przedziału możemy wyliczyć liczbę i proporcję przypadków lub obiektów, które: weszły do danego przedziału żywe wymarły w danym przedziale utraconych lub uciętych w danym przedziale

Tabele trwania życia Analiza > Analiza Przeżycia > Tabele trwanie życia

Tabele trwania życia

Funkcja przeżycia, a funkcja ryzyka Funkcja przeżycia - podaje prawdopodobieństwo, że osoba przeżyje dłużej niż pewien przyjęty czas t czyli dożyła co najmniej do czasu t Przewaga metody nad tablicą trwania życia to brak grupowania danych w przedziały, każdy czas przeżycia jest uwzględniany indywidualnie Funkcja hazardu (ryzyka) - przeciwnie do funkcji przeżycia skupia się na wystąpieniu niekorzystnego zdarzenia. Wartość funkcji hazardu w momencie t traktujemy jako chwilowy potencjał wystąpienia zdarzenia pod warunkiem, że osoba dożyła do czasu t

Hazard (ryzyko) a prawdopodobieństwo przeżycia Prawdopodobieństwo przeżycia 100 lat w populacji Europy zachodniej jest niewielkie, ale większe od prawdopodobieństwa przeżycia 110 lat S(100 lat) > S(110 lat) Ryzyko śmierci (umieralność opisana funkcją hazardu) jest podobne dla 100 latków oraz 110 latków h(100 lat)  h(110 lat)

Funkcja przeżycia

Funkcja Hazardu

Estymator Kaplana-Meiera funkcji przeżycia Jest jednym z estymatorów dystrybuanty funkcji przeżycia Pozwala na przedstawienie graficzne krzywej przeżycia oraz porównanie tej krzywej dla różnych grup wyróżnionych zmienną jakościową Polega na mnożeniu prawdopodobieństw warunkowych przeżycia wg wzoru: Gdzie: ti – zbiór wszystkich momentów wystąpienia zdarzenia  – symbol iloczynu di – liczba wystąpień zdarzenia w chwili ti ni – liczba obiektów narażonych w chwili ti dla 0 ≤ t ≤ t+

Estymator Kaplana-Meiera funkcji przezycia Założenia Status zdarzenia musi składać się z dwóch wzajemnie wykluczających się stanów: ocenzurowano lub zdarzenie nastąpiło Czas do zajścia zdarzenia lub ocenzurowania musi być dokładnie określony Unikamy cenzurowania lewostronnego – musimy znać punkt startowy dla każdej obserwacji Cenzurowanie oraz zajście zdarzenia są niezależne – fakt, że zmienne są ocenzurowane nie ma związku z szansą na zajście zdarzenia Nie powinny pojawiać się trendy sekularne - zmiany zachodzące między pokoleniami pod wpływem rozwoju cywilizacji. Problem: różne punkty startowe, długi czas trwania badania Podobna ilość oraz schemat cenzurowania w obrębie grup

Estymator Kaplana-Meiera Przykład obliczeń dla estymatora Kaplana-Meiera Źródło: M. Stevenson, I. EpiCentre. An Introduction to Survival Analysis. 2007 Gdzie: ti – zbiór wszystkich momentów wystąpienia zdarzenia  – symbol iloczynu di – liczba wystąpień zdarzenia w chwili ti ni – liczba obiektów narażonych w chwili ti wi – liczba obiektów ocenzurowanych w chwili ti

Dodatkowa zmienna jakościowa Czy krzywe różnią się istotnie? Jak porównać krzywe przeżycia? Największy dystans dla dwóch krzywych? Porównanie mediany przeżycia w każdej grupie? Porównanie średniego hazardu? Testy statystyczne? Testy w SPSS: Log-Rank Breslow Tarone – Ware

Dodatkowa zmienna jakościowa Czy krzywe różnią się istotnie? Log-Rank (Cox – Mantel) – Standardowy test, najczęściej stosowany Wartość empiryczna jest otrzymywana poprzez konstruowanie tabeli 2 x 2 na każdym kroku czasowym. Następnie porównywana jest częstotliwość wystąpienia zdarzenia w obydwu grupach, warunkowo w oparciu o ilość osób zagrożonych. Takie same wagi w każdym kroku czasowym. Prawidłowy wynik jeżeli założenie proporcjonalnego hazardu jest spełnione Najskuteczniejszy jeżeli cenzurowanie jest wyrównane na wszystkich krokach czasowych Wrażliwy na różnice w późnych krokach czasowych

Dodatkowa zmienna jakościowa Czy krzywe różnią się istotnie? Breslow (Generalized Wilcoxon) – większe wagi dla wystąpienia zdarzenia w początkowych krokach czasowych Rezultaty mogą nie być prawidłowe jeżeli obserwujemy dużą ilość obserwacji ocenzurowanych w początkowych krokach czasowych Brak założenia co do proporcjonalnego hazardu Tarone – Ware – Pomiędzy Log-Rank i Breslow

Kaplan-Meier W SPSS Analiza > Analiza przeżycia > Kaplan - Meier

Kaplan-Meier Tabela przeżycia . . .

Kaplan-Meier Testy Testy porównują ważoną różnicę pomiędzy obserwowaną liczbą zdarzeń w każdym momecie Różnią się sposobem w jaki wyliczana jest waga różnicy Wniosek: brak istotnej różnicy pomiędzy grupami

Kaplan-Meier Funkcja przeżycia mediana przeżycia, 50% na osi Y Linie poziome – przedział czasu od zdarzenia kończącego do kolejnego zdarzenia Skumulowana funkcja przeżycia: jakie jest prawdopodobieństwo przeżycia do danego przedziału czasowego Krzywe przeżycia krzyżują się: profil przeżycia jest różny dla różnych przedziałów czasowych

Kaplan-Meier 1 - Funkcja przeżycia U jakiej proporcji osób zajdzie zdarzenie kończące do czasu t?

Model proporcjonalnego hazardu coxa Pojęcie hazardu proporcjonalnego wprowadził w 1972 David Cox Pozwala na opisanie krzywej przeżycia (funkcji hazardu) za pomocą wielu zmiennych objaśniających jakościowych i ilościowych Można stosować gdy zmienna zależna nie ma rozkładu normalnego a obserwacje są cenzurowane lub wykluczane

Model proporcjonalnego hazardu coxa Funkcja hazardu ( h(t) ) zadana jest wzorem: Interpretacja hazardu (ryzyka) w chwili t: Jakie jest prawdopodobieństwo zaobserwowania zdarzenia w następnej chwili (∆t), jeżeli nie zostało zaobserwowane do teraz (t). Jest to równe ryzyku śmierci na jakie narażone są osoby, które dożyły do chwili t.

Model proporcjonalnego hazardu coxa Postać modelu: gdzie: h0(t) – poziom hazardu bazowego (poziom hazardu, gdy wartości wszystkich zmiennych niezależnych są równe zero) β = (β1,…., βp) – wektor współczynników regresji X – wektor cech obiektu (wartości zmiennych objaśniajacych) Brak założeń co do funkcji przeżycia, co oznacza brak założeń do postaci hazardu bazowego

Model proporcjonalnego hazardu coxa Zakładamy, że stosunek ryzyk dwóch przypadków nie zależy od czasu: Interpretacja parametrów modelu oparta jest na zmianach hazardu pod wpływem zmian wartości predyktorów: Wzrost wartości zmiennej objaśniającej xk o jedną jednostkę powoduje zmianę ryzyka exp(βk) razy exp(βk) - wartość ta nazywana jest hazardem względnym (HR – hazard ratio) i może być postrzegana jako ryzyko względne (RR – relative risk)

Model proporcjonalnego hazardu coxa Budowa modelu Wyznaczenie parametrów modelu proporcjonalnego hazardu Coxa Estymowana jest funkcja przeżycia bazowego:

Model proporcjonalnego hazardu coxa Cechy charakterystyczne modelu: Założenie proporcjonalności: zakładamy, że stosunek ryzyk dla dwóch przypadków nie zależy od czasu, a interpretacja parametrów modelu oparta jest na zmianach hazardu pod wpływem zmian wartości predykatorów Istnieje log-liniowa zależność między zmiennymi niezależnymi, a funkcją hazardu Wyraz wolny nie jest estymowany Brak założonej postaci dla funkcji przeżycia pozwala na szerokie stosowanie metody

Regresja Coxa Analiza > Analiza przeżycia > Regresja Coxa

Regresja Coxa Model nie jest istotny Współczynnik nie jest istotny ( p = 0.1), przedział ufności zawiera 1 Interpretacja: ryzyko wystąpienia zdarzenia w grupie 2 stanowi 63.1% ryzyka wystąpienia zdarzenia w grupie 1

Regresja Coxa Funkcja przeżycia – uśredniona po zmiennych

Regresja Coxa Funkcja przeżycia

Model proporcjonalnego hazardu Coxa Wymaga weryfikacji założeń modelu: Istotność statystyczna poszczególnych zmiennych w modelu (istotność ilorazu szans) – test Walda Jakość zbudowanego modelu AIC oraz BIC Pseudo R2 – wartości od 0 do 1  łatwa interpretacja, wrażliwe na ilość zmiennych modelu Założenie proporcjonalności hazardu - sprawdzamy poprzez analizę reszt, najczęstsze są metody graficzne

Kryteria oceny modelu AIC - Kryterium Akaike (ang. Akaike information criterion) Interpretacja: Im mniejsza wartość tym lepiej Nie unormowany – tylko do porównań między modelami Wzór: Gdzie: k – liczba parametrów modelu (złożoność modelu) L – maksimum funkcji największej wiarygodności (precyzja modelu)

Kryteria oceny modelu BIC - Kryterium Schwartza (ang. Bayesian information criterion) Interpretacja jak w przypadku AIC – im mniejsza wartość tym lepiej Większa kara za złożoność modelu niż AIC Gdzie: k – liczba parametrów modelu L – maksimum funkcji największej wiarygodności n – liczba obserwacji

Weryfikacja założeń modelu Założenie proporcjonalnego hazardu Brak wyraźnego wzoru dla reszt wskazuje na brak zależności od czasu i oznacza spełnienie założeń proporcjonalności dla badanej zmiennej Reszty Schönfelda - Dla każdej zmiennej niezależnej suma reszt Schoenfeld'a i ich wartość oczekiwana to 0

Model proporcjonalnego hazardu Coxa Założenie proporcjonalnego hazardu nie jest spełnione? Badany czynnik nie wpływa w sposób stały w czasie Wpływ badanego czynnika można skorygować poprzez uwzględnienie w modelu zmiennej zależnej od czasu, np. Grupa * (Log(Czas) – 5,4)

Źródła Jakubczyk i Niewada, 2011. Elementy oceny organizacji i wyników badań klinicznych, Rozdział X – Analiza Przeżycia. Wyd. Centrum Medyczne Kształcenia Podyplomowego. Harańczyk G. 2011. Model proporcjonalnego hazardu coxa. Materiały StatSoft Polska. Rich i wsp., 2010. A practical guide to understanding Kaplan-Meier curves. Otolaryngol Head Neck Surg. 2010 September ; 143(3): 331–336. Sokołowski A. 2010. Jak rozumieć i wykonać analizę przeżycia. Materiały StatSoft Polska. Źródło internetowe: Kaplan – Meier using SPSS. Laerd statistics: https://statistics.laerd.com/spss-tutorials/kaplan-meier-using-spss- statistics.php

Dziękuję za uwagę http://xkcd.com/795/