Statystyka medyczna Piotr Kozłowski www: 1.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Rangowy test zgodności rozkładów
Statystyka Wojciech Jawień
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Estymacja. Przedziały ufności.
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Zmienne losowe i ich rozkłady
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
Skale pomiarowe – BARDZO WAŻNE
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
BIOSTATYSTYKA I METODY DOKUMENTACJI
Analiza korelacji.
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Metody Przetwarzania Danych Meteorologicznych Wykład 4
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Jednoczynnikowa analiza wariancji (ANOVA)
Rozkład t.
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Dlaczego obserwujemy??? istotny wpływ, istotną różnicę, istotną zależność.
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Testy nieparametryczne
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Modelowanie ekonometryczne
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Planowanie badań i analiza wyników
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Dopasowanie rozkładów
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
Wykład 5 Przedziały ufności
Weryfikacja hipotez statystycznych
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Estymatory punktowe i przedziałowe
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
ze statystyki opisowej
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Testy nieparametryczne
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Analiza współzależności zjawisk
Korelacja i regresja liniowa
statystyka podstawowe pojęcia
Zapis prezentacji:

Statystyka medyczna Piotr Kozłowski www: 1

Zaliczenie: obecność na ćwiczeniach – możliwe są 2 nieobecności praktyczne kolokwium typu otwarta książka 2 Materiały: Strona www:

3 Statystyka Opis Statystyka opisowa: metody gromadzenia, opisu i prezentacji danych Estymacja Statystyka matematyczna (indukcyjna): -teoria estymacji -weryfikacja hipotez

4 Populacja Próbka reprezentatywna

5 Prawdopodobieństwo w statystyce Wynik pomiaru wykonanego na losowo wybranej próbce traktujemy jak zmienną losową – przyjmuje wartości z pewnym prawdopodobieństwem. Ponieważ populacja jest praktycznie nieosiągalna, więc celem nie jest pomiar wszystkich wartości dla populacji, ale znalezienie rozkładu prawdopodobieństwa danej zmiennej w populacji. W statystyce stosuje się często częstotliwościową def. prawdopodobieństwa: prawdopodobieństwo to stosunek ilości wystąpień danego zdarzenia do ilości wszystkich wystąpień.

6 Estymator – wielkość obliczona dla próby (v’), która stanowi oszacowanie wielkości obliczonej dla populacji (v). Np. średnia z próbki jest dobrym estymatorem średniej z populacji. Cechy optymalnego estymatora: Nieobciążony E(v’)=v Zgodny (lim N→∞ P(|v'-v|>ε)=0) Efektywny – minimalna wariancja Estymator nieobciążony Estymator obciążony Wartość dla populacji

7 nominalna - wynikiem pomiaru jest rozłączna kategoria, np.: kolor oczu, płeć, grupa krwi, porządkowa - podobnie jak nominalna, tylko że wyniki można jednoznacznie uporządkować, np.: stopień znajomości języka: podstawowy, średnio zaawansowany, zaawansowany, biegły, lub masa ciała: niedowaga, norma, nadwaga, otyłość. Skala ta może być wyrażana przy pomocy cyfr, np. skala Apgar (0-10) przedziałowa (interwałowa, równomierna) - tak jak porządkowa, tylko że można obliczyć odległość między wynikami, większość pomiarów należy do tej skali, np.: ciśnienie krwi, masa ciała, temperatura ilorazowa - to samo co skala przedziałowa z tym że iloraz ma sens (istnieje bezwzględne zero), np. wiek, Skale pomiarowe

8 Sposoby przedstawiania surowych danych Histogram (skala ilorazowa i przedziałowa – zmienne ciągłe)

9 Sposoby przedstawiania surowych danych Histogram skumulowany (skala ilorazowa i przedziałowa – zmienne ciągłe)

10 wykresy słupkowe - zmienne dyskretne

11 wykresy kołowe - wszystkie skale nominalna porządkowa ilorazowa

12 Diagram łodyga liście

13 Wykres rozrzutu

14 Statystyka opisowa Miary położenia Średnia arytmetyczna Mediana – wartość środkowa Moda – wartość najczęściej występująca Kwartyle (Q 1 – dolny kwartyl i Q 3 – górny kwartyl, percentyle (centyle))

15 Miary rozrzutu Wariancja Odchylenie standardowe Odchylenie ćwiartkowe Współczynnik zmienności

16 Miary rozrzutu - przykład MężczyźniKobiety Wzrost [cm]175 S=15165 S=14 Masa [kg]75 S=1055 S=9 MężczyźniKobiety Wzrost [cm]175 V= V= Masa [kg]75 V= V=0.16

17 Miary symetrii kurtoza K>0 - bardziej smukła niż normalny (rozkład leptokurtyczny), K<0 mniej smukła niż normalny (rozkład platokurtyczny)

18 skośność (współczynnik symetrii) As>0 - mediana i moda na lewo od średniej (symetria prawostronna - Mo Me> średnia

19 Graficzna prezentacja statystyk – wykres ramka-wąsy

20 Zdarzenia i ich prawdopodobieństwo Prawdopodobieństwo zdarzenia A w przypadku, gdy wszystkie zdarzenia elementarne są równoprawodpodobne: N(A) – ilość zdarzeń elementarnych sprzyjających zdarzeniu A N(Ω) – ilość wszystkich zdarzeń elementarnych Zdarzenia A i B są niezależne Prawdopodobieństwo sumy zdarzeń

21 Rozkład prawdopodobieństwa Zmienne dyskretne  prawdopodobieństwo wystąpienia każdej wartości P(x i ), lub dystrybuanta F(x i ) Zmienne ciągłe  gęstość prawdopodobieństwa g(x) lub dystrybuanta F(x) Histogram można uważać za przybliżenie gęstości prawdopodobieństwa.

22 Rodzaje rozkładów prawdopodobieństwa: 1.Symetryczny 2.Asymetryczny 3.o kształcie J 4.multimodalny

23

24 Centralne twierdzenie graniczne - błąd standardowy

25 Przedział ufności średniej z populacji (rozkład normalny)

26 Przedział ufności średniej z populacji (rozkład t-Studenta) k=n-1

27 Dwa sformułowania: 1.W przedziale ufności z prawdopodobieństwem 1-α znajduje się średnia z populacji. 2.W (1-α)*100% przedziałów ufności utworzonych dla losowo wybranych próbek znajduje się średnia z populacji.

28 Testowanie hipotez H 0 : hipoteza zerowa – wyjściowa H 1 : hipoteza alternatywna – to co chcemy wykazać H 0 prawdziwaH 1 prawdziwa nie odrzucamy H 0 ok 1-αbłąd 2 rodzaju β akceptujemy H 1 błąd 1 rodzaju αok 1-β 1-β – moc testu

29 Rodzaje hipotez hipotezy dwustronne: H 0 : μ=μ 0 H 1 : μ≠μ 0 hipotezy jednostronne: H 0 : μ≥μ 0 H 1 : μ<μ 0 H 0 : μ≤μ 0 H 1 : μ>μ 0

30 Test t-Studenta dla jednej próbki porównanie średniej z populacji z wartością tablicową

31

32 1.Zdefiniuj hipotezę zerową i alternatywną, oraz poziom istotności 2.Zbierz odpowiednie dane 3.Oblicz wartość statystyki 4.Porównaj wartość statystyki z wartościami krytycznymi odpowiedniego rozkładu. ↕ 5.Zinterpretuj wartość P.

33 Test t-Studenta dla dwóch próbek zależnych (związanych) porównanie średnich z dwóch populacji

34 Test t-Studenta dla dwóch prób niezależnych (niezwiązanych) porównanie średnich z dwóch populacji

35 Test Shapiro-Wilka Sprawdzanie normalności rozkładu 1.Hipotezy: H 0 : rozkład w populacji jest rozkładem normalnym H 1 : w populacji nie ma rozkładu normalnego 2.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P<α → odrzucamy H 0 i przyjmujemy H 1

36 Test Levene’a Sprawdzanie jednorodności wariancji 1.Hipotezy: H 0 : σ 1 =σ 2 wariancje są jednorodne H 1 : σ 1 ≠σ 2 wariancje nie są jednorodne 2.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P<α → odrzucamy H 0 i przyjmujemy H 1

37 Test znaków dla dwóch prób zależnych (związanych) porównanie median z dwóch populacji 1.Założenia: zmienna co najmniej w skali porządkowej, próbki zależne, błąd 1 rodzaju α 2.Hipotezy: H 0 : φ 1 = φ 2 H 1 : φ 1 ≠ φ 2 3.Tworzymy pary wyników x i i y i 4.Statystyka W to liczba par w których x i > y i, podlega rozkładowi binomialnemu 5.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P<α → odrzucamy H 0 i przyjmujemy H 1

38 Test Wilcoxona dla dwóch prób zależnych (związanych) porównanie median z dwóch populacji 1.Założenia: zmienna co najmniej w skali interwałowej, próbki zależne, błąd 1 rodzaju α 2.Hipotezy: H 0 : φ 1 = φ 2 H 1 : φ 1 ≠ φ 2 3.Tworzymy pary wyników x i i y i. Następnie szeregujemy z i =x i - y i wg bezwzględnej wartości od najmniejszej do największej. Odrzucamy z i =0. Przypisujemy kolejne rangi, tak że 1 jest przypisana najmniejszej bezwzględnej wartości, itd.. Gdy mamy kilka takich samych wartości to przypisujemy im rangę równą średniej rozpinanych rang. 4.Statystyka 5.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P<α → odrzucamy H 0 i przyjmujemy H 1

39 Test Manna-Whitneya dla dwóch prób niezależnych (niezwiązanych) porównanie median z dwóch populacji 1.Założenia: zmienna co najmniej w skali porządkowej, próbki niezależne, błąd 1 rodzaju α 2.Hipotezy: H 0 : P(X > Y) =P(Y > X) lub dla próbek symetrycznych φ 1 = φ 2 H 1 : P(X > Y) ≠ P(Y > X) lub dla próbek symetrycznych φ 1 ≠ φ 2 3.rangujemy wyniki z obu próbek 4.Statystyka U a)jest równa ilości przypadków kiedy zmienna ze zbioru 1 (x) ma większą rangę niż zmienna ze zbioru 2 (y). Przyjmujemy, że zbiór 1 ma mniejsze rangi. b)Inny sposób: Niech R 1 i R 2 to odpowiednio sumy rang dla zbiorów 1 (x) i 2 (y). Wówczas

40 Test Manna-Whitneya dla dwóch prób niezależnych (niezwiązanych) cd. porównanie median z dwóch populacji 5.U jest stabelaryzowane dla małych n. Dla dużych n może być przybliżone rozkładem normalnym. Gdy wartość U jest dostatecznie małe to odrzucamy H 0. Wartość oczekiwana U gdy H 0 jest prawdziwa wynosi n 1 n 2 /2 6.wartość P - Jeśli P>α → nie odrzucamy H 0, jeśli P<α → odrzucamy H 0 i przyjmujemy H 1

41 Schemat testów: 1.rodzaj testu: porównanie lub zależność 2.skala pomiarowa 3.wybór testu 4.hipotezy H0 i H1 5.wynik: P 6.Interpretacja wyniku

42 Skala nominalna - porównanie dwóch grup niezależnych Porównanie proporcji Symptom (test)  Grupy ↓ TakNiesuma Chorzyaba+b Zdrowicdc+d a+cb+da+b+c+d Czułość symptomu (testu) – prawdopodobieństwo pojawienia się symptomu u osoby chorej p=a/(a+b) swoistość symptomu (testu) – prawdopodobieństwo, że nie ma symptomu u pacjentów zdrowych p=d/(c+d) Wartość predykcyjna dodatnia – prawdopodobieństwo, że osoba jest chora zakładając, że ma symptom p=a/(a+c) Wartość predykcyjna ujemna – prawdopodobieństwo, że osoba jest zdrowa zakładając, że nie ma symptomu p=d/(b+d)

43 Skala nominalna - porównanie dwóch grup niezależnych Porównanie proporcji Badamy proporcje p 1 =a/(a+b) i p 2 =c/(c+d) i porównujemy je do proporcji oczekiwanych w sytuacji w której symptom nie zależy od grupy. Hipotezy: H 0 : π 1 = π 2 lub P(x,y)=P(x)P(y) Równość proporcji jest równoważna H 1 : π 1 ≠ π 2 lub P(x,y)≠P(x)P(y) niezależności zmiennych. Testy oparte są na porównaniu liczności obserwowanych O i do liczności oczekiwanych E i. np. E 1 =(a+b)(a+c)/(a+b+c+d) co wynika z warunku P(x=tak,y=chorzy)=P(x=tak)P(y=chorzy) Symptom (test)  Grupy ↓ TakNiesuma Chorzyaba+b Zdrowicdc+d a+cb+da+b+c+d

44 Skala nominalna - porównanie dwóch grup niezależnych Porównanie proporcji chi2 (N=n 1 +n 2 >40, E i >10) dla tabeli 2x2 V-kwadrat (N>40 i jakieś E i <10) Chi2 z poprawką Yatesa (N>40 i jakieś E i 5) Dokładny Fishera (20<N≤40 i jakieś E i <5, lub N ≤20)

45 Skala nominalna - porównanie dwóch grup zależnych - test McNemara Porównanie proporcji Badamy proporcje p 1 =(a+b)/(c+d) i p 2 =(a+c)/(b+d). Hipotezy: H 0 : π 1 = π 2 H 1 : π 1 ≠ π 2 po  przed ↓ +-suma +aba+b -cdc+d a+cb+da+b+c+d

46 Porównanie wielu próbek

47 Porównanie wielu próbek – test ANOVA porównanie średnich wielu próbek 1.Założenia: grupy niezależne, rozkład normalny we wszystkich grupach, równe wariancje, brak korelacji średnich w grupach z ich wariancjami. 2.Przyjmujemy model: x ij =µ+α i +e ij 3.Porównujemy zmienność wew. grupową: ze zmiennością międzygrupową Używając statystyki F zdefiniowanej jako: z k-1 i n-k stopniami swobody

48 Porównanie wielu próbek – test ANOVA (jednoczynnikowa) porównanie średnich wielu próbek

49 Porównanie wielu próbek – test ANOVA z powtarzanymi pomiarami porównanie średnich wielu próbek

50 ANOVA nieparametryczna porównanie median wielu próbek 1.Test Kruskala-Wallisa - założenia: grupy niezależne, skala co najmniej porządkowa, test post hoc: wielokrotne porównanie średnich rang. 2.Test Friedmana - założenia: grupy zależne, skala co najmniej porządkowa, test post hoc: dostępny w postaci skryptu

51 Relacja między danymi – współczynniki korelacji Współczynnik korelacji liniowej Pearsona

52 Relacja między danymi – współczynniki korelacji Współczynnik korelacji liniowej Pearsona

53 Relacja między danymi – współczynniki korelacji współczynnik korelacji Spearmana 1. Założenia: zmienne co najmniej w skali porządkowej – zwykle stosuje się dla zmiennych na skali interwałowej, które nie mają rozkładu normalnego. 2.Definicja: Korelacja liniowa liczona dla rang. 3.Hipotezy (test na istotność wsp. korelacji Spearmana): H 0 : ρ s =0 H 1 : ρ s ≠0 r s 2 – nie podlega takiej interpretacji jak r 2

54 Relacja między danymi – współczynniki korelacji współczynnik τ Kendalla 1. Założenia: zmienne co najmniej w skali porządkowej – zwykle stosuje się dla zmiennych na skali porządkowej 2.Definicja: τ=P((x1-x2)(y1-y2)>0)-P((x1-x2)(y1-y2)<0) τ=2(P-Q)/n(n-1) P - ilość par zgodnych ((x1-x2)(y1-y2)>0) Q- ilość par niezgodnych ((x1-x2)(y1-y2)<0) 3.Hipotezy (test na istotność wsp. τ Kendalla): H 0 : τ=0 H 1 : τ≠0 To jest tzw. τ A. Istnieje jeszcze τ B i τ C, które biorą pod uwagę rangi wiązane.

55 Relacja między danymi – współczynniki korelacji współczynnik Yule’a 1. Założenia: zmienne binarne w skali nominalnej – tabela 2x2 2.Definicja: 0≤ ϕ ≤1 - test istotności taki sam jak dla proporcji w tablicy 2x2, df=1. 3.Hipotezy (test na istotność wsp. τ Yule’a): H 0 : ϕ =0 H 1 : ϕ ≠0

56 Relacja między danymi – współczynniki korelacji współczynnik C-Pearsona (kontyngencji) 1. Założenia: zmienne w skali nominalnej 2.Definicja: df=(n 1 -1)(n 2 -1) n 1, n 2 – ilość różnych elementów w grupie 1 i 2 Test istotności --> chi2. C powinno być większe niż 0. Przyjmuje wartości zależne od wielkości tabeli. 3.Hipotezy (test na istotność wsp. C-Pearsona): H 0 : C=0 H 1 : C≠0

57 Relacja między danymi – współczynniki korelacji współczynnik V-Cramera 1. Założenia: zmienne w skali nominalnej 2.Definicja: n 1, n 2 – ilość różnych elementów w grupie 1 i 2 0≤V≤1 - nie zależy od wielkości tabeli. Test istotności chi2. 3.Hipotezy (test na istotność wsp. V-Cramera): H 0 : V=0 H 1 : V≠0

58 Regresja liniowa 1. Założenia: rozkład normalny obu zmiennych, lub rozkład zmiennej zależnej y dla każdej wartości zmiennej niezależnej x jest normalny i wariancja y jest taka sama dla każdego x, zależność liniowa. 2.Definicja: y=ax+b – regresja y wzg. x y=cx+d – regresja x wzg. y współczynniki liczone są metodą najmniejszych kwadratów:

59 3.Test na istotność wsp. Β taki sam jak na istotność wsp. korelacji. H 0 : β=0 H 1 : β≠0 4.Błąd standardowy estymacji: 5.Przedział predykcji i przedział ufności Regresja liniowa