Statystyka - to „nie boli” Elżbieta Kalicińska, Mateusz Sokolski Klinika Chorób Serca, Akademia Medyczna we Wrocławiu
Aby dane były policzalne muszą być uporządkowane baza danych:
ZMIENNE PRZYPADKI
Przypadek i zmienna: Przypadki: wiersze w bazie danych (jeden wiersz ~ zestaw wartości zmiennych odnotowanych u np. jednego pacjenta)
Przypadek i zmienna: Zmienne: kolumny w bazie danych, inaczej cechy statystyczne
ZMIENNE = Cechy statystyczne zmienne ilościowe (= mierzalne = ciągłe) Np. wzrost , masa ciała, ciśnienie skurczowe zmienne jakościowe (=niemierzalne ) = kategorie, do których można przyporządkować przypadki, np. kobieta lub mężczyzna.
* dodawanie zmiennych
* dodawanie przypadków
* formatowanie danych
Jak opisać cechę jakościową? Aby zmienne jakościowe były ‚policzalne’ musimy nadać im ‚kody’ wpisując dane do bazy danych przyjmujemy, że kobieta = 1, mężczyzna 0 (więcej kategorii = więcej cyfr)
ZMIENNA JAKOŚCIOWA ZMIENNA ILOŚCIOWA PRZYPADKI
Rozkład normalny normalny ~ symetryczny ~najwięcej przeciętnych, mało skrajnych (min-max) liczebność min średnia max wartość cechy
Rozkład normalny Niektóre dane układają się w rozkład normalny , np. wzrost Pewne dane nigdy nie będą miały rozkładu normalnego, np. NTproBNP Sprawdzanie rozkładu dotyczy zmiennych ciągłych
Średnia- to suma wartości znajdujących się w rozkładzie podzielona przez ich liczbę Mediana- to wartość, która dzieli zbiór na dwie równe części (połowa obserwacji (50%) leży powyżej, a druga połowa poniżej jej wartości) Odchylenie standardowe (SD)- odchylenie standardowe pokazuje jak daleko wartości zmiennej rozrzucone są wokół średniej. Kwartyle- dzielą rozkład na 4 części co 25%.
przedział ufności (95% CI, confidence interval ) SE (standard error) Błąd standardowy to odchylenie standardowe dla wartości średniej (swiadzczy o stopniu rozproszenia średnich) . SE nie jest równy SD przedział ufności (95% CI, confidence interval ) Im większa i bardziej reprezentatywna próba tym węższy jest przedział ufności - określa stopień precyzji
μ +/- 1σ, znajduje się 68.3% obserwacji,
Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej
Kiedy sprawdzać czy rozkład jest normalny? Analiza cech ciągłych Normalność rozkładu testujemy na każdej populacji (osobno każdą grupę, gdy dokonujemy podziału ze względu na cechy) Liczebność próby, n>30
W jakim celu sprawdzać czy rozkład jest normalny? 1) By określić sposób prezentowania wyników - średnia ± SD (odchylenie standardowe) dla rozkładu normalnego - mediana (~50%) (Q1-Q3 = dolny i górny kwartyl~25 i 75% ) dla rozkładów niemających cech rozkładu normalnego 2) By określić jakie testy stosować w dalszej analizie - parametryczne - nieparametryczne
TESTY: - parametryczne – testy mocniejsze (silniejszy argument) - nieparametryczne – słabsze, na małych liczebnościach, mogą być „wątpliwe”
* „unormalnienie” rozkładu Jeśli zmienna CIĄGŁA nie ma rozkładu normalnego, ale mamy ponad 30 przypadków – można spróbować ”unormalnić” rozkład: Logarytmując każdą wartość ALE! Należy sprawdzić rozkład po zlogarytmowaniu (być może mimo to nie dało się uzyskać normalności). - log naturalny - log dziesiętny
* „unormalnienie” rozkładu
* „unormalnienie” rozkładu Przekształcanie danych do rozkładu normalnego – logarytmowanie –pierwiastkowanie –potęgowanie
Jak testować normalność? Czy rozkład jest normalny? Wybrać zmienne
Test Kołmogorowa-Smirnowa (K-S)
P > 0.05 = ROZKŁAD JEST NORMALNY ; P< 0.05 = ROZKŁAD NIE JEST NORMALNY!
Co można testować? Istotność różnic średnich wartości między grupami / ZMIENNYMI próby zależne próby niezależne Istotność korelacji (związków)
Testy Cel testowania Testy parametryczne Testy nieparametryczne Zbadanie istotności różnic między 2 grupami (próby niezależne) T- studenta Test U Manna-Whitneya Zbadanie istotności różnic między >2 grupami (próby niezależne) ANOVA testowanie parametryczne testowanie nieparametryczne Zbadanie różnic (pary wiązane, próby zależne) T- studenta dla prób wiązanych Test znaków Zbadanie korelacji (związku) Korelacja r-Pearsona Korelacja r-Spearmana
Test T - studenta Porównanie ze sobą średnich maksymalnie DWÓCH grup. Nie więcej!!! czy średnia wyniki w jednej grupie są większe bądź mniejsze niż w drugiej grupie
Test T - studenta dla prób niezależnych (dwie niezależne grupy) Sprawdzenie czy kobiety w danej populacji mają mniejsze BMI niż mężczyźni
Test T - studenta dla prób niezależnych (dwie niezależne grupy) Sprawdzenie czy kobiety w danej populacji mają mniejsze BMI niż mężczyźni
Testy Cel testowania Testy parametryczne Testy nieparametryczne Zbadanie istotności różnic między 2 grupami (próby niezależne) T- studenta Test U Manna-Whitneya Zbadanie istotności różnic między >2 grupami (próby niezależne) ANOVA testowanie parametryczne testowanie nieparametryczne Zbadanie różnic (pary wiązane, próby zależne) T- studenta dla prób wiązanych Test znaków Zbadanie korelacji (związku) Korelacja r-Pearsona Korelacja r-Spearmana
Test U Manna-Whitneya Założenie: sprawdzenie czy osoby o etiologii niedokrw. i nie-niedokrwiennej różnią się pod względem BMI
Test U Manna-Whitneya
Test U Manna-Whitneya wybieramy 2 rodzaje zmiennych: niezależną (tutaj BMI): musi być cechą ilościową (ciągłą) ale nie musi mieć rozkładu normalnego grupującą (ta która wyznacza kryteria podziału porównywanych grup; tutaj etiologia CAD lub nie-CAD): musi być cechą jakościową, dychotomiczną
Test U Manna-Whitneya
Test U Manna-Whitneya wynikiem testu jest Z (tutaj: 0,40) p = 0,68 interpretacja: badane 2 grupy nie różnią się istotnie pod względem BMI (p>0,05)
Testy Cel testowania Testy parametryczne Testy nieparametryczne Zbadanie istotności różnic między 2 grupami (próby niezależne) T- studenta Test U Manna-Whitneya Zbadanie istotności różnic między >2 grupami (próby niezależne) ANOVA testowanie parametryczne Kruskala-Wallisa Zbadanie różnic (pary wiązane, próby zależne) T- studenta dla prób wiązanych Test znaków Zbadanie korelacji (związku) Korelacja r-Pearsona Korelacja r-Spearmana
ANOVA Jeśli mamy do czynienia z więcej niż dwiema "skorelowanymi próbami" (np. przed zabiegiem , po zabiegu 1 i po zabiegu 2 ), wtedy należy zastosować analizę wariancji w wersji z powtarzanymi pomiarami (więcej niż dwie zmienne z tej samej próby )
ANOVA cel analizy wariancji (ANOVA): testowanie istotności różnic pomiędzy średnimi możemy oceniać wpływ każdego z czynników, kontrolując wszystkie pozostałe; jest to prawdziwa przyczyna, dla której ANOVA charakteryzuje się wyższą mocą niż prosty test t (tzn. potrzebujemy mniej obserwacji, aby stwierdzić istotny wpływ).
Test znakow
Test T - studenta 2. dla prób zależnych (jedna grupa) Sprawdzenie istotności różnić pomiędzy masa ciała przed i po diecie: ta sama grupa ważona przed leczeniem i po miesiącu stosowania diety
Test T – studenta (dla prób zależnych) Po wybraniu zmiennych przycisk Testy t
Test T – studenta (dla prób zależnych) Otrzymujemy tabele wyników: wartość w kolumnie 'p' podaje odpowiedni poziom istotności (p<0,05)
Korelacja Korelacja jest miarą powiązania pomiędzy dwiema liczbą zmiennych Współczynniki korelacji przyjmują wartości z przedziału od -1,00 do +1,00. Wartość -1,00 reprezentuje doskonałą korelację ujemną , a wartość +1,00 doskonałą korelacją dodatnią . Wartość 0.00 wyraża brak korelacji.
Korelacja r - Pearsona określa stopień w jakim dwie zmienne są "proporcjonalne" względem siebie (np. korelacja między wysokością a masą ciała) określenie proporcjonalne oznacza zależność liniową to znaczy, że korelacja jest silna, jeśli może być "opisana" przy pomocy linii prostej (nachylonej do góry lub na dół) linia regresji stwierdzenie, czy zaobserwowana zależność ma charakter przypadkowy, czy jest typowa dla całej populacji
* Linia regresji = linia szacowana metodą najmniejszych kwadratów, ponieważ jej parametry określane są w ten sposób, by suma kwadratów odchyleń punktów pomiarowych od tej linii była minimalna
* Współczynnik korelacji współczynnik korelacji (r) wyraża liniową zależność między dwiema zmiennymi.
Korelacja r - Pearsona zależności czasu leczenia i poziomu enzymu w organizmach chorych analizę korelacji wykonujemy z modułu Podstawowe statystyki i tabele z menu Analiza wybieramy opcję Macierze Korelacji
Korelacja r - Pearsona Wybieramy do analizy zmienne PŁEĆ i ENZ. z menu Dwie listy zmiennych
Korelacja r - Spearmana interpretacja jak korelacji r – Pearsona
Test chi-kwadrat Stosowany do sprawdzania różnic w cechach jakościowych między dwiema grupami NP: W grupie 1 (np. osob chorych) jest 34 mężczyzn i 25 kobiet, W grupie 2 (np,. Os. Zdrowych=gr. kontrolnej) jest 40 mężczyzn i 30 kobiet Czy grupy te różnią się pod względem liczby kobiet i mężczyzn????