Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

W wielu badaniach gromadzimy dane będące liczebnościami. Na przykład możemy klasyfikować chorych w badanej próbie do różnych kategorii pod względem wieku,

Podobne prezentacje


Prezentacja na temat: "W wielu badaniach gromadzimy dane będące liczebnościami. Na przykład możemy klasyfikować chorych w badanej próbie do różnych kategorii pod względem wieku,"— Zapis prezentacji:

1 W wielu badaniach gromadzimy dane będące liczebnościami. Na przykład możemy klasyfikować chorych w badanej próbie do różnych kategorii pod względem wieku, płci czy natężenia choroby, czyli kilku badanych cech. Przedstawiane do tej pory metody statystyczne stają się użyteczne dla danych jednej cechy. Techniki statystyczne omówione poniżej należą do najbardziej przydatnych w analizie danych jakościowych i ilościowych. Umożliwiają one dokonanie oceny zależności między zmiennymi tego typu. ANALIZA WSPÓŁZALEŻNOŚCI 1

2 Tab.1. Tabela wielodzielcza (kontyngencji). 2

3 Tab.2. Przykład tabeli wielodzielczej Grupa KobietyMężczyźniRazem n%n%n% Cukrzyca2535,72040,04537,5 Bez cukrzycy4564,33060,07562,5 3

4 Tabele wielodzielcze (kontyngencji). Pierwszym krokiem jest przedstawienie zebranych danych indywidualnych w postaci tabeli wielodzielczej (kontyngencji). Wymaga to zliczenia jednostek w odpowiednich komórkach tabeli. Zliczanie to bez użycia komputera jest żmudne, zwłaszcza dla dużej liczby przypadków. Tabele wielodzielcze stanowią podstawę do obliczania pozostałych statystyk określających siłę związku. Tabela wielodzielcza przedstawia rozkład obserwacji ze względu na kilka cech jednocześnie. Załóżmy, że dysponujemy n obserwacjami dla jakościowej cechy X (posiadającej kategorie X 1, X 2,... X k ) i jakościowej cechy Y (o kategoriach Y 1, Y 2,...Y p ) (tab. 1). Liczebności n ij określają liczbę elementów próby, dla których cecha X ma wariant X i i jednocześnie cecha Y - wariant Y j. Tablica wielodzielcza pokazuje więc określony łączny rozkład obu cech. Liczebności w ostatnim wierszu i w ostatniej kolumnie nazywamy empirycznymi, odpowiednio cechy Y i cechy X. Na przykład, chcąc ocenić wpływ używek (papieros, kawa, alkohol) na pewną chorobę, zebraliśmy dane na temat ich używania w grupie 90-osobowej. Zastosowano podział na 4 kategorie: nigdy (tzn. nie używano nigdy), niewiele (używano w małych ilościach), średnio (używano w średnich ilościach) i dużo (używano w dużych ilościach). 4

5 Lp. KawaPapierosyAlkoholPłeć 1nigdydużoniewielem 2 nigdy m 3dużo średniok 4niewiele dużom 5średnioniewiele k 6dużo m 7nigdyśrednioniewielek 8sredniodużonigdym 9 średniok 10dużo m Zliczając otrzymane dane dla papierosów i płci, otrzymamy następującą tabelę wielodzielczą (tab. 3) 5

6 Tabela 3 Płeć Papieros nigdy Papieros niewiele Papieros średnio Papieros dużo Razem Kobieta Mężczyzna Razem Widać wyraźną przewagę mężczyzn w grupie palących dużą lub średnią liczbę papierosów, natomiast około 3-krotnie więcej kobiet niż mężczyzn nigdy nie paliło. Informacje byłyby bogatsze po dołączeniu danych odsetkowych. Odsetki wylicza się względem: ostatniej rubryki (płci), ostatniego wiersza (liczby wypalanych papierosów) oraz całkowitej liczby respondentów. Następny etap analizy statystycznej tak zebranych danych to próba weryfikacji hipotezy, że dwie jakościowe cechy w populacji są niezależne. 6

7 Współzależność cech – cechy jakościowe 7

8 Najczęściej stosowanym narzędziem jest test chi-kwadrat. Został on opracowany przez Karla Pearsona w 1900 roku i jest metodą, dzięki której można się upewnić, czy dane zawarte w tabeli wielodzielczej dostarczają wystarczającego dowodu na związek tych dwóch zmiennych. Test chi-kwadrat polega na porównaniu liczebności zaobserwowanych z oczekiwanymi przy założeniu hipotezy o braku związku między tymi dwiema zmiennymi. Liczebności (częstości) oczekiwane obliczamy, wykorzystując liczebności brzegowe(z tablicy wielodzielczej) według następującego wzoru: Wówczas hipotezę o tym, że cechy X i Y są niezależne, możemy zweryfikować testem według następującego schematu: 8

9 Weryfikacja hipotezy zerowej: H0: cechy X i Y są niezależne Wobec hipotezy alternatywnej : H1: cechy X i Y są zależne Do weryfikacji hipotezy stosujemy statystykę: Otrzymaną wartość należy porównać z wartością krytyczną chi-kwadrat o (k - 1)·(p - 1) stopniach swobody 9

10 Na przykład: zapytano 260 osób o to, czy korzystają z bezpłatnych darmowych badań profilaktycznych dowolnego typu. Zebrane dane przedstawiono w wielodzielczej tabeli 4. Czy istnieje zależność między korzystaniem z takiej oferty i miejscem zamieszkania? Tabela 4 10 Miejsce zamieszkania Korzystanie z badań profilaktycznych Razem częstorzadkonigdy Wieś Miasto Razem

11 Wyliczymy liczebności oczekiwane. Wyniki obliczeń pozostałych liczebności oczekiwanych przedstawiono w tabeli w nawiasach obok wartości obserwowanych. 11 Miejsce zamieszkania Korzystanie z badań profilaktycznych Razem częstorzadkonigdy Wieś29,5447,7550,71128 Miasto30,4649,2552,29132 Razem A jak się to liczy? Mnożymy sumę z wiersza i sumę z kolumny (patrzymy po brzegach), następnie dzielimy przez liczbę wszystkich elementów (tu 260).

12 12 Miejsce zamieszkania Korzystanie z badań profilaktycznych Razem częstorzadkonigdy Wieś 60* * * Miasto 60* * * Razem Miejsce zamieszkania Korzystanie z badań profilaktycznych Razem częstorzadkonigdy Wieś29,5447,7550,71128 Miasto30,4649,2552,29132 Razem I stąd jest

13 Następny krok to porównanie liczebności empirycznych i teoretycznych, a końcowym efektem jest obliczona wartość statystyki chi-kwadrat. 13 A jak się to liczy? We wnętrzu tabeli: liczebność empiryczna minus teoretyczna, podnosimy do kwadratu, dzielimy przez teoretyczną. Miejsce zamieszkania Korzystanie z badań profilaktycznych Razem częstorzadkonigdy Wieś3,080,162,986,22 Miasto2,990,152,896,03 Razem6,070,315,8712,25 Miejsce zamieszkania Korzystanie z badań profilaktycznych Razem częstorzadkonigdy Wieś (20-29,54) 2 29,54 (45-47,75) 2 47,75 (63-50,71) 2 50,71 6,22 Miasto (40-30,36) 2 30,46 (52-49,25) 2 49,25 (40-52,29) 2 52,29 6,03 Razem6,070,315,8712,25

14 Tak więc wartość obliczona chi-kwadrat = 12,25 Wartość odczytana wynosi (dla poziomu istotności 0,05 i (3–1)*(2–1)) stopni swobody = 5, A teraz szukamy największych rozbieżności między liczebnościami empirycznymi i teoretycznymi, np.: Wartość obliczona > wartość krytyczna (odczytana) 12,25 > 5,991 W takiej sytuacji formułujemy wniosek końcowy: Istnieje zależność między miejscem zamieszkania a częstotliwością korzystania z badań profilaktycznych. Miejsce zamieszkania Korzystanie z badań profilaktycznych częstorzadkonigdy Wieś 20-29, , ,71 Miasto 40-30, , ,29

15 15 Zauważmy, że bardzo duże wartości chi-kwadrat obliczonego oznaczają dużą różnicę pomiędzy częstościami obserwowanymi a oczekiwanymi, i jest to dowód istnienia zależności. Przeciwnie mała wartość (zwłaszcza bliska 0) nie daje dowodu na istnienie korelacji. Miejsce zamieszkania Korzystanie z badań profilaktycznych częstorzadkonigdy Wieś 20-29, , ,71 Miasto 40-30, , ,29 Zauważmy, że mieszkańcy wsi częściej przyznawali, ze nigdy nie korzystali z badań profilaktycznych (63 wobec 50,71). Mieszkańcy miast w większym stopniu niż można się było spodziewać przyznawali, że często korzystają z badań profilaktycznych (40 wobec 30,36).

16 Współzależność cech – cechy ilościowe 16

17 MIARY WSPÓŁZALEŻNOŚCI Do badania zależności między zmiennymi X i Y wykorzystuje się najczęściej współczynnik korelacji liniowej Pearsona, będący miarą siły związku prostoliniowego między dwiema cechami mierzalnymi. Współczynnik ten wylicza się ze wzoru: gdzie: cov(x,y) - kowariancja zmiennych X i Y s - odchylenie standardowe. 17

18 Wartość korelacji (współczynnik korelacji) nie zależy od jednostek miary, w jakich wyrażamy badane zmienne, np. korelacja pomiędzy wzrostem i ciężarem będzie taka sama bez względu na to, w jakich jednostkach (cale i funty czy centymetry i kilogramy) wyrazimy badane wielkości. 18

19 Kowariancja jest średnią arytmetyczną iloczynu odchyleń zmiennych X i Y od ich średnich arytmetycznych: Rozpatrując kowariancję uzyskać można następujące informacje o istniejącym związku pomiędzy zmiennymi X i Y: 1.Jeżeli cov(x,y)>0 – dodatnia korelacja 2.Jeżeli cov(x,y)<0 – ujmena korelacja 3.Jeżeli cov(x,y)=0 – brak korelacji 19

20 Kowariancji nie można stosować do bezpośrednich porównań. Dlatego jest ona standaryzowana przez odchylenia standardowe, dzięki czemu otrzymuje się współczynnik korelacji liniowej Pearsona. Właściwości współczynnika korelacji: 1.Przyjmuje wartości z przedziału 2.Dodatni znak świadczy o dodatnim, zaś ujemny o ujemnym związku korelacyjnym 3.Im tym związek korelacyjny jest silniejszy. 20

21 W sytuacji, gdy wraz ze wzrostem (spadkiem) wartości jednej zmiennej następuje wzrost (spadek) warunkowych średnich drugiej zmiennej, wówczas można stwierdzić istnienie korelacji dodatniej między zmiennymi. W sytuacji, kiedy występuje przeciwny kierunek zmian, można mówić o korelacji ujemnej. 21

22 22 Znak informuje o kierunku zależności r>0 Korelacja dodatnia r<0 Korelacja ujemna Moduł informuje o sile zależności r=1 r=0,5r=0

23 Sposoby komentowania współczynnika korelacji: a) - współzależność nie występuje, b) - słaby stopień współzależności, c) - umiarkowany (średni) stopień współzależności, d) - znaczny stopień współzależności, e) - wysoki stopień współzależności, f) - bardzo wysoki stopień współzależności, g) - całkowita (ścisła) współzależność (zależność funkcyjna pomiędzy badanymi cechami). 23

24 Lp.xy ,8-6,6316,8443,56117, ,8-5,6190,4431,3677, ,23,427,0411,5617, ,81,47,841,96-3, ,8-0,6139,240,367, ,2-1,6104,042,56-16, ,29,4262,4488,36152, ,8-4,633,6421,1626, ,27,4408,0454,76149, ,2-2,60,046,76-0,52 suma ,60262,40527,20 średnia39,822,6odchylenie12,25,12 Pomiędzy zmiennymi jest silna dodatnia korelacja 24

25 Innym miernikiem korelacyjnego związku cech jest współczynnik korelacji rang Spearmana. Współczynnik ten stosowany jest głównie do badania współzależności cech niemierzalnych, bądź cechy mierzalnej i niemierzalnej. Może być on również stosowany w badaniu związku korelacyjnego pomiędzy cechami mierzalnymi (szczególnie w przypadku małej próby). Konstrukcja współczynnika korelacji rang opiera się na zgodności pozycji, którą zajmuje każda z odpowiadających sobie wielkości we wzrastającym lub malejącym szeregu wartości cechy. 25

26 Współczynnik korelacji rang Spearmana (r S ) wylicza się w oparciu o wyznaczone różnice rang (d) oraz liczby par obserwacji (n): przy czym: gdzie: - rangi zmiennej X oraz Y (i=1,2,...n) 26

27 gdy Współczynnik korelacji rang przyjmuje wartości z przedziału od -1 do 1, a jego interpretacja jest analogiczna do współczynnika korelacji Pearsona. 27

28 Przykład. W celu zbadania, czy istnieje związek między zdyscyplinowaniem pacjentów względem zaleceń personelu medycznego a wynikami terapii na pewną dolegliwość poddano obserwacji 10 pacjentów. Otrzymano następujące wyniki obserwacji zestawione w tabeli : PacjentRanga zdyscyply- -nowanie Ranga terapii Różnica rang (d) Kwadrat różnicy rang (d 2 ) Razem030 28

29 Korelacja jest dodatnia i silna. Dodatnia korelacja oznacza, że im bardziej pacjenci byli zdyscyplinowani, tym lepszy efekt terapii. 29


Pobierz ppt "W wielu badaniach gromadzimy dane będące liczebnościami. Na przykład możemy klasyfikować chorych w badanej próbie do różnych kategorii pod względem wieku,"

Podobne prezentacje


Reklamy Google