ANALIZA WSPÓŁZALEŻNOŚCI

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Test zgodności c2.
BADANIE KORELACJI ZMIENNYCH
Rangowy test zgodności rozkładów
Estymacja. Przedziały ufności.
Wykład 9 Analiza wariancji (ANOVA)
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
Test zgodności Joanna Tomanek i Piotr Nowak.
Powinien być określony w sposób zwięzły i precyzyjny, np
ANALIZA WSPÓŁZALEŻNOŚCI
możemy wyrzucić dobrą szynkę
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Wzory ułatwiające obliczenia
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Średnie i miary zmienności
Jednoczynnikowa analiza wariancji (ANOVA)
Test nieparametryczny
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
dla klas gimnazjalnych
Modelowanie ekonometryczne
Hipotezy statystyczne
Kilka wybranych uzupelnień
Podstawy statystyki, cz. II
Ekonometria stosowana
ANALIZA WSPÓŁZALEŻNOŚCI ZJAWISK
Planowanie badań i analiza wyników
Ekonometria stosowana
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Co to jest dystrybuanta?
Dopasowanie rozkładów
Wnioskowanie statystyczne
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Statystyczna analiza danych
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
TABELE WIELODZELCZE TESTY NIEPARAMETRYCZNE
Testy nieparametryczne
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Wnioskowanie statystyczne Weryfikacja hipotez statystycznych
Analiza współzależności zjawisk
Zapis prezentacji:

ANALIZA WSPÓŁZALEŻNOŚCI CECH JAKOŚCIOWYCH W wielu badaniach gromadzimy dane będące liczebnościami. Na przykład możemy klasyfikować chorych w badanej próbie do różnych kategorii pod względem wieku, płci czy natężenia choroby, czyli kilku badanych cech. Możemy je przedstawić w postaci tzw. tabeli wielodzielczej.

Tab.1. Tabela wielodzielcza (kontyngencji).

Tab.2. Przykład tabeli wielodzielczej Grupa Kobiety Mężczyźni Razem n % Cukrzyca 25 35,7 20 40,0 45 37,5 Bez cukrzycy 64,3 30 60,0 75 62,5

Tabele wielodzielcze (kontyngencji). Pierwszym krokiem jest przedstawienie zebranych danych indywidualnych w postaci tabeli wielodzielczej (kontyngencji). Wymaga to zliczenia jednostek w odpowiednich komórkach tabeli. Zliczanie to bez użycia komputera jest żmudne, zwłaszcza dla dużej liczby przypadków. Tabele wielodzielcze stanowią podstawę do obliczania pozostałych statystyk określających siłę związku. Tabela wielodzielcza przedstawia rozkład obserwacji ze względu na kilka cech jednocześnie. Załóżmy, że dysponujemy n obserwacjami dla jakościowej cechy X (posiadającej kategorie X1, X2, ... Xk) i jakościowej cechy Y (o kategoriach Y1, Y2, ...Yp) (tab. 1). Liczebności nij określają liczbę elementów próby, dla których cecha X ma wariant Xi i jednocześnie cecha Y - wariant Yj. Tablica wielodzielcza pokazuje więc określony łączny rozkład obu cech. Liczebności w ostatnim wierszu i w ostatniej kolumnie nazywamy empirycznymi, odpowiednio cechy Y i cechy X. Na przykład, chcąc ocenić wpływ używek (papieros, kawa, alkohol) na pewną chorobę, zebraliśmy dane na temat ich używania w grupie 90-osobowej. Zastosowano podział na 4 kategorie: nigdy (tzn. nie używano nigdy), niewiele (używano w małych ilościach), średnio (używano w średnich ilościach) i dużo (używano w dużych ilościach).

Lp. Kawa Papierosy Alkohol Płeć 1 nigdy dużo niewiele m 2 3 średnio k 4 5 6 7 8 srednio 9 10 Zliczając otrzymane dane dla papierosów i płci, otrzymamy następującą tabelę wielodzielczą (tab. 3)

Tabela 3 Płeć Papieros nigdy Papieros niewiele Papieros średnio Papieros dużo Razem Kobieta 11 8 6 5 30 Mężczyzna 4 28 24 60 15 12 34 29 90 Widać wyraźną przewagę mężczyzn w grupie palących dużą lub średnią liczbę papierosów, natomiast około 3-krotnie więcej kobiet niż mężczyzn nigdy nie paliło. Informacje byłyby bogatsze po dołączeniu danych odsetkowych. Odsetki wylicza się względem: ostatniej rubryki (płci), ostatniego wiersza (liczby wypalanych papierosów) oraz całkowitej liczby respondentów. Następny etap analizy statystycznej tak zebranych danych to próba weryfikacji hipotezy, że dwie jakościowe cechy w populacji są niezależne.

Współzależność cech – cechy jakościowe

Najczęściej stosowanym narzędziem jest test chi-kwadrat Najczęściej stosowanym narzędziem jest test chi-kwadrat. Został on opracowany przez Karla Pearsona w 1900 roku i jest metodą, dzięki której można się upewnić, czy dane zawarte w tabeli wielodzielczej dostarczają wystarczającego dowodu na związek tych dwóch zmiennych. Test chi-kwadrat polega na porównaniu liczebności zaobserwowanych z oczekiwanymi przy założeniu hipotezy o braku związku między tymi dwiema zmiennymi. Liczebności (częstości) oczekiwane obliczamy, wykorzystując liczebności brzegowe(z tablicy wielodzielczej) według następującego wzoru: Wówczas hipotezę o tym, że cechy X i Y są niezależne, możemy zweryfikować testem według następującego schematu:

Weryfikacja hipotezy zerowej: H0: cechy X i Y są niezależne Wobec hipotezy alternatywnej: H1: cechy X i Y są zależne Do weryfikacji hipotezy stosujemy statystykę: Otrzymaną wartość należy porównać z wartością krytyczną chi-kwadrat o (k - 1)·(p - 1) stopniach swobody

Korzystanie z badań profilaktycznych Na przykład: zapytano 260 osób o to, czy korzystają z bezpłatnych darmowych badań profilaktycznych dowolnego typu. Zebrane dane przedstawiono w wielodzielczej tabeli 4. Czy istnieje zależność między korzystaniem z takiej oferty i miejscem zamieszkania? Tabela 4 Miejsce zamieszkania Korzystanie z badań profilaktycznych   Razem często rzadko nigdy Wieś 20 45 63 128 Miasto 40 52 132 60 97 103 260

Korzystanie z badań profilaktycznych Wyliczymy liczebności oczekiwane. Wyniki obliczeń pozostałych liczebności oczekiwanych przedstawiono w tabeli w nawiasach obok wartości obserwowanych. Miejsce zamieszkania Korzystanie z badań profilaktycznych   Razem często rzadko nigdy Wieś 29,54 47,75 50,71 128 Miasto 30,46 49,25 52,29 132 60 97 103 260 A jak się to liczy? Mnożymy sumę z wiersza i sumę z kolumny (patrzymy po brzegach), następnie dzielimy przez liczbę wszystkich elementów (tu 260).

Korzystanie z badań profilaktycznych Razem często rzadko nigdy Wieś Miejsce zamieszkania Korzystanie z badań profilaktycznych   Razem często rzadko nigdy Wieś 60*128 260 97*128 103*128 128 Miasto 60*132 97*132 103*132 132 60 97 103 I stąd jest Miejsce zamieszkania Korzystanie z badań profilaktycznych   Razem często rzadko nigdy Wieś 29,54 47,75 50,71 128 Miasto 30,46 49,25 52,29 132 60 97 103 260

Korzystanie z badań profilaktycznych Razem często rzadko nigdy Wieś Następny krok to porównanie liczebności empirycznych i teoretycznych, a końcowym efektem jest obliczona wartość statystyki chi-kwadrat. Miejsce zamieszkania Korzystanie z badań profilaktycznych   Razem często rzadko nigdy Wieś 3,08 0,16 2,98 6,22 Miasto 2,99 0,15 2,89 6,03 6,07 0,31 5,87 12,25 A jak się to liczy? We wnętrzu tabeli: liczebność empiryczna minus teoretyczna, podnosimy do kwadratu, dzielimy przez teoretyczną. Miejsce zamieszkania Korzystanie z badań profilaktycznych   Razem często rzadko nigdy Wieś (20-29,54)2 29,54 (45-47,75)2 47,75 (63-50,71)2 50,71 6,22 Miasto (40-30,46)2 30,46 (52-49,25)2 49,25 (40-52,29)2 52,29 6,03 6,07 0,31 5,87 12,25

W takiej sytuacji formułujemy wniosek końcowy: Tak więc wartość obliczona chi-kwadrat = 12,25 Wartość odczytana wynosi (dla poziomu istotności 0,05 i (3–1)*(2–1)) stopni swobody = 5,991 Wartość obliczona > wartość krytyczna (odczytana) 12,25 > 5,991 W takiej sytuacji formułujemy wniosek końcowy: Istnieje zależność między miejscem zamieszkania a częstotliwością korzystania z badań profilaktycznych. A teraz szukamy największych rozbieżności między liczebnościami empirycznymi i teoretycznymi, np.: Miejsce zamieszkania Korzystanie z badań profilaktycznych często rzadko nigdy Wieś 20-29,54 45-47,75 63-50,71 Miasto 40-30,46 52-49,25 40-52,29

Korzystanie z badań profilaktycznych Miejsce zamieszkania Korzystanie z badań profilaktycznych często rzadko nigdy Wieś 20-29,54 45-47,75 63-50,71 Miasto 40-30,46 52-49,25 40-52,29 Zauważmy, że mieszkańcy wsi częściej przyznawali, ze nigdy nie korzystali z badań profilaktycznych (63 wobec 50,71). Mieszkańcy miast w większym stopniu niż można się było spodziewać przyznawali, że często korzystają z badań profilaktycznych (40 wobec 30,46). Zauważmy, że bardzo duże wartości chi-kwadrat obliczonego oznaczają dużą różnicę pomiędzy częstościami obserwowanymi a oczekiwanymi. Są one dowodem istnienia zależności. Przeciwnie mała wartość (zwłaszcza bliska 0) nie daje dowodu na istnienie korelacji.