Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Podobne prezentacje


Prezentacja na temat: "STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii."— Zapis prezentacji:

1 STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

2 CECHA STATYSTYCZNA WIELOWYMIAROWA

3 Dane indywidualne Każdy student wchodzący w skład badanej zbiorowości jest opisany jednocześnie przez 3 cechy; jest „trójwymiarowy”; Liczba opisujących studenta cech decyduje o wymiarze cechy wielowymiarowej  u nas mamy cechę trójwymiarową; Cecha jednowymiarowa to osobno: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię Cecha trójwymiarowa to jednocześnie: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię

4 Dla cechy wielowymiarowej klasyfikacja na: 1.cechy mierzalne i niemierzalne 2.cechy skokowe i ciągłe jest analogiczna jak dla cechy jednowymiarowej

5 Wśród charakterystyk każdego ze studentów wyróżnimy łącznie jedynie dwie cechy. Będziemy je oznaczać przez X i Y Możemy „łączyć” ze sobą zarówno cechy mierzalne i niemierzalne oraz cechy skokowe i ciągłe w różnych kombinacjach W rezultacie otrzymujemy zbiór par postaci (x i, y j ), gdzie x i jest zaobserwowaną u badanego studenta i-tą kategorią cechy X oraz y j jest zaobserwowaną u tego samego studenta j-tą kategorią cechy Y CECHA DWUWYMIAROWA

6 Otrzymane informacje (pary liczb) można analizować: 1.w układzie indywidualnym  oddzielne rozkłady każdej z cech (rozkłady jednowymiarowe), 2.w układzie łącznym, czyli w formie danych pogrupowanych w rozkład (rozkład dwuwymiarowy) CECHA DWUWYMIAROWA

7 CECHY JEDNOWYMIAROWE x i - kolor oczunini wiwi niebieski10 0,417 zielony5 0,208 brązowy5 0,208 szary4 0,167 suma241 z i – liczba rodzeństwanini wiwi 06 0,250 113 0,542 24 0,167 31 0,042 suma241 (y 0i - y 1i > – czasnini wiwi 0-107 0,292 10-203 0,125 20-303 0,125 30-403 0,125 40-505 0,208 50 +∞3 0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów

8 CECHA DWUWYMIAROWA Kolor oczu Liczba rodzeństwa razem 0123 brązowy13105 niebieski451010 szary03104 zielony12115 razem61341 24 Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 razem 6134124

9 ANALIZA WSPÓŁZALEŻNOŚCI CECH STATYSTYCZNYCH

10 Analiza współzależności cech statystycznych polega na: 1.Ustaleniu, czy między badanymi cechami statystycznymi występuje związek typu stochastycznego, czyli czy przyjmowanie przez jedną cechę statystyczną określonych wartości ma wpływ na rozkład drugiej cechy statystycznej 2.Określeniu, czy związek występujący między cechami statystycznymi ma charakter korelacyjny 3.Zbadaniu, jaka funkcja matematyczna może najlepiej przedstawić związek korelacyjny dwóch cech statystycznych

11 Jeżeli dysponujemy informacjami o całej populacji, to ze względu na zbieżność pojęć: cecha statystyczna i zmienna losowa, możemy analizować współzależność cech statystycznych jako współzależność zmiennych losowych Jeżeli nie dysponujemy informacjami o całej populacji, ale mamy do dyspozycji dane z próby losowej pobranej z tej populacji, to korzystamy z metod wnioskowania statystycznego o współzależności cech czyli tak, jak na ostatnim wykładzie i ćwiczeniach czyli sprawdzamy jak współzależność kształtuje się w próbie i za pomocą odpowiednich testów i hipotez statystycznych sprawdzamy, czy wnioski dotyczące naszej próby możemy uogólnić na całą populację

12 Wnioskowanie o współzależności cech statystycznych sprowadza się do: 1.Wnioskowania o zależności typu stochastycznego i estymacji jego siły 2.Estymacji siły związku korelacyjnego i wnioskowania o jego istotności statystycznej (sprawdzenie, czy związek korelacyjny występuje również w całej populacji) 3.Wnioskowania o regresji cech statystycznych Ad. 1 - test niezależności chi-kwadrat i współczynnik V-Cramera Ad. 2 - współczynnik korelacji liniowej Pearsona i test istotności współczynnika korelacji liniowej Pearsona

13 ZALEŻNOŚĆ STOCHASTYCZNA CECH STATYSTYCZNYCH

14 Weryfikacja hipotezy o niezależności stochastycznej cech statystycznych Hipoteza zerowa: H 0 : p ij = p i. p.j – cechy statystyczne są niezależne stochastycznie Hipoteza alternatywna: H 1 : p ij ≠ p i. p.j – cechy statystyczne są zależne stochastycznie Statystyka testująca: ma rozkład chi-kwadrat v=(k – 1)(l – 1) k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) ZWIĄZEK STOCHASTYCZNY

15 Statystyka testująca: k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) Liczebności teoretyczne – czyli takie liczebności, jakie obserwowalibyśmy w dwuwymiarowych rozkładzie empirycznym, gdyby badane cechy były niezależne stochastycznie Jeśli cechy cechy są niezależne stochastycznie to dla każdej pary (i,j) powinien zachodzić warunek, gdzie ZWIĄZEK STOCHASTYCZNY Liczebności brzegowe

16 Statystyka testująca: Statystyka testująca pozwala ocenić rozbieżności między liczebnościami empirycznymi a teoretycznymi Im będą one większe, tym większe będą różnice między rozkładem empirycznym a teoretycznym i większe będą podstawy, aby odrzucać hipotezę zerową o niezależności stochastycznej cech ZWIĄZEK STOCHASTYCZNY

17 Statystyka testująca: Do oceny, jakie wartości statystyki testującej można uznać za wystarczająco duże do odrzucenia hipotezy zerowej, wykorzystuje się wartości rozkładu chi-kwadrat Obszar odrzucenia wyznaczany jest przez wartość odczytaną z tablic wartości krytycznych rozkładu chi-kwadrat. Obszar odrzucenia jest zawsze prawostronny: <, + ∞) ZWIĄZEK STOCHASTYCZNY

18 Siłę stwierdzonego związku stochastycznego ocenia się za pomocą współczynnika zbieżności V-Cramera gdzie: n – liczebność próby; g = min{k, l} V = 0 – stochastyczna niezależność zmiennych V = 1 – cechy łączy związek deterministyczny, opisywany przez funkcję matematyczną SIŁA ZWIĄZKU STOCHASTYCZNEGO

19 Odrzucenie hipotezy o niezależności stochastycznej cech statystycznych skłania do szukania odpowiedzi na pytanie: czy stwierdzona zależność może przybierać bardziej konkretne formy (np. związek korelacyjny) i czy można ją modelować (regresja). SIŁA ZWIĄZKU STOCHASTYCZNEGO

20 Na zlecenie jednego z operatorów sieci telefonii komórkowej agencja badania rynku „PENETRATOR” wykonała duże badanie konsumenckie, w którym zebrano informacje na temat rynku telefonii komórkowej oraz zwyczajów i nawyków związanych z korzystaniem z komórek. Badanie zostało zrealizowane na reprezentatywnej próbie 1000 gospodarstw domowych, w których znajduje się, co najmniej jeden telefon komórkowy z abonamentem. Poniższa tabela zawiera rozkład łączny (liczebności) wydatków na rachunki telefoniczne względem miejsca zamieszkania. PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN19516575435 90135190415 powyżej 2001510125150 razem3003103901000 Czy między miejscem zamieszkania a wielkością wydatków na rachunki występuje zależność strochastyczna?

21 Hipoteza zerowa: H 0 : p ij = p i. p.j – wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są niezależne stochastycznie Hipoteza alternatywna: H 1 : p ij ≠ p i. p.j – wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są zależne stochastycznie Statystyka testująca: v=(k – 1)(l – 1) k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) PRZYKŁAD

22 n = 1000 PRZYKŁAD wieśmałe miastaduże miasta razem mniej niż 100 PLN19516575435 90135190415 powyżej 2001510125150 razem3003103901000 Liczebności empiryczne n ij Liczebności brzegowe

23 n = 1000 PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN19516575435 90135190415 powyżej 2001510125150 razem3003103901000 wieśmałe miastaduże miasta razem mniej niż 100 PLN130,5134,85169,65435 124,5128,65161,85415 powyżej 2004546,558,5150 razem3003103901000 Liczebności teoretyczne Liczebności empiryczne n ij

24 n = 1000 PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN19516575435 90135190415 powyżej 2001510125150 razem3003103901000 wieśmałe miastaduże miasta razem mniej niż 100 PLN130,5134,85169,65435 124,5128,65161,85415 powyżej 2004546,558,5150 razem3003103901000 k- liczba kolumn k = 3 l – liczba wierszy l = 3

25 PRZYKŁAD v=(k – 1)(l – 1) = (3 – 1) (3 – 1) = 4 k- liczba kolumn l – liczba wierszy χ 2 obl > 9,488  na poziomie istotności 0,05 odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną; wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są zależne stochastycznie. Ale jaka jest siła tej zależności? n – liczebność próby; g = min{k, l} Otrzymany wynik wskazuje na niezbyt silną zależność stochastyczną między wielkością miejsca zamieszkania i wysokością wydatków telefonicznych

26 ZWIĄZEK KORELACYJNY

27 Korelacja cech statystycznych polega na przyporządkowaniu wartościom jednej cechy średnich wartości cechy drugiej. Średnie te są charakterystykami kolejnych rozkładów warunkowych cechy uznanej za zależną ZWIĄZEK KORELACYJNY Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 razem 6134124 Sprawdźmy, jak czas dotarcia zależy od liczby rodzeństwa Czas dotarcia – zmienna zależna Liczba rodzeństwa – zmienna niezależna

28 Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i >Liczba rodzeństwa suma 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 razem 6134124 (y 0i - y 1i >n i1 w i1 0-10 22/6 10-20 00/6 20-30 00/6 30-40 00/6 40-50 33/6 50-60 11/6 razem 61 Dla liczby rodzeństwa = 0 Dla 6 studentów nie posiadających rodzeństwa średni czas dotarcia na uczelnię wynosi 33,33 min z odchyleniem standardowym 22,28 min

29 Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i > Liczba rodzeństwa sum a 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 razem 6134124 (y 0i - y 1i >n i1 w i1 0-10 22/6 10-20 00/6 20-30 00/6 30-40 00/6 40-50 33/6 50-60 11/6 razem 61 Dla liczby rodzeństwa = 0Dla liczby rodzeństwa = 1 (y 0i - y 1i >n i2 w i2 0-10 33/13 10-20 22/13 20-30 22/13 30-40 22/13 40-50 22/13 50-60 22/13 razem 131 Dla 6 studentów nie posiadających rodzeństwa średni czas dotarcia na uczelnię wynosi 33,33 min z odchyleniem standardowym 22,28 min Dla 13 studentów posiadających 1 rodzeństwo średni czas dotarcia na uczelnię wynosi 28,08 min z odchyleniem standardowym 18,43 min

30 Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i >Liczba rodzeństwa suma 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 razem 6134124 Dla liczby rodzeństwa = 0Dla liczby rodzeństwa = 1Dla liczby rodzeństwa = 2 Dla liczby rodzeństwa = 3 Korelacja czasu dotarcia względem liczby rodzeństwa

31 Miarą związku korelacyjnego jest współczynnik korelacji liniowej r przyjmuje wartości Wartości ujemne oznaczają, że korelacja jest ujemna, czyli wraz ze wzrostem wartości jednej cechy obserwuje się spadek wartości średnich warunkowych drugiej cechy Wartości dodatnie oznaczają, że korelacja jest dodatnia, czyli wraz ze wzrostem wartości jednej cechy obserwuje się wzrost wartości średnich warunkowych drugiej cechy Wartość 0 oznacza, że korelacja między cechami nie występuje ZWIĄZEK KORELACYJNY

32 1.Zależność ujemna  Korelacja ujemna r = -1 2.Zależność dodatnia  Korelacja dodatnia r = 1 3.Zależność krzywoliniowa lub brak zależności  r = 0 ZWIĄZEK KORELACYJNY a zależność stochastyczna

33 Miarą związku korelacyjnego jest współczynnik korelacji liniowej r Dla danych pogrupowanych: Dla danych indywidualnych: ZWIĄZEK KORELACYJNY

34 ZWIĄZEK KORELACYJNY – przykład (y 0i - y 1i >Liczba rodzeństwa Suma 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 suma 6134124

35 ZWIĄZEK KORELACYJNY – przykład (y 0i - y 1i >Liczba rodzeństwa Suma 0123 0-10 23117 10-20 02103 20-30 02103 30-40 02103 40-50 32005 50-60 12003 suma 6134124 Otrzymany wynik wskazuje na ujemną i słabą korelację liniową między czasem dotarcia na uczelnię a liczbą rodzeństwa w grupie 24 badanych studentów. Oznacza to, że wraz ze wzrostem liczby rodzeństwa maleje średni czas dotarcia na uczelnię. Ale czy można wniosek o korelacji liniowej między czasem dotarcia na uczelnię a liczbą rodzeństwa uogólnić na całą populację studentów?

36 Przetestuj hipotezę o istotności współczynnika korelacji liniowej Pearsona

37 Badanie istotności współczynnika korelacji liniowej Pearsona Hipoteza zerowa: H 0 : ρ = 0 – współczynnik korelacji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ ≠ 0 – współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : ρ > 0 – współczynnik korelacji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : ρ < 0 – współczynnik korelacji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)

38 Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny

39 Badanie istotności współczynnika korelacji liniowej Pearsona - przykład n = 1000 Hipoteza zerowa: H 0 : ρ = 0 – współczynnik korelacji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ ≠ 0 – współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) -2,704 < t obl < 2,704  na poziomie istotności 0,05 brak podstaw do odrzucenia hipotezy zerowej; współczynnik korelacji liniowej jest nieistotny statystycznie, czyli dla wszystkich studentów korelacja liniowa między liczbą rodzeństwa a czasem dotarcia na uczelnię nie występuje;

40 WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA zawsze dla dwóch cech porangowanych

41 Miara związku korelacyjnego dla danych występujących w postaci rang (np. dla dwóch cech niemierzalnych, których wartości zostały ułożone w ranking) Szukamy prawidłowości w kolejności rang d i – różnica między rangami nadanymi obu cechom dla i-tej jednostki obserwacji n – liczba jednostek poddawanych obserwacji (liczebność próby) kolejne liczby rankingu określa się mianem rang

42 r S = 0 – nie występuje związek korelacyjny między dwoma cechami (w porządku rang dla obu cech nie ma żadnych prawidłowości) r S > 0 – występuje dodatni związek korelacyjny między dwoma cechami (wraz ze wzrostem rang dla jednej cechy wzrastają też rangi dla cechy drugiej) r S < 0 – występuje ujemny związek korelacyjny między dwoma cechami (wraz ze wzrostem rang dla jednej cechy maleją rangi dla cechy drugiej)

43 Badanie istotności współczynnika korelacji rang Spearmana Hipoteza zerowa: H 0 : ρ S = 0 – współczynnik korelacji rang jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ S ≠ 0 – współczynnik korelacji rang jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : ρ S > 0 – współczynnik korelacji rang jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : ρ S < 0 – współczynnik korelacji rang jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)

44 Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny

45 Przykład (na podstawie Przystępny kurs ze statystyki, A. Stanisz, StatSoft, Kraków 2006) Chcemy ustalić związek między opiniami wydanymi przez dwóch lekarzy o zdrowiu 10 pacjentów. Opinie zostały przedstawione w punktach: Uporządkujmy rosnąco lub malejąco liczby punktów i nadajmy im rangi pacjenciABCDEFGHIJ I lekarz42273633244739524337 II lekarz39243529264744513932 pacjenciABCDEFGHIJ I lekarz72431961085 II lekarz6,5153298106,54 pacjenciABCDEFGHIJ Różnice d i 0,510 0-201,51

46 Przykład (na podstawie Przystępny kurs ze statystyki, A. Stanisz, StatSoft, Kraków 2006) n = 10 Otrzymany wynik wskazuje na silną dodatnią współzależność opinii dwóch lekarzy o stanie zdrowia 10 badanych pacjentów Ale czy można wniosek o występowaniu współzależności opinii tych dwóch lekarzy uogólnić na całą populację pacjentów? pacjenciABCDEFGHIJ Różnice d i 0,510 0-201,51 Przetestuj hipotezę o istotności współczynnika korelacji rang Spearmana

47 Badanie istotności współczynnika korelacji rang Spearmana Hipoteza zerowa: H 0 : ρ S = 0 – współczynnik korelacji rang jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ S ≠ 0 – współczynnik korelacji rang jest istotny statystycznie (w populacji różni się istotnie od 0) t obl > 2,306  na poziomie istotności 0,05 odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną; współczynnik korelacji rang jest istotny statystycznie, czyli można mówić, że również dla wszystkich pacjentów występowałaby współzależności opinii obu lekarzy; Podejmując taką decyzję musimy liczyć się z tym, że z prawdopodobieństwem 0,05 możemy się pomylić (błąd I rodzaju) ;


Pobierz ppt "STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii."

Podobne prezentacje


Reklamy Google