STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii
CECHA STATYSTYCZNA WIELOWYMIAROWA
Dane indywidualne Każdy student wchodzący w skład badanej zbiorowości jest opisany jednocześnie przez 3 cechy; jest „trójwymiarowy”; Liczba opisujących studenta cech decyduje o wymiarze cechy wielowymiarowej u nas mamy cechę trójwymiarową; Cecha jednowymiarowa to osobno: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię Cecha trójwymiarowa to jednocześnie: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię
Dla cechy wielowymiarowej klasyfikacja na: 1.cechy mierzalne i niemierzalne 2.cechy skokowe i ciągłe jest analogiczna jak dla cechy jednowymiarowej
Wśród charakterystyk każdego ze studentów wyróżnimy łącznie jedynie dwie cechy. Będziemy je oznaczać przez X i Y Możemy „łączyć” ze sobą zarówno cechy mierzalne i niemierzalne oraz cechy skokowe i ciągłe w różnych kombinacjach W rezultacie otrzymujemy zbiór par postaci (x i, y j ), gdzie x i jest zaobserwowaną u badanego studenta i-tą kategorią cechy X oraz y j jest zaobserwowaną u tego samego studenta j-tą kategorią cechy Y CECHA DWUWYMIAROWA
Otrzymane informacje (pary liczb) można analizować: 1.w układzie indywidualnym oddzielne rozkłady każdej z cech (rozkłady jednowymiarowe), 2.w układzie łącznym, czyli w formie danych pogrupowanych w rozkład (rozkład dwuwymiarowy) CECHA DWUWYMIAROWA
CECHY JEDNOWYMIAROWE x i - kolor oczunini wiwi niebieski10 0,417 zielony5 0,208 brązowy5 0,208 szary4 0,167 suma241 z i – liczba rodzeństwanini wiwi 06 0, , , ,042 suma241 (y 0i - y 1i > – czasnini wiwi , , , , , ∞3 0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów
CECHA DWUWYMIAROWA Kolor oczu Liczba rodzeństwa razem 0123 brązowy13105 niebieski szary03104 zielony12115 razem Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem razem
ANALIZA WSPÓŁZALEŻNOŚCI CECH STATYSTYCZNYCH
Analiza współzależności cech statystycznych polega na: 1.Ustaleniu, czy między badanymi cechami statystycznymi występuje związek typu stochastycznego, czyli czy przyjmowanie przez jedną cechę statystyczną określonych wartości ma wpływ na rozkład drugiej cechy statystycznej 2.Określeniu, czy związek występujący między cechami statystycznymi ma charakter korelacyjny 3.Zbadaniu, jaka funkcja matematyczna może najlepiej przedstawić związek korelacyjny dwóch cech statystycznych
Jeżeli dysponujemy informacjami o całej populacji, to ze względu na zbieżność pojęć: cecha statystyczna i zmienna losowa, możemy analizować współzależność cech statystycznych jako współzależność zmiennych losowych Jeżeli nie dysponujemy informacjami o całej populacji, ale mamy do dyspozycji dane z próby losowej pobranej z tej populacji, to korzystamy z metod wnioskowania statystycznego o współzależności cech czyli tak, jak na ostatnim wykładzie i ćwiczeniach czyli sprawdzamy jak współzależność kształtuje się w próbie i za pomocą odpowiednich testów i hipotez statystycznych sprawdzamy, czy wnioski dotyczące naszej próby możemy uogólnić na całą populację
Wnioskowanie o współzależności cech statystycznych sprowadza się do: 1.Wnioskowania o zależności typu stochastycznego i estymacji jego siły 2.Estymacji siły związku korelacyjnego i wnioskowania o jego istotności statystycznej (sprawdzenie, czy związek korelacyjny występuje również w całej populacji) 3.Wnioskowania o regresji cech statystycznych Ad. 1 - test niezależności chi-kwadrat i współczynnik V-Cramera Ad. 2 - współczynnik korelacji liniowej Pearsona i test istotności współczynnika korelacji liniowej Pearsona
ZALEŻNOŚĆ STOCHASTYCZNA CECH STATYSTYCZNYCH
Weryfikacja hipotezy o niezależności stochastycznej cech statystycznych Hipoteza zerowa: H 0 : p ij = p i. p.j – cechy statystyczne są niezależne stochastycznie Hipoteza alternatywna: H 1 : p ij ≠ p i. p.j – cechy statystyczne są zależne stochastycznie Statystyka testująca: ma rozkład chi-kwadrat v=(k – 1)(l – 1) k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) ZWIĄZEK STOCHASTYCZNY
Statystyka testująca: k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) Liczebności teoretyczne – czyli takie liczebności, jakie obserwowalibyśmy w dwuwymiarowych rozkładzie empirycznym, gdyby badane cechy były niezależne stochastycznie Jeśli cechy cechy są niezależne stochastycznie to dla każdej pary (i,j) powinien zachodzić warunek, gdzie ZWIĄZEK STOCHASTYCZNY Liczebności brzegowe
Statystyka testująca: Statystyka testująca pozwala ocenić rozbieżności między liczebnościami empirycznymi a teoretycznymi Im będą one większe, tym większe będą różnice między rozkładem empirycznym a teoretycznym i większe będą podstawy, aby odrzucać hipotezę zerową o niezależności stochastycznej cech ZWIĄZEK STOCHASTYCZNY
Statystyka testująca: Do oceny, jakie wartości statystyki testującej można uznać za wystarczająco duże do odrzucenia hipotezy zerowej, wykorzystuje się wartości rozkładu chi-kwadrat Obszar odrzucenia wyznaczany jest przez wartość odczytaną z tablic wartości krytycznych rozkładu chi-kwadrat. Obszar odrzucenia jest zawsze prawostronny: <, + ∞) ZWIĄZEK STOCHASTYCZNY
Siłę stwierdzonego związku stochastycznego ocenia się za pomocą współczynnika zbieżności V-Cramera gdzie: n – liczebność próby; g = min{k, l} V = 0 – stochastyczna niezależność zmiennych V = 1 – cechy łączy związek deterministyczny, opisywany przez funkcję matematyczną SIŁA ZWIĄZKU STOCHASTYCZNEGO
Odrzucenie hipotezy o niezależności stochastycznej cech statystycznych skłania do szukania odpowiedzi na pytanie: czy stwierdzona zależność może przybierać bardziej konkretne formy (np. związek korelacyjny) i czy można ją modelować (regresja). SIŁA ZWIĄZKU STOCHASTYCZNEGO
Na zlecenie jednego z operatorów sieci telefonii komórkowej agencja badania rynku „PENETRATOR” wykonała duże badanie konsumenckie, w którym zebrano informacje na temat rynku telefonii komórkowej oraz zwyczajów i nawyków związanych z korzystaniem z komórek. Badanie zostało zrealizowane na reprezentatywnej próbie 1000 gospodarstw domowych, w których znajduje się, co najmniej jeden telefon komórkowy z abonamentem. Poniższa tabela zawiera rozkład łączny (liczebności) wydatków na rachunki telefoniczne względem miejsca zamieszkania. PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN powyżej razem Czy między miejscem zamieszkania a wielkością wydatków na rachunki występuje zależność strochastyczna?
Hipoteza zerowa: H 0 : p ij = p i. p.j – wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są niezależne stochastycznie Hipoteza alternatywna: H 1 : p ij ≠ p i. p.j – wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są zależne stochastycznie Statystyka testująca: v=(k – 1)(l – 1) k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) PRZYKŁAD
n = 1000 PRZYKŁAD wieśmałe miastaduże miasta razem mniej niż 100 PLN powyżej razem Liczebności empiryczne n ij Liczebności brzegowe
n = 1000 PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN powyżej razem wieśmałe miastaduże miasta razem mniej niż 100 PLN130,5134,85169, ,5128,65161,85415 powyżej ,558,5150 razem Liczebności teoretyczne Liczebności empiryczne n ij
n = 1000 PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN powyżej razem wieśmałe miastaduże miasta razem mniej niż 100 PLN130,5134,85169, ,5128,65161,85415 powyżej ,558,5150 razem k- liczba kolumn k = 3 l – liczba wierszy l = 3
PRZYKŁAD v=(k – 1)(l – 1) = (3 – 1) (3 – 1) = 4 k- liczba kolumn l – liczba wierszy χ 2 obl > 9,488 na poziomie istotności 0,05 odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną; wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są zależne stochastycznie. Ale jaka jest siła tej zależności? n – liczebność próby; g = min{k, l} Otrzymany wynik wskazuje na niezbyt silną zależność stochastyczną między wielkością miejsca zamieszkania i wysokością wydatków telefonicznych
ZWIĄZEK KORELACYJNY
Korelacja cech statystycznych polega na przyporządkowaniu wartościom jednej cechy średnich wartości cechy drugiej. Średnie te są charakterystykami kolejnych rozkładów warunkowych cechy uznanej za zależną ZWIĄZEK KORELACYJNY Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem razem Sprawdźmy, jak czas dotarcia zależy od liczby rodzeństwa Czas dotarcia – zmienna zależna Liczba rodzeństwa – zmienna niezależna
Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i >Liczba rodzeństwa suma razem (y 0i - y 1i >n i1 w i / / / / / /6 razem 61 Dla liczby rodzeństwa = 0 Dla 6 studentów nie posiadających rodzeństwa średni czas dotarcia na uczelnię wynosi 33,33 min z odchyleniem standardowym 22,28 min
Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i > Liczba rodzeństwa sum a razem (y 0i - y 1i >n i1 w i / / / / / /6 razem 61 Dla liczby rodzeństwa = 0Dla liczby rodzeństwa = 1 (y 0i - y 1i >n i2 w i / / / / / /13 razem 131 Dla 6 studentów nie posiadających rodzeństwa średni czas dotarcia na uczelnię wynosi 33,33 min z odchyleniem standardowym 22,28 min Dla 13 studentów posiadających 1 rodzeństwo średni czas dotarcia na uczelnię wynosi 28,08 min z odchyleniem standardowym 18,43 min
Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i >Liczba rodzeństwa suma razem Dla liczby rodzeństwa = 0Dla liczby rodzeństwa = 1Dla liczby rodzeństwa = 2 Dla liczby rodzeństwa = 3 Korelacja czasu dotarcia względem liczby rodzeństwa
Miarą związku korelacyjnego jest współczynnik korelacji liniowej r przyjmuje wartości Wartości ujemne oznaczają, że korelacja jest ujemna, czyli wraz ze wzrostem wartości jednej cechy obserwuje się spadek wartości średnich warunkowych drugiej cechy Wartości dodatnie oznaczają, że korelacja jest dodatnia, czyli wraz ze wzrostem wartości jednej cechy obserwuje się wzrost wartości średnich warunkowych drugiej cechy Wartość 0 oznacza, że korelacja między cechami nie występuje ZWIĄZEK KORELACYJNY
1.Zależność ujemna Korelacja ujemna r = -1 2.Zależność dodatnia Korelacja dodatnia r = 1 3.Zależność krzywoliniowa lub brak zależności r = 0 ZWIĄZEK KORELACYJNY a zależność stochastyczna
Miarą związku korelacyjnego jest współczynnik korelacji liniowej r Dla danych pogrupowanych: Dla danych indywidualnych: ZWIĄZEK KORELACYJNY
ZWIĄZEK KORELACYJNY – przykład (y 0i - y 1i >Liczba rodzeństwa Suma suma
ZWIĄZEK KORELACYJNY – przykład (y 0i - y 1i >Liczba rodzeństwa Suma suma Otrzymany wynik wskazuje na ujemną i słabą korelację liniową między czasem dotarcia na uczelnię a liczbą rodzeństwa w grupie 24 badanych studentów. Oznacza to, że wraz ze wzrostem liczby rodzeństwa maleje średni czas dotarcia na uczelnię. Ale czy można wniosek o korelacji liniowej między czasem dotarcia na uczelnię a liczbą rodzeństwa uogólnić na całą populację studentów?
Przetestuj hipotezę o istotności współczynnika korelacji liniowej Pearsona
Badanie istotności współczynnika korelacji liniowej Pearsona Hipoteza zerowa: H 0 : ρ = 0 – współczynnik korelacji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ ≠ 0 – współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : ρ > 0 – współczynnik korelacji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : ρ < 0 – współczynnik korelacji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)
Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny
Badanie istotności współczynnika korelacji liniowej Pearsona - przykład n = 1000 Hipoteza zerowa: H 0 : ρ = 0 – współczynnik korelacji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ ≠ 0 – współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) -2,704 < t obl < 2,704 na poziomie istotności 0,05 brak podstaw do odrzucenia hipotezy zerowej; współczynnik korelacji liniowej jest nieistotny statystycznie, czyli dla wszystkich studentów korelacja liniowa między liczbą rodzeństwa a czasem dotarcia na uczelnię nie występuje;
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA zawsze dla dwóch cech porangowanych
Miara związku korelacyjnego dla danych występujących w postaci rang (np. dla dwóch cech niemierzalnych, których wartości zostały ułożone w ranking) Szukamy prawidłowości w kolejności rang d i – różnica między rangami nadanymi obu cechom dla i-tej jednostki obserwacji n – liczba jednostek poddawanych obserwacji (liczebność próby) kolejne liczby rankingu określa się mianem rang
r S = 0 – nie występuje związek korelacyjny między dwoma cechami (w porządku rang dla obu cech nie ma żadnych prawidłowości) r S > 0 – występuje dodatni związek korelacyjny między dwoma cechami (wraz ze wzrostem rang dla jednej cechy wzrastają też rangi dla cechy drugiej) r S < 0 – występuje ujemny związek korelacyjny między dwoma cechami (wraz ze wzrostem rang dla jednej cechy maleją rangi dla cechy drugiej)
Badanie istotności współczynnika korelacji rang Spearmana Hipoteza zerowa: H 0 : ρ S = 0 – współczynnik korelacji rang jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ S ≠ 0 – współczynnik korelacji rang jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : ρ S > 0 – współczynnik korelacji rang jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : ρ S < 0 – współczynnik korelacji rang jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)
Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny
Przykład (na podstawie Przystępny kurs ze statystyki, A. Stanisz, StatSoft, Kraków 2006) Chcemy ustalić związek między opiniami wydanymi przez dwóch lekarzy o zdrowiu 10 pacjentów. Opinie zostały przedstawione w punktach: Uporządkujmy rosnąco lub malejąco liczby punktów i nadajmy im rangi pacjenciABCDEFGHIJ I lekarz II lekarz pacjenciABCDEFGHIJ I lekarz II lekarz6, ,54 pacjenciABCDEFGHIJ Różnice d i 0, ,51
Przykład (na podstawie Przystępny kurs ze statystyki, A. Stanisz, StatSoft, Kraków 2006) n = 10 Otrzymany wynik wskazuje na silną dodatnią współzależność opinii dwóch lekarzy o stanie zdrowia 10 badanych pacjentów Ale czy można wniosek o występowaniu współzależności opinii tych dwóch lekarzy uogólnić na całą populację pacjentów? pacjenciABCDEFGHIJ Różnice d i 0, ,51 Przetestuj hipotezę o istotności współczynnika korelacji rang Spearmana
Badanie istotności współczynnika korelacji rang Spearmana Hipoteza zerowa: H 0 : ρ S = 0 – współczynnik korelacji rang jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ S ≠ 0 – współczynnik korelacji rang jest istotny statystycznie (w populacji różni się istotnie od 0) t obl > 2,306 na poziomie istotności 0,05 odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną; współczynnik korelacji rang jest istotny statystycznie, czyli można mówić, że również dla wszystkich pacjentów występowałaby współzależności opinii obu lekarzy; Podejmując taką decyzję musimy liczyć się z tym, że z prawdopodobieństwem 0,05 możemy się pomylić (błąd I rodzaju) ;