STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii
CECHA STATYSTYCZNA WIELOWYMIAROWA
Dane indywidualne Każdy student wchodzący w skład badanej zbiorowości jest opisany jednocześnie przez 3 cechy; jest „trójwymiarowy”; Liczba opisujących studenta cech decyduje o wymiarze cechy wielowymiarowej u nas mamy cechę trójwymiarową; Cecha jednowymiarowa to osobno: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię Cecha trójwymiarowa to jednocześnie: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię
Dla cechy wielowymiarowej klasyfikacja na: 1.cechy mierzalne i niemierzalne 2.cechy skokowe i ciągłe jest analogiczna jak dla cechy jednowymiarowej
Wśród charakterystyk każdego ze studentów wyróżnimy łącznie jedynie dwie cechy. Będziemy je oznaczać przez X i Y Możemy „łączyć” ze sobą zarówno cechy mierzalne i niemierzalne oraz cechy skokowe i ciągłe w różnych kombinacjach W rezultacie otrzymujemy zbiór par postaci (x i, y j ), gdzie x i jest zaobserwowaną u badanego studenta i-tą kategorią cechy X oraz y j jest zaobserwowaną u tego samego studenta j-tą kategorią cechy Y CECHA DWUWYMIAROWA
Otrzymane informacje (pary liczb) można analizować: 1.w układzie indywidualnym oddzielne rozkłady każdej ze zmiennych (rozkłady jednowymiarowe), 2.w układzie łącznym, czyli w formie danych pogrupowanych w rozkład (rozkład dwuwymiarowy) CECHA DWUWYMIAROWA
CECHY JEDNOWYMIAROWE x i - kolor oczunini wiwi niebieski10 0,417 zielony5 0,208 brązowy5 0,208 szary4 0,167 suma241 z i – liczba rodzeństwanini wiwi 06 0, , , ,042 suma241 (y 0i - y 1i > – czasnini wiwi , , , , , ∞3 0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów
CECHA DWUWYMIAROWA Kolor oczu Liczba rodzeństwa razem 0123 brązowy13105 niebieski szary03104 zielony12115 razem Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem razem
ROZKŁAD ZMIENNEJ DWUWYMIAROWEJ
ZMIENNA LOSOWA DWUWYMIAROWA DEFINICJA Zmienna losowa dwuwymiarowa jest to funkcja dwuwymiarowa opisana na zbiorze zdarzeń elementarnych Oznacza to, że każdemu zdarzeniu elementarnemu przypisane są dwie wartości tej funkcji
ZMIENNA LOSOWA DWUWYMIAROWA Rozkład dwuwymiarowej zmiennej losowej można opisać trzema sposobami: Dla zmiennej losowej skokowej: 1.Funkcja prawdopodobieństwa 2.Dystrybuanta 3.Parametry rozkładu Dla zmiennej losowej ciągłej: 1.Funkcja gęstości 2.Dystrybuanta 3.Parametry rozkładu Analogicznie jak w przypadku zmiennej jednowymiarowej
DWUWYMIAROWA ZMIENNA LOSOWA SKOKOWA
ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkład dwuwymiarowej zmiennej losowej można przedstawić: 1.W układzie łącznym (rozkład dwuwymiarowy) 2.W układzie warunkowym tylko jeśli zmienne tworzące zmienną dwuwymiarową są zależne (rozkłady warunkowe)
ŁĄCZNY ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkład łączny opisują prawdopodobieństwa występowania pary liczb (X, Y). Jest on analogiczny do sposobu przedstawiania prawdopodobieństwa iloczynu zdarzeń losowych. Wystąpienie pary liczb (X, Y) oznacza iloczyn takich zdarzeń, że X = x i oraz Y = y j. Funkcja prawdopodobieństwa dwuwymiarowej zmiennej losowej p ij = P(X = x i, Y = y j ) przy czym: gdzie: k – liczba kategorii zmiennej X, j – liczba kategorii zmiennej Y
ROZKŁADY BRZEGOWE DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkłady brzegowe zmiennej losowej dwuwymiarowej to oddzielne rozkłady każdej ze zmiennych tworzących dwuwymiarową zmienną losową Powstają jako: 1.Rozkład brzegowy zmiennej X 2.Rozkład brzegowy zmiennej Y
ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 11 p 12 …p 1l p 1. x2x2 p 21 p 22 …p 2l p 2. ………p ij … xkxk p k1 p k2 …p kl p k. p.j p.1 p.2 …p.l 1 Rozkład brzegowy zmiennej X Rozkład brzegowy zmiennej Y Rozkład łączny zmiennej (X, Y)
Rozkłady brzegowe pokazują prawidłowości w przejawianiu się każdej ze zmiennych X i Y oddzielnie Całkowicie ignorują sposób i wartości „pojawiania się” zmiennej „towarzyszącej”
DYSTRYBUANTA DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ
Dystrybuanta dwuwymiarowej zmiennej losowej skokowej w punkcie (x 0, y 0 ) to prawdopodobieństwo, że zmienna losowa X przyjmie wartości nie większe niż x 0 i jednocześnie zmienna losowa Y przyjmie wartości nie większe ni y 0
PARAMETRY ROZKŁADU DWYWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ
PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 1.Wartość oczekiwana E(X, Y), która jest wektorem o składowych E(X) oraz E(Y) E(X, Y) = [E(X), E(Y)] 2.Wariancja D 2 (X, Y), która jest wektorem o składowych D 2 (X) oraz D 2 (Y) D 2 (X, Y) = [D 2 (X), D 2 (Y)] 3.Kowariancja C(X, Y), która jest skalarem wyznaczanym według wzoru Dla zmiennej losowej skokowej wzór przyjmuje postać:
PRZYKŁAD na podstawie M. Rószkiewicz Statystyka. Kurs podstawowy Efekt, Warszawa 2002
Na zbiorze 10 jednakowo prawdopodobnych zdarzeń elementarnych E i (i = 1, …,10) opisano zmienne losowe X i Y. Każdemu zdarzeniu elementarnemu przypisano zatem parę liczb (x i, y j ) Czyli na zbiorze zdarzeń elementarnych E i zdefiniowano zmienną losową dwuwymiarową o łącznym rozkładzie postaci: EiEi E1E1 E2E2 E3E3 E4E4 E5E5 E6E6 E7E7 E8E8 E9E9 E 10 X Y xixi yjyj , ,2 0
Rozkłady brzegowe: Rozkład brzegowy X: 0,1 + 0,1 + 0,1 + 0,1 = 0,4 0,1 + 0, = 0, ,2 + 0,2 + 0 = 0,4 Rozkład brzegowy Y: 0,2 = 0,1 + 0, ,4 = 0,1 + 0,1 + 0,2 0,3 = 0, ,2 0,1 = 0, xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj 1234 p.j 0,20,40,30,1
xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj p.j 10,2 20,4 30,3 40,1 PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 1.Wartość oczekiwana E(X, Y) = [E(X), E(Y)] E(X, Y) = [0; 2,3] 2.Wariancja D 2 (X, Y) = [D 2 (X), D 2 (Y)] D 2 (X, Y) = [0,8; 0,81)]
xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj p.j 10,2 20,4 30,3 40,1 PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 3.Kowariancja C(X, Y)
ROZKŁADY WARUNKOWE DWYWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ
Rozkłady warunkowe ukazują rozkłady prawdopodobieństwa każdej ze zmiennych tworzących dwuwymiarową zmienną losową oddzielnie ALE przy przyjęciu założenia, że druga ze zmiennych przyjmuje określoną wartość Tak samo jak w przypadku rozkładów brzegowych
Dla zmiennej skokowej: 1.Rozkład warunkowy zmiennej X pod warunkiem, że Y = y j 2.Rozkład warunkowy zmiennej Y pod warunkiem, że X = x i xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 11 p 12 …p 1l p 1. x2x2 p 21 p 22 …p 2l p 2. ………p ij … xkxk p k1 p k2 …p kl p k. p.j p.1 p.2 p.l 1
PRZYKŁAD cd na podstawie M. Rószkiewicz Statystyka. Kurs podstawowy Efekt, Warszawa 2002
xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 Rozkład warunkowy zmiennej X pod warunkiem, że Y = y j xixi 0 1 suma1111
xixi 0 1 suma1111 Istnieją 4 różne rozkłady warunkowe zmiennej X czyli tyle, ile wartości może przyjąć zmienna Y Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej X, ile można nałożyć warunków na zmienną Y czyli każdej wartości zmiennej Y można przyporządkować odpowiedni rozkład zmiennej X To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y
xixi 0 1 suma1111 Dla każdego z rozkładów warunkowych policzyć można wartość oczekiwaną i wariancję (średnią warunkową oraz wariancję warunkową) Przykładowo dla rozkładu X/Y=2
xixi ,50,250,33 0,250,690,890 Średnie warunkowe zmiennej X Wariancje warunkowe zmiennej X
xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 Rozkład warunkowy zmiennej Y pod warunkiem, że X = x i yiyi suma111 Istnieją 3 różne rozkłady warunkowe zmiennej Y czyli tyle, ile wartości może przyjąć zmienna X
Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej Y, ile można nałożyć warunków na zmienną X czyli każdej wartości zmiennej X można przyporządkować odpowiedni rozkład zmiennej Y To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y
yiyi suma111 Dla każdego z tych rozkładów policzyć można wartość oczekiwaną i wariancję (średnią warunkową oraz wariancję warunkową) Przykładowo dla rozkładu Y/X= -1
yiyi ,51,52,5 1,250,25 Średnie warunkowe zmiennej Y Wariancje warunkowe zmiennej Y
Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej Y, ile można nałożyć warunków na zmienną X czyli każdej wartości zmiennej X można przyporządkować odpowiedni rozkład zmiennej Y To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y
Związek stochastyczny między dwoma zmiennymi występuje wtedy, gdy rozkłady warunkowe jednej zmiennej „reagują” na przyjmowanie przez drugą zmienną konkretnych wartości ZWIĄZEK STOCHASTYCZNY xixi ,50,250,33 0,250,690,890
Gdy rozkłady warunkowe jednej zmiennej są takie same i takie same jak jej rozkład brzegowy, to zmienne są stochastycznie niezależne ZWIĄZEK STOCHASTYCZNY
Przejawy stochastycznej niezależności zmiennych: 1.Identyczne rozkłady warunkowe i takie jak jej rozkład brzegowy czyli charakteryzujące je parametry też muszą być takie same oraz i jednocześnie oraz 2.Dla zmiennych niezależnych kowariancja wynosi 0 3.Tablica rozkładu łącznego zmiennej dwuwymiarowej (X, Y) przyjmuje charakterystyczną postać: dla wszystkich x i oraz y j ZWIĄZEK STOCHASTYCZNY
xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 1. x p.1 p 1. x p.2 …p 1. x p.l p 1. x2x2 p 2. x p.1 p 2. x p.2 …p 2. x p.l p 2. ………p i. x p.j … xkxk p k. x p.1 p k. x p.2 …p k. x p.l p k. p.j p.1 p.2 p.l 1
ZWIĄZEK KORELACYJNY
Przyporządkowanie wartościom jednej zmiennej wartości oczekiwanej odpowiedniego rozkładu warunkowego drugiej zmiennejlub (1; -0,5) (2; 0,25) (3; 0,33) (4; -1) ZWIĄZEK KORELACYJNY xixi ,50,250,33 0,250,690,890
Jeżeli średnie warunkowe poszczególnych rozkładów warunkowych (czyli przy nakładaniu różnych warunków na drugą zmienną) są identyczne i takie same jak średnia w rozkładzie brzegowym oznacza to, że zmienne są nieskorelowane ZWIĄZEK KORELACYJNY xixi ,50,250,33 0,250,690,890
Miarą związku korelacyjnego jest współczynnik korelacji liniowej ρ przyjmuje wartości Wartości ujemne oznaczają, że korelacja jest ujemna, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się spadek wartości średnich warunkowych drugiej zmiennej Wartości dodatnie oznaczają, że korelacja jest dodatnia, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się wzrost wartości średnich warunkowych drugiej zmiennej Wartość 0 oznacza, że korelacja między zmiennymi nie występuje ZWIĄZEK KORELACYJNY
1.Zależność ujemna Korelacja ujemna ρ = -1 2.Zależność dodatnia Korelacja dodatnia ρ = 1 3.Zależność krzywoliniowa lub brak zależności ρ = 0 ZWIĄZEK KORELACYJNY a zależność stochastyczna