Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie dr Marta Marszałek
Plan
Dwuwymiarowa zmienna losowa
Dla zmiennej losowej skokowej: 1.Funkcja prawdopodobieństwa 2.Dystrybuanta Dla zmiennej losowej ciągłej: 1.Funkcja gęstości 2.Dystrybuanta Analogicznie jak w przypadku zmiennej jednowymiarowej Rozkład dwuwymiarowej zmiennej losowej jest jednoznacznie zdefiniowany, gdy znana jest:
Dwuwymiarowa zmienna losowa skokowa
Funkcja prawdopodobieństwa dwuwymiarowej zmiennej losowej skokowej Funkcją prawdopodobieństwa dwuwymiarowej zmiennej losowej typu skokowego przyjmującej wartości (x i,y j ) jest funkcja: p ij = P(X=x i, Y=y j ) gdzie i,j = 1,2,… przy czym gdzie: k – liczba kategorii zmiennej X, l – liczba kategorii zmiennej Y
Dystrybuanta
y j x i Y 1 y y l p i. =∑p ij j x1x2.....xkx1x2.....xk p 11 p p 1l p 21 p p 2l. p k1 p k p kl p 1. p 2.. p k. p.j =∑p ij i p.1 p p.l 1
y j x i p i ,3 0,1 0 0,2 0 0,4 0,4 0,6 p.j 0,5 0,1 0,41
Rozkłady brzegowe zmiennej losowej X oraz Y
Rozkład brzegowy zmiennej losowej X y j x i p i ,1 0, ,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 xixi p i ,4 0,6 1
Rozkład brzegowy zmiennej losowej Y y j x i p i ,1 0, ,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 yjyj p.j ,1 0,5 0,4 1
Rozkłady warunkowe
y j x i p i ,1 0, ,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41
y j x i p i ,1 0, ,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 P(Y=1/X=0) =0,1 : 0,4=0,25 P(Y=2/X=0) =0,3 : 0,4=0,75 P(Y=3/X=0) = 0 : 0,4 = 0 Y P(Y/X=0) 10,25 20,75 3 0
Ile istnieje rozkładów warunkowych zmiennej Y? Istnieją 2 różne rozkłady warunkowe zmiennej Y czyli tyle, ile wartości może przyjąć zmienna X. Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej Y, ile można nałożyć warunków na zmienną X, czyli każdej wartości zmiennej X można przyporządkować odpowiedni rozkład zmiennej Y. To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y.
Niezależność zmiennych losowych
Prawdopodobieństwo warunkowe a niezależność zmiennych losowych jednakowe są wszystkie rozkłady warunkowe zmiennej losowej X, oraz wszystkie rozkłady warunkowe zmiennej losowej Y, oraz takie jak odpowiednie rozkłady brzegowe. Jeśli zmienne są niezależne, to:
Czy zmienne losowe X i Y są niezależne? y j x i p i ,1 0, ,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 Warunek: p ij = p i. ∙ p.j Sprawdzamy dla i=1 i j=1 0,1 ≠ 0,4 ∙ 0,1 p 11 ≠ p 1. ∙ p.1 Odp. Zmienne nie są niezależne.
Przykład niezależnych zmiennych losowych X i Y y j x i p i ,04 0,2 0,16 0,06 0,3 0,24 0,4 0,6 p.j 0,1 0,5 0,41 Rozkłady warunkowe zm. X X Y=1 Y=2 Y=3 0 0,4 0,4 0,4 10,6 0,6 0,6 Rozkłady warunkowe zm. Y Y X=0 X=1 1 0,1 0,1 2 0,5 0,5 3 0,4 0,4 Dla zm. niezależnych rozkłady warunkowe są identyczne
Parametry dwuwymiarowej zmiennej losowej
Wartość oczekiwana i wariancja w rozkładzie brzegowym zmiennej losowej X Wartość oczekiwana: E(X)= 0 ∙ 0,4 + 1 ∙ 0,6 = 0,6 Wariancja: D 2 (X)=[0-0,6] 2 ∙0,4+[1-0,6] 2 ∙0,6= 0,24 inaczej: D 2 (X)=[0 2 ∙0, ∙0,6]-[0,6] 2 = 0,24 xixi p i ,4 0,6 1 Rozkład brzegowy zm. X
Wartość oczekiwana i wariancja w rozkładzie brzegowym zmiennej losowej Y Wartość oczekiwana: E(Y)= 1∙0,1 + 2∙0,5 + 3∙0,4 = 2,3 Wariancja: D 2 (Y)=[1-2,3] 2 ∙0,1+[2-2,3] 2 ∙0,5+ [3- 2,3] 2 ∙0,4 = 0,41 inaczej: D 2 (Y)=[1 2 ∙0, ∙0, ∙0,4]-[2,3] 2 = 0,41 yjyj p.j ,1 0,5 0,4 1 Rozkład brzegowy zm. Y
Parametry dwuwymiarowej zmiennej losowej 2. W rozkładach warunkowych Wartość oczekiwana w rozkładzie warunkowym Wartość oczekiwana z warunkowych wartości oczekiwanych = wartości przeciętnej rozkładu brzegowego: E[E(X/Y)]=E(X)
Wartości oczekiwane w rozkładach warunkowych - przykład y j x i p i ,1 0, ,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 X P(X/Y=1) P(X/Y=2) P(X/Y=3) 0 1 0, ,4 1 E(X/Y=1) = 0 ∙ ∙ 0 = 0 E(X/Y=2) = 0∙0,6+1∙0,4=0,4 E(X/Y=3) = 0 ∙ ∙ 1 = 1 E[E(X/Y)]= 0∙0,1+0,4∙0,5+1∙0,4=0,6=E(X)
3. Kowariancja w rozkładzie łącznym y j x i p i ,1 0, ,2 0,4 0,4 0,6 p.j 0,1 0,5 0,41 Kowariancja cov(X,Y)= E[(X-E(X))(Y-E(Y)]= E(XY) – E(X)E(Y) E(X)=0,6E(Y)= 2,3 I sposób: cov(X,Y)=(0-0,6)(1-2,3)∙0,1+(0-0,6)(2-2,3)∙0,3+ +(1-0,6)(2-2,3)∙0,2+(1-0,6)(3-2,3)∙0,4 = 0,22 II sposób: cov(X,Y)= ∑∑x i y j p ij -∑x i p i. ∙∑y j p.j = 0∙1∙0,1+0∙2∙0,3+…+1∙2∙0,2+1∙3∙0,4- 0,6∙2,3=0,22
Związek stochastyczny a związek korelacyjny
Związek stochastyczny Związek stochastyczny (X,Y) między dwoma zmiennymi występuje wtedy, gdy rozkłady warunkowe jednej zmiennej „reagują” na przyjmowanie przez drugą zmienną konkretnych wartości. Związek stochastyczny (X,Y) nie występuje gdy rozkłady warunkowe jednej zmiennej są identyczne i takie same jak jej rozkład brzegowy. Wówczas zmienne są stochastycznie niezależne.
Przejawy stochastycznej niezależności zmiennych: 1.Identyczne rozkłady warunkowe i takie jak rozkład brzegowy czyli charakteryzujące je parametry też muszą być takie same oraz i jednocześnie oraz 2.Dla zmiennych niezależnych kowariancja = 0 cov(XY)=E(XY)-E(X)∙E(Y)=E(X)∙E(Y)-E(X)∙E(Y)=0 Związek stochastyczny
y j x i y1y1 y2y2 …ylyl p i. x1x1 p 1. ∙ p.1 p 1. ∙ p.2 …p 1. ∙ p.l p 1. x2x2 p 2. ∙ p.1 p 2. ∙ p.2 …p 2. ∙ p.l p 2. ………p i. ∙ p.j … xkxk p k. ∙ p.1 p k. ∙ p.2 …p k. ∙ p.l p k. p.j p.1 p.2 p.l 1 3. Tablica rozkładu łącznego zmiennej dwuwymiarowej (X,Y) przyjmuje charakterystyczną postać dla wszystkich x i oraz y j : Warunek niezależności: Jeśli zmienne X i Y są niezależne to:
Przyporządkowanie wartościom jednej zmiennej wartości oczekiwanej odpowiedniego rozkładu warunkowego drugiej zmiennejlub Związek korelacyjny xixi 0 10, ,41 0 1
Jeżeli warunkowe wartości oczekiwane poszczególnych rozkładów warunkowych (czyli przy nakładaniu różnych warunków na drugą zmienną) są identyczne i takie same jak wartość oczekiwana w rozkładzie brzegowym oznacza to, że zmienne są nieskorelowane. W szczególności X nieskorelowana z Y, gdy wszystkie E(X/Y=y j ) są równe. Związek korelacyjny
Miarą związku korelacyjnego jest współczynnik korelacji liniowej ρ przyjmuje wartości Wartości ujemne oznaczają, że korelacja jest ujemna, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się spadek wartości średnich warunkowych drugiej zmiennej Wartości dodatnie oznaczają, że korelacja jest dodatnia, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się wzrost wartości średnich warunkowych drugiej zmiennej Wartość 0 oznacza, że korelacja między zmiennymi nie występuje. Związek korelacyjny
1.Zależność ujemna korelacja ujemna ρ = -1 2.Zależność dodatnia korelacja dodatnia ρ = 1 3.Zależność krzywoliniowa lub brak zależności ρ = 0 ZWIĄZEK KORELACYJNY a zależność stochastyczna
Niezależność a nieskorelowanie
Dwuwymiarowy rozkład empiryczny
Analiza współzależności cech Dane do analizy współzależności dwóch cech mogą być zaprezentowane w postaci danych indywidualnych: lub danych pogrupowanych w tablicy korelacyjnej: x1x1 x2x2 x3x3 x3x3 xnxn y1y1 y2y2 y3y3 y4y4 ynyn Liczba kart bankowych1302 ……..1 Liczba kredytów01021
Dwuwymiarowy rozkład empiryczny. Tablica korelacyjna cech x i y y j x i y 1 y y l n i. =∑n ij j x1x2.....xkx1x2.....xk n 11 n n 1l n 21 n n 2l. n k1 n k n kl n 1. n 2.. n k. n.j =∑n ij i n.1 n n.l n
Rozkład empiryczny osób ze względu na liczbę kart bankowych (X) i liczbę zaciągniętych kredytów (Y) y j x i n i n.j
Analiza współzależności Badając zależność pomiędzy dwoma cechami w oparciu o rozkład empiryczny (próbę) należy sprawdzić: -czy występuje zależność (stochastyczna, korelacyjna), -jaka jest jej siła, -jaki ma kierunek (dodatni, ujemny), -jaki jest kształt zależności.
Analiza współzależności – wnioskowanie statystyczne Jeśli –> brak informacji o całej populacji, ale mamy dane z próby losowej pobranej z tej populacji, to możemy skorzystać z metod wnioskowania statystycznego o współzależności cech. 2 warianty: - wnioskowanie o zależności typu stochastycznego – test niezależności chi-kwadrat. - estymacja siły związku korelacyjnego i wnioskowania o jego istotności – test istotności współczynnika korelacji liniowej Pearsona.
Test niezależności χ 2 H 0 : /\ p ij = p i. ∙ p.j - zmienne są niezależne stochastycznie ij H 1 : \/ p ij ≠ p i. ∙ p.j - zmienne są zależne stochastycznie ij Liczebności teoretyczne w tablicy korelacyjnej, przy założeniu, że cechy X i Y są niezależne (H 0 prawdziwa): liczebności brzegowe
Test niezależności χ 2
Im większa będzie obliczona z próby wartość statystyki χ 2, świadcząca o dużych rozbieżnościach między rozkładem empirycznym a teoretycznym, tym mniej wiarygodna będzie hipoteza o niezależności cech. Próba musi być dostatecznie duża Liczebności teoretyczne n̂ ij ≥ 5. W przypadku niespełnienia tego warunku wiersz (lub kolumnę) z małymi liczebnościami należy połączyć z sąsiednim.
1. Współczynnik zbieżności V-Cramera Odrzucenie H 0 o niezależności sugeruje istnienie związku między badanymi cechami. 0 ≤ χ 2 ≤ n(m-1) gdzie m=min (k,l) Współczynnik V przyjmuje wartości z przedziału V = 0 - niezależność stochastyczna, liczebności n ij i n̂ ij są identyczne V = 1 - zależność funkcyjna
Własności współczynnika V-Cramera
Miary w dwuwymiarowym rozkładzie empirycznym
Dwuwymiarowy rozkład empiryczny rozkłady brzegowe średnie: wariancje:
rozkłady warunkowe średnie wariancje
Miara w rozkładzie łącznym - kowariancja dla danych indywidualnych: dla danych pogrupowanych w tablicy korelacyjnej: Kowariancja wskazuje kierunek zależności (korelacji). c xy = 0 → brak korelacji c xy > 0 → korelacja dodatnia (+) c xy < 0 → korelacja ujemna (-)
2. Współczynnik korelacji liniowej Pearsona
Własności współczynnika korelacji liniowej Pearsona
Przykłady korelacji między cechami
Współczynnik korelacji liniowej r xy = 0 może wskazywać na brak zależności albo funkcyjny, ale krzywoliniowy związek zmiennych.
Test istotności współczynnika korelacji liniowej Założenie: Dwuwymiarowy rozkład zmiennych losowych X i Y jest normalny H 0 : ρ = 0 współczynnik korelacji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) H 1 : ρ ≠ 0 współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) ______________________________________ Inne możliwe H 1 H 1 : ρ > 0 współczynnik korelacji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : ρ < 0 współczynnik korelacji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)
Test dla współczynnika korelacji liniowej
3. Współczynnik korelacji rang Spearmana
Własności współczynnika korelacji rang
r d > 0 dodatnia korelacja między cechami, wraz ze wzrostem rang dla jednej cechy rosną też rangi dla cechy drugiej, przy czym r d = 1 – idealna zgodność rang r d < 0 ujemna korelacja między cechami, wraz ze wzrostem rang dla jednej cechy maleją rangi dla cechy drugiej, przy czym r d = -1 – maksymalna niezgodność rang r d = 0 brak korelacji między cechami – losowe kojarzenie się rang
Przykład - współczynnik korelacji rang Spearmana l.p.kraj rangi rozwoju ekonomic znego rangi rozwoju polityczn ego różnicekwadrat różnic aibididi^2 1A B C D E F G H45 1 9I J77 00 SUMA38 Odp.: Współczynnik Spearmana wynosi 0,77 i oznacza silną zgodność rang.
Podsumowanie: niezależność stochastyczna Warunki niezależności stochastycznej w rozkładzie empirycznym: rozkłady warunkowe cechy X są identyczne, tzn. rozkłady te mają jednakowe średnie i wariancje: równość warunkowych średnich: X̄ 1 = X̄ 2 ……. = X̄ l równość warunkowych wariancji: s 1 2 =s 2 2 =…….=s l 2 To samo dla cechy Y.
Niezależność stochastyczna X – oszczędności, Y – wielkość rodziny V xy = 0 c xy = 0 → r xy = 0 y x 123n i n.j y x 123n i n.j ȳ i s̃ i 2 2,20,56 2,20,56 2,20,56 x̄ j s̃ j x̄ j s̃j2s̃j
Podsumowanie: niezależność korelacyjna Warunki niezależności korelacyjnej w rozkładzie empirycznym: średnie warunkowe cechy X są identyczne (ale rozkłady warunkowe różnią się między sobą) równość średnich warunkowych : X̄ 1 = X̄ 2 ……. = X̄ l lub równość średnich warunkowych : ȳ 1 = ȳ 2 ……. = ȳ k
Niezależność korelacyjna x względem y, ale nie y względem x r xy = 0 Zależność funkcyjna r xy = 1 y x 123n i n.j y x 123n i n.j ȳ i s̃ i 2 2,1670,47 2,250,6875 2,1670,47 x̄ j s̃ j x̄ j s̃j2s̃j
Dziękuję dr Marta Marszałek