STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

Regresja i korelacja materiały dydaktyczne.
Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.
Metody losowania próby
Statystyka Wojciech Jawień
Analiza współzależności zjawisk
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Zmienne losowe i ich rozkłady
Metody analizy współzależności cech (zmiennych)
BUDOWA MODELU EKONOMETRYCZNEGO
Elementy Modelowania Matematycznego
Analiza współzależności
Statystyczne parametry akcji
Statystyczne parametry akcji
Statystyka w doświadczalnictwie
Mgr Sebastian Mucha Schemat doświadczenia:
Analiza korelacji.
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Elementy Rachunku Prawdopodobieństwa c.d.
Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń.
Alfred Stach Instytut Paleogeografii i Geoekologii
Analiza współzależności dwóch zjawisk
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń  Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Elementy Rachunku Prawdopodobieństwa i Statystyki
Analiza współzależności cech statystycznych
dr hab. Ryszard Walkowiak prof. nadzw.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Magdalena Nowosielska
Elementy Rachunku Prawdopodobieństwa i Statystyki
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Statystyka – zadania 4 Janusz Górczyński.
II. Matematyczne podstawy MK
Podstawy statystyki, cz. II
Planowanie badań i analiza wyników
Co to jest dystrybuanta?
Metody analizy współzależności dwóch cech Mieczysław Kowerski
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku.
Weryfikacja hipotez statystycznych
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Modele zmienności aktywów Model multiplikatywny Parametry siatki dwumianowej.
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Analiza portfeli dwu- oraz trzy-akcyjnych
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Statystyczne parametry akcji Średnie Miary rozproszenia Miary współzależności.
Statystyczna analiza danych
Korelacje dwóch zmiennych. Korelacje Kowariancja.
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Analiza portfeli dwu- oraz trzy-akcyjnych. Portfel dwóch akcji bez możliwości krótkiej sprzedaży W - wartość portfela   W = a P 1 + b P 2   P 1 -
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 13 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Człowiek – najlepsza inwestycja
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
STATYSTYKA – kurs podstawowy wykład 2 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
Statystyka matematyczna
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Analiza współzależności zjawisk
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
Zapis prezentacji:

STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

CECHA STATYSTYCZNA WIELOWYMIAROWA

Dane indywidualne Każdy student wchodzący w skład badanej zbiorowości jest opisany jednocześnie przez 3 cechy; jest „trójwymiarowy”; Liczba opisujących studenta cech decyduje o wymiarze cechy wielowymiarowej  u nas mamy cechę trójwymiarową; Cecha jednowymiarowa to osobno: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię Cecha trójwymiarowa to jednocześnie: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię

Dla cechy wielowymiarowej klasyfikacja na: 1.cechy mierzalne i niemierzalne 2.cechy skokowe i ciągłe jest analogiczna jak dla cechy jednowymiarowej

Wśród charakterystyk każdego ze studentów wyróżnimy łącznie jedynie dwie cechy. Będziemy je oznaczać przez X i Y Możemy „łączyć” ze sobą zarówno cechy mierzalne i niemierzalne oraz cechy skokowe i ciągłe w różnych kombinacjach W rezultacie otrzymujemy zbiór par postaci (x i, y j ), gdzie x i jest zaobserwowaną u badanego studenta i-tą kategorią cechy X oraz y j jest zaobserwowaną u tego samego studenta j-tą kategorią cechy Y CECHA DWUWYMIAROWA

Otrzymane informacje (pary liczb) można analizować: 1.w układzie indywidualnym  oddzielne rozkłady każdej ze zmiennych (rozkłady jednowymiarowe), 2.w układzie łącznym, czyli w formie danych pogrupowanych w rozkład (rozkład dwuwymiarowy) CECHA DWUWYMIAROWA

CECHY JEDNOWYMIAROWE x i - kolor oczunini wiwi niebieski10 0,417 zielony5 0,208 brązowy5 0,208 szary4 0,167 suma241 z i – liczba rodzeństwanini wiwi 06 0, , , ,042 suma241 (y 0i - y 1i > – czasnini wiwi , , , , , ∞3 0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów

CECHA DWUWYMIAROWA Kolor oczu Liczba rodzeństwa razem 0123 brązowy13105 niebieski szary03104 zielony12115 razem Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem razem

ROZKŁAD ZMIENNEJ DWUWYMIAROWEJ

ZMIENNA LOSOWA DWUWYMIAROWA DEFINICJA Zmienna losowa dwuwymiarowa jest to funkcja dwuwymiarowa opisana na zbiorze zdarzeń elementarnych Oznacza to, że każdemu zdarzeniu elementarnemu przypisane są dwie wartości tej funkcji

ZMIENNA LOSOWA DWUWYMIAROWA Rozkład dwuwymiarowej zmiennej losowej można opisać trzema sposobami: Dla zmiennej losowej skokowej: 1.Funkcja prawdopodobieństwa 2.Dystrybuanta 3.Parametry rozkładu Dla zmiennej losowej ciągłej: 1.Funkcja gęstości 2.Dystrybuanta 3.Parametry rozkładu Analogicznie jak w przypadku zmiennej jednowymiarowej

DWUWYMIAROWA ZMIENNA LOSOWA SKOKOWA

ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkład dwuwymiarowej zmiennej losowej można przedstawić: 1.W układzie łącznym (rozkład dwuwymiarowy) 2.W układzie warunkowym  tylko jeśli zmienne tworzące zmienną dwuwymiarową są zależne (rozkłady warunkowe)

ŁĄCZNY ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkład łączny opisują prawdopodobieństwa występowania pary liczb (X, Y). Jest on analogiczny do sposobu przedstawiania prawdopodobieństwa iloczynu zdarzeń losowych. Wystąpienie pary liczb (X, Y) oznacza iloczyn takich zdarzeń, że X = x i oraz Y = y j. Funkcja prawdopodobieństwa dwuwymiarowej zmiennej losowej p ij = P(X = x i, Y = y j ) przy czym: gdzie: k – liczba kategorii zmiennej X, j – liczba kategorii zmiennej Y

ROZKŁADY BRZEGOWE DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ Rozkłady brzegowe zmiennej losowej dwuwymiarowej to oddzielne rozkłady każdej ze zmiennych tworzących dwuwymiarową zmienną losową Powstają jako: 1.Rozkład brzegowy zmiennej X 2.Rozkład brzegowy zmiennej Y

ROZKŁAD DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 11 p 12 …p 1l p 1. x2x2 p 21 p 22 …p 2l p 2. ………p ij … xkxk p k1 p k2 …p kl p k. p.j p.1 p.2 …p.l 1 Rozkład brzegowy zmiennej X Rozkład brzegowy zmiennej Y Rozkład łączny zmiennej (X, Y)

Rozkłady brzegowe pokazują prawidłowości w przejawianiu się każdej ze zmiennych X i Y oddzielnie Całkowicie ignorują sposób i wartości „pojawiania się” zmiennej „towarzyszącej”

DYSTRYBUANTA DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ

Dystrybuanta dwuwymiarowej zmiennej losowej skokowej w punkcie (x 0, y 0 ) to prawdopodobieństwo, że zmienna losowa X przyjmie wartości nie większe niż x 0 i jednocześnie zmienna losowa Y przyjmie wartości nie większe ni y 0

PARAMETRY ROZKŁADU DWYWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ

PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 1.Wartość oczekiwana E(X, Y), która jest wektorem o składowych E(X) oraz E(Y) E(X, Y) = [E(X), E(Y)] 2.Wariancja D 2 (X, Y), która jest wektorem o składowych D 2 (X) oraz D 2 (Y) D 2 (X, Y) = [D 2 (X), D 2 (Y)] 3.Kowariancja C(X, Y), która jest skalarem wyznaczanym według wzoru Dla zmiennej losowej skokowej wzór przyjmuje postać:

PRZYKŁAD na podstawie M. Rószkiewicz Statystyka. Kurs podstawowy Efekt, Warszawa 2002

Na zbiorze 10 jednakowo prawdopodobnych zdarzeń elementarnych E i (i = 1, …,10) opisano zmienne losowe X i Y. Każdemu zdarzeniu elementarnemu przypisano zatem parę liczb (x i, y j ) Czyli na zbiorze zdarzeń elementarnych E i zdefiniowano zmienną losową dwuwymiarową o łącznym rozkładzie postaci: EiEi E1E1 E2E2 E3E3 E4E4 E5E5 E6E6 E7E7 E8E8 E9E9 E 10 X Y xixi yjyj , ,2 0

Rozkłady brzegowe: Rozkład brzegowy X: 0,1 + 0,1 + 0,1 + 0,1 = 0,4 0,1 + 0, = 0, ,2 + 0,2 + 0 = 0,4 Rozkład brzegowy Y: 0,2 = 0,1 + 0, ,4 = 0,1 + 0,1 + 0,2 0,3 = 0, ,2 0,1 = 0, xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj 1234 p.j 0,20,40,30,1

xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj p.j 10,2 20,4 30,3 40,1 PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 1.Wartość oczekiwana E(X, Y) = [E(X), E(Y)] E(X, Y) = [0; 2,3] 2.Wariancja D 2 (X, Y) = [D 2 (X), D 2 (Y)] D 2 (X, Y) = [0,8; 0,81)]

xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 xixi p i. 0,4 00,2 10,4 yjyj p.j 10,2 20,4 30,3 40,1 PARAMETRY ROZKŁADU DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ 3.Kowariancja C(X, Y)

ROZKŁADY WARUNKOWE DWYWYMIAROWEJ ZMIENNEJ LOSOWEJ SKOKOWEJ

Rozkłady warunkowe ukazują rozkłady prawdopodobieństwa każdej ze zmiennych tworzących dwuwymiarową zmienną losową oddzielnie ALE przy przyjęciu założenia, że druga ze zmiennych przyjmuje określoną wartość Tak samo jak w przypadku rozkładów brzegowych

Dla zmiennej skokowej: 1.Rozkład warunkowy zmiennej X pod warunkiem, że Y = y j 2.Rozkład warunkowy zmiennej Y pod warunkiem, że X = x i xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 11 p 12 …p 1l p 1. x2x2 p 21 p 22 …p 2l p 2. ………p ij … xkxk p k1 p k2 …p kl p k. p.j p.1 p.2 p.l 1

PRZYKŁAD cd na podstawie M. Rószkiewicz Statystyka. Kurs podstawowy Efekt, Warszawa 2002

xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 Rozkład warunkowy zmiennej X pod warunkiem, że Y = y j xixi 0 1 suma1111

xixi 0 1 suma1111 Istnieją 4 różne rozkłady warunkowe zmiennej X  czyli tyle, ile wartości może przyjąć zmienna Y Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej X, ile można nałożyć warunków na zmienną Y czyli każdej wartości zmiennej Y można przyporządkować odpowiedni rozkład zmiennej X To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y

xixi 0 1 suma1111 Dla każdego z rozkładów warunkowych policzyć można wartość oczekiwaną i wariancję (średnią warunkową oraz wariancję warunkową) Przykładowo dla rozkładu X/Y=2

xixi ,50,250,33 0,250,690,890 Średnie warunkowe zmiennej X Wariancje warunkowe zmiennej X

xixi yjyj p i ,1 0,4 00,1 000, ,4 p.j 0,20,40,30,11 Rozkład warunkowy zmiennej Y pod warunkiem, że X = x i yiyi suma111 Istnieją 3 różne rozkłady warunkowe zmiennej Y  czyli tyle, ile wartości może przyjąć zmienna X

Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej Y, ile można nałożyć warunków na zmienną X czyli każdej wartości zmiennej X można przyporządkować odpowiedni rozkład zmiennej Y To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y

yiyi suma111 Dla każdego z tych rozkładów policzyć można wartość oczekiwaną i wariancję (średnią warunkową oraz wariancję warunkową) Przykładowo dla rozkładu Y/X= -1

yiyi ,51,52,5 1,250,25 Średnie warunkowe zmiennej Y Wariancje warunkowe zmiennej Y

Ogólnie: Istnieje tyle rozkładów warunkowych zmiennej Y, ile można nałożyć warunków na zmienną X czyli każdej wartości zmiennej X można przyporządkować odpowiedni rozkład zmiennej Y To przyporządkowanie określa się związkiem stochastycznym zmiennych X i Y

Związek stochastyczny między dwoma zmiennymi występuje wtedy, gdy rozkłady warunkowe jednej zmiennej „reagują” na przyjmowanie przez drugą zmienną konkretnych wartości ZWIĄZEK STOCHASTYCZNY xixi ,50,250,33 0,250,690,890

Gdy rozkłady warunkowe jednej zmiennej są takie same i takie same jak jej rozkład brzegowy, to zmienne są stochastycznie niezależne ZWIĄZEK STOCHASTYCZNY

Przejawy stochastycznej niezależności zmiennych: 1.Identyczne rozkłady warunkowe i takie jak jej rozkład brzegowy  czyli charakteryzujące je parametry też muszą być takie same oraz i jednocześnie oraz 2.Dla zmiennych niezależnych kowariancja wynosi 0 3.Tablica rozkładu łącznego zmiennej dwuwymiarowej (X, Y) przyjmuje charakterystyczną postać: dla wszystkich x i oraz y j ZWIĄZEK STOCHASTYCZNY

xixi yjyj p i. y1y1 y2y2 …ylyl x1x1 p 1. x p.1 p 1. x p.2 …p 1. x p.l p 1. x2x2 p 2. x p.1 p 2. x p.2 …p 2. x p.l p 2. ………p i. x p.j … xkxk p k. x p.1 p k. x p.2 …p k. x p.l p k. p.j p.1 p.2 p.l 1

ZWIĄZEK KORELACYJNY

Przyporządkowanie wartościom jednej zmiennej wartości oczekiwanej odpowiedniego rozkładu warunkowego drugiej zmiennejlub (1; -0,5) (2; 0,25) (3; 0,33) (4; -1) ZWIĄZEK KORELACYJNY xixi ,50,250,33 0,250,690,890

Jeżeli średnie warunkowe poszczególnych rozkładów warunkowych (czyli przy nakładaniu różnych warunków na drugą zmienną) są identyczne i takie same jak średnia w rozkładzie brzegowym oznacza to, że zmienne są nieskorelowane ZWIĄZEK KORELACYJNY xixi ,50,250,33 0,250,690,890

Miarą związku korelacyjnego jest współczynnik korelacji liniowej ρ przyjmuje wartości Wartości ujemne oznaczają, że korelacja jest ujemna, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się spadek wartości średnich warunkowych drugiej zmiennej Wartości dodatnie oznaczają, że korelacja jest dodatnia, czyli wraz ze wzrostem wartości jednej zmiennej obserwuje się wzrost wartości średnich warunkowych drugiej zmiennej Wartość 0 oznacza, że korelacja między zmiennymi nie występuje ZWIĄZEK KORELACYJNY

1.Zależność ujemna  Korelacja ujemna ρ = -1 2.Zależność dodatnia  Korelacja dodatnia ρ = 1 3.Zależność krzywoliniowa lub brak zależności  ρ = 0 ZWIĄZEK KORELACYJNY a zależność stochastyczna