Probabilistyczne modele danych Statystyka i Demografia Probabilistyczne modele danych Zmienne losowe Rozkład prawdopodobieństwa i dystrybuanta Wartość oczekiwana i wariancja zmiennej losowej
Zmienne losowe Zmienna losowa jest to funkcja rzeczywista X, określona na zbiorze zdarzeń elementarnych X: W Zmienne losowe zwykle oznacza się dużymi literami z końca alfabetu : X, Y, Z. Wartości zmiennych losowych zwykle oznacza się małymi literami z końca alfabetu: x,y,z.
Rodzaje zmiennych losowych Ze względu na zbiór wartości badanej cechy (zastosowaną skalę pomiarową) rozróżnia się dwa podstawowe typy zmiennych losowych: jakościowe – zbiory wartości lingwistycznych opisujących np kolor, wielkość, dzień tygodnia... ilościowe – zbiory liczbowe, zawierające wartości cech mierzalnych.... Zmienne losowe ilościowe mogą przyjmować wartości: dyskretne (skokowe) ze zbioru skończonego (np. ocena) lub dowolnego podzbioru liczb całkowitych, np liczba sztuk wadliwych, ciągłe z przedziału liczb rzeczywistych, np. czas działania urządzenia, temperatura, ciężar...
Definiowanie zmiennej losowej Z partii wyrobów zawierającej wyroby dobre i wyroby wadliwe losuję jeden wyrób, wtedy = {d , w } gdzie d- oznacza wylosowanie wyrobu dobrego w- oznacza wylosowanie wyrobu wadliwego Określam zmienną losową X w następujący sposób: X(d)=1 X(w )=0 Definiowanie zmiennej losowej polega na przypisaniu poszczególnym zdarzeniom elementarnym konkretnych wartości (liczbowych)
Rozkład prawdopodobieństwa zmiennej losowej dyskretnej Jeżeli w przedstawionym przykładzie, dotyczącym kontroli jakości wyrobów, 90% wyrobów było dobrych, natomiast 10% było wadliwych, to możemy mówić o prawdopodobieństwie zdarzeń: P({ : X()=0}) = 0,1 P({ : X()=1}) = 0,9 (jest to tzw. „dwupunktowy” rozkład prawdopodobieństwa) Tablicowy zapis rozkładu prawdopodobieństwa zmiennej losowej X Xi 1 pi 0,1 0,9
Rozkład prawdopodobieństwa dyskretnej zmiennej losowej Rozkład prawdopodobieństwa dyskretnej zmiennej losowej X jest zbiorem par {xi, p(xi)}, gdzie xi jest wartością zmiennej X dla zdarzenia i, X(i)= xi p - prawdopodobieństwem wystąpienia wartości x Twierdzenie Założenie: Jeśli x1 , x2 , x3…….. oznaczają wszystkie różne wartości dyskretnej zmiennej losowej, to Teza
Dystrybuanta zmiennej losowej Dystrybuantą FX(x0) zmiennej losowej X jest funkcja F określona na zbiorze liczb rzeczywistych, jako prawdopodobieństwo zdarzenia, polegającego na tym, że zmienna ta przyjmie wartości mniejsze od x0. FX(x0) = P(X< x0) Dystrybuanta jest funkcją: określoną na zbierze liczb rzeczywistych; o wartościach z przedziału [0-1]; niemalejącą prawostronnie ciągłą Dystrybuantę zmiennej losowej X oznaczamy zwykle jako FX FX(x0) = PX((-,x0)) = P(X<x0) P ([a,b]) = P(a X< b) = FX(b) - FX(a)
Zastosowanie teorii w praktyce – wyznaczanie rozkładu zmiennej losowej Z partii wyrobów losujemy 3 sztuki. Na rysunku pokazano : przestrzeń możliwych zdarzeń sposób określania zmiennej losowej X = Liczba sztuk wadliwych www 3 dww wdw 2 dwd wwd 1 ddw wdd ddd Przestrzeń zdarzeń
Rozkład i dystrybuanta zmiennej losowej p1=P( X=0)=1/8, p2=P( X=1)=3/8, ....... Rozkład prawdopodobieństwa zmiennej losowej X i 1 2 3 4 xi pi 1/8 3/8 F(x) 1/2 7/8 Dystrybuanta FX(0) = PX((-,0)) = P(X<0) = 0 FX(1) = PX((-,1)) = P(X<1) = P(X=0) =1/8 FX(2) = PX((-,2)) = P(X<2) = 1/8+3/8 = 4/8 FX(3) = PX((-,3)) = P(X<3) = 1/8+3/8 +3/8 = 7/8 FX(4) = PX((-,4)) = P(X<4) = 1
Wykresy rozkładu prawdopodobieństwa i dystrybuanty zmiennej losowej dyskretnej (skokowej) Wykres dystrybuanty Wykres rozkładu
Parametry rozkładu zmiennej losowej Wartość oczekiwana Wartość oczekiwaną [nadzieję matematyczną / wartość przeciętną], zmiennej losowej X oznacza się E(X) i określa w następujący sposób Dla zmiennej losowej dyskretnej Dla zmiennej losowej ciągłej
Twierdzenia o wartości oczekiwanej Założenia : X, Y są zmiennymi losowymi jest liczbą rzeczywistą, c oznacza stałą wartość Tezy: E (c) = c E ( X) = E (X) E (X +Y) = E (X) + E (Y)
Parametry rozkładu zmiennej losowej Wariancja D2(X) i odchylenie standardowe D(X) Wariancją zmiennej losowej X nazywamy wyrażenie Wariancja jest /parametrem/charakterystyką określającą stopień rozrzutu (rozproszenia, zróżnicowania, dyspersji). Ze względu na łatwość interpretacji geometrycznej, za miarę rozrzutu przyjmuje się pierwiastek kwadratowy z wariancji, czyli Odchylenie standardowe: Stosunek odchylenia standardowego do wartości oczekiwanej nazywamy współczynnikiem zmienności : V = D(X)/E(X)
Obliczanie Wariancji D2(X) Wariancja zmiennej losowej skokowej Wariancja zmiennej losowej ciągłej
Twierdzenia o wariancji Założenia: X, Y : zmienne losowe, a: liczba; Tezy: D2(X)=E (X2) – (E(X))2 D2(const)= 0 D2(a*X)= a2 *D2(X) D2(aX +b)= a2 *D2(X) D2(X +Y) = D2(X) + D2(Y)
Wariancja D2(X) Definicja wariancji Dla zmiennej skokowej Dla zmiennej ciągłej
Przykład jak prosto obliczyć wartość oczekiwaną i wariancję xi 1 2 3 S pi 0,125 0,375 xi*pi 0,75 1,5 xi2*pi 1,125 E(X) = 1,5 D2(X)=E (X2) – (E(X))2 =3 – (1,5)2= 0,75
Zadanie Sprawdzić czy funkcja f , jest gęstością prawdopodobieństwa znaleźć dystrybuantę F(x) obliczyć P (X< 0,5) P (1<X<2) przedstawić graficzną interpretację wyników obliczeń
Rozwiązanie 1. Czy f jest gęstością prawdopodobieństwa: a) Funkcja f jest nieujemna b) 2. Dystrybuanta 3. P (X< 0,5) = F(0,5) = 1- e-0,5 P (1<X<2) = F(2) - F(1) = (1- e-2) - (1- e-1)= e-1- e-2
Interpretacja graficzna EXP(-A1) 1,0 0,1 EXP(-A2) 0,9 0,2 EXP(-A3) 0,8 0,3 EXP(-A4) 0,7 0,4 EXP(-A5) 0,5 EXP(-A6) 0,6 EXP(-A7) EXP(-A8) EXP(-A9) EXP(-A10) : : P (X< 0,5) P (1<X<2) KISIM, WIMiIP, AGH
Histogram …znowu KISIM, WIMiIP, AGH
Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów
Wykresy
Przykład zastosowania pakietu Statistica do analizy zapotrzebowania na energię
Tabele przestawne MS Excel KISIM, WIMiIP, AGH
Tabele przestawne Excel Liczba godzin w pracy w tygodniu Czy stan cywilny, zarobki oraz płeć wpływa na rozkład czasu pracy? Kto pracuje dłużej? KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Liczba godzin w pracy w tygodniu KISIM, WIMiIP, AGH
Zarobki vs. Rasa vs. Edukacja Rasa wpływa na zarobki – proporcjonalnie więcej białych zarabia powyżej 50K Wykształcenie wpływa na zarobki Inne rasy muszą uczyć się dłużej, żeby zarabiać powyżej 50K KISIM, WIMiIP, AGH
Tabele wielodzielcze STATISTICA KISIM, WIMiIP, AGH
Tabele wielodzielcze STATISTICA KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Tabele raportujące KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Rozkłady dwuwymiarowe histogramy skategoryzowane Tabela dwudzielcza histogram skategoryzowany KISIM, WIMiIP, AGH
Rozkłady i histogramy MS Excel KISIM, WIMiIP, AGH
wykres słupkowy =CZĘSTOŚĆ(B94:B1005;$A$3:$A$18) funkcje tablicowe kończymy wybierając Ctrl+Shift+Enter KISIM, WIMiIP, AGH
Analysis Toolpak histogram Zakres komórek – B1:B30 – wyniki / obserwacje Zakres zbioru – D1:D9 – grupy do których zostaną przyporządkowane obserwacje Zakres wyjściowy – F1 – wybieramy jedną komórkę, od której w prawo i w dół zostanie wygenerowane zestawienie KISIM, WIMiIP, AGH
Analysis Toolpak histogram KISIM, WIMiIP, AGH
rozkład normalny KISIM, WIMiIP, AGH
Excel – statystyka opisowa Age education-num hours-per-week Średnia 38,58631415 10,0311042 40,84603 Błąd standardowy 0,550114822 0,098083873 0,510591 Mediana 37 10 40 Tryb 25 9 Odchylenie standardowe 13,94950616 2,48715639 12,94728 Wariancja próbki 194,5887221 6,18594691 167,632 Kurtoza 0,165702229 0,543292338 3,369519 Skośność 0,679404796 -0,253749493 0,626327 Zakres 73 15 95 Minimum 17 1 4 Maksimum 90 16 99 Suma 24811 6450 26264 Licznik 643 Poziom ufności(95,0%) 1,080241733 0,19260396 1,00263 KISIM, WIMiIP, AGH
Wykaz narzędzi statystycznych Analysis Toolpak 1. ANOVA 2. ANOVA: POJEDYNCZY CZYNNIK 3. ANOVA: DWA CZYNNIKI Z REPLIKACJĄ 4. ANOVA: DWA CZYNNIKI BEZ REPLIKACJI 5. Korelacja 6. Kowariancja 7. Statystyki opisowe 8. Wygładzanie wykładnicze 9. Test F: dwie próbki dla wariancji 10. Analiza fouriera 11. Histogram 12. Średnia ruchoma 13. Generowanie liczb losowych 14. Ranga i percentyl 15. Regresja 16. Próbkowanie 17. Test t 18. Test t: dwie próby, przy założeniu równych wariancji 19. Test t: dwie próby, przy założeniu nierównych wariancji 20. Test t: sparowany, dwie próby dla średnich KISIM, WIMiIP, AGH