Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Probabilistyczne modele danych

Podobne prezentacje


Prezentacja na temat: "Probabilistyczne modele danych"— Zapis prezentacji:

1 Probabilistyczne modele danych
Statystyka i Demografia Probabilistyczne modele danych Zmienne losowe Rozkład prawdopodobieństwa i dystrybuanta Wartość oczekiwana i wariancja zmiennej losowej

2 Zmienne losowe Zmienna losowa jest to funkcja rzeczywista X, określona na zbiorze zdarzeń elementarnych  X: W Zmienne losowe zwykle oznacza się dużymi literami z końca alfabetu : X, Y, Z. Wartości zmiennych losowych zwykle oznacza się małymi literami z końca alfabetu: x,y,z.

3 Rodzaje zmiennych losowych
Ze względu na zbiór wartości badanej cechy (zastosowaną skalę pomiarową) rozróżnia się dwa podstawowe typy zmiennych losowych: jakościowe – zbiory wartości lingwistycznych opisujących np kolor, wielkość, dzień tygodnia... ilościowe – zbiory liczbowe, zawierające wartości cech mierzalnych.... Zmienne losowe ilościowe mogą przyjmować wartości: dyskretne (skokowe) ze zbioru skończonego (np. ocena) lub dowolnego podzbioru liczb całkowitych, np liczba sztuk wadliwych, ciągłe z przedziału liczb rzeczywistych, np. czas działania urządzenia, temperatura, ciężar...

4 Definiowanie zmiennej losowej
Z partii wyrobów zawierającej wyroby dobre i wyroby wadliwe losuję jeden wyrób, wtedy  = {d , w } gdzie d- oznacza wylosowanie wyrobu dobrego w- oznacza wylosowanie wyrobu wadliwego Określam zmienną losową X w następujący sposób: X(d)=1 X(w )=0 Definiowanie zmiennej losowej polega na przypisaniu poszczególnym zdarzeniom elementarnym konkretnych wartości (liczbowych)

5 Rozkład prawdopodobieństwa zmiennej losowej dyskretnej
Jeżeli w przedstawionym przykładzie, dotyczącym kontroli jakości wyrobów, 90% wyrobów było dobrych, natomiast 10% było wadliwych, to możemy mówić o prawdopodobieństwie zdarzeń: P({ : X()=0}) = 0,1 P({ : X()=1}) = 0,9 (jest to tzw. „dwupunktowy” rozkład prawdopodobieństwa) Tablicowy zapis rozkładu prawdopodobieństwa zmiennej losowej X Xi 1 pi 0,1 0,9

6 Rozkład prawdopodobieństwa dyskretnej zmiennej losowej
Rozkład prawdopodobieństwa dyskretnej zmiennej losowej X jest zbiorem par {xi, p(xi)}, gdzie xi jest wartością zmiennej X dla zdarzenia i, X(i)= xi p - prawdopodobieństwem wystąpienia wartości x Twierdzenie Założenie: Jeśli x1 , x2 , x3…….. oznaczają wszystkie różne wartości dyskretnej zmiennej losowej, to Teza

7 Dystrybuanta zmiennej losowej
Dystrybuantą FX(x0) zmiennej losowej X jest funkcja F określona na zbiorze liczb rzeczywistych, jako prawdopodobieństwo zdarzenia, polegającego na tym, że zmienna ta przyjmie wartości mniejsze od x0. FX(x0) = P(X< x0) Dystrybuanta jest funkcją: określoną na zbierze liczb rzeczywistych; o wartościach z przedziału [0-1]; niemalejącą prawostronnie ciągłą Dystrybuantę zmiennej losowej X oznaczamy zwykle jako FX FX(x0) = PX((-,x0)) = P(X<x0) P ([a,b]) = P(a  X< b) = FX(b) - FX(a)

8 Zastosowanie teorii w praktyce – wyznaczanie rozkładu zmiennej losowej
Z partii wyrobów losujemy 3 sztuki. Na rysunku pokazano : przestrzeń możliwych zdarzeń sposób określania zmiennej losowej X = Liczba sztuk wadliwych www 3 dww wdw 2 dwd wwd 1 ddw wdd ddd Przestrzeń zdarzeń

9 Rozkład i dystrybuanta zmiennej losowej
p1=P( X=0)=1/8, p2=P( X=1)=3/8, Rozkład prawdopodobieństwa zmiennej losowej X i 1 2 3 4 xi pi 1/8 3/8 F(x) 1/2 7/8 Dystrybuanta FX(0) = PX((-,0)) = P(X<0) = 0 FX(1) = PX((-,1)) = P(X<1) = P(X=0) =1/8 FX(2) = PX((-,2)) = P(X<2) = 1/8+3/8 = 4/8 FX(3) = PX((-,3)) = P(X<3) = 1/8+3/8 +3/8 = 7/8 FX(4) = PX((-,4)) = P(X<4) = 1

10 Wykresy rozkładu prawdopodobieństwa i dystrybuanty zmiennej losowej dyskretnej (skokowej)
Wykres dystrybuanty Wykres rozkładu

11 Parametry rozkładu zmiennej losowej Wartość oczekiwana
Wartość oczekiwaną [nadzieję matematyczną / wartość przeciętną], zmiennej losowej X oznacza się E(X) i określa w następujący sposób Dla zmiennej losowej dyskretnej Dla zmiennej losowej ciągłej

12 Twierdzenia o wartości oczekiwanej
Założenia : X, Y są zmiennymi losowymi  jest liczbą rzeczywistą, c oznacza stałą wartość Tezy: E (c) = c E ( X) =  E (X) E (X +Y) = E (X) + E (Y)

13 Parametry rozkładu zmiennej losowej Wariancja D2(X) i odchylenie standardowe D(X)
Wariancją zmiennej losowej X nazywamy wyrażenie Wariancja jest /parametrem/charakterystyką określającą stopień rozrzutu (rozproszenia, zróżnicowania, dyspersji). Ze względu na łatwość interpretacji geometrycznej, za miarę rozrzutu przyjmuje się pierwiastek kwadratowy z wariancji, czyli Odchylenie standardowe: Stosunek odchylenia standardowego do wartości oczekiwanej nazywamy współczynnikiem zmienności : V = D(X)/E(X)

14 Obliczanie Wariancji D2(X)
Wariancja zmiennej losowej skokowej Wariancja zmiennej losowej ciągłej

15 Twierdzenia o wariancji
Założenia: X, Y : zmienne losowe, a: liczba; Tezy: D2(X)=E (X2) – (E(X))2 D2(const)= 0 D2(a*X)= a2 *D2(X) D2(aX +b)= a2 *D2(X) D2(X +Y) = D2(X) + D2(Y)

16 Wariancja D2(X) Definicja wariancji Dla zmiennej skokowej Dla zmiennej ciągłej

17 Przykład jak prosto obliczyć wartość oczekiwaną i wariancję
xi 1 2 3 S pi 0,125 0,375 xi*pi 0,75 1,5 xi2*pi 1,125 E(X) = 1,5 D2(X)=E (X2) – (E(X))2 =3 – (1,5)2= 0,75

18 Zadanie Sprawdzić czy funkcja f , jest gęstością prawdopodobieństwa
znaleźć dystrybuantę F(x) obliczyć P (X< 0,5) P (1<X<2) przedstawić graficzną interpretację wyników obliczeń

19 Rozwiązanie 1. Czy f jest gęstością prawdopodobieństwa: a) Funkcja f jest nieujemna b) 2. Dystrybuanta 3. P (X< 0,5) = F(0,5) = 1- e-0,5 P (1<X<2) = F(2) - F(1) = (1- e-2) - (1- e-1)= e-1- e-2

20 Interpretacja graficzna
EXP(-A1) 1,0 0,1 EXP(-A2) 0,9 0,2 EXP(-A3) 0,8 0,3 EXP(-A4) 0,7 0,4 EXP(-A5) 0,5 EXP(-A6) 0,6 EXP(-A7) EXP(-A8) EXP(-A9) EXP(-A10) : : P (X< 0,5) P (1<X<2) KISIM, WIMiIP, AGH

21 Histogram …znowu KISIM, WIMiIP, AGH

22 Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów

23 Wykresy

24 Przykład zastosowania pakietu Statistica do analizy zapotrzebowania na energię

25 Tabele przestawne MS Excel KISIM, WIMiIP, AGH

26 Tabele przestawne Excel
Liczba godzin w pracy w tygodniu Czy stan cywilny, zarobki oraz płeć wpływa na rozkład czasu pracy? Kto pracuje dłużej? KISIM, WIMiIP, AGH

27 KISIM, WIMiIP, AGH

28 Liczba godzin w pracy w tygodniu
KISIM, WIMiIP, AGH

29 Zarobki vs. Rasa vs. Edukacja
Rasa wpływa na zarobki – proporcjonalnie więcej białych zarabia powyżej 50K Wykształcenie wpływa na zarobki Inne rasy muszą uczyć się dłużej, żeby zarabiać powyżej 50K KISIM, WIMiIP, AGH

30 Tabele wielodzielcze STATISTICA KISIM, WIMiIP, AGH

31 Tabele wielodzielcze STATISTICA KISIM, WIMiIP, AGH

32 KISIM, WIMiIP, AGH

33 Tabele raportujące KISIM, WIMiIP, AGH

34 KISIM, WIMiIP, AGH

35 Rozkłady dwuwymiarowe histogramy skategoryzowane
Tabela dwudzielcza histogram skategoryzowany KISIM, WIMiIP, AGH

36 Rozkłady i histogramy MS Excel KISIM, WIMiIP, AGH

37 wykres słupkowy =CZĘSTOŚĆ(B94:B1005;$A$3:$A$18)
 funkcje tablicowe kończymy wybierając Ctrl+Shift+Enter KISIM, WIMiIP, AGH

38 Analysis Toolpak histogram
Zakres komórek – B1:B30 – wyniki / obserwacje Zakres zbioru – D1:D9 – grupy do których zostaną przyporządkowane obserwacje Zakres wyjściowy – F1 – wybieramy jedną komórkę, od której w prawo i w dół zostanie wygenerowane zestawienie KISIM, WIMiIP, AGH

39 Analysis Toolpak histogram
KISIM, WIMiIP, AGH

40 rozkład normalny KISIM, WIMiIP, AGH

41 Excel – statystyka opisowa
Age education-num hours-per-week Średnia 38, 10, 40,84603 Błąd standardowy 0, 0, 0,510591 Mediana 37 10 40 Tryb 25 9 Odchylenie standardowe 13, 2, 12,94728 Wariancja próbki 194, 6, 167,632 Kurtoza 0, 0, 3,369519 Skośność 0, -0, 0,626327 Zakres 73 15 95 Minimum 17 1 4 Maksimum 90 16 99 Suma 24811 6450 26264 Licznik 643 Poziom ufności(95,0%) 1, 0, 1,00263 KISIM, WIMiIP, AGH

42 Wykaz narzędzi statystycznych Analysis Toolpak
1. ANOVA 2. ANOVA: POJEDYNCZY CZYNNIK 3. ANOVA: DWA CZYNNIKI Z REPLIKACJĄ 4. ANOVA: DWA CZYNNIKI BEZ REPLIKACJI 5. Korelacja 6. Kowariancja 7. Statystyki opisowe 8. Wygładzanie wykładnicze 9. Test F: dwie próbki dla wariancji 10. Analiza fouriera 11. Histogram 12. Średnia ruchoma 13. Generowanie liczb losowych 14. Ranga i percentyl 15. Regresja 16. Próbkowanie 17. Test t 18. Test t: dwie próby, przy założeniu równych wariancji 19. Test t: dwie próby, przy założeniu nierównych wariancji 20. Test t: sparowany, dwie próby dla średnich KISIM, WIMiIP, AGH


Pobierz ppt "Probabilistyczne modele danych"

Podobne prezentacje


Reklamy Google