Zmienne losowe Rozkład prawdopodobieństwa zmiennej losowej

Slides:

Advertisements

Podobne prezentacje

Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.

Advertisements

Test zgodności c2.

Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA

Statystyka Wojciech Jawień

Wykład 5 Standardowy błąd a odchylenie standardowe

Zmienne losowe i ich rozkłady

Zmienne losowe i ich rozkłady

BUDOWA MODELU EKONOMETRYCZNEGO

Estymacja przedziałowa

Test zgodności Joanna Tomanek i Piotr Nowak.

Graficzna prezentacja danych Wykład 2 dr Małgorzata Radziukiewicz

Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)

Statystyczne parametry akcji

Statystyka w doświadczalnictwie

(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.

BIOSTATYSTYKA I METODY DOKUMENTACJI

Niepewności przypadkowe

Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby

Wykład 5 Przedziały ufności

Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego

Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.

Wykład 4 Przedziały ufności

Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń.

Wzory ułatwiające obliczenia

Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.

Wykład 4. Rozkłady teoretyczne

Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych Dr inż. Halina Tarasiuk

Średnie i miary zmienności

Hipotezy statystyczne

Konstrukcja, estymacja parametrów

Elementy Rachunku Prawdopodobieństwa i Statystyki

dr hab. Ryszard Walkowiak prof. nadzw.

Elementy Rachunku Prawdopodobieństwa i Statystyki

Rozkłady wywodzące się z rozkładu normalnego standardowego

BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:

Elementy Rachunku Prawdopodobieństwa i Statystyki

Elementy Rachunku Prawdopodobieństwa i Statystyki

Elementy Rachunku Prawdopodobieństwa i Statystyki

Statystyka ©M.

Podstawy statystyki, cz. II

Co to jest dystrybuanta?

Wnioskowanie statystyczne

STATYSTYKA Pochodzenie nazwy:

Statystyka medyczna Piotr Kozłowski

Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.

Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.

MODELOWANIE ZMIENNOŚCI CEN AKCJI

Podstawowe pojęcia i terminy stosowane w statystyce

Statystyczna analiza danych w praktyce

Statystyczna analiza danych

Statystyczna analiza danych

Statystyczna analiza danych

STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

ze statystyki opisowej

Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.

STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.

Człowiek – najlepsza inwestycja

WYKŁAD Teoria błędów Katedra Geodezji im. K. Weigla ul. Poznańska 2

STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

STATYSTYKA – kurs podstawowy wykład 11

Testy nieparametryczne

Statystyka matematyczna

Statystyka matematyczna

Statystyka matematyczna

Jednorównaniowy model regresji liniowej

Analiza niepewności pomiarów Zagadnienia statystyki matematycznej

MIARY STATYSTYCZNE Warunki egzaminu.

Zapis prezentacji:

Zmienne losowe Rozkład prawdopodobieństwa zmiennej losowej dr hab. Ryszard Walkowiak prof. nadzw.

Definicja zmiennej losowej Przeprowadzając badania statystyczne, również z zakresu ochrony środowiska, zwykle chcemy ich wyniki odnieść do pewnej grupy obiektów, lub do pewnego obszaru. Taką grupę obiektów, wyróżniających się posiadaniem cechy, którą chcemy badać, nazywamy populacją. Badane w danej populacji cechy, np. wzrost wszystkich studentów i studentek Uniwersytetu Przyrodniczego w Poznaniu, albo zawartość metalu ciężkiego w glebie, można utożsamiać ze zmiennymi losowymi, gdyż, z uwagi na wielką różnorodność czynników wpływających na wartości tych cech, przynależność wartości zmierzonej na konkretnym elemencie populacji do określonego przedziału jest zdarzeniem zachodzącym z pewnym prawdopodobieństwem.

Typy zmiennych losowych Zmienne losowe dzielimy na: jakościowe – nie dające się zmierzyć, np. płeć, kolor oczu, kształt liścia itp. ilościowe - mierzalne np. wzrost, masa korzeni, wielkość skażenia metalem ciężkim itp. Będziemy zajmować się głównie zmiennymi losowymi ilościowymi. Te zmienne z kolei dzielimy na: dyskretne – mogące przyjmować tylko konkretne, odosobnione wartości, np. liczba prosiąt w miocie, liczba nasion w kłosie, ciągłe – mogące przyjmować dowolną wartość z pewnego przedziału liczbowego, np. wzrost, masa nasion, zawartość metalu ciężkiego w glebie itp.

Rozkład prawdopodobieństwa zmiennej losowej Przyjęcie pewnej konkretnej wartości przez zmienną losową dyskretną, lub wartości z konkretnego przedziału liczbowego przez zmienną losową ciągłą, nazywamy zdarzeniem losowym. Każdemu zdarzeniu losowemu można przyporządkować pewną liczbę rzeczywistą należącą do przedziału 0,1, nazywaną prawdopodobieństwem tego zdarzenia. Przyjęto, że prawdopodobieństwo zdarzenia pewnego jest równe 1, a zdarzenia niemożliwego 0. Przyjęto także, że suma prawdopodobieństw wszystkich możliwych zdarzeń rozłącznych, nazywanych też zdarzeniami wykluczającymi się, jest równa 1.

Rozkład prawdopodobieństwa zmiennej losowej Załóżmy, że wybieramy losowo jedną osobę z pewnej grupy ludzi i że cechą badaną jest wiek tej osoby. Jeżeli przez A oznaczymy zdarzenie, że wiek tej osoby należy do przedziału 0, 20) lat, przez B, że należy do przedziału 20, 40) i przez C, że należy do przedziału 40, ), to P(A) + P(B) + P(C) = P(A  B  C) = 1 niezależnie od wartości P(A), P(B) i P(C) , gdyż A  B  C, rozumiane w sposób następujący: wiek wylosowanej osoby należy do przedziału 0, 20) lub do 20,40) lub do 40, ), jest zdarzeniem pewnym.

Rozkład prawdopodobieństwa zmiennej losowej Zachowanie zmiennej losowej w całej populacji zależy od tego, jak (równa 1) „masa prawdopodobieństwa”, utożsamiana czasem z częstością występowania zdarzenia, rozłożona jest na poszczególne wartości lub przedziały wartości zmiennej losowej. Funkcja, która przypisuje poszczególnym wartościom lub przedziałom wartości zmiennej losowej prawdopodobieństwa ich wystąpienia nazywa się rozkładem prawdopodobieństwa tej zmiennej losowej.

Rozkład prawdopodobieństwa zmiennej losowej dyskretnej Rozkład prawdopodobieństwa zmiennej losowej wygodnie jest przedstawić graficznie. W przypadku zmiennej losowej dyskretnej jest to diagram, czyli wykres, na którym na osi odciętych odkładamy wartości zmiennej losowej, a na osi rzędnych odpowiadające im prawdopodobieństwa, rozumiane jako częstości względne tych wartości. Załóżmy, że badamy dwie grupy studentów, A i B. Każda liczy po 20 osób. Zmienną losową są wyniki egzaminu z pewnego przedmiotu.

Diagram rozkładu prawdopodobieństwa zmiennej losowej dyskretnej Ocena Liczebność Częstość/ prawdopodobieństwo A B P(A) P(B) 2 5 2/20 = 0,1 5/20 = 0,25 3 4 12 4/20 = 0,2 12/20 = 0,6 8 8/20 = 0,4 6 1 6/20 = 0,3 1/20 = 0,05 Razem 20

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej Rozkład zmiennej losowej może być scharakteryzowany za pomocą tzw. momentów. Są one szczególnie przydatne gdy zmienna losowa przyjmuje bardzo dużą liczbę wartości. Najważniejszymi momentami są wartość oczekiwana i wariancja.

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej Wartość oczekiwana zmiennej losowej dyskretnej X, oznaczana symbolem E(X), obliczana jest według wzoru: gdzie n oznacza liczbę wartości zmiennej losowej X, xi oznacza i –tą wartość tej zmiennej, i = 1, 2, …, n pi oznacza prawdopodobieństwo wartości xi

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej W naszym przykładzie E(A) = 20,1 + 30,2 + 40,4 + 50,3 = 3,9 E(B) = 20,25+30,6+40,1+50,05 = 2,95 W interpretacji fizycznej, jeśli każdej wartości zmiennej losowej przyporządkować masę równą jej prawdopodobieństwu, to wartość oczekiwana jest środkiem ciężkości tak powstałego układu. Jeśli „podeprzemy” diagram rozkładu prawdopodobieństwa w punkcie odpowiadającym wartości oczekiwanej to pozostanie on w równowadze. Z tego względu wartość oczekiwaną nazywa się miarą położenia rozkładu prawdopodobieństwa. Ocena Częstość P(A) P(B) A B 2 5 2/20 = 0,1 5/20 = 0,25 3 4 12 4/20 = 0,2 12/20 = 0,6 8 8/20 = 0,4 6 1 6/20 = 0,3 1/20 = 0,05 Razem 20

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej E(A) = 3,9 E(B) = 2,95

Momenty rozkładu prawdopodobieństwa zmiennej losowej dyskretnej Wariancja jest miarą rozproszenia (rozrzutu) wartości zmiennej losowej względem jej wartości oczekiwanej. Dla zmiennej losowej dyskretnej X oblicza się ją według wzoru: VarA = (2–3,9)20,1+(3–3,9)20,2+(4–3,9)20,4+(5–3,9)20,3 = 0,89 VarB =(2–2,9)20,25+(3–2,9)20,6+(4–2,9)20,1+(5–2,9)20,05 = 0,55 Zatem wartości zmiennej losowej B są bardziej skupione wokół swojej wartości oczekiwanej niż wartości zmiennej losowej A

Rozkład prawdopodobieństwa zmiennej losowej ciągłej Zmienne losowa ciągła przyjmuje wartości z pewnego przedziału liczbowego (a, b). Niekiedy nawet z przedziału (-, ). Zatem liczba możliwych wartości takiej zmiennej jest nieprzeliczalna. Wynika stąd, że prawdopodobieństwo, że zmienna losowa ciągła przyjmie wartość równą jakiejś konkretnej liczbie jest równe zeru. Różne od zera może być jedynie prawdopodobieństwo, że zmienna ta przyjmie wartość należącą do pewnego podprzedziału przedziału (a, b). Z tego względu, do opisu rozkładu prawdopodobieństwa zmiennej losowej ciągłej nie można używać diagramu. Jego odpowiednikiem jest funkcja gęstości prawdopodobieństwa.

Funkcja gęstości prawdopodobieństwa Każda funkcja f(x) o następujących własnościach: f(x)  0 dla każdej wartości x należącej do jej dziedziny; Pole pomiędzy wykresem funkcji f(x) a osią odciętych jest równe 1. jest funkcją gęstości prawdopodobieństwa jakiejś zmiennej losowej.

Funkcja gęstości prawdopodobieństwa Związek między funkcją gęstości prawdopodobieństwa a prawdopodobieństwem, że wartości zmiennej losowej X należą do przedziału (a, b) a b

Momenty rozkładu prawdopodobieństwa zmiennej losowej ciągłej Wartością oczekiwaną ciągłej zmiennej losowej X jest Wariancją ciągłej zmiennej losowej X jest Będziemy używać następujących oznaczeń:  (mi) - wartość oczekiwana,  2 (sigma kwadrat) - wariancja.

Funkcja gęstości prawdopodobieństwa Szczególne znaczenie w analizie statystycznej mają zmienne losowe o rozkładzie normalnym. Rozkład normalny opisany jest następującą funkcją gęstości prawdopodobieństwa: Wykres tej funkcji nazywany jest krzywą Gaussa

Empiryczny rozkład prawdopodobieństwa Często populacje, w których chcemy zbadać rozkład zmiennej losowej są tak duże, że nie możemy przebadać całej populacji. Pobieramy wówczas próbę losową n elementów populacji, na których mierzymy wartość badanej zmiennej losowej. Estymatorem wartości oczekiwanej jest wówczas Estymatorem wariancji jest

Empiryczny rozkład prawdopodobieństwa Na podstawie uzyskanych w ten sposób wartości chcemy określić rozkład prawdopodobieństwa badanej zmiennej losowej. Aby rozkład ten można było określić wystarczająco dokładnie, liczba elementów w próbie musi być duża, co znacznie utrudnia ich usystematyzowanie. Dobrym przybliżeniem wykresu funkcji gęstości prawdopodobieństwa jest tzw. histogram liczebności. Jest to wykres słupkowy szeregu rozdzielczego.

Empiryczny rozkład prawdopodobieństwa Szereg rozdzielczy otrzymujemy w sposób następujący: Znajdujemy największą ( Rmaks) i najmniejszą (Rmin) obserwację w próbie. Wszystkie obserwacje w próbie należą do przedziału Rmin, Rmaks. Dzielimy przedział Rmin, Rmaks na k podprzedziałów zwanych klasami albo przedziałami klasowymi. Długość klas, d, wyznaczamy w ten sposób, aby kd było nieco większe niż Rmaks – Rmin , a początek pierwszego przedziału klasowego tak, aby Rmin należało do pierwszego a Rmaks do ostatniego przedziału klasowego. Liczymy obserwacje należące do poszczególnych klas. Otrzymujemy w ten sposób liczebności klas. Liczebności klas dzielimy przez liczebność całej próby otrzymując w ten sposób częstości, które utożsamiać będziemy z prawdopodobieństwem, że wartość zmiennej losowej należy do danej klasy. Bardzo ważną decyzją przy konstruowaniu szeregu rozdzielczego jest określenie liczby klas. Zależy od niej czytelność histogramu liczebności.

Empiryczny rozkład prawdopodobieństwa Przykładem niech będzie 1437 próbek gleby pobranych z różnych, losowo wybranych miejsc dawnego województwa poznańskiego. W każdej próbce zbadano zawartość ołowiu. Okazało się, że minimalna zawartość była równa Rmin = 1,8 g/kg a maksymalna Rmaks = 69,8 g/kg dla różnych liczb klas histogram częstości przedstawiał się następująco.

Empiryczny rozkład prawdopodobieństwa Zbyt dużo klas

Empiryczny rozkład prawdopodobieństwa Zbyt mało klas

Empiryczny rozkład prawdopodobieństwa Prawdopodobnie właściwa liczba klas

Empiryczny rozkład prawdopodobieństwa obliczanie momentów Środki przedz. Klas.xi Liczebność ni Częstość pi xipi xi - E(X) (xi-E(X))2pi 2,42855 8 0,005567 0,01352 -13,5776 1,0263073 7,28565 152 0,105776 0,770646 -8,72047 8,0439023 12,14275 583 0,405706 4,926391 -3,86337 6,0554274 16,99985 382 0,265832 4,519097 0,993728 0,2625076 21,85695 169 0,117606 2,570511 5,850828 4,0259152 26,71405 81 0,056367 1,505802 10,70793 6,4630743 31,57115 23 0,016006 0,505314 15,56503 3,8776704 36,42825 12 0,008351 0,304203 20,42213 3,4827835 41,28535 0,229842 25,27923 3,5576305 46,14245 11 0,007655 0,353213 30,13633 6,9521093 50,99955 4 0,002784 0,141961 34,99343 3,4086013 55,85665 3 0,002088 0,116611 39,85053 3,3153749 60,71375 44,70763 65,57085 49,56473 70,42795 1 0,000696 0,04901 54,42183 2,0610545 n = 1437 E(X) = 16,00612 Var(X) = 52,532359 Suma Suma Prawdziwe wartości momentów są następujące: E(X) = 16,00689 Var(X) = 50,3841 Jak widać, wartość oczekiwana estymowana jest prawidłowo, niestety nie można tego powiedzieć o wariancji.

Empiryczny rozkład prawdopodobieństwa obliczanie momentów Powodem złej estymacji wariancji jest czynione w szeregu rozdzielczym założenie, że wszystkie obserwacje należące do danego przedziału klasowego są równe środkowi tego przedziału. Aby ten błąd zminimalizować, wariancję dla szeregu rozdzielczego estymuje się według następującego wzoru: gdzie: n liczebność próby k liczba przedziałów klasowych ni liczba obserwacji należąca do i-tego przedziału klasowego, i = 1, 2, …, k h długość przedziału klasowego.

Empiryczny rozkład prawdopodobieństwa obliczanie momentów Przypomnijmy, że prawdziwą wartością wariancji jest Var(X) = 50,3841 Jak widać, wariancja jest estymowana znacznie lepiej.

Literatura Radosław Kala (2002): Statystyka dla przyrodników. Wydawnictwo Akademii Rolniczej im. A. Cieszkowskiego w Poznaniu. Czesław Platt (1981): Problemy rachunku prawdopodobieństwa i statystyki matematycznej, PWN Warszawa