Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.

Slides:



Advertisements
Podobne prezentacje
Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.
Advertisements

Statystyka Wojciech Jawień
Wykład 5 Standardowy błąd a odchylenie standardowe
Wykład 11 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)
Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.
Analiza współzależności zjawisk
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Zmienne losowe i ich rozkłady
Jak mierzyć asymetrię zjawiska?
Symulacja wprowadzania nowego produktu na rynek
Statystyczne parametry akcji
Statystyczne parametry akcji
Statystyka w doświadczalnictwie
Rachunek prawdopodobieństwa 1
Niepewności przypadkowe
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Wykład 4 Przedziały ufności
Elementy Rachunku Prawdopodobieństwa c.d.
Elementy Rachunku Prawdopodobieństwa c.d.
Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń.
Wzory ułatwiające obliczenia
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń  Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Co to są rozkłady normalne?
Co to są rozkłady normalne?
Podstawy statystyki Dr Janusz Górczyński.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Elementy Rachunku Prawdopodobieństwa i Statystyki
Statystyka – zadania 4 Janusz Górczyński.
Hipotezy statystyczne
Projekt wykonany przez studentów I roku ARI Politechniki Wrocławskiej:
DOŚWIADCZENIA LOSOWE.
Wykład 2 Wpływ przekształceń
Co to jest dystrybuanta?
Dopasowanie rozkładów
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Wykład 5 Przedziały ufności
Modele zmienności aktywów
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Statystyczne parametry akcji Średnie Miary rozproszenia Miary współzależności.
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
STATYSTYKA – kurs podstawowy wykład 3 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 2 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Zdarzenia losowe. Opracowanie: Beata Szabat. Zdarzenia losowe. Często w życiu codziennym używamy określeń: - to jest bardzo prawdopodobne, - to jest mało.
Testy nieparametryczne
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Zmienna losowa. Wybrane rozkłady zmiennej. Przedział ufności.
Monte Carlo, bootstrap, jacknife
Zapis prezentacji:

Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori. Załóżmy teraz, że w pewnej populacji: 30% ludzi ma HIV, test do wykrywania HIV ma czułość 99.7% i specyficzność 98.5% (jak przedtem). Jakie jest prawdopodobieństwo, że osoba z dodatnim wynikiem testu ma HIV?

P-stwo, że osoba z dodatnim wynikiem testu jest (faktycznie) chora wynosi:

Zmienna losowa: Wartość zależna od wyniku eksperymentu. Przykład: Liczba orłów uzyskanych w jednym rzucie monetą.

Zmienna losowa dyskretna Zbiór wartości, które może przyjąć zmienna losowa dyskretna jest skończony lub przeliczalny. Możliwe wartości będziemy oznaczali x1,x2, … Rozkład zmiennej dyskretnej X określamy podając prawdopodobieństwa pi=P(X=xi). Np. w rzucie symetryczną kostką liczba oczek X ma rozkład P(X=i)= , i=1,...6.

Ciągła zmienna losowa Prawdopodobieństwo przyjęcia każdej ustalonej wartości wynosi zero, np. P(X=3.14159265358979323)=0 Na tym kursie będziemy rozważać tylko zmienne losowe ciągłe opisane funkcją gęstości f(x).

Dystrybuanta zmiennej X: Dla liczby definiujemy Własności: FX(x) jest funkcją niemalejącą, ciągłą z prawej strony, oraz

Narysuj dystrybuantę dyskretnej zmiennej losowej X takiej, że P(X=0)=1/3 oraz P(X=1)=2/3.

Narysuj dystrybuantę rozkładu jednostajnego na odcinku [a,b].

Wartość oczekiwana i wariancja (wzory). Zmienna losowa dyskretna x :=E(X)= xi P(X= xi)=xipi Var(X)= (xi- x)2 P(X= xi) = xi2 pi - x2 Przykład 1 (rzut monetą, X=1, gdy orzeł, X=0, gdy reszka) E(X)= Var(X)= Przykład 2 (X=wynik rzutu kostką) E(X)= Var(X)=

Rozkład dwupunktowy z parametrem P(Y=1)=p, P(Y=0)=1-p. Oblicz: EY= VarY=

Wartość oczekiwana i wariancja, cd. Zmienna losowa ciągła

Wartość oczekiwana jest środkiem ciężkości figury określonej przez krzywą gęstości.

Przykład: rozkład jednostajny na [0,1].

Własności wartości oczekiwanej i wariancji E(aX+b)=aEX+b Var(aX+b)=a2Var(X)

Dla dwóch zmiennych losowych X i Y: E(X+Y)=EX+EY E(X-Y)=EX-EY E(aX+bY+c)=

Niezależność zmiennych losowych: Jeżeli zmienne X i Y są niezależne to dla każdej pary zdarzeń A i B Przykład1: Wybieramy (losowo) liczbę dwucyfrową; X:=liczba dziesiątek, Y:=liczba jedności, A={1, 2}, B={3, 4, 5}.

Niezależność zmiennych losowych, cd. Przykład 2: Wybieramy (losowo) liczbę z zakresu 12,...,101; X:=cyfra dziesiątek, Y:=cyfra jedności, A={1, 2}, B={3, 4, 5}. Przykład 3: Liczby oczek, X, Y, w dwóch kolejnych rzutach kostką.

Jeżeli X i Y są niezależne, to E(XY)=E(X)·E(Y) i Var(X+Y)=Var(X)+Var(Y).

Ćwiczenia: X i Y niezależne Var(X-Y)= Var(X+X)=

Schemat Bernoulliego i rozkład dwumianowy Anita, Beata i Krystyna rzucają monetą i podają łączną liczbę orłów,Y. Podaj rozkład zmiennej Y A B K P-stwo O R Zdarzenie P-stwo 3O (0R) 2O (1R) 1O (2R) 0O (3R)

Histogram rozkładu w populacji Histogram rozkładu w populacji. Populacja =”wszystkie” rzuty trzema monetami

Schemat Bernoulliego: n niezależnych powtórzeń tego samego eksperymentu dwa możliwe wyniki w każdej próbie - ``sukces’’ i ``porażka’’ (np. O i R, albo 1 i 0) w każdej próbie p-stwo sukcesu wynosi p Rozkład dwumianowy: Y = łączna liczba sukcesów w schemacie Bernoulliego Przykłady: liczba orłów na 5 rzutów, liczba wyzdrowień wśród 10 pacjentów poddanych pewnej kuracji

Rozkład dwumianowy:

Niektóre własności symbolu Newtona Liczba możliwych ciągów y sukcesów i n-y porażek = = = = Ogólnie

W przykładzie p=1/2; Uwaga: Rozkład dwumianowy jest symetryczny dla p=1/2.

Przykład: Efekt uboczny lekarstwa 20% ludzi dostaje nudności po zażyciu pewnego lekarstwa Lekarz przepisał lekarstwo czterem nowym pacjentom Y – liczba pacjentów w naszej próbie, którzy dostali nudności Podaj rozkład zmiennej Y

Odpowiedź:

P(co najmniej dwóch dostanie nudności) = P(co najwyżej jeden dostanie nudności) =

Parametry rozkładu dwumianowego EY = np Var Y=np(1-p)

Przykład Jeden na ośmiu dorosłych mężczyzn ma podniesiony poziom cholesterolu. Losowo wybieramy 10 mężczyzn z populacji. Jakie jest p-stwo, że (dokładnie) 2 spośród nich ma podniesiony poziom cholesterolu ?

Jakie jest p-stwo, że co najmniej jeden z nich ma podniesiony poziom cholesterolu? Ilu średnio mężczyzn na dziesięciu ma podwyższony poziom cholesterolu?

Rozkład normalny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we krwi

Funkcja gęstości Y ~ N(,)  - wartość oczekiwana,  - odchylenie standardowe

Standardowy rozkład normalny N(0,1) Parametry:  =0 ,=1 Do oznaczenia zmiennej losowej o rozkładzie N(0,1) będziemy używali litery Z Dystrybuanta rozkładu normalnego N(0,1): Φ(x)=P(Z < x). Test: Φ(0)= Tablica dystrybuanty Φ(x) (z „Introduction to the Practice of Statistics”, Moore, McCabe)

Korzystanie z Tablic P(Z < 0.95) = P(Z <= 0.95) =

Pożyteczne wzory Φ(-x) = P(Z > z) = P(z1 < Z < z2) = Oblicz: Pr(|Z| > 1.96) =

Dowolny rozkład normalny: N(, ) Załóżmy, że poziomy cholesterolu w pewnej populacji mają rozkład normalny o średniej  = 220 i odchyleniu standardowym  = 40. Y ma rozkład N(220, 40) Jaka część populacji ma poziom cholesterolu powyżej 240?

Standardyzacja Y ~ N(,) (Y-)/ ma rozkład normalny! Oznaczmy Z= (Y-)/. Mamy: EZ= Var(Z)= Zatem Z~ N(0,1)!

Przykład cd. P (Y > 240)=? P(Y>y), gdzie y=240. Oznaczamy P(Y > 240) = P(Z > 0.5)=

Jakie jest p-stwo, że u losowo wybranej osoby cholesterol będzie pomiędzy 200 a 260? y1 = 200; z1 = (200-220)/40 = -0.5; y2 = 260; z2 = (260-220)/40 = 1.0; P(200 < Y < 260) = P(-0.5 < Z < 1.0) =

Oblicz P(Y < 170)

Reguła 68%–95%–99.7% (reguła 3 ) Jeżeli zmienna X ma rozkład normalny, to P(-<X<+)= P(-2<X<+2)= P(-3<X<+3)=

Kwantyle W jakim punkcie y dystrybuanta osiąga zadaną wartość p? Przykłady: Mediana to kwantyl rzędu 50%. Trzeci kwartyl to kwantyl rzędu 75%?

Znajdź trzeci kwartyl rozkładu opisującego poziom cholesterolu. Znajdź kwantyl rzędu 0.1 dla rozkładu poziomów cholesterolu.

Ocena normalności Znaczna część procedur statystycznych, które poznamy w dalszej części kursu wymaga założenia, że próba pochodzi z populacji o rozkładzie normalnym. Założenie to można sprawdzać np. wykonując proste obliczenia lub rysując wykres kwantyl-kwantyl.

Reguła 3 Policzmy procent obserwacji, które znajdują się w odległości  1s,  2s and  3s od . Przykład: poziomy serum CK n = 36, = 98.28 i s = 40.38. 26/36 = 72% obserwacji jest w przedziale  1s 34/36 = 94% obserwacji jest w przedziale  2s 36/36 = 100% obserwacji jest w przedziale  3s To w przybliżeniu odpowiada wartościom dla rozkładu normalnego. OK.

Wykres kwantyl-kwantyl (QQ plot) Data :61.0 62.5 63.0 64.0 64.5 65.0 66.5 67.0 68.0 68.5 70.5

Korekta na ciągłość Niekiedy używamy rozkładu normalnego dla opisu rozkładu danych, które nie są ciągłe. Powody: Dyskretyzacja pomiarów Niektóre rozkłady dyskretne można dobrze przybliżać rozkładem normalnym (np. rozkład dwumianowy) Korektę można zaniedbać, gdy zbiór możliwych do uzyskania wartości jest duży i rozmiar próby jest duży.

Przykład: wyniki testu. Załóżmy, że  = 100 i  = 16. Wynik to liczba całkowita – nie pochodzi z rozkładu ciągłego. Jak użyć rozkładu normalnego ? Przypisujemy liczbie całkowitej y p-stwo odcinka od y-.5 do y+.5

Jakie jest p-stwo, że losowo wybrany student uzyska(ł) wynik pomiędzy 120 a 140 punktów.

Przybliżenie rozkładu dwumianowego rozkładem normalnym Po co? Gdy n jest duże, to mamy bardzo dużo możliwych wartości Y. Gdy n jest duże, to symbole Newtona są trudne do wyliczenia. Przybliżenie działa tym lepiej, im p jest bliższe 0.5, i im większe jest n.

Rozkład dwumianowy z parametrami n i p przybliżamy rozkładem normalnym z parametrami =np i = . Przybliżenie jest „dość dobre”, gdy np ≥ 5 i n(1-p) ≥ 5 Przybliżenie jest dość dokładne w centrum rozkładu i (względnie) gorsze w „ogonach”.

Przykład Załóżmy, że Y ma rozkład dwumianowy z n=40 i p=0.25. Wtedy  = np = i  = . Sprawdzamy wielkość np oraz n(1-p). Obliczmy p-stwo, że Y jest pomiędzy 10 i 15 (włącznie). P(10≤Y≤15)= [Wynik dokładny = 0.534; nie najgorzej.]

Rozkłady próbkowe normalnym N(, ), lub Rozważmy populację o pewnym rozkładzie, np.: normalnym N(, ), lub dwupunktowym, np. P(Y=sukces)=p, P(Y=porażka)=1-p Parametry populacji:  i , lub p. Bierzemy próbę o rozmiarze n z populacji. Wynik: y1, … yn, lub y = sumaryczna liczba sukcesów. Obliczamy estymatory , lub Gdy n jest duże, estymatory są na ogół bliskie parametrom które estymują.

Rozkłady próbkowe, cd. Jak bardzo estymatory mogą sią różnić od prawdziwych parametrów ? Co się stanie, jeżeli wylosujemy inną próbę? Otrzymamy inne wartości i s, lub Interesuje nas rozkład (próbkowy) ,s, .

Meta-eksperyment Wyobraźmy sobie, że powtarzamy eksperyment wiele razy Interesuje nas rozkład wszystkich możliwych do uzyskania wartości , s lub . Taki rozkład będziemy nazywali rozkładem próbkowym estymatora. Zwykle próbkujemy tylko raz. Rozkłady próbkowe można obliczyć teoretycznie.

Rozkład próbkowy estymatora dla p w rozkładzie dwupunktowym Y = liczba sukcesów w n próbach y = zaobserwowana liczba sukcesów = Y/n jest estymatorem p

Przykład: Producent ocenia, że 2% jego wyrobów jest wadliwych. Wyroby te paczkuje się po 40 w jednym opakowaniu. Y = liczba wadliwych wyrobów w losowo wybranej paczce. Y ma rozkład ......................................... Niech = Y/40 = frakcja elementów wadliwych. P( = r ) =

Rozkład wyznaczamy przy pomocy (dwumianowego) rozkładu Y!

Gdybyśmy otworzyli tysiące paczek, to rozkład frakcji liczby wadliwych elementów w paczce byłby zgodny z rozkładem wyliczonym na poprzedniej stronie. Prawdziwa wartość p jest 0.02 i nie jest nawet możliwa do zaobserwowania w pojedynczym eksperymencie, ale na ogół otrzymamy wartości bliskie 0.02. P-stwo, że = 0.025 wynosi 36%. P-stwo, że nasza ocena będzie różnić się nie więcej niż o 0.03 od prawdziwej wartości wynosi:.............. Zatem, jeżeli znajdziemy 3 lub więcej wyrobów wadliwych w jednej paczce mamy podstawy, żeby kwestionować twierdzenie producenta o p!

Przykład n=40 i p = 0.02. Jakie jest p-stwo, że estymator częstości przekracza dwukrotnie (lub więcej) prawdziwą wartość?

Zależność od rozmiaru próby Y ma rozkład Bernoulliego (n,p) μY=np Var (Y)=np(1-p) = Var ( )=

Gdy n rośnie, to wariancja ............... i estymator staje się bardziej .................... Przykład; p=0.3.

Rozkład (gdy p=0.3) n P(0.25≤ ≤0.35) 10 0.5 20 0.535 40 0.612 80 0.728 500 0.987