Wnioskowanie statystyczne

Slides:



Advertisements
Podobne prezentacje
Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.
Advertisements

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Statystyka Wojciech Jawień
Estymacja. Przedziały ufności.
Wykład 5 Standardowy błąd a odchylenie standardowe
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Wnioskowanie statystyczne
BUDOWA MODELU EKONOMETRYCZNEGO
Jak mierzyć asymetrię zjawiska?
Statystyka w doświadczalnictwie
Analiza korelacji.
Rachunek prawdopodobieństwa 1
Niepewności przypadkowe
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Elementy Rachunku Prawdopodobieństwa c.d.
Elementy Rachunku Prawdopodobieństwa c.d.
Metody Przetwarzania Danych Meteorologicznych Wykład 4
Wzory ułatwiające obliczenia
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Co to są rozkłady normalne?
Co to są rozkłady normalne?
Hipotezy statystyczne
Podstawy statystyki Dr Janusz Górczyński.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Hipotezy statystyczne
Projekt wykonany przez studentów I roku ARI Politechniki Wrocławskiej:
Podstawy analizy matematycznej I
Elementy Rachunku Prawdopodobieństwa i Statystyki
FUNKCJE Opracował: Karol Kara.
Co to jest dystrybuanta?
Dopasowanie rozkładów
Wnioskowanie statystyczne
Zagadnienia AI wykład 2.
STATYSTYKA Pochodzenie nazwy:
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Podstawowe pojęcia i terminy stosowane w statystyce
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
STATYSTYKA – kurs podstawowy wykład 3 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
WYKŁAD Teoria błędów Katedra Geodezji im. K. Weigla ul. Poznańska 2
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Testy nieparametryczne
Matematyka przed egzaminem czyli samouczek dla każdego
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
Własności asymptotyczne ciągów zmiennych losowych
statystyka podstawowe pojęcia
Zapis prezentacji:

Wnioskowanie statystyczne dr Urszula Gierałtowska Katedra Ubezpieczeń i Rynków Kapitałowych e-mail: ugieraltowska@gmail.com Tel. (91) 444 19 63 Konsultacje: wtorek/środa godz. 1200–1330, pok. 212

Wnioskowanie statystyczne Literatura: Hozer J., Kolanko E., Korol M., Lasota B., Witek M., Statystyka. Część II. Wnioskowanie statystyczne, Wydawnictwo Naukowe Uniwersytetu Szczecińskiego, Szczecin 1994. Jóźwiak J., Podgórski J., Statystyka od podstaw, PWE, Warszawa 2006, Aczel A. D., Statystyka w zarządzaniu, PWN, Warszawa 2000 . Greń J., Statystyka matematyczna, modele i zadania, PWN, Warszawa 1987 Balicki A., Makać W., Metody wnioskowania statystycznego, Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk 2007. Luszniewicz A., Statystyka nie jest trudna. Metody wnioskowania statystycznego, PWE, Warszawa 1999. Domański C.,Testy statystyczne, PWE, Warszawa 1990. Fisz M., Rachunek prawdopodobieństwa i statystyka matematyczna, PWN, Warszawa 1976. Domański C., Pruska K., Nieklasyczne metody statystyczne, PWE, Warszawa 2000. Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K., Statystyka w zadaniach. Cz. II, Wydawnictwo Naukowo-Techniczne, Warszawa 2001. Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M., Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach. Część 2. Statystyka matematyczna, Wydawnictwo Naukowe PWN, Warszawa 2002. Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K., Wzory i tablice statystyczne, Katedra Ekonometrii i Statystyki US, Stowarzyszenie Pomoc i Rozwój, Szczecin 1997.

Wnioskowanie statystyczne Elementarne zagadnienia rachunku prawdopodobieństwa Prawdopodobieństwo – jest ilościową miarą niepewności, jest to liczba, która wyraża siłę przekonania o tym, że zajdzie niepewne zdarzenie. Twórcy: Blaise Pascal (1623-1662), Pierre de Fermat (1601-1665), Galileo Galileusz (1564-1642), Abraham de Moivre’a (1667-1754) Rachunek prawdopodobieństwa (probabilistyka, od łacińskiego słowa probabilitis oznaczającego prawdopodobny) zajmuje się badaniem praw rządzących zdarzeniami losowymi. Pojęciami pierwotnymi są: zdarzenia elementarne w i przestrzeń zdarzeń elementarnych W związane z doświadczeniem losowym D. Zdarzenie (zdarzenie losowe) – wynik pewnej obserwacji lub doświadczenia (może być ilościowy lub jakościowy). Zdarzenie, którego zajście leży całkowicie lub częściowo poza zasięgiem kontroli. Zdarzenie elementarne – najprostszy wynik doświadczenia losowego, tzn. zdarzenie losowe, którego nie da się rozłożyć na zdarzenia prostsze. W - zbiór wszystkich zdarzeń elementarnych w danym doświadczeniu lub obserwacji (przestrzeń zdarzeń elementarnych).

Wnioskowanie statystyczne Zdarzeniami losowymi są takie zdarzenia, które w danym układzie zupełnym zdarzeń: – wzajemnie się wykluczają; – jedno ze zdarzeń się realizuje; – realizacja zdarzeń ma charakter losowy. Oceny ilościowej zdarzeń i zjawisk losowych dokonuje się za pomocą pewnej charakterystyki, zwanej prawdopodobieństwem. Istnieje szereg definicji prawdopodobieństwa, opartych na różnych teoriach: częstościowej, mnogościowej, logicznej; szczególne miejsce zajmuje aksjomatyczna definicja prawdopodobieństwa Kołmogorowa. Klasyczna definicja prawdopodobieństwa Jeżeli przestrzeń W składa się z n zdarzeń elementowych jednakowo prawdopodobnych, to prawdopodobieństwo zajścia zdarzenia A jest ilorazem liczby zdarzeń elementarnych sprzyjających zajściu zdarzenia A przez liczbę wszystkich zdarzeń elementarnych, tzn.: gdzie: P(A) – prawdopodobieństwo zdarzenia A, m – liczba zdarzeń sprzyjających, n – liczba wszystkich zdarzeń.

Wnioskowanie statystyczne Właściwości prawdopodobieństwa: (c) (b) (a) A lub B (A+B) A A A i B A*B B ~A A+(~A)=W (d) (e) W A B Zdarzenie pewne W (suma wszystkich zdarzeń możliwych) Zdarzenia rozłączne A, B Jeśli A, B, .. są zdarzeniami rozłącznymi (wykluczają się wzajemnie) to P(A  B  …) = P(A) + P(B) + ... (patrz rysunek d) Jeśli W jest zdarzeniem pewnym to P(W) = 1 (patrz rysunek e) Stąd wynika, że dla dowolnego zdarzenia A 0  P(A)  1 P(A’) = 1 - P(A) (patrz rysunek a) Dla dowolnych zdarzeń A i B P(A  B) = P(A) + P(B) – P(A  B) (patrz rysunki b, c)

Wnioskowanie statystyczne Definicja prawdopodobieństwa statystycznego (częstościowa): Prawdopodobieństwem pojawienia się zdarzenia sprzyjającego zjawisku A nazywa się granicę, do której dąży empiryczny stosunek liczności zrealizowanych zdarzeń losowych sprzyjających danemu zjawisku m do liczności wszystkich zrealizowanych zdarzeń losowych z pewnego układu zupełnego zdarzeń (n), gdy n dąży do nieskończoności. Przykład 1. W sklepie znajdują się magnetowidy trzech firm: I, II, III: 3 razy tyle magnetowidów firmy I co magnetowidów firmy II, a 5 razy tyle magnetowidów firmy I co magnetowidów firmy III. Jakie jest prawdopodobieństwo, że wybierając losowo magnetowid, trafimy na magnetowid firmy II? 2. Rzucamy kostką do gry. Jakie jest prawdopodobieństwo, że wypadnie parzysta liczba oczek?

Wnioskowanie statystyczne Prawdopodobieństwo warunkowe Prawdopodobieństwem warunkowym zajścia zdarzenia A, pod warunkiem, że zajdzie zdarzenie B nazywamy liczbę: gdzie A, B  W i P(B) > 0 Prawdopodobieństwo całkowite Jeżeli A  W jest dowolnym zdarzeniem, natomiast B1, B2, B3, ..., Bn  W spełniają warunki: 1. B1  B2  …  Bn = W 2. wykluczają się parami 3. mają dodatnie prawdopodobieństwa, to P(A) = P(A|B1) · P(B1) + P(A|B2) · P(B2) + ... + P(A|Bn) · P(Bn) Zdarzenia niezależne Zdarzenia losowe A i B nazywamy niezależnymi jeżeli P(AB) = P(A) Zdarzenia losowe A i B są niezależne, wtedy i tylko wtedy, gdy P(A) · P(B) = P(A  B)

Wnioskowanie statystyczne Twierdzenie Bayesa Jeżeli zdarzenia B1, B2, … tworzą podział przestrzeni W i P(Bi ) > 0, i = 1, 2, …, dla dowolnego to dla zdarzenia A takiego, ze P(A)>0, to dla każdego i Jest to wzór na prawdopodobieństwo á posteriori, gdyż dotyczy prawdopodobieństwa zajścia zdarzenia Bi po zajściu zdarzenia A. Prawdopodobieństwa Bi noszą nazwę prawdopodobieństw á priori lub prawdopodobieństw subiektywnych. Przykład Żarówki są produkowane w 3 fabrykach. Z fabryki pierwszej pochodzi 25% produkcji, z fabryki drugiej 35% produkcji a z trzeciej 40%. Produkcja wadliwa wynosi odpowiednio: dla fabryki I – 5%, dla fabryki II – 4%, dla fabryki III – 2%. Wybrana żarówka okazała się wadliwa – jakie jest prawdopodobieństwo, że pochodzi ona z fabryki pierwszej?

Wnioskowanie statystyczne Zmienna losowa zmienna, która w wyniku doświadczenia może przyjąć wartości z pewnego zbiory liczb rzeczywistych, z określonym prawdopodobieństwem. Zmienną losową nazywamy każdą funkcję X określoną na przestrzeni zdarzeń elementarnych W, przyjmującą wartości rzeczywiste, taką, że dla każdej liczby rzeczywistej x zbiór zdarzeń elementarnych w spełniających warunek X(w) < x jest zdarzeniem losowym, tzn. należy do rodziny F. nazywamy zmienną losową, jeżeli Zmienne losowe dzielą się na skokowe i ciągłe. – Zmienną nazywamy skokową (dyskretną), jeżeli jej zbiór wartości jest przeliczalny (lub skończony). Zmienna tego rodzaju przyjmuje wartości z pewnego przedziału liczbowego. Szczególnym przypadkiem zmiennej skokowej jest tzw. zmienna zero–jedynkowa, używana w przypadku cech dychotomicznych, która może przyjmować tylko dwie wartości: 0 lub 1. – Zmienną losową nazywamy ciągłą, jeżeli może ona przybierać każdą wartość z pewnego przedziału liczbowego.

Fx(x)=P({w  W: X(w) < x}) Wnioskowanie statystyczne Dystrybuanta zmiennej losowej Dystrybuantą rozkładu prawdopodobieństwa zmiennej losowej X: W → R nazywamy funkcję Fx: R → R określoną wzorem: Fx(x)=P({w  W: X(w) < x}) zatem wartość dystrybuanty Fx(x) jest równa prawdopodobieństwu zdarzenia, że zmienna losowa przyjmuje wartości należące do przedziału (-∞, x>. W szczególności dystrybuantę zmiennej losowej X będziemy zapisywali w postaci F(x) = P(X < x). Własności dystrybuanty – F jest funkcją niemalejącą, tzn. jeżeli x1 < x2, to F(x1) < F(x2) – F jest funkcja lewostronnie ciągłą, tzn. dla każdego a  R – – jeżeli a < b, to P (a ≤ X < b) = F(b) – F(a), – jeżeli x jest liczbą skończoną, to P(X ≥ x) = 1 − F(x) Zmienne losowe są opisywane za pomocą funkcji (rozkładów). W zależności od rodzaju zmiennej są to: 1. funkcja prawdopodobieństwa (zmienne losowe skokowe), 2. funkcja gęstości (zmienne losowe ciągłe).

Wnioskowanie statystyczne Zmienna losowa typu skokowego (dyskretnego) Zmienna losowa X jest typu skokowego (dyskretnego), jeśli przyjmuje skończoną lub nieskończoną, ale przeliczalną liczbę wartości, tzn. X(W)={x1, x2, …,xi,...]. Funkcję pi = P(X = xi) = P ({w: X(w) = xi}) przyporządkowującą wartościom x1, x2, . . . , xk, . . . zmiennej losowej X odpowiednie prawdopodobieństwa p1, p2, . . . , pk, . . . nazywamy funkcją prawdopodobieństwa zmiennej losowej X typu skokowego. Przy czym pi > 0 oraz Dystrybuantą zmiennej losowej skokowej X jest funkcja F określona wzorem . gdzie sumowanie odbywa się po tych xi, które spełniają nierówności -∞ < xi < x.

Wnioskowanie statystyczne Przykład 1. W pudełku jest 10 losów ponumerowanych od 1 do 10. Na los z numerem 1 pada główna wygrana 10 zł, na losy z numerami 2 i 3 wygrana pocieszenia w wysokości 1 zł, a za wyciągnięcie pozostałych płacimy 2 zł. Załóżmy, że wyciągnięcie każdego z losów jest jednakowo prawdopodobne. Doświadczenie polega na wyciągnięciu jednego losu. 2. Dana jest dystrybuanta zmiennej losowej X x (– ∞, 0] (0, 1] (1, 3] (3, 6] (6, +∞) F(x) 1/3 1/2 5/6 1 Znaleźć rozkład prawdopodobieństwa zmiennej losowej X.

Wnioskowanie statystyczne Podstawowe charakterystyki liczbowe zmiennej losowej skokowej Funkcja rozkładu prawdopodobieństwa bądź dystrybuanta zmiennej losowej w sposób dokładny charakteryzują zmienną losową. Nie zawsze znajomość tych funkcji jest niezbędna. W większości przypadków wystarczy znać pewne charakterystyki, które w wystarczający sposób opisują rozkłady zmiennych losowych. Podstawowymi charakterystykami zmiennej losowej jednowymiarowej są: wartość oczekiwana i odchylenie standardowe (średni błąd). Wartością oczekiwaną (wartością przeciętną, wartością średnią, nadzieją matematyczną) zmiennej losowej skokowej X nazywamy liczbę Wartość oczekiwana jest to więc pewna średnia ważona wartości zmiennej losowej. Własności wartości oczekiwanej .

Wnioskowanie statystyczne Wariancją zmiennej losowej X nazywamy wartość oczekiwaną kwadratu odchylenia zmiennej losowej X od jej wartości oczekiwanej – E(X), tzn. D2(X) = E(X – E(X))2. Inaczej Wariancja jest to miara rozrzutu zmiennej losowej X. Własności wariancji: Przykład W loterii wypuszczono 500 losów, w tym jeden los z wygraną 1000 zł, pięć losów z wygraną po 200 zł i dwadzieścia losów – po 50 zł. Określić rozkład zmiennej losowej X, będącej wielkością możliwej wygranej osoby, która kupiła jeden los. Obliczyć wartość oczekiwaną i odchylenie standardowe tak określonej zmiennej losowej.

Wybrane rozkłady zmiennej losowej skokowej Wnioskowanie statystyczne Wybrane rozkłady zmiennej losowej skokowej

Wnioskowanie statystyczne Rozkład dwumianowy (Bernoulliego) Schemat Bernoulliego polega na realizacji n niezależnych zdarzeń losowych, z których każde może zakończyć się „sukcesem” z prawdopodobieństwem p lub „porażką” 1 – p = q. W wyniku realizacji n zdarzeń losowych, zdarzenie A pojawić się może 0, 1, ..., n razy, stąd zmienna skokowa X może przybierać wartości k = 0, 1, ..., n. Rozkład dwumianowy można przybliżać innymi rozkładami: – gdy np > 5 i n(1 − p) > 5, to przybliżamy rozkładem normalnym o μ = np i s = np(1 − p) – gdy N jest duże, a p małe, to przybliżamy rozkładem Poissona l = np Przykład Pewna firma posiada pięć jednakowych komputerów pracujących niezależnie od siebie. Prawdopodobieństwo tego, że w ciągu dnia roboczego komputer ulegnie awarii wynosi 0,1. Zakładamy, że awarię usuwa się dopiero następnego dnia. Jaki jest rozkład liczby komputerów ulegających awarii w ciągu dnia roboczego i jakie jest prawdopodobieństwo tego, że w ciągu dnia awarii ulegną więcej niż dwa komputery?

Wnioskowanie statystyczne Rozkład Poissona Rozkład Poissona jest rozkładem zmiennej losowej skokowej, który stosuje się w przypadku określania prawdopodobieństwa zajścia zdarzeń stosunkowo rzadkich i niezależnych od siebie przy występowaniu dużej ilości doświadczeń. Rozkład Poissona jest przybliżeniem rozkładu Bernoulliego dla dużych prób i przy małym prawdopodobieństwie zajścia zdarzenia sprzyjającego. Rozkład Poissona różni się od dwumianowego: – na rozkład dwumianowym ma wpływ zarówno liczba prób N jak i prawdopodobieństwo p, a na rozkład Poissona wpływa jedynie l, – możliwe wartości zmiennej o rozkładzie dwumianowym to 0, 1, . . .N, a w rozkładzie Poissona nie ma górnego ograniczenia tzn., zmienna przyjmuje wartości 1, 2, 3, . . . Przykład Obliczyć prawdopodobieństwo wylosowania co najwyżej trzech osób leworęcznych w 200 losowaniach, jeśli wiadomo, że prawdopodobieństwo spotkania osoby leworęcznej w pewnej populacji ludzi wynosi 0,05.

Wnioskowanie statystyczne Zmienna losowa typu ciągłego Zmienna losowa X jest ciągła, tzn. przyjmuje nieprzeliczalną ilość wartości, to prawdopodobieństwo, że przyjmuje ona konkretną wartość x jest równa zeru. Z tego względu określa się jedynie prawdopodobieństwo, że ciągła zmienna losowa X jest zawarta w pewnym przedziale wartości. Funkcją gęstości zmiennej losowej X typu ciągłego nazywamy funkcję f : R → R określoną Graficzną interpretacją całki jest pole obszaru ograniczonego wykresem funkcji f(x), osią odciętych i prostymi x = a, x = b.

Wnioskowanie statystyczne Jeżeli f : R → R jest funkcją gęstości prawdopodobieństwa zmiennej losowej typu ciągłego, to: Dystrybuantę zmiennej losowej ciągłej X można przedstawić w postaci: gdzie f(x) jest nieujemną funkcją gęstości. Wykresem dystrybuanty zmiennej losowej typu ciągłego jest linia ciągła. Z definicji pochodnej, w punkcie ciągłości funkcji f(x) mamy czyli funkcja gęstości f(x) zmiennej losowej jest pochodną dystrybuanty F(x).

Wnioskowanie statystyczne Podstawowe charakterystyki liczbowe zmiennej losowej ciągłej Wartość oczekiwana Odchylenie standardowe

Wybrane rozkłady zmiennej losowej ciągłej Wnioskowanie statystyczne Wybrane rozkłady zmiennej losowej ciągłej

Wnioskowanie statystyczne Rozkład równomierny (prostokątny, jednostajny) jest najprostszym rozkładem zmiennej losowej typu ciągłego. Rozkład ten bywa czasem stosowany w sytuacji, gdy można przypuszczać, że każda wartość zmiennej w pewnym przedziale liczbowym jest jednakowo możliwa. Rozkład wykładniczy jest jedynym rozkładem ciągłym, który ma własność zwaną brakiem pamięci. Własność tę można interpretować następująco: jeżeli zmienna losowa X jest czasem bezawaryjnej pracy pewnego elementu o rozkładzie wykładniczym, to niezależnie od dotychczasowego czasu pracy elementu, dalszy czas pracy nie zależy od „przeszłości” i ma taki sam rozkład, co całkowity czas pracy elementu.

Wnioskowanie statystyczne Rozkład normalny (rozkład Gaussa) jest rozkładem, któremu podlega wiele zjawisk świata fizycznego, np. waga oraz wzrost populacji ludzi. Rozkład normalny jest interpretowany, jako wyraz równowagi dynamicznej trwałej układu względnie izolowanego, w którym zachodzące zmiany są samoregulowane poprzez działanie sprzężenia zwrotnego ujemnego. Rozkład normalny został po raz pierwszy przedstawiony przez de Moivre’a w artykule w 1773 w kontekście aproksymacji niektórych rozkładów dwumianowych dla dużych n. Wyniki tych badań zostały rozwinięte przez Laplace’a, a w statystyce funkcjonują jako twierdzenie de Moivre'a-Laplace'a.

Wnioskowanie statystyczne Zmienna losowa X ma rozkład normalny o parametrach m oraz , co w skrócie zapisuje się jako X: N(m, s), jeżeli jej funkcja gęstości wyraża się wzorem: Dystrybuantą zmiennej losowej X mającej rozkład normalny jest funkcją F(x) określona na zbiorze liczb rzeczywistych o postaci:

Wnioskowanie statystyczne Funkcja gęstości w rozkładzie normalnym: – jest symetryczna względem prostej x =  (osią symetrii jest prosta pionowa przechodząca przez punkt x = μ), jest rosnąca dla x < μ, a malejąca dla x > μ – w punkcie x =  osiąga wartość maksymalną – ramiona funkcji mają punkty przegięcia dla x =  - σ oraz x =  + σ – kształt funkcji gęstości zależy od wartości parametrów:  i σ. Parametr  decyduje o przesunięciu krzywej, natomiast parametr σ decyduje o „smukłości” krzywej (im mniejsza jest wariancja/odchylenie standardowe, tym wykres gęstości prawdopodobieństwa jest bardziej wysmukły)

Wnioskowanie statystyczne Wartość oczekiwana i wariancja dla rozkładu normalnego wyrażane są następującymi wzorami: Wartość m jest to taka wartość zmiennej losowej X, wokół której skupiają się wyniki wielokrotnych realizacji tej zmiennej. Innymi słowy, oczekuje się (ma się nadzieję), że wielokrotne realizacje zmiennej losowej X będą skupiały się wokół liczby m.

Wnioskowanie statystyczne Reguła trzech sigm Funkcja gęstości rozkładu normalnego ma zastosowanie do reguły „trzech sigma”, którą następnie rozwinięto na regułę „sześć sigma” – stosowaną w kontroli jakości, przede wszystkim w USA (np. General Electric, General Motors Company) Reguła trzech sigma – jeżeli zmienna losowa ma rozkład normalny to: – 68,3 % populacji mieści się w przedziale ( - σ;  + σ) – 95,5 % populacji mieści się w przedziale ( - 2σ;  + 2σ) – 99,7 % populacji mieści się w przedziale ( - 3σ;  + 3σ) Reguła ta ma duże znaczenie w teorii błędów obserwacji, bowiem błędy przypadkowe pomiarów tej samej wielkości fizycznej zwykle tak się rozkładają, że wyniki tych pomiarów mają rozkład normalny. Rozkład ten nie wystąpi, gdy popełniony zostanie tendencyjny błąd systematyczny.

Wnioskowanie statystyczne Standaryzacja Jeżeli zmienna losowa X ma rozkład N (m, s), to zmienna losowa (X – m)/s ma rozkład N(0, 1), zwany standardowym rozkładem normalnym. Standaryzacja polega na sprowadzeniu dowolnego rozkładu normalnego o danych parametrach m i σ do rozkładu standaryzowanego o wartości oczekiwanej m = 0 i odchyleniu standardowym σ = 1. Zmienną losową X zastępujemy zmienną standaryzowaną u, która ma rozkład N(0,1), jej funkcję gęstości oznaczamy φ(u), natomiast dystrybuantę Φ(u): Gęstość dla zmiennej standaryzowanej u określa wzór: a dystrybuantę: Wartości funkcji gęstości oraz dystrybuanty dla różnych wartości u są stabilicowane. Ze względu na symetrię funkcji względem prostej u = 0 w tablicach są podane często wartości obu funkcji jedynie dla dodatnich u. Przy wyznaczaniu wartości i korzysta się wtedy z własności tych funkcji

Wnioskowanie statystyczne Tablica dystrybuanty rozkładu normalnego N(0, 1) → dla u =1,64  F(u = 1,64) = Fu = 1,64 = 0,949497

Wnioskowanie statystyczne W celu obliczenia prawdopodobieństwa P(a < X  b) należy skorzystać ze standaryzacji. Jeśli zmienna losowa X ma rozkład N(m, s) to zmienna standaryzowana u ma rozkład N(0,1), czyli: Wartości oraz należy odczytać w tablicach dystrybuanty standaryzowanego rozkładu normalnego. Przykład 1. Dany jest rozkład zmiennej losowej X o parametrach N(15; 5). Obliczyć: a) P(X<12) b) P(X>14) c) P{12 < X < 14} 2. Wzrost kobiet w pewnej populacji ma rozkład normalny N(165,15). Oznacza to, iż zmienna losowa jaką jest wzrost kobiet ma rozkład normalny ze średnią równą 165 cm i odchyleniem standardowym równym 15 cm. Jaki jest udział w populacji kobiet o wzroście: a)    do 160 cm, b)    w przedziale 165-170 cm, c)    powyżej 175 cm.

Wnioskowanie statystyczne Rozkład chi – kwadrat (c2) Danych jest k ciągłych zmiennych losowych o rozkładzie normalnym z wartością oczekiwana 0 i odchyleniem standardowym 1, tj. każda zmienna Xi: N(0; 1) (i = 1 ,2, ..., k). Zdefiniujemy nowa zmienna losowa o nazwie chi-kwadrat (c2): Rozkład chi kwadrat to rozkład zmiennej losowej, która jest sumą k kwadratów niezależnych zmiennych losowych o standardowym rozkładzie normalnym. Liczbę naturalną k nazywa się liczbą stopni swobody rozkładu zmiennej losowej. Liczba stopni swobody jest liczbą niezależnych wyników obserwacji pomniejszoną o liczbę związków, które łączą te wyniki ze sobą. Wykres funkcji gęstości (dla k>2) Rozkład zmiennej losowej c2 o k stopniach swobody ma następujące parametry: – nadzieja matematyczna – wariancja

Wnioskowanie statystyczne Rozkład zmiennej losowej c2 o k stopniach swobody jest rozkładem pomocniczym używanym we wnioskowaniu statystycznym. Tablice rozkładu zmiennej losowej c2 o k stopniach swobody zostały opracowane tak, że podają przy założonym prawdopodobieństwie (a) taką wartość (oznaczmy ja c2a,k) zmiennej losowej c2, dla której:

Wnioskowanie statystyczne

Wnioskowanie statystyczne Rozkład t – Studenta Rozkład Studenta zwany rozkładem t lub rozkładem t-Studenta to ciągły rozkład prawdopodobieństwa często stosowany w statystyce podczas testowania hipotez i przy ocenie błędów pomiaru. Rozkład t jest symetryczny względem prostej x = 0 oraz bardzo zbliżony kształtem do rozkładu normalnego standaryzowanego. Rozkładem zmiennej losowej t-Studenta o k stopniach swobody nazywamy rozkład zmiennej t zdefiniowanej jako: gdzie u zmienna losowa o rozkładzie normalnym N(0; 1) oraz c2 zmienna losowa o rozkładzie c2 o k stopniach swobody. Rozkład zmiennej losowej c2 o k stopniach swobody ma następujące parametry: Wykres funkcji gęstości – nadzieja matematyczna – wariancja

Wnioskowanie statystyczne Rozkład zmiennej losowej t-Studenta o k stopniach swobody jest rozkładem pomocniczym używanym we wnioskowaniu statystycznym. Tablice zmiennej losowej t-Studenta o k stopniach swobody zostały opracowane tak, że podają przy założonym prawdopodobieństwie (a) taka wartość (oznaczamy ją ta,k ) zmiennej losowej t , dla której:

Wnioskowanie statystyczne

Wnioskowanie statystyczne Twierdzenia graniczne a prawa wielkich liczb W twierdzeniach granicznych rozpatruje się ciągi zmiennych losowych {Xn}, których rozkłady przy wzroście wskaźnika n do nieskończoności mogą być zbieżne do pewnego rozkładu. Jeżeli takie zjawisko występuje, to taki rozkład nazywamy rozkładem granicznym (asymptotycznym) ciągu zmiennych losowych {Xn}. Mówi się wtedy również, że zmienna losowa Xn ma graniczny rozkład o określonej postaci. Twierdzenia graniczne formułują warunki, przy których dla ciągu zmiennych losowych istnieje asymptotyczny rozkład oraz określają, jaka jest postać tego rozkładu. Twierdzenia, które mówią o zbieżności ciągu funkcji prawdopodobieństwa (lub funkcji gęstości), są nazywane lokalnymi twierdzeniami granicznymi, zaś te które rozpatrują zbieżność ciągu dystrybuant, nazywane są integralnymi twierdzeniami granicznymi. Osobną klasą twierdzeń granicznych stanowią prawa wielkich liczb, które dotyczą zbieżności ciągu zmiennych losowych do rozkładu jednopunktowego.

Wnioskowanie statystyczne Prawa wielkich liczb seria twierdzeń matematycznych (jedne z tzw. twierdzeń granicznych), opisujących związek między liczbą wykonywanych doświadczeń a faktycznym prawdopodobieństwem wystąpienia zdarzenia, którego te doświadczenia dotyczą. Najprostsza i historycznie najwcześniejsza postać prawa wielkich liczb to prawo Bernoulliego. Prawo to orzeka, że: z prawdopodobieństwem dowolnie bliskim 1 można się spodziewać, iż przy dostatecznie wielkiej liczbie prób częstość danego zdarzenia losowego będzie się dowolnie mało różniła od jego prawdopodobieństwa. Można to zapisać jako: Jeżeli X oznacza zmienną losową o rozkładzie dwumianowym (np, ), to dla każdej dodatniej liczby e

Wnioskowanie statystyczne Wybrane prawa wielkich liczb 1. Nierówność Czebyszewa – jeżeli X jest dowolną zmienną losową o skończonej wariancji s2 , to dla dowolnej liczby e > 0 zachodzi tzw. nierówność Czebyszewa Nierówność Czebyszewa podaje górne ograniczenie prawdopodobieństwa zdarzenia, że wartość nieujemnej zmiennej losowej jest większa lub równa od z góry ustalonej dodatniej liczby. 2. Twierdzenie Markowa – jeżeli ciąg zmiennych losowych {Xn}nN spełnia warunek to dla każdej dodatniej liczby e

Wnioskowanie statystyczne 3. Twierdzenie Czebyszewa – jeżeli {Xn}nN jest ciągiem zmiennych losowych o wariancjach sn2 ograniczonych wspólną stałą C tzn. to dla każdej dodatniej liczby e tzn. ciąg sum zmiennych losowych jest stochastycznie zbieżny do swojej wartości oczekiwanej. 4. Twierdzenie Poissona – jeżeli {Xn}nN jest ciągiem niezależnych zmiennych losowych o jednakowych wartościach oczekiwanych m i wariancjach s2 ograniczonych wspólną stałą C, to dla każdej dodatniej liczby e

Wnioskowanie statystyczne 5. Twierdzenie Chinczyna (dotyczy własności sumy zmiennych losowych, które mają taki sam rozkład, ale nie muszą mieć wariancji) – jeżeli ciąg losowy {Xn}nN jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie i skończonej wartości oczekiwanej m , to ciąg jest stochastycznie zbieżny do m tzn. 6. Pierwsze prawo Kołmogorowa – jeżeli {Xn}nN jest ciągiem niezależnych zmiennych losowych o wariancjach sn2 i spełniony jest warunek to: 7. Drugie prawo Kołmogorowa – niech {Xn}nN będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie i skończonej wartości oczekiwanej m , to ciąg jest zbieżny do m z prawdopodobieństwem 1. tzn.

Wnioskowanie statystyczne Centralne twierdzenie graniczne – twierdzenie Lindeberga – Lévy'ego Niech X1, X2, …, Xn będzie prostą próbą losową z rozkładu o średniej m i wariancji s2. Wówczas dla dużych liczności próby n rozkład prawdopodobieństwa standaryzowanej średniej (standaryzowanej sumy X1 + X2 + … + Xn) jest bliski standardowemu rozkładowi normalnemu N(0, 1), dokładniej dla dowolnych liczb a, b, przy n → ∞. Równoważnie rozkład średniej jest bliski rozkładowi normalnemu Możliwe jest również zdefiniowanie zmiennej losowej będącej sumą X1, X2, …, Xn, wówczas rozkład sumy jest bliski rozkładowi normalnemu Szczególnym przypadkiem twierdzenia Lindeberga-Lévy'ego jest twierdzenie Moivre'a-Laplace'a dotyczące zmiennych losowych X1, X2, …, Xn o rozkładzie zerojedynkowym. Wówczas można wykazać, ze zmienna losowa Yn ma rozkład dwumianowy. Na podstawie tego twierdzenia dla dużych n, w praktyce n ≥ 100 można rozkład dwumianowy zastąpić rozkładem normalny.

Wnioskowanie statystyczne Centralne twierdzenie graniczne – twierdzenie de Moivre’a-Laplace’a Twierdzenie de Moivre’a-Laplace’a mówi o tym, ze liczba sukcesów w n próbach Bernoulliego z prawdopodobieństwem sukcesu p po standaryzacji (tzn. unormowaniu do zmiennej losowej o średniej m = 0 i wariancji s2 = 1) dąży według rozkładu do standardowego rozkładu normalnego, gdy n → ∞. Zatem dla dużych n liczba sukcesów w n próbach Bernoulliego z prawdopodobieństwem sukcesu p ma asymptotycznie rozkład normalny Równoważnie, częstość występowania sukcesów Sn/n (średnia) ma asymptotycznie rozkład normalny

Wnioskowanie statystyczne Przykłady 1. W grupie studentów przeprowadzono test ze statystyki , gdzie zmienna losowa Xk oznaczała liczbę zdobytych punktów (od 0 do 100, gdzie k – jest liczbą studentów). Rozkład zmiennej Xk jest identyczny dla wszystkich studentów – E(Xk) = 70; D(Xk) = 20. Obliczyć prawdopodobieństwo tego, że: a) suma punktów uzyskanych przez 100 studentów będzie wyższa od 7500 punktów, b) przeciętna liczba zdobytych punktów w 100–osobowej grupie studentów będzie w przedziale 65–70 pkt. 2. Pewien towar produkowany jest w 2 gatunkach. 40 % produkcji stanowi gatunek 1, natomiast 60 % – drugi. Jakie jest prawdopodobieństwo, że w niezależnie pobranej partii towaru liczącej 50 sztuk, liczba sztuk 1–go gatunku będzie większa od 24. 3. Prawdopodobieństwo wylosowania wyrobu 1–go gatunku wynosi 0,25. Obliczyć prawdopodobieństwo tego, że częstość wystąpienia sztuk I gatunku wśród 400 wylosowanych wyrobów wyniesie nie więcej niż 30 %.