STATYSTYKA – kurs podstawowy wykład 3 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Slides:



Advertisements
Podobne prezentacje
Wnioskowanie statystyczne
Advertisements

Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.
Statystyka Wojciech Jawień
Estymacja. Przedziały ufności.
Analiza współzależności zjawisk
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Zmienne losowe i ich rozkłady
Wnioskowanie statystyczne
Jak mierzyć asymetrię zjawiska?
Statystyczne parametry akcji
Statystyka w doświadczalnictwie
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Wykład 4 Przedziały ufności
Elementy Rachunku Prawdopodobieństwa c.d.
Elementy Rachunku Prawdopodobieństwa c.d.
Wzory ułatwiające obliczenia
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Co to są rozkłady normalne?
Co to są rozkłady normalne?
Podstawy statystyki Dr Janusz Górczyński.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Elementy Rachunku Prawdopodobieństwa i Statystyki
Statystyka – zadania 4 Janusz Górczyński.
Projekt wykonany przez studentów I roku ARI Politechniki Wrocławskiej:
DOŚWIADCZENIA LOSOWE.
FUNKCJE Opracował: Karol Kara.
Co to jest dystrybuanta?
Dopasowanie rozkładów
Wnioskowanie statystyczne
Zagadnienia AI wykład 2.
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Wykład 5 Przedziały ufności
Modele zmienności aktywów
Rozkład wariancji z próby (rozkład  2 ) Pobieramy próbę x 1,x 2,...,x n z rozkładu normalnego o a=0 i  =1. Dystrybuanta rozkładu zmiennej x 2 =x 1 2.
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ze statystyki opisowej
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 4 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 2 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
Zdarzenia losowe. Opracowanie: Beata Szabat. Zdarzenia losowe. Często w życiu codziennym używamy określeń: - to jest bardzo prawdopodobne, - to jest mało.
STATYSTYKA – kurs podstawowy wykład 11
Testy nieparametryczne
Matematyka przed egzaminem czyli samouczek dla każdego
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Zmienna losowa. Wybrane rozkłady zmiennej. Przedział ufności.
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
Własności asymptotyczne ciągów zmiennych losowych
MIARY STATYSTYCZNE Warunki egzaminu.
Zapis prezentacji:

STATYSTYKA – kurs podstawowy wykład 3 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

Zmienna losowa SKOKOWA (dyskretna) gdy może przyjmować skończoną i przeliczalną liczbę wartości Np.: Liczba orłów w trzykrotnym rzucie monetą OOO ORO OOR ROO RRO ROR ORR RRR CIĄGŁA gdy jej wartości należą do przedziału ze zbioru liczb rzeczywistych Np.: 1.waga urodzeniowa niemowląt 2.wielkość dochodów rozporządzalnych gospodarstw domowych w Polsce

ZMIENNA LOSOWA SKOKOWA

Rozkład zmiennej losowej skokowej charakteryzują: 1.Funkcja prawdopodobieństwa 2.Dystrybuanta 3.Parametry rozkładu Ad. 1 Funkcją prawdopodobieństwa zmiennej skokowej X jest zbiór prawdopodobieństw postaci: p i = P(X = x i ) dla i = 1, 2, …, k (k nie musi być wartością skończoną) takich że: Przykład: X – liczba orłów w trzykrotnym rzucie monetą

Przykład: X – liczba orłów w trzykrotnym rzucie monetą RRR RRO ROR ORR OOR ROO ORO OOO X = x i P(X = x i )1/83/8 1/8 X p

Dystrybuanta zmiennej losowej skokowej Dystrybuanta zmiennej skokowej X to prawdopodobieństwo postaci: P(X ≤ x i ) = F(x i ) Łatwo zauważyć, że oba typy prawdopodobieństw (prawdopodobieństwo i dystrybuantę) łączy związek postaci: F(x k ) = P(X ≤ x k ) = P(X = x 1 ) + P(X = x 2 ) + … + P(X = x k-1 ) + P(X = x k ) = p 1 + p 2 + … + p k-1 + p k

dla x < 0 dla 0 ≤ x <1 dla 1 ≤ x < 2 dla 2 ≤ x < 3 dla x ≥ 3 Własności dystrybuanty zmiennej losowej skokowej: 1. 0 ≤ F(x) ≤ 1 2. F (-∞) = 0, F(+ ∞) = 1 3. Funkcja niemalejąca 4. Funkcja prawostronnie ciągła Przykład: X – liczba orłów w trzykrotnym rzucie monetą xixi (-∞, 0)<0, 1) <1, 2) <2, 3)< 3, +∞) F(x i )01/84/87/88/8 X = x i P(X = x i )1/83/8 1/8 FiFi X

Parametry rozkładu prawdopodobieństwa zmiennej losowej liczbowe wielkości stałe charakteryzujące każdy rozkład 1.Wartość oczekiwana 2. Wariancja zmiennej losowej X zmiennej losowej X E(X) D 2 (X) Wartość oczekiwana = średnia = nadzieja matematyczna = moment zwykły rzędu I Moment zwykły k-tego rzędu E(X 2 ) - moment zwykły rzędu II Moment centralny rzędu II Moment centralny k-tego rzędu

Własności wartości oczekiwanej Własności 1.Wartość oczekiwana stałej równa jest stałej E(b) = b 2.E(bX) = bE(X) 3.E(aX+b) = aE(X) + b 4.Jeśli E(X 1 ) = a oraz E(X 2 ) = b, to E(X 1 + X 2 ) = = E(X 1 ) + E(X 2 ) = a + b 5.Jeśli X 1 i X 2 są niezależne, to E(X 1 X 2 ) = E(X 1 ) E(X 2 ) Przykład: E(X 1 ) = 3 oraz E(X 2 ) = ½ 1.E(4) = 4 2.Y = 4X 1, E(Y) = E(4X 1 ) = 4 E(X 1 ) = 4 * 3 =12 3.Z = 4X 1 – 3, E(Z) = 4* E(X 1 ) – 3 = 12 – 3 = 9 4.E(X 1 + X 2 ) = E(X 1 ) + E(X 2 ) = 3 + ½ = 3,5 5.E(X 1 X 2 ) = E(X 1 ) E(X 2 ) = 3*1/2 = 1,5

Własności wariancji Własności 1.Wariancja stałej równa jest 0 2.Dodanie stałej do zmiennej losowej nie zmienia jej wariancji D 2 (X+b) = D 2 (X) 3.D 2 (Xb) = b 2 D 2 (X) 4.D 2 (Xb+a) = b 2 D 2 (X) Przykład: D 2 (X 1 ) = 2 1.D 2 (5) = 0, bo dla dowolnej stałej nie występuje zróżnicowanie jej wartości względem jej samej 2.Y = X 1 +5 D 2 (Y) = D 2 (X 1 +5) = D 2 (X 1 ) = 2 3.Z = 4X 1 D 2 (Z) = D 2 (4X 1 ) = 4 2 D 2 (X 1 ) = 16 * 2 = 32 4.W = 4X D 2 (W) = D 2 (4X 1 +5) = 4 2 D 2 (X 1 ) = 16 * 2 = 32

Jak policzyć E(X) i D 2 (X)? X – liczba orłów w trzykrotnym rzucie monetą X = x i P(X = x i )1/83/8 1/8

ZMIENNA LOSOWA CIĄGŁA

Rozkład zmiennej losowej ciągłej charakteryzują: 1.Funkcja gęstości 2.Dystrybuanta 3.Parametry rozkładu Analogicznie jak w przypadku zmiennej losowej skokowej Dlaczego w przypadku zmiennej losowej skokowej mówimy o funkcji prawdopodobieństwa, a w przypadku zmiennej losowej ciągłej – o funkcji gęstości? Zmienna losowa skokowa przyjmuje wartości przeliczalne – najczęściej całkowite – stąd natomiast zmienna ciągła przyjmuje wartości nieprzeliczalne opisywane za pomocą przedziałów liczbowych pipi f(x) x x Funkcja gęstości

Chociaż ciągła zmienna losowa może przyjąć wartość x 0, to prawdopodobieństwo tego zdarzenia wynosi: x 0 = 121 f(x) x

Jedyne prawdopodobieństwo, jakie można rozważać w przypadku zmiennej losowej typu ciągłego, to prawdopodobieństwo, że zmienna ta przyjmie wartości z określonego w dowolny sposób przedziału liczbowego x0x0 x1x1 x0x0 x1x1 x X ≤ x 0 X ≤ x 1 Różnica dwóch odcinków WNIOSEK Prawdopodobieństwo w rozkładzie zmiennej losowej typu ciągłego może być wyrażane jedynie za pomocą dystrybuanty f(x) x

DYSTRYBUANTA ZMIENNEJ LOSOWEJ CIĄGŁEJ F(x) x Własności dystrybuanty zmiennej losowej ciągłej: 1. 0 ≤ F(x) ≤ 1 2. F (-∞) = 0, F(+ ∞) = 1 3. Funkcja niemalejąca 4. Funkcja ciągła

Własności funkcji gęstości zmiennej losowej ciągłej: 1.f(x) ≥ 0 2. Funkcja gęstości przyjmuje wartości ze zbioru liczb rzeczywistych dodatnich i 0 Pole powierzchni pod funkcją gęstości jest równe 1 f(x) x

Powierzchnię zakreślonych pół (zielonego i czarnego) obliczyć można wykorzystując rachunek całkowy Jeśli funkcja gęstości ma postać f(x), to czarne pole obliczyć można następująco: GRAFICZNA INTERPRETACJA ZMIENNEJ LOSOWEJ CIĄGŁEJ x2x2 x1x1 f(x) x x3x3

ROZKŁADY CECH SKOKOWYCH Rozkład zero-jedynkowy Rozkład dwumianowy

ROZKŁAD ZERO–JEDYNKOWY Rozkład ten opisuje zjawisko dwustanowe, w którym jeden ze stanów opisywany jest umownie jako „sukces”, a drugi – jako „porażka”. Sukces umownie symbolizuje cyfra 1, a porażkę – cyfra 0 stąd nazwa – rozkład zero-jedynkowy Funkcja prawdopodobieństwa rozkładu zero-jedynkowego gdzie q + p = 1 Dystrybuanta rozkładu zero-jedynkowego X = x i 0 1 P(X = x i )qp xixi (-∞, 0)<0, 1) <1, +∞) F(x i )0q1 Parametry: E(X) = 0*q + 1*p = p D 2 (X) = (0 – p) 2 *q + (1 – p) 2 *p = = p*q = p * (1 – p)

ROZKŁAD ZERO–JEDYNKOWY Przykład 1 Rzucamy jednokrotnie kostką do gry: sukces – gdy wypadnie parzysta liczba oczek; porażka – gdy wypadnie nieparzysta liczba oczek Przykład 2 Odsetek osób z wyższym wykształceniem w Polsce wynosi 15%. Pytając dowolnie wybraną osobę wchodzącą do Złotych Tarasów, czy ma wykształcenie wyższe, musimy liczyć się z dwojaką odpowiedzią: Tak – sukces – 1 Nie – porażka – 0 Dystrybuanta rozkładu zero-jedynkowego X = x i 0 1 P(X = x i )0,850,15 xixi (-∞, 0)<0, 1) <1, +∞) F(x i )00,851 Parametry: E(X) = 0*0,85 + 1*0,15 = 0,15 = p D 2 (X) = p*q = 0,15 * 0,85

ROZKŁAD DWUMIANOWY = ROZKŁAD BERNOULLIEGO Rozkład ten opisuje wielokrotne (n-krotne) występowanie tego samego zjawiska dwustanowego. Rezultatem jest pewna liczba k „sukcesów” oraz liczba (n – k) porażek. Każdy „sukces” występuje z prawdopodobieństwem p, a każda „porażka” – z prawdopodobieństwem q = 1 – p. Rozkład prawdopodobieństwa opisujący występowanie wszystkich możliwych liczb „sukcesów” k, nosi nazwę rozkładu dwumianowego lub rozkładu Bernoulliego Prawdopodobieństwo w tym rozkładzie oblicza się za pomocą wzoru: Tak samo jak w rozkładzie zero-jedynkowym Parametry: E(X) = n*p D 2 (X) = n*p * (1 – p) = n*p*q

ROZKŁAD DWUMIANOWY = ROZKŁAD BERNOULLIEGO Przykład 2 cd Odsetek osób z wyższym wykształceniem w Polsce wynosi 15%. Pytając 5 wylosowanych osób wchodzących do Złotych Tarasów, czy mają wykształcenie wyższe, musimy liczyć się z tym, że każda z nich może odpowiedzieć: TAK = sukces = 1 lub NIE = porażka = 0 Zmienną losową opisującą odpowiedzi udzielone przez pytanych można zapisać następująco: X = k, gdzie k - liczba sukcesów, czyli liczba odpowiedzi TAK Wiadomo, że k = 0, 1, 2, 3, 4, 5. Tak zdefiniowana zmienna ma rozkład dwumianowy

ROZKŁAD DWUMIANOWY = ROZKŁAD BERNOULLIEGO Przykład 2 cd Rozkład ten można opisać m.in. za pomocą funkcji prawdopodobieństwa Parametry: E(X) = n*p = 5 * 0,15 = 0,75 D 2 (X) = n*p*q = 5 * 0,15 * 0,85 =0,6375 X = x i P(X = x i ) 0(0,85)

ROZKŁADY CECH CIĄGŁYCH Rozkład normalny Rozkład t-Studenta Rozkład chi-kwadrat Rozkład F

ROZKŁAD NORMALNY Jeśli zmienna losowa ciągła X ma funkcję gęstości postaci: dla to mówimy, że zmienna X ma rozkład normalny o parametrach m i σ, co w skrócie zapisujemy X ~ N(m, σ) m = E(X) – średnia, σ = D(X) – odchylenie standardowe Liczby m i σ to wielkości stałe w rozkładzie normalnym. Ich rola jest następująca: - wielkość m wyznacza środek symetrii rozkładu ielkość σ ustala oddalenie punktów przegięcia krzywej od osi symetrii, czyli od m f(x) x m + σmm - σ σσ

WŁASNOŚCI ROZKŁADU NORMALNEGO 1.Symetryczny 2.Przy x  ±∞ funkcja gęstości zbiega do 0 3.Dla X = m funkcja gęstości osiąga maksimum, co oznacza, że dominanta rozkładu jest równa średniej (m) i jest równa medianie Aby precyzyjnie określić kształt rozkładu normalnego wystarczyć znać oba jego parametry: m i σ Postaci rozkładu różniące się wartością parametru σ Postaci rozkładu różniące się wartością parametru m σ 1 < σ 2 m 1 > m 2

Reguła 3 sigm x f(x)

Reguła 3 sigm x f(x)

Reguła 3 sigm x f(x)

ROZKŁAD STANDARDOWY NORMALNY Jeśli m = 0 a σ = 1, to funkcja gęstości rozkładu normalnego przyjmuje postać: zaś sam rozkład nosi nazwę rozkładu standardowego normalnego Zwyczajowo zmienną o rozkładzie standardowym normalnym zapisuje się za pomocą litery U, stąd U ~ N(0, 1) f(x) 1

Każdą zmienną X o rozkładzie normalnym z dowolnymi parametrami można przekształcić do takiej postaci, aby nowoutworzona zmienna miała rozkład standardowy normalny (czyli rozkład z parametrami m = 0 i σ = 1) Przekształcenie to nosi nazwę standaryzacji

STANDARYZACJA Przekształcenie to definiuje wzór: Ponadto wystandaryzowanie zmiennych pozwala na ich porównywania nawet wtedy, gdy mierzone są w różnych jednostkach

STANDARYZACJA Przykład: Pewien dziesięcioboista w konkursie olimpijskim rzucił oszczepem 60m i i skoczył wzwyż 2,10m. W czym był lepszy: w rzucie oszczepem, czy w skoku wzwyż? jeśli w całej swojej karierze rzucał średnio na odległość 58m z odchyleniem standardowym 5m, a skakał średnio na wysokość 2,05m z odchyleniem standardowym 0,1m RZUTSKOK Dziesięcioboista wyżej skoczył, bo w czasie 0,5 odchylenia standardowego, natomiast rzucił na odległość 0,4 odchylenie standardowego

DYSTRYBUANTA ROZKŁADU NORMALNEGO f(x) x 2 = m 2 = 10 x = 2 x = 10 F(x) Funkcje gęstości Dystrybuanty x 1 = m 1 = 2

DYSTRYBUANTA ROZKŁADU STANDARDOWEGO NORMALNEGO f(x) 1 F(x) UWAGA Zarówno wartości funkcji gęstości jak i dystrybuanty rozkładu standardowego normalnego zostały policzone – zawarte są w tablicach statystycznych Dzięki temu obliczanie prawdopodobieństw w rozkładzie normalnym o dowolnych parametrach możliwe jest bez wykorzystania rachunku całkowego x x

ROZKŁAD NORMALNY – PRZYKŁAD Zmienna losowa X ma rozkład normalny o parametrach m = 4 i σ = 1,5. Ile wynosi prawdopodobieństwo, że |X| ≤ 2? X ~ N(4; 1,5) P(|X| ≤ 2) = ? P(|X| ≤ 2) = P(-2 ≤ X ≤ 2) = f(x) x Z formuły na standaryzację Przekształciliśmy zmienną X o rozkładzie N(4; 1,5) w nową zmienną U o rozkładzie N(0, 1) Jeśli argument funkcji dystrybuanty jest ujemny, to stosujemy wzór

PRZYKŁAD – prezentacja graficzna Zmienna losowa X ma rozkład normalny o parametrach m = 4 i σ = 1,5. Ile wynosi prawdopodobieństwo, że |X| ≤ 2? P(|X| ≤ 2) = P(-2 ≤ X ≤ 2) = f(x) x Z formuły na standaryzację f(u) u - 1, F(u) 1,33 4 0,0917 u X ~ N(4; 1,5) U ~ N(0; 1)

ROZKŁAD t-Studenta Jeśli zmienna losowa ciągła t ma funkcję gęstości postaci: dla gdzie: to zmienna losowa t ma rozkład t-Studenta Kształt funkcji gęstości rozkładu t-Studenta przypomina kształt funkcji gęstości rozkładu normalnego (krzywą Gaussa) Jest to rozkład symetryczny zawsze względem wartości 0 Przy t  ±∞ wartości funkcji f(t) zbiegają do 0 t f(t)

ROZKŁAD t-Studenta W tym rozkładzie jedynym parametrem (jedyną stałą) jest „liczba stopni swobody” v Oznacza to, że kształt wykresu funkcji f(t) zależy tylko od wartości v Dla v > 30 rozkład t-Studenta jest zbieżny z rozkładem standardowym normalnym N(0,1) Parametry w tym rozkładzie: 1.Wartość oczekiwana E(t) = 0 2.Wariancja v = 2v = 15 v = 30

ROZKŁAD t-Studenta Wartości prawdopodobieństw w rozkładzie t-Studenta zostały policzone i zawierają je tablice statystyczne – wartości krytyczne rozkładu t-Studenta. Są to wartości obliczone dla warunku: t α,v -t α,v α/2 1-α

Dla v = 6

ROZKŁAD chi-kwadrat Jeśli zmienna losowa ciągła χ 2 ma funkcję gęstości postaci: dla to zmienna losowa χ 2 ma rozkład chi-kwadrat W tym rozkładzie jedynym parametrem (jedyną stałą) jest „liczba stopni swobody” v Oznacza to, że kształt wykresu funkcji f(χ 2 ) zależy tylko od wartości v Tak samo jak w przypadku rozkładu t-Studenta v = 5v = 10v = 15 Wraz ze wzrostem liczby stopni swobody v rozkład chi-kwadrat, choć z natury asymetryczny, zatraca swoją skośność Rozkładem granicznym dla rozkładu chi-kwadrat jest rozkład normalny

ROZKŁAD chi-kwadrat Parametry w tym rozkładzie: 1.Wartość oczekiwana E(χ 2 ) = v 2.Wariancja D 2 (χ 2 ) = 2v Wartości prawdopodobieństw w rozkładzie chi-kwadrat zostały policzone i zawierają je tablice statystyczne (wartości krytyczne rozkładu chi-kwadrat) Są to wartości obliczone dla warunku α 1-α

Dla v = 10

ROZKŁAD F-Snedecora Jeśli zmienna losowa ciągła F ma funkcję gęstości postaci: dla F < 0 dla F ≤ 0 to zmienna losowa F ma rozkład F-Snedecora (lub krótko rozkład F) W tym rozkładzie jedynymi parametrami (stałymi) są „liczby stopni swobody” v 1 i v 2. Oznacza to, że kształt wykresu funkcji f(F) zależy tylko od wartości v 1 i v 2 v 1 = 3, v 2 = 3

ROZKŁAD F-Snedecora Parametry w tym rozkładzie: 1.Wartość oczekiwana 2.Wariancja Wartości prawdopodobieństw w rozkładzie F zostały policzone i zawierają je tablice statystyczne (wartości krytyczne rozkładu F). Są to wartości obliczone dla warunku α 1-α

Dla v 1 = 10 i v 2 = 15

TWIERDZENIA GRANICZNE

Twierdzenie de Moivre’a – Laplace’a

Twierdzenie o zbieżności rozkładu dwumianowego do rozkładu normalnego Co to znaczy?

Twierdzenie de Moivre’a – Laplace’a Przypomnijmy sobie czego dotyczył rozkład dwumianowy Rozkład dwumianowy opisuje wielokrotne (n-krotne) występowanie tego samego zjawiska dwustanowego Wystąpienie stanu 1 – określamy mianem sukcesu – prawdopodobieństwo wystąpienia tego stanu zapisujemy jako p Wystąpienie stanu 2 – określamy mianem porażki – prawdopodobieństwo wystąpienia tego stanu zapisujemy jako q = 1 – p Rezultatem doświadczenia jest pewna liczba k „sukcesów” oraz liczba (n – k) porażek. Rozkład prawdopodobieństwa opisujący występowanie wszystkich możliwych liczb „sukcesów” k, nosi nazwę rozkładu dwumianowego Prawdopodobieństwo w tym rozkładzie oblicza się za pomocą wzoru: Parametry tego rozkładu to: E(X) = n*p D 2 (X) = n*p * (1 – p) = n*p*q

Twierdzenie de Moivre’a – Laplace’a Dowiedziono, że: dla dostatecznie dużej liczby doświadczeń (czyli liczby n) dystrybuantą graniczną dla dystrybuanty rozkładu dwumianowego jest dystrybuanta rozkładu normalnego o parametrach E(X)=n*p oraz D 2 (X) = n*p * (1 – p) = n*p*q, czyli Praktyczne znaczenie tego twierdzenia jest następujące: Jeśli liczba doświadczeń jest duża (w praktyce zwykle przynajmniej 100), to prawdopodobieństwo – dla odpowiedniego rozkładu dwumianowego – można wyznaczyć korzystając z rozkładu normalnego Wynik uzyskany w ten sposób będzie przybliżony, a przybliżenie będzie tym lepsze, im liczba doświadczeń będzie większa Są to te same parametry, jakie występowały w rozkładzie dwumianowym

Twierdzenie de Moivre’a – Laplace’a Dlaczego to twierdzenie ma tak duże znaczenie? Weźmy znany nam już przykład: Odsetek osób z wyższym wykształceniem w Polsce wynosi 15%. Pytając 5 wylosowanych osób wchodzących do Złotych Tarasów, czy mają wykształcenie wyższe, musimy liczyć się z tym, że każda z nich może odpowiedzieć: TAK = sukces = 1 lub NIE = porażka = 0 Ale teraz nie zadajemy pytania 5 osobom, ale 105 osobom A chcemy się dowiedzieć jakie jest prawdopodobieństwo, że co najwyżej 20 z nich ma wykształcenie wyższe, co oznacza że wystąpi co najwyżej 20 sukcesów, czyli P(X ≤ 20) = ? Możemy to policzyć wprost ze wzoru na prawdopodobieństwo w rozkładzie dwumianowym:

P(X ≤ 20) = P(X = 0) + P(X = 1) + P(X = 2) + … + P(X = 20) … Można te obliczenia wykonać szybciej Skorzystajmy z twierdzenia de Moivre’a-Laplace’a Będzie to dosyć czaso- i pracochłonne

X 105 – liczba sukcesów w 105 doświadczeniach (bo pytamy 105 osób) P(X 105 ≤ 20) = ? Najpierw potrzebujemy zatem wiedzieć, jaki rozkład ma X 105 X 105 ma rozkład dwumianowy (dokładny), ale ze względu na dużą liczbę doświadczeń można ten rozkład przybliżyć za pomocą rozkładu normalnego o parametrach E(X 105 ) = n*p = 105*0,15 = 15,75 i D(X 105 ) = X 105 ~ N(15,75; 3,659) P(X 105 ≤ 20) standaryzacja

Twierdzenie Lindeberga – Lévy’ego

Twierdzenie dotyczące zbieżności sumy niezależnych zmiennych losowych do rozkładu normalnego Co to znaczy?

Twierdzenie Lindeberga – Lévy’ego Jeśli zmienna losowa T n jest sumą n niezależnych zmiennych losowych o identycznych rozkładach, to rozkładem granicznym dla zmiennej T n jest rozkład normalny o parametrach oraz czyli Czyli każda ze zmiennych ma taką samą wartość oczekiwaną E(X) i taką samą wariancję D 2 (X) W ogóle nie jest ważne, jaki jest to rozkład, byle tylko był identyczny dla wszystkich zmiennych

Twierdzenie Lindeberga – Lévy’ego Praktycznym wnioskiem z tego twierdzenia jest określenie granicznego rozkładu średniej arytmetycznej zmiennych losowych Jeśli bowiem V n jest średnią z n niezależnych zmiennych losowych o identycznych rozkładach, to rozkładem granicznym dla zmiennej V n jest rozkład normalny o parametrach oraz czyli Czyli każda ze zmiennych ma taką samą wartość oczekiwaną E(X) i taką samą wariancję D 2 (X) Ponownie w ogóle nie jest ważne, jaki jest to rozkład, byle tylko był identyczny dla wszystkich zmiennych

Twierdzenie Lindeberga – Lévy’ego Podsumowując: Na mocy twierdzenia Lindeberga – Lévy’ego wiemy, że: 1.Suma zmiennych losowych niezależnych i o identycznych rozkładach ma rozkład graniczny 2. Średnia ze zmiennych losowych niezależnych i o identycznych rozkładach ma rozkład graniczny Pamiętajmy, że chodzi o rozkład graniczny, czyli o pewne przybliżenie; Dlatego oba poznane dziś twierdzenia powinno się stosować tylko dla dużych n; Przy niewielkich liczebnościach różnice między wynikami dokładnymi a przybliżonymi (właśnie na podstawie twierdzeń granicznych) będą zbyt duże;

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Statystykę na SGH zalicza się w formie standardowego egzaminu. Co roku pisze go około 1000 studentów. Na egzaminie można uzyskać od 0 do 40 punktów. Liczba punktów, jaką może uzyskać dowolny pojedynczy (k-ty) student, jest zmienną losową. Nazwijmy ją X k. Przyjmijmy, że na egzaminie każdy student pracuje zupełnie samodzielnie, a więc wyniki studentów nie zależą od siebie  zmienne X k są niezależne. Przyjmijmy, że rozkład zmiennych X k jest identyczny. Co prawda nie wiemy jaki on jest, ale jest identyczny dla każdego ze studentów. Ponadto po analizie wyników lat ubiegłych okazało się, że studenci z egzaminu dostają przeciętnie 29 punktów (E(X) = 29) z odchyleniem standardowym 6 punktów (D(X) = 6). Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? (czyli że średnio biorąc wszyscy zdadzą)

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Dane: n = 1000 E(X) = 29 D(X) = 6 Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? Średnia liczba punktów - standaryzacja

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? Prawdopodobieństwo to wynosi 99,9999%

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Moglibyśmy również zapytać, jakie jest prawdopodobieństwo, że w tym roku wszyscy studenci uzyskają z egzaminu mniej niż punktów łącznie Dane: n = 1000 E(X) = 29 D(X) = 6 Suma punktów 1000 studentów, czyli

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD standaryzacja Jakie jest prawdopodobieństwo, że w tym roku wszyscy studenci uzyskają z egzaminu mniej niż punktów łącznie Prawdopodobieństwo to wynosi 99,57%