Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

STATYSTYKA – kurs podstawowy wykład 4 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Podobne prezentacje


Prezentacja na temat: "STATYSTYKA – kurs podstawowy wykład 4 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii."— Zapis prezentacji:

1 STATYSTYKA – kurs podstawowy wykład 4 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

2 TWIERDZENIA GRANICZNE

3 Twierdzenie de Moivre’a – Laplace’a

4 Twierdzenie o zbieżności rozkładu dwumianowego do rozkładu normalnego Co to znaczy?

5 Twierdzenie de Moivre’a – Laplace’a Przypomnijmy sobie czego dotyczył rozkład dwumianowy (Bernoulliego) Rozkład dwumianowy opisuje wielokrotne (n-krotne) występowanie tego samego zjawiska dwustanowego Wystąpienie stanu 1 – określamy mianem sukcesu – prawdopodobieństwo wystąpienia tego stanu zapisujemy jako p Wystąpienie stanu 2 – określamy mianem porażki – prawdopodobieństwo wystąpienia tego stanu zapisujemy jako q = 1 – p Rezultatem doświadczenia jest pewna liczba k „sukcesów” oraz liczba (n – k) porażek. Rozkład prawdopodobieństwa opisujący występowanie wszystkich możliwych liczb „sukcesów” k, nosi nazwę rozkładu dwumianowego Prawdopodobieństwo w tym rozkładzie oblicza się za pomocą wzoru: Parametry tego rozkładu to: E(X) = n*p D 2 (X) = n*p * (1 – p) = n*p*q

6 Twierdzenie de Moivre’a – Laplace’a Dowiedziono, że: dla dostatecznie dużej liczby doświadczeń (czyli liczby n) dystrybuantą graniczną dla dystrybuanty rozkładu dwumianowego jest dystrybuanta rozkładu normalnego o parametrach E(X)=n*p oraz D 2 (X) = n*p * (1 – p) = n*p*q, czyli Praktyczne znaczenie tego twierdzenia jest następujące: Jeśli liczba doświadczeń jest duża (w praktyce zwykle przynajmniej 100), to prawdopodobieństwo – dla odpowiedniego rozkładu dwumianowego – można wyznaczyć korzystając z rozkładu normalnego Wynik uzyskany w ten sposób będzie przybliżony, a przybliżenie będzie tym lepsze, im liczba doświadczeń będzie większa Są to te same parametry, jakie występowały w rozkładzie dwumianowym

7 Twierdzenie de Moivre’a – Laplace’a Dlaczego to twierdzenie ma tak duże znaczenie? Weźmy znany nam już przykład: Odsetek osób z wyższym wykształceniem w Polsce wynosi 15%. Pytając 5 wylosowanych osób wchodzących do Złotych Tarasów, czy mają wykształcenie wyższe, musimy liczyć się z tym, że każda z nich może odpowiedzieć: TAK = sukces = 1 lub NIE = porażka = 0 Ale teraz nie zadajemy pytania 5 osobom, ale 105 osobom A chcemy się dowiedzieć jakie jest prawdopodobieństwo, że co najwyżej 20 z nich ma wykształcenie wyższe, co oznacza że wystąpi co najwyżej 20 sukcesów, czyli P(X ≤ 20) = ? Możemy to policzyć wprost ze wzoru na prawdopodobieństwo w rozkładzie dwumianowym:

8 P(X ≤ 20) = P(X = 0) + P(X = 1) + P(X = 2) + … + P(X = 20) … Można te obliczenia wykonać szybciej Skorzystajmy z twierdzenia de Moivre’a-Laplace’a Będzie to dosyć czaso- i pracochłonne

9 X 105 – liczba sukcesów w 105 doświadczeniach (bo pytamy 105 osób) P(X 105 ≤ 20) = ? Najpierw potrzebujemy zatem wiedzieć, jaki rozkład ma X 105 X 105 ma rozkład dwumianowy (dokładny), ale ze względu na dużą liczbę doświadczeń można ten rozkład przybliżyć za pomocą rozkładu normalnego o parametrach E(X 105 ) = n*p = 105*0,15 = 15,75 i D(X 105 ) = X 105 ~ N(15,75; 3,659) P(X 105 ≤ 20) standaryzacja

10 Twierdzenie Lindeberga – Lévy’ego

11 Twierdzenie dotyczące zbieżności sumy niezależnych zmiennych losowych do rozkładu normalnego Co to znaczy?

12 Twierdzenie Lindeberga – Lévy’ego Jeśli zmienna losowa T n jest sumą n niezależnych zmiennych losowych o identycznych rozkładach, to rozkładem granicznym dla zmiennej T n jest rozkład normalny o parametrach oraz czyli Czyli każda ze zmiennych ma taką samą wartość oczekiwaną E(X) i taką samą wariancję D 2 (X) W ogóle nie jest ważne, jaki jest to rozkład, byle tylko był identyczny dla wszystkich zmiennych

13 Twierdzenie Lindeberga – Lévy’ego Praktycznym wnioskiem z tego twierdzenia jest określenie granicznego rozkładu średniej arytmetycznej zmiennych losowych Jeśli bowiem V n jest średnią z n niezależnych zmiennych losowych o identycznych rozkładach, to rozkładem granicznym dla zmiennej V n jest rozkład normalny o parametrach oraz czyli Czyli każda ze zmiennych ma taką samą wartość oczekiwaną E(X) i taką samą wariancję D 2 (X) Ponownie w ogóle nie jest ważne, jaki jest to rozkład, byle tylko był identyczny dla wszystkich zmiennych

14 Twierdzenie Lindeberga – Lévy’ego Podsumowując: Na mocy twierdzenia Lindeberga – Lévy’ego wiemy, że: 1.Suma zmiennych losowych niezależnych i o identycznych rozkładach ma rozkład graniczny 2. Średnia ze zmiennych losowych niezależnych i o identycznych rozkładach ma rozkład graniczny Pamiętajmy, że chodzi o rozkład graniczny, czyli o pewne przybliżenie; Dlatego oba poznane dziś twierdzenia powinno się stosować tylko dla dużych n; Przy niewielkich liczebnościach różnice między wynikami dokładnymi a przybliżonymi (właśnie na podstawie twierdzeń granicznych) będą zbyt duże;

15 Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Statystykę na SGH zalicza się w formie standardowego egzaminu. Co roku pisze go około 1000 studentów. Na egzaminie można uzyskać od 0 do 40 punktów. Liczba punktów, jaką może uzyskać dowolny pojedynczy (k-ty) student, jest zmienną losową. Nazwijmy ją X k. Przyjmijmy, że na egzaminie każdy student pracuje zupełnie samodzielnie, a więc wyniki studentów nie zależą od siebie  zmienne X k są niezależne. Przyjmijmy, że rozkład zmiennych X k jest identyczny. Co prawda nie wiemy, jaki on jest, ale jest identyczny dla każdego ze studentów. Ponadto po analizie wyników lat ubiegłych okazało się, że studenci z egzaminu dostają przeciętnie 29 punktów (E(X) = 29) z odchyleniem standardowym 6 punktów (D(X) = 6). Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? (czyli że średnio biorąc wszyscy zdadzą)

16 Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Dane: n = 1000 E(X) = 29 D(X) = 6 Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? Średnia liczba punktów - standaryzacja

17 Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? Prawdopodobieństwo to wynosi 99,9999%

18 Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Moglibyśmy również zapytać, jakie jest prawdopodobieństwo, że w tym roku wszyscy studenci uzyskają z egzaminu mniej niż 29 500 punktów łącznie Dane: n = 1000 E(X) = 29 D(X) = 6 Suma punktów 1000 studentów, czyli

19 Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD standaryzacja Jakie jest prawdopodobieństwo, że w tym roku wszyscy studenci uzyskają z egzaminu mniej niż 29 500 punktów łącznie Prawdopodobieństwo to wynosi 99,57%

20 ROZKŁADY STATYSTYK Z PRÓBY WPROWADZENIE

21 PRÓBA Podstawowym postulatem dotyczącym próby jest warunek, aby próba była losowa Czyli to przypadek, a nie świadomy wybór ma decydować o tym, które jednostki populacji trafią do próby Przypomnijmy, czym jest prosta próba losowa jest to próba dobrana w ten sposób, że każda jednostka populacji ma takie samo prawdopodobieństwo znalezienia się w próbie i prawdopodobieństwo to nie zmienia się w trakcie losowania – losowanie ze zwracaniem Gdy próba jest losowa, jej struktura powinna odzwierciedlać (reprezentować) populację ALE CZY TAK DZIEJE SIĘ ZAWSZE? Rozważmy następujący przykład

22 Przykład (Statystyka od podstaw, M. Rószkiewicz) Produkcja spółdzielni rzemieślniczej „Pracowitość popłaca” w dniu 1 kwietnia wynosiła 10 000 opakowań spinaczy. Na wielkość produkcji składało się: 3333 opakowania, które nie zawierały żadnych wadliwych spinaczy, 5000 opakowań, które zawierały po 1 spinaczu wadliwym, 1111 opakowań, które zawierały po 2 wadliwe spinacze, 556 opakowań, które zawierały po 3 wadliwe spinacze. Zatem zmienna losowa X, będąca liczbą wadliwych spinaczy w opakowaniu wyprodukowanym 1 kwietnia, ma następujący rozkład: Rozkład ten charakteryzują jego dwa podstawowe parametry: wartość oczekiwana E(X) i wariancja D 2 (X) X = x i 0 123 P(X = x i )3 333/10 0005 000/10 0001 111/10 000556/10 000

23 Przykład (Statystyka od podstaw, M. Rószkiewicz) Wartość oczekiwana E(X) = 0,889 Co oznacza, że w jednym opakowaniu wyprodukowanym 1 kwietnia znajdowało się przeciętnie 0,89 wadliwych spinaczy oraz Wariancja D 2 (X) = 0,645, D(X) = 0,81 Zawartość spinaczy w opakowaniu różniła się od średniej ich liczby o przeciętnie 0,81 spinacza. X = x i 0 123 P(X = x i )3 333/10 0005 000/10 0001 111/10 000556/10 000 X = x i 0 123 P(X = x i )1/31/21/91/18

24 Przykład (Statystyka od podstaw, M. Rószkiewicz) Wprowadźmy do tej historii kontrolera jakości. Tenże kontroler wybiera losowo ze zwracaniem 2 opakowania spinaczy. Zatem mogą się zdarzyć następujące sytuacje. Kontroler może wylosować następujące pary opakowań: A.Pierwsze opakowanie zawierające 0 wadliwych spinaczy oraz drugie opakowanie zawierające również 0 wadliwych spinaczy B.Pierwsze opakowanie zawierające 0 wadliwych spinaczy oraz drugie opakowanie zawierające 1 wadliwy spinacz C.Itd. Zapiszmy to w następujący sposób: 0 i 00 i 10 i 20 i 3 1 i 01 i 11 i 21 i 3 2 i 02 i 12 i 22 i 3 3 i 03 i 13 i 23 i 3

25 Przykład (Statystyka od podstaw, M. Rószkiewicz) 0 i 00 i 10 i 20 i 3 1 i 01 i 11 i 21 i 3 2 i 02 i 12 i 22 i 3 3 i 03 i 13 i 23 i 3 Szanse (prawdopodobieństwa) na otrzymanie poszczególnych par są różne Prawdopodobieństwa wylosowania poszczególnych par pudełek spinaczy, to inaczej prawdopodobieństwa wylosowania poszczególnych prób opakowań spinaczy (próby te są 2-elementowe) Wynik pierwszego losowania 0123 01/3 * 1/3 = 1/91/3 * ½ = 1/61/3 * 1/9 = 1/271/3 * 1/18 = 1/54 11/2 * 1/3 = 1/61/2 * ½ = 1/41/2 * 1/9 = 1/181/2 * 1/18 = 1/36 21/9 * 1/3 = 1/271/9 * ½ = 1/181/9 * 1/9 = 1/811/9 * 1/18 = 1/162 31/18 * 1/3 = 1/541/18 * ½ = 1/361/18 * 1/9 = 1/1621/18 * 1/18=1/324 X = x i 0 123 P(X = x i )1/31/21/91/18

26 Przykład (Statystyka od podstaw, M. Rószkiewicz) Pomińmy teraz kolejność losowania Wynik pierwszego losowania Wynik drugiego losowania 0123 01/3 * 1/3 = 1/91/3 * ½ = 1/61/3 * 1/9 = 1/271/3 * 1/18 = 1/54 11/2 * 1/3 = 1/61/2 * ½ = 1/41/2 * 1/9 = 1/181/2 * 1/18 = 1/36 21/9 * 1/3 = 1/271/9 * ½ = 1/181/9 * 1/9 = 1/811/9 * 1/18 = 1/162 31/18 * 1/3 = 1/541/18 * ½ = 1/361/18 * 1/9 = 1/1621/18 * 1/18=1/324 Wyniki losowania: {x 1, x 2 } {0, 0} {0, 1} lub {1, 0} {0, 2} lub {2, 0} {0, 3} lub {3, 0} {1, 1} {1, 2} lub {2, 1} {1, 3} lub {3, 1} {2, 2} lub {2, 2} {2, 3} lub {3, 2} {3, 3} pipi 1/92/62/272/541/42/182/361/812/1621/324 Najbardziej prawdopodobny wynik losowania Opakowań zawierających 1 wadliwy spinacz było w produkcji najwięcej (5000 szt.), w drugiej kolejności opakowań bez spinaczy wadliwych (3333 szt.) Najmniej prawdopodobny wynik losowania Opakowań zawierających 3 wadliwe spinacze było w produkcji najmniej (556 szt.)

27 Przykład (Statystyka od podstaw, M. Rószkiewicz) Jaki stąd wniosek: 1.Największe prawdopodobieństwo pojawienia się mają próby o strukturze zbliżonej do struktury populacji; są to jednocześnie próby najbardziej wiarygodne 2.Próby, które nie odzwierciedlają dobrze struktury populacji, są mało wiarygodne, ale nie są niemożliwe

28 Przykład (Statystyka od podstaw, M. Rószkiewicz) Wynik pierwszego losowania 0123 01/3 * 1/3 = 1/91/3 * ½ = 1/61/3 * 1/9 = 1/271/3 * 1/18 = 1/54 11/2 * 1/3 = 1/61/2 * ½ = 1/41/2 * 1/9 = 1/181/2 * 1/18 = 1/36 21/9 * 1/3 = 1/271/9 * ½ = 1/181/9 * 1/9 = 1/811/9 * 1/18 = 1/162 31/18 * 1/3 = 1/541/18 * ½ = 1/361/18 * 1/9 = 1/1621/18 * 1/18=1/324 Wyniki losowania: {x 1, x 2 } {0, 0} {0, 1} lub {1, 0} {0, 2} lub {2, 0} {0, 3} lub {3, 0} {1, 1} {1, 2} lub {2, 1} {1, 3} lub {3, 1} {2, 2} lub {2, 2} {2, 3} lub {3, 2} {3, 3} pipi 1/92/62/272/541/42/182/361/812/1621/324 Każda z tych par opakowań może być opisywana przez charakteryzujące ją liczby. Liczby te nazywa się STATYSTYKAMI. Należą do nich m.in. średnia arytmetyczna oraz frakcja, ale także różnica średnich i różnica frakcji.

29 Wyniki losowania: {x 1, x 2 } {0, 0} {0, 1} lub {1, 0} {0, 2} lub {2, 0} {0, 3} lub {3, 0} {1, 1} {1, 2} lub {2, 1} {1, 3} lub {3, 1} {2, 2} lub {2, 2} {2, 3} lub {3, 2} {3, 3} 00,511,51 222,53 pipi 1/92/62/272/541/42/182/361/812/1621/324 Przykład (Statystyka od podstaw, M. Rószkiewicz) Obliczmy średnią dla kolejnych wyników Te liczby pojawiają się jedynie wtedy, gdy zostały wylosowane określone próby par pudełek z wadliwymi spinaczami Możliwości (prawdopodobieństwa) ich wystąpienia zależą od możliwości (prawdopodobieństw) wystąpienia określonych par pudełek z wadliwymi spinaczami, a więc z jakimi prawdopodobieństwami pojawiają się poszczególne średnie? średnie: 00,511,522,53 pipi 1/92/635/1088/5411/1622/1621/324 W konsekwencji otrzymujemy rozkład prawdopodobieństwa średniej, a więc rozkład pradowpodobieństwa STATYSTYKI Z PRÓBY (bo średnia to statystyka, którą policzyliśmy ma podstawie wyników próby)

30 Przykład (Statystyka od podstaw, M. Rószkiewicz) Jak każdy rozkład ma on swoje parametry – wartość oczekiwaną i wariancję Przypomnijmy sobie, jakie były parametry zmiennej X wartość oczekiwana E(X) = 0,889 wariancja D 2 (X) = 0,645, D(X) = 0,81 Okazuje się, że wartość oczekiwana rozkładu średniej arytmetycznej z próby jest taka sama, jak wartość oczekiwana rozkładu populacji, z której próba została pobrana TO NIE JEST PRZYPADEK!!! średnie: 00,511,522,53 pipi 1/92/635/1088/5411/1622/1621/324

31 Przykład (Statystyka od podstaw, M. Rószkiewicz) Wariancja (oraz odchylenie standardowe) rozkładu średniej arytmetycznej z próby maleje wraz ze wzrostem liczebności próby. Oznacza to, że: Im liczniejsza próba, tym częściej wyznaczona na jej podstawie średnia arytmetyczna mniej różni się od wartości średniej w populacji Bo nasze próby były 2-elementowe Uogólnijmy: Wartość oczekiwana rozkładu średniej arytmetycznej z próby jest taka sama, jak wartość oczekiwana rozkładu populacji, z której próba została pobrana

32 ROZKŁADY STATYSTYK Z PRÓBY

33 Rozkład średniej z próby Określenie rozkładu średniej z próby (wybranie ze znanych rozkładów średniej tego, który jest odpowiedni) wymaga ustalenia 3 informacji (kolejność jest istotna): Czy badana cecha ma rozkład normalny? TAKNIE Czy znane jest odchylenie standardowe w tym rozkładzie, czyli σ TAKNIE Czy próba jest duża, czyli czy przekracza n = 100 NIETAK Rozkład średniej z próby dla populacji normalnej ze znanym σ Rozkład średniej z próby dla populacji normalnej z nieznanym σ (ale znamy wtedy S(X), czyli odchylenie standardowe z próby) Graniczny rozkład średniej z próby Nic nie można zrobić  Wariant 1 Wariant 2 Wariant 3

34 Rozkład różnicy dwóch średnich z próby Określenie rozkładu dwóch średnich z próby (wybranie ze znanych rozkładów, tego który jest odpowiedni) wymaga ustalenia 3 informacji (kolejność jest istotna): Czy badana cecha w obu populacjach ma rozkład normalny? TAKNIE Czy znane są odchylenia standardowe w tych rozkładach, czyli σ 1 i σ 2 TAKNIE Czy obie próby są duże, czyli czy liczą po przynajmniej 100 elementów NIETAK Rozkład różnicy średnich z prób z populacji normalnych ze znanymi σ 1 i σ 2 Rozkład różnicy średnich z prób z populacji normalnych z nieznanymi, ale jednakowymi odchyleniami standardowymi σ 1 i σ 2 (czyli σ 1 = σ 2 ) Graniczny rozkład różnicy średnich Nic nie można zrobić  Wariant 1 Wariant 2Wariant 3

35 Rozkład frakcji (częstości elementów wyróżnionych w próbie) Określenie rozkładu frakcji z próby możliwe jest tylko w przypadku, gdy: 1.Zmienna losowa X, będąca liczbą wyróżnionych elementów w n-elementowej próbie, ma rozkład dwumianowy z parametrami n (liczebność próby) i p (prawdopodobieństwo sukcesu) 2.Próba jest duża, czyli liczy przynajmniej 100 elementów W takich sytuacjach statystyka W = X/n (czyli frakcja albo częstość) ma przybliżony rozkład normalny

36 Rozkład różnicy dwóch frakcji (różnicy częstości elementów z dwóch prób) Określenie rozkładu różnicy dwóch frakcji z dwóch prób możliwe jest tylko w przypadku, gdy: 1.Zmienne losowe X 1 i X 2, będące liczbami wyróżnionych elementów w próbach pobieranych z dwóch populacji, mają rozkłady dwumianowe z parametrami, odpowiednio, n 1 (liczebność próby 1) i p 1 (prawdopodobieństwo sukcesu w próbie 1) oraz n 2 (liczebność próby 2) i p 2 (prawdopodobieństwo sukcesu w próbie 2) 2.Obie próby są duże, czyli każda liczy co najmniej 100 elementów W takich sytuacjach statystyka (czyli różnica dwóch frakcji albo dwóch częstości) ma przybliżony rozkład normalny

37 PRZYKŁADY

38 Rozkład zarobków (w euro) pracowników kolei w Niemczech jest N(2400;  ). Rozkład zarobków (w euro) pracowników kolei w Polsce jest N(1900;  ). Jakie jest prawdopodobieństwo, że dla 16 losowo wybranych pracowników niemieckich kolei średnia zarobków będzie większa o maksymalnie 550 od średniej zarobków 26 losowo wybranych pracowników polskich kolei? Wiadomo dodatkowo, że odchylenie standardowe w grupie pracowników kolei w Niemczech wyniosło 75, a w grupie pracowników kolei polskich 100. 2 populacje: pracownicy kolei niemieckich i pracownicy kolei polskich X 1 – zarobki pracowników kolei w Niemczech X 1 ~ N(2400;  ) X 2 – zarobki pracowników kolei w Polsce X 2 ~ N(1900;  ). zarówno X 1 jak i X 2 mają rozkłady normalne Nie znamy odchyleń standardowych w tych rozkładach (bo nie znamy wartości σ), ale wiemy, że te odchylenia standardowe są sobie równe Znamy też odchylenia standardowe w wylosowanych próbach: S(x 1 ) = 75 S(x 2 )=100 Liczebności prób: n 1 = 16 oraz n 2 = 26 Przykład 1

39 ALE CO MAMY POLICZYĆ? Jakie jest prawdopodobieństwo, że dla 16 losowo wybranych pracowników niemieckich kolei średnia zarobków będzie większa o maksymalnie 550 od średniej zarobków 26 losowo wybranych pracowników polskich kolei? Potrzebujemy znać rozkład, czyli różnicy średnich Który wariant wzoru wybrać?

40 Rozkład różnicy dwóch średnich z próby Czy badana cecha w obu populacjach ma rozkład normalny? TAK NIE Czy znane są odchylenia standardowe w tych rozkładach, czyli σ 1 i σ 2 TAK NIE Czy obie próby są duże, czyli czy liczą po przynajmniej 100 elementów NIETAK Rozkład różnicy średnich z prób z populacji normalnych ze znanymi σ 1 i σ 2 Rozkład różnicy średnich z prób z populacji normalnych z nieznanymi, ale jednakowymi odchyleniami standardowymi σ 1 i σ 2 (czyli σ 1 = σ 2 ) Graniczny rozkład różnicy średnich Nic nie można zrobić  Wariant 1 Wariant 2Wariant 3

41 W naszym zadaniuma rozkład t-Studenta z v = 16 + 26 - 2 = 40

42 Z tablic rozkładu t-Studenta dla liczby stopni swobody v = 16 + 26 - 2 = 40 odczytujemy : Dla liczby v = 40 szukamy wartości najbliższej 1,721

43 Na studiach dziennych 25% studentów wybiera specjalizację w zakresie zarządzania i marketingu, na studiach zaocznych tę samą specjalizację wybiera 20% studentów. Jakie jest prawdopodobieństwo, że w losowo wybranej próbie liczącej 200 studentów studiów dziennych udział wybierających badaną specjalizację będzie przynajmniej o 7 punktów procentowych wyższy od udziału specjalizujących się w zarządzaniu i marketingu w losowo dobranej próbie 150 studentów studiów zaocznych. 2 populacje: studenci dzienni (1) i studenci zaoczni (2) 2 próby: n 1 = 200 studentów dziennych oraz n 2 = 150 studentów zaocznych Zjawisko dwustanowe: albo student wybiera specjalizację w zakresie zarządzania i marketingu zarówno jak i mają rozkłady normalne albo nie wybiera tej specjalizacji Prawdopodobieństwa sukcesu: p 1 = 0,25, p 2 = 0,20 Co mamy policzyć? P(W 1 – W 2 ≥ 0,07) różnica dwóch frakcji Przykład 2

44 P(W 1 – W 2 ≥ 0,07) = ? Zatem potrzebujemy wiedzieć, jaki rozkład ma różnica dwóch frakcji Sprawdzamy, czy nasze próby są wystarczająco duże. U nas obie próby liczą więcej niż 100 elementów Jeśli próby byłyby mniejsze niż 100, wtedy zastosowanie powyższego wzoru skutkowałoby bardzo niedokładnym wynikiem Przykład 2

45 W naszym zadaniu W 1 – W 2 ma graniczny rozkład normalny czyli N(0,05; 0,045)

46 Trener (a zarazem miłośnik statystyki) oświadczył trójskoczkowi, że pojedzie na olimpiadę do Londynu, jeśli będzie skakał wystarczająco daleko, czyli wtedy gdy średni wynik dla 25 losowo wybranych skoków zawodnika w sezonie nie będzie niższy niż 16,32 m Jakie szanse na wyjazd do Londynu ma zawodnik, jeśli rozkład jego wyników jest N(16,2 ; 0,5)? Co mamy policzyć? Potrzebujemy zatem wiedzieć, jaki rozkład ma średnia z próby 25 skoków zawodnika (n = 25) Wiemy ponadto, że: X – odległość, na jaką skoczył trójskoczek X ~ N(16,2; 0,5) Wiemy zatem, że X ma rozkład normalny i znamy odchylenie standardowe w tym rozkładzie (σ = 0,5) Przykład 3

47 Rozkład średniej z próby Czy badana cecha ma rozkład normalny? TAK NIE Czy znane jest odchylenie standardowe w tym rozkładzie, czyli σ TAK NIE Czy próba jest duża, czyli czy przekracza n = 100 NIETAK Rozkład średniej z próby dla populacji normalnej ze znanym σ Rozkład średniej z próby dla populacji normalnej z nieznanym σ (ale znamy wtedy S(X), czyli odchylenie standardowe z próby) Graniczny rozkład średniej z próby Nic nie można zrobić  Wariant 1 Wariant 2 Wariant 3

48 Dane: X – odległość, na jaką skoczył trójskoczek X ~ N(16,2; 0,5) n = 25


Pobierz ppt "STATYSTYKA – kurs podstawowy wykład 4 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii."

Podobne prezentacje


Reklamy Google