STATYSTYKA – kurs podstawowy wykład 4 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Slides:



Advertisements
Podobne prezentacje
ESTYMACJA PRZEDZIAŁOWA
Advertisements

Test zgodności c2.
Rangowy test zgodności rozkładów
Metody losowania próby
Statystyka Wojciech Jawień
Estymacja. Przedziały ufności.
Wykład 5 Standardowy błąd a odchylenie standardowe
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Analiza wariancji jednoczynnikowa
Zmienne losowe i ich rozkłady
Skale pomiarowe – BARDZO WAŻNE
Statystyka w doświadczalnictwie
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Wykład 4 Przedziały ufności
Elementy Rachunku Prawdopodobieństwa c.d.
Metody Przetwarzania Danych Meteorologicznych Wykład 4
Wzory ułatwiające obliczenia
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Rozkład t.
Hipotezy statystyczne
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
na podstawie materiału – test z użyciem komputerowo generowanych prób
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Statystyka – zadania 4 Janusz Górczyński.
Projekt wykonany przez studentów I roku ARI Politechniki Wrocławskiej:
DOŚWIADCZENIA LOSOWE.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Testowanie hipotez statystycznych
Dopasowanie rozkładów
Wnioskowanie statystyczne
Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne.
Wykład 5 Przedziały ufności
Modele zmienności aktywów
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Testowanie hipotez Jacek Szanduła.
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 3 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
WYKŁAD Teoria błędów Katedra Geodezji im. K. Weigla ul. Poznańska 2
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
STATYSTYKA – kurs podstawowy wykład 11
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Statystyka matematyczna
Statystyka matematyczna
Własności asymptotyczne ciągów zmiennych losowych
MIARY STATYSTYCZNE Warunki egzaminu.
Monte Carlo, bootstrap, jacknife
Zapis prezentacji:

STATYSTYKA – kurs podstawowy wykład 4 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

TWIERDZENIA GRANICZNE

Twierdzenie de Moivre’a – Laplace’a

Twierdzenie o zbieżności rozkładu dwumianowego do rozkładu normalnego Co to znaczy?

Twierdzenie de Moivre’a – Laplace’a Przypomnijmy sobie czego dotyczył rozkład dwumianowy (Bernoulliego) Rozkład dwumianowy opisuje wielokrotne (n-krotne) występowanie tego samego zjawiska dwustanowego Wystąpienie stanu 1 – określamy mianem sukcesu – prawdopodobieństwo wystąpienia tego stanu zapisujemy jako p Wystąpienie stanu 2 – określamy mianem porażki – prawdopodobieństwo wystąpienia tego stanu zapisujemy jako q = 1 – p Rezultatem doświadczenia jest pewna liczba k „sukcesów” oraz liczba (n – k) porażek. Rozkład prawdopodobieństwa opisujący występowanie wszystkich możliwych liczb „sukcesów” k, nosi nazwę rozkładu dwumianowego Prawdopodobieństwo w tym rozkładzie oblicza się za pomocą wzoru: Parametry tego rozkładu to: E(X) = n*p D 2 (X) = n*p * (1 – p) = n*p*q

Twierdzenie de Moivre’a – Laplace’a Dowiedziono, że: dla dostatecznie dużej liczby doświadczeń (czyli liczby n) dystrybuantą graniczną dla dystrybuanty rozkładu dwumianowego jest dystrybuanta rozkładu normalnego o parametrach E(X)=n*p oraz D 2 (X) = n*p * (1 – p) = n*p*q, czyli Praktyczne znaczenie tego twierdzenia jest następujące: Jeśli liczba doświadczeń jest duża (w praktyce zwykle przynajmniej 100), to prawdopodobieństwo – dla odpowiedniego rozkładu dwumianowego – można wyznaczyć korzystając z rozkładu normalnego Wynik uzyskany w ten sposób będzie przybliżony, a przybliżenie będzie tym lepsze, im liczba doświadczeń będzie większa Są to te same parametry, jakie występowały w rozkładzie dwumianowym

Twierdzenie de Moivre’a – Laplace’a Dlaczego to twierdzenie ma tak duże znaczenie? Weźmy znany nam już przykład: Odsetek osób z wyższym wykształceniem w Polsce wynosi 15%. Pytając 5 wylosowanych osób wchodzących do Złotych Tarasów, czy mają wykształcenie wyższe, musimy liczyć się z tym, że każda z nich może odpowiedzieć: TAK = sukces = 1 lub NIE = porażka = 0 Ale teraz nie zadajemy pytania 5 osobom, ale 105 osobom A chcemy się dowiedzieć jakie jest prawdopodobieństwo, że co najwyżej 20 z nich ma wykształcenie wyższe, co oznacza że wystąpi co najwyżej 20 sukcesów, czyli P(X ≤ 20) = ? Możemy to policzyć wprost ze wzoru na prawdopodobieństwo w rozkładzie dwumianowym:

P(X ≤ 20) = P(X = 0) + P(X = 1) + P(X = 2) + … + P(X = 20) … Można te obliczenia wykonać szybciej Skorzystajmy z twierdzenia de Moivre’a-Laplace’a Będzie to dosyć czaso- i pracochłonne

X 105 – liczba sukcesów w 105 doświadczeniach (bo pytamy 105 osób) P(X 105 ≤ 20) = ? Najpierw potrzebujemy zatem wiedzieć, jaki rozkład ma X 105 X 105 ma rozkład dwumianowy (dokładny), ale ze względu na dużą liczbę doświadczeń można ten rozkład przybliżyć za pomocą rozkładu normalnego o parametrach E(X 105 ) = n*p = 105*0,15 = 15,75 i D(X 105 ) = X 105 ~ N(15,75; 3,659) P(X 105 ≤ 20) standaryzacja

Twierdzenie Lindeberga – Lévy’ego

Twierdzenie dotyczące zbieżności sumy niezależnych zmiennych losowych do rozkładu normalnego Co to znaczy?

Twierdzenie Lindeberga – Lévy’ego Jeśli zmienna losowa T n jest sumą n niezależnych zmiennych losowych o identycznych rozkładach, to rozkładem granicznym dla zmiennej T n jest rozkład normalny o parametrach oraz czyli Czyli każda ze zmiennych ma taką samą wartość oczekiwaną E(X) i taką samą wariancję D 2 (X) W ogóle nie jest ważne, jaki jest to rozkład, byle tylko był identyczny dla wszystkich zmiennych

Twierdzenie Lindeberga – Lévy’ego Praktycznym wnioskiem z tego twierdzenia jest określenie granicznego rozkładu średniej arytmetycznej zmiennych losowych Jeśli bowiem V n jest średnią z n niezależnych zmiennych losowych o identycznych rozkładach, to rozkładem granicznym dla zmiennej V n jest rozkład normalny o parametrach oraz czyli Czyli każda ze zmiennych ma taką samą wartość oczekiwaną E(X) i taką samą wariancję D 2 (X) Ponownie w ogóle nie jest ważne, jaki jest to rozkład, byle tylko był identyczny dla wszystkich zmiennych

Twierdzenie Lindeberga – Lévy’ego Podsumowując: Na mocy twierdzenia Lindeberga – Lévy’ego wiemy, że: 1.Suma zmiennych losowych niezależnych i o identycznych rozkładach ma rozkład graniczny 2. Średnia ze zmiennych losowych niezależnych i o identycznych rozkładach ma rozkład graniczny Pamiętajmy, że chodzi o rozkład graniczny, czyli o pewne przybliżenie; Dlatego oba poznane dziś twierdzenia powinno się stosować tylko dla dużych n; Przy niewielkich liczebnościach różnice między wynikami dokładnymi a przybliżonymi (właśnie na podstawie twierdzeń granicznych) będą zbyt duże;

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Statystykę na SGH zalicza się w formie standardowego egzaminu. Co roku pisze go około 1000 studentów. Na egzaminie można uzyskać od 0 do 40 punktów. Liczba punktów, jaką może uzyskać dowolny pojedynczy (k-ty) student, jest zmienną losową. Nazwijmy ją X k. Przyjmijmy, że na egzaminie każdy student pracuje zupełnie samodzielnie, a więc wyniki studentów nie zależą od siebie  zmienne X k są niezależne. Przyjmijmy, że rozkład zmiennych X k jest identyczny. Co prawda nie wiemy, jaki on jest, ale jest identyczny dla każdego ze studentów. Ponadto po analizie wyników lat ubiegłych okazało się, że studenci z egzaminu dostają przeciętnie 29 punktów (E(X) = 29) z odchyleniem standardowym 6 punktów (D(X) = 6). Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? (czyli że średnio biorąc wszyscy zdadzą)

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Dane: n = 1000 E(X) = 29 D(X) = 6 Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? Średnia liczba punktów - standaryzacja

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Jakie jest prawdopodobieństwo, że w tym roku średnia liczba punktów, które uzyskają studenci, nie będzie niższa od 22,4? Prawdopodobieństwo to wynosi 99,9999%

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD Moglibyśmy również zapytać, jakie jest prawdopodobieństwo, że w tym roku wszyscy studenci uzyskają z egzaminu mniej niż punktów łącznie Dane: n = 1000 E(X) = 29 D(X) = 6 Suma punktów 1000 studentów, czyli

Twierdzenie Lindeberga – Lévy’ego - PRZYKŁAD standaryzacja Jakie jest prawdopodobieństwo, że w tym roku wszyscy studenci uzyskają z egzaminu mniej niż punktów łącznie Prawdopodobieństwo to wynosi 99,57%

ROZKŁADY STATYSTYK Z PRÓBY WPROWADZENIE

PRÓBA Podstawowym postulatem dotyczącym próby jest warunek, aby próba była losowa Czyli to przypadek, a nie świadomy wybór ma decydować o tym, które jednostki populacji trafią do próby Przypomnijmy, czym jest prosta próba losowa jest to próba dobrana w ten sposób, że każda jednostka populacji ma takie samo prawdopodobieństwo znalezienia się w próbie i prawdopodobieństwo to nie zmienia się w trakcie losowania – losowanie ze zwracaniem Gdy próba jest losowa, jej struktura powinna odzwierciedlać (reprezentować) populację ALE CZY TAK DZIEJE SIĘ ZAWSZE? Rozważmy następujący przykład

Przykład (Statystyka od podstaw, M. Rószkiewicz) Produkcja spółdzielni rzemieślniczej „Pracowitość popłaca” w dniu 1 kwietnia wynosiła opakowań spinaczy. Na wielkość produkcji składało się: 3333 opakowania, które nie zawierały żadnych wadliwych spinaczy, 5000 opakowań, które zawierały po 1 spinaczu wadliwym, 1111 opakowań, które zawierały po 2 wadliwe spinacze, 556 opakowań, które zawierały po 3 wadliwe spinacze. Zatem zmienna losowa X, będąca liczbą wadliwych spinaczy w opakowaniu wyprodukowanym 1 kwietnia, ma następujący rozkład: Rozkład ten charakteryzują jego dwa podstawowe parametry: wartość oczekiwana E(X) i wariancja D 2 (X) X = x i P(X = x i )3 333/ / / /10 000

Przykład (Statystyka od podstaw, M. Rószkiewicz) Wartość oczekiwana E(X) = 0,889 Co oznacza, że w jednym opakowaniu wyprodukowanym 1 kwietnia znajdowało się przeciętnie 0,89 wadliwych spinaczy oraz Wariancja D 2 (X) = 0,645, D(X) = 0,81 Zawartość spinaczy w opakowaniu różniła się od średniej ich liczby o przeciętnie 0,81 spinacza. X = x i P(X = x i )3 333/ / / / X = x i P(X = x i )1/31/21/91/18

Przykład (Statystyka od podstaw, M. Rószkiewicz) Wprowadźmy do tej historii kontrolera jakości. Tenże kontroler wybiera losowo ze zwracaniem 2 opakowania spinaczy. Zatem mogą się zdarzyć następujące sytuacje. Kontroler może wylosować następujące pary opakowań: A.Pierwsze opakowanie zawierające 0 wadliwych spinaczy oraz drugie opakowanie zawierające również 0 wadliwych spinaczy B.Pierwsze opakowanie zawierające 0 wadliwych spinaczy oraz drugie opakowanie zawierające 1 wadliwy spinacz C.Itd. Zapiszmy to w następujący sposób: 0 i 00 i 10 i 20 i 3 1 i 01 i 11 i 21 i 3 2 i 02 i 12 i 22 i 3 3 i 03 i 13 i 23 i 3

Przykład (Statystyka od podstaw, M. Rószkiewicz) 0 i 00 i 10 i 20 i 3 1 i 01 i 11 i 21 i 3 2 i 02 i 12 i 22 i 3 3 i 03 i 13 i 23 i 3 Szanse (prawdopodobieństwa) na otrzymanie poszczególnych par są różne Prawdopodobieństwa wylosowania poszczególnych par pudełek spinaczy, to inaczej prawdopodobieństwa wylosowania poszczególnych prób opakowań spinaczy (próby te są 2-elementowe) Wynik pierwszego losowania /3 * 1/3 = 1/91/3 * ½ = 1/61/3 * 1/9 = 1/271/3 * 1/18 = 1/54 11/2 * 1/3 = 1/61/2 * ½ = 1/41/2 * 1/9 = 1/181/2 * 1/18 = 1/36 21/9 * 1/3 = 1/271/9 * ½ = 1/181/9 * 1/9 = 1/811/9 * 1/18 = 1/162 31/18 * 1/3 = 1/541/18 * ½ = 1/361/18 * 1/9 = 1/1621/18 * 1/18=1/324 X = x i P(X = x i )1/31/21/91/18

Przykład (Statystyka od podstaw, M. Rószkiewicz) Pomińmy teraz kolejność losowania Wynik pierwszego losowania Wynik drugiego losowania /3 * 1/3 = 1/91/3 * ½ = 1/61/3 * 1/9 = 1/271/3 * 1/18 = 1/54 11/2 * 1/3 = 1/61/2 * ½ = 1/41/2 * 1/9 = 1/181/2 * 1/18 = 1/36 21/9 * 1/3 = 1/271/9 * ½ = 1/181/9 * 1/9 = 1/811/9 * 1/18 = 1/162 31/18 * 1/3 = 1/541/18 * ½ = 1/361/18 * 1/9 = 1/1621/18 * 1/18=1/324 Wyniki losowania: {x 1, x 2 } {0, 0} {0, 1} lub {1, 0} {0, 2} lub {2, 0} {0, 3} lub {3, 0} {1, 1} {1, 2} lub {2, 1} {1, 3} lub {3, 1} {2, 2} lub {2, 2} {2, 3} lub {3, 2} {3, 3} pipi 1/92/62/272/541/42/182/361/812/1621/324 Najbardziej prawdopodobny wynik losowania Opakowań zawierających 1 wadliwy spinacz było w produkcji najwięcej (5000 szt.), w drugiej kolejności opakowań bez spinaczy wadliwych (3333 szt.) Najmniej prawdopodobny wynik losowania Opakowań zawierających 3 wadliwe spinacze było w produkcji najmniej (556 szt.)

Przykład (Statystyka od podstaw, M. Rószkiewicz) Jaki stąd wniosek: 1.Największe prawdopodobieństwo pojawienia się mają próby o strukturze zbliżonej do struktury populacji; są to jednocześnie próby najbardziej wiarygodne 2.Próby, które nie odzwierciedlają dobrze struktury populacji, są mało wiarygodne, ale nie są niemożliwe

Przykład (Statystyka od podstaw, M. Rószkiewicz) Wynik pierwszego losowania /3 * 1/3 = 1/91/3 * ½ = 1/61/3 * 1/9 = 1/271/3 * 1/18 = 1/54 11/2 * 1/3 = 1/61/2 * ½ = 1/41/2 * 1/9 = 1/181/2 * 1/18 = 1/36 21/9 * 1/3 = 1/271/9 * ½ = 1/181/9 * 1/9 = 1/811/9 * 1/18 = 1/162 31/18 * 1/3 = 1/541/18 * ½ = 1/361/18 * 1/9 = 1/1621/18 * 1/18=1/324 Wyniki losowania: {x 1, x 2 } {0, 0} {0, 1} lub {1, 0} {0, 2} lub {2, 0} {0, 3} lub {3, 0} {1, 1} {1, 2} lub {2, 1} {1, 3} lub {3, 1} {2, 2} lub {2, 2} {2, 3} lub {3, 2} {3, 3} pipi 1/92/62/272/541/42/182/361/812/1621/324 Każda z tych par opakowań może być opisywana przez charakteryzujące ją liczby. Liczby te nazywa się STATYSTYKAMI. Należą do nich m.in. średnia arytmetyczna oraz frakcja, ale także różnica średnich i różnica frakcji.

Wyniki losowania: {x 1, x 2 } {0, 0} {0, 1} lub {1, 0} {0, 2} lub {2, 0} {0, 3} lub {3, 0} {1, 1} {1, 2} lub {2, 1} {1, 3} lub {3, 1} {2, 2} lub {2, 2} {2, 3} lub {3, 2} {3, 3} 00,511,51 222,53 pipi 1/92/62/272/541/42/182/361/812/1621/324 Przykład (Statystyka od podstaw, M. Rószkiewicz) Obliczmy średnią dla kolejnych wyników Te liczby pojawiają się jedynie wtedy, gdy zostały wylosowane określone próby par pudełek z wadliwymi spinaczami Możliwości (prawdopodobieństwa) ich wystąpienia zależą od możliwości (prawdopodobieństw) wystąpienia określonych par pudełek z wadliwymi spinaczami, a więc z jakimi prawdopodobieństwami pojawiają się poszczególne średnie? średnie: 00,511,522,53 pipi 1/92/635/1088/5411/1622/1621/324 W konsekwencji otrzymujemy rozkład prawdopodobieństwa średniej, a więc rozkład pradowpodobieństwa STATYSTYKI Z PRÓBY (bo średnia to statystyka, którą policzyliśmy ma podstawie wyników próby)

Przykład (Statystyka od podstaw, M. Rószkiewicz) Jak każdy rozkład ma on swoje parametry – wartość oczekiwaną i wariancję Przypomnijmy sobie, jakie były parametry zmiennej X wartość oczekiwana E(X) = 0,889 wariancja D 2 (X) = 0,645, D(X) = 0,81 Okazuje się, że wartość oczekiwana rozkładu średniej arytmetycznej z próby jest taka sama, jak wartość oczekiwana rozkładu populacji, z której próba została pobrana TO NIE JEST PRZYPADEK!!! średnie: 00,511,522,53 pipi 1/92/635/1088/5411/1622/1621/324

Przykład (Statystyka od podstaw, M. Rószkiewicz) Wariancja (oraz odchylenie standardowe) rozkładu średniej arytmetycznej z próby maleje wraz ze wzrostem liczebności próby. Oznacza to, że: Im liczniejsza próba, tym częściej wyznaczona na jej podstawie średnia arytmetyczna mniej różni się od wartości średniej w populacji Bo nasze próby były 2-elementowe Uogólnijmy: Wartość oczekiwana rozkładu średniej arytmetycznej z próby jest taka sama, jak wartość oczekiwana rozkładu populacji, z której próba została pobrana

ROZKŁADY STATYSTYK Z PRÓBY

Rozkład średniej z próby Określenie rozkładu średniej z próby (wybranie ze znanych rozkładów średniej tego, który jest odpowiedni) wymaga ustalenia 3 informacji (kolejność jest istotna): Czy badana cecha ma rozkład normalny? TAKNIE Czy znane jest odchylenie standardowe w tym rozkładzie, czyli σ TAKNIE Czy próba jest duża, czyli czy przekracza n = 100 NIETAK Rozkład średniej z próby dla populacji normalnej ze znanym σ Rozkład średniej z próby dla populacji normalnej z nieznanym σ (ale znamy wtedy S(X), czyli odchylenie standardowe z próby) Graniczny rozkład średniej z próby Nic nie można zrobić  Wariant 1 Wariant 2 Wariant 3

Rozkład różnicy dwóch średnich z próby Określenie rozkładu dwóch średnich z próby (wybranie ze znanych rozkładów, tego który jest odpowiedni) wymaga ustalenia 3 informacji (kolejność jest istotna): Czy badana cecha w obu populacjach ma rozkład normalny? TAKNIE Czy znane są odchylenia standardowe w tych rozkładach, czyli σ 1 i σ 2 TAKNIE Czy obie próby są duże, czyli czy liczą po przynajmniej 100 elementów NIETAK Rozkład różnicy średnich z prób z populacji normalnych ze znanymi σ 1 i σ 2 Rozkład różnicy średnich z prób z populacji normalnych z nieznanymi, ale jednakowymi odchyleniami standardowymi σ 1 i σ 2 (czyli σ 1 = σ 2 ) Graniczny rozkład różnicy średnich Nic nie można zrobić  Wariant 1 Wariant 2Wariant 3

Rozkład frakcji (częstości elementów wyróżnionych w próbie) Określenie rozkładu frakcji z próby możliwe jest tylko w przypadku, gdy: 1.Zmienna losowa X, będąca liczbą wyróżnionych elementów w n-elementowej próbie, ma rozkład dwumianowy z parametrami n (liczebność próby) i p (prawdopodobieństwo sukcesu) 2.Próba jest duża, czyli liczy przynajmniej 100 elementów W takich sytuacjach statystyka W = X/n (czyli frakcja albo częstość) ma przybliżony rozkład normalny

Rozkład różnicy dwóch frakcji (różnicy częstości elementów z dwóch prób) Określenie rozkładu różnicy dwóch frakcji z dwóch prób możliwe jest tylko w przypadku, gdy: 1.Zmienne losowe X 1 i X 2, będące liczbami wyróżnionych elementów w próbach pobieranych z dwóch populacji, mają rozkłady dwumianowe z parametrami, odpowiednio, n 1 (liczebność próby 1) i p 1 (prawdopodobieństwo sukcesu w próbie 1) oraz n 2 (liczebność próby 2) i p 2 (prawdopodobieństwo sukcesu w próbie 2) 2.Obie próby są duże, czyli każda liczy co najmniej 100 elementów W takich sytuacjach statystyka (czyli różnica dwóch frakcji albo dwóch częstości) ma przybliżony rozkład normalny

PRZYKŁADY

Rozkład zarobków (w euro) pracowników kolei w Niemczech jest N(2400;  ). Rozkład zarobków (w euro) pracowników kolei w Polsce jest N(1900;  ). Jakie jest prawdopodobieństwo, że dla 16 losowo wybranych pracowników niemieckich kolei średnia zarobków będzie większa o maksymalnie 550 od średniej zarobków 26 losowo wybranych pracowników polskich kolei? Wiadomo dodatkowo, że odchylenie standardowe w grupie pracowników kolei w Niemczech wyniosło 75, a w grupie pracowników kolei polskich populacje: pracownicy kolei niemieckich i pracownicy kolei polskich X 1 – zarobki pracowników kolei w Niemczech X 1 ~ N(2400;  ) X 2 – zarobki pracowników kolei w Polsce X 2 ~ N(1900;  ). zarówno X 1 jak i X 2 mają rozkłady normalne Nie znamy odchyleń standardowych w tych rozkładach (bo nie znamy wartości σ), ale wiemy, że te odchylenia standardowe są sobie równe Znamy też odchylenia standardowe w wylosowanych próbach: S(x 1 ) = 75 S(x 2 )=100 Liczebności prób: n 1 = 16 oraz n 2 = 26 Przykład 1

ALE CO MAMY POLICZYĆ? Jakie jest prawdopodobieństwo, że dla 16 losowo wybranych pracowników niemieckich kolei średnia zarobków będzie większa o maksymalnie 550 od średniej zarobków 26 losowo wybranych pracowników polskich kolei? Potrzebujemy znać rozkład, czyli różnicy średnich Który wariant wzoru wybrać?

Rozkład różnicy dwóch średnich z próby Czy badana cecha w obu populacjach ma rozkład normalny? TAK NIE Czy znane są odchylenia standardowe w tych rozkładach, czyli σ 1 i σ 2 TAK NIE Czy obie próby są duże, czyli czy liczą po przynajmniej 100 elementów NIETAK Rozkład różnicy średnich z prób z populacji normalnych ze znanymi σ 1 i σ 2 Rozkład różnicy średnich z prób z populacji normalnych z nieznanymi, ale jednakowymi odchyleniami standardowymi σ 1 i σ 2 (czyli σ 1 = σ 2 ) Graniczny rozkład różnicy średnich Nic nie można zrobić  Wariant 1 Wariant 2Wariant 3

W naszym zadaniuma rozkład t-Studenta z v = = 40

Z tablic rozkładu t-Studenta dla liczby stopni swobody v = = 40 odczytujemy : Dla liczby v = 40 szukamy wartości najbliższej 1,721

Na studiach dziennych 25% studentów wybiera specjalizację w zakresie zarządzania i marketingu, na studiach zaocznych tę samą specjalizację wybiera 20% studentów. Jakie jest prawdopodobieństwo, że w losowo wybranej próbie liczącej 200 studentów studiów dziennych udział wybierających badaną specjalizację będzie przynajmniej o 7 punktów procentowych wyższy od udziału specjalizujących się w zarządzaniu i marketingu w losowo dobranej próbie 150 studentów studiów zaocznych. 2 populacje: studenci dzienni (1) i studenci zaoczni (2) 2 próby: n 1 = 200 studentów dziennych oraz n 2 = 150 studentów zaocznych Zjawisko dwustanowe: albo student wybiera specjalizację w zakresie zarządzania i marketingu zarówno jak i mają rozkłady normalne albo nie wybiera tej specjalizacji Prawdopodobieństwa sukcesu: p 1 = 0,25, p 2 = 0,20 Co mamy policzyć? P(W 1 – W 2 ≥ 0,07) różnica dwóch frakcji Przykład 2

P(W 1 – W 2 ≥ 0,07) = ? Zatem potrzebujemy wiedzieć, jaki rozkład ma różnica dwóch frakcji Sprawdzamy, czy nasze próby są wystarczająco duże. U nas obie próby liczą więcej niż 100 elementów Jeśli próby byłyby mniejsze niż 100, wtedy zastosowanie powyższego wzoru skutkowałoby bardzo niedokładnym wynikiem Przykład 2

W naszym zadaniu W 1 – W 2 ma graniczny rozkład normalny czyli N(0,05; 0,045)

Trener (a zarazem miłośnik statystyki) oświadczył trójskoczkowi, że pojedzie na olimpiadę do Londynu, jeśli będzie skakał wystarczająco daleko, czyli wtedy gdy średni wynik dla 25 losowo wybranych skoków zawodnika w sezonie nie będzie niższy niż 16,32 m Jakie szanse na wyjazd do Londynu ma zawodnik, jeśli rozkład jego wyników jest N(16,2 ; 0,5)? Co mamy policzyć? Potrzebujemy zatem wiedzieć, jaki rozkład ma średnia z próby 25 skoków zawodnika (n = 25) Wiemy ponadto, że: X – odległość, na jaką skoczył trójskoczek X ~ N(16,2; 0,5) Wiemy zatem, że X ma rozkład normalny i znamy odchylenie standardowe w tym rozkładzie (σ = 0,5) Przykład 3

Rozkład średniej z próby Czy badana cecha ma rozkład normalny? TAK NIE Czy znane jest odchylenie standardowe w tym rozkładzie, czyli σ TAK NIE Czy próba jest duża, czyli czy przekracza n = 100 NIETAK Rozkład średniej z próby dla populacji normalnej ze znanym σ Rozkład średniej z próby dla populacji normalnej z nieznanym σ (ale znamy wtedy S(X), czyli odchylenie standardowe z próby) Graniczny rozkład średniej z próby Nic nie można zrobić  Wariant 1 Wariant 2 Wariant 3

Dane: X – odległość, na jaką skoczył trójskoczek X ~ N(16,2; 0,5) n = 25