Wnioskowanie statystyczne dr Ewa Putek-Szeląg Katedra Ekonometrii i Statystyki e-mail: wicheru@wneiz.pl Tel. (91) 444 19 63 Konsultacje: czwartek godz. 1000–1200, pok. 212
Wnioskowanie statystyczne Literatura: Hozer J., Kolanko E., Korol M., Lasota B., Witek M., Statystyka. Część II. Wnioskowanie statystyczne, Wydawnictwo Naukowe Uniwersytetu Szczecińskiego, Szczecin 1994. Jóźwiak J., Podgórski J., Statystyka od podstaw, PWE, Warszawa 2006, Aczel A. D., Statystyka w zarządzaniu, PWN, Warszawa 2000 . Greń J., Statystyka matematyczna, modele i zadania, PWN, Warszawa 1987 Balicki A., Makać W., Metody wnioskowania statystycznego, Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk 2007. Luszniewicz A., Statystyka nie jest trudna. Metody wnioskowania statystycznego, PWE, Warszawa 1999. Domański C.,Testy statystyczne, PWE, Warszawa 1990. Fisz M., Rachunek prawdopodobieństwa i statystyka matematyczna, PWN, Warszawa 1976. Domański C., Pruska K., Nieklasyczne metody statystyczne, PWE, Warszawa 2000. Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K., Statystyka w zadaniach. Cz. II, Wydawnictwo Naukowo-Techniczne, Warszawa 2001. Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M., Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach. Część 2. Statystyka matematyczna, Wydawnictwo Naukowe PWN, Warszawa 2002. Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K., Wzory i tablice statystyczne, Katedra Ekonometrii i Statystyki US, Stowarzyszenie Pomoc i Rozwój, Szczecin 1997.
Wnioskowanie statystyczne Właściwości prawdopodobieństwa: (c) (b) (a) A lub B (A+B) A A A i B A*B B ~A A+(~A)=W (d) (e) W A B Zdarzenie pewne W (suma wszystkich zdarzeń możliwych) Zdarzenia rozłączne A, B Jeśli A, B, .. są zdarzeniami rozłącznymi (wykluczają się wzajemnie) to P(A B …) = P(A) + P(B) + ... (patrz rysunek d) Jeśli W jest zdarzeniem pewnym to P(W) = 1 (patrz rysunek e) Stąd wynika, że dla dowolnego zdarzenia A 0 P(A) 1 P(A’) = 1 - P(A) (patrz rysunek a) Dla dowolnych zdarzeń A i B P(A B) = P(A) + P(B) – P(A B) (patrz rysunki b, c)
Wnioskowanie statystyczne Przykład 1. W sklepie znajdują się magnetowidy trzech firm: I, II, III: 3 razy tyle magnetowidów firmy I co magnetowidów firmy II, a 5 razy tyle magnetowidów firmy I co magnetowidów firmy III. Jakie jest prawdopodobieństwo, że wybierając losowo magnetowid, trafimy na magnetowid firmy II? Niech A oznacza zdarzenie polegające na tym, że trafimy na magnetowid firmy II. Oznaczmy ilość magnetowidów firmy II przez x. Wtedy magnetowidów firmy I będzie 3x, a firmy III będzie 3/5x magnetowidów. Stąd szukane prawdopodobieństwo jest równe: 2. Rzucamy kostką do gry. Jakie jest prawdopodobieństwo, że wypadnie parzysta liczba oczek? – {1, 2, 3, 4, 5, 6} A – {2, 4, 6}
Wnioskowanie statystyczne Przykład Żarówki są produkowane w 3 fabrykach. Z fabryki pierwszej pochodzi 25% produkcji, z fabryki drugiej 35% produkcji a z trzeciej 40%. Produkcja wadliwa wynosi odpowiednio: dla fabryki I – 5%, dla fabryki II – 4%, dla fabryki III – 2%. Wybrana żarówka okazała się wadliwa – jakie jest prawdopodobieństwo, ze pochodzi ona z fabryki pierwszej? Zakładamy: B1 – wybrana żarówka pochodzi z fabryki I, B2 – wybrana żarówka pochodzi z fabryki II, B3 – wybrana żarówka pochodzi z fabryki III, A – wybrana żarówka jest wadliwa. Szukamy P(B1A). Mamy: P(B1) = 0,25; P(B2) = 0,35; P(B3) = 0,40; P(AB1) = 0,05; P(AB2) = 0:04; P(AB3) = 0:02
Wnioskowanie statystyczne Przykład W pudełku jest 10 losów ponumerowanych od 1 do 10. Na los z numerem 1 pada główna wygrana 10 zł, na losy z numerami 2 i 3 wygrana pocieszenia w wysokości 1 zł, a za wyciągnięcie pozostałych płacimy 2 zł. Załóżmy, że wyciągnięcie każdego z losów jest jednakowo prawdopodobne. Doświadczenie polega na wyciągnięciu jednego losu. Przestrzeń zdarzeń elementarnych = {1, 2, ..., 10} i jest skończona. Określmy funkcję X będzie zmienną losową skokową oznaczającą wygraną, gdzie A = {-2, 1, 10}. Zauważmy, że X(1) = 10, X(2) = X(3) = 1, X(4) = X(5) = ... = X(10) = -2. Rozkład prawdopodobieństwa zmiennej losowej X wartość zmiennej losowej -2 1 10 prawdopodobieństwo 0,7 0,2 0,1 Dystrybuanta zmiennej losowej X
Wnioskowanie statystyczne Przykład Dana jest dystrybuanta zmiennej losowej X x (– ∞, 0] (0, 1] (1, 3] (3, 6] (6, +∞) F(x) 1/3 1/2 5/6 1 Znaleźć rozkład prawdopodobieństwa zmiennej losowej X. xi 1 3 6 pi 1/3 1/6
Wnioskowanie statystyczne Przykład W loterii wypuszczono 500 losów, w tym jeden los z wygraną 1000 zł, pięć losów z wygraną po 200 zł i dwadzieścia losów – po 50 zł. Określić rozkład zmiennej losowej X, będącej wielkością możliwej wygranej osoby, która kupiła jeden los. Obliczyć wartość oczekiwaną i odchylenie standardowe tak określonej zmiennej losowej. Jeżeli zmienna losowa X jest wielkością wygranej właściciela jednego losu to przyjmie wartości 0, 50, 200 lub 1000. Prawdopodobieństwo przyjęcia przez X wartości 1000 jest równe 1/500, wartości 200 wynosi 5/500, wartości 50 jest równe 20/500 a wartości 0, czyli bez wygranej 474/500. Rozkład zmiennej losowej można przedstawić w tabeli: xi 50 200 1000 pi 0,948 0,040 0,010 0,002 Wartość oczekiwana oznacza, że średnia wygrana właściciela jednego losu wynosi 6 zł. Odchylenie standardowe równe około 49,6 zł oznacza, że wygrana właściciela jednego losu przeciętnie odchyla się od średniej o prawie 50 zł.
Wybrane rozkłady zmiennej losowej skokowej Wnioskowanie statystyczne Wybrane rozkłady zmiennej losowej skokowej
Wnioskowanie statystyczne Prawdopodobieństwa odpowiadające poszczególnym wartościom (realizacjom zmiennej losowej X) są następujące: P(X > 2) = P(X = 3) + P(X = 4) + P(X = 5) = 0,0081 + 0,00045 + 0,00001 = 0,00856 Możliwe jest również wyznaczenie prawdopodobieństwa w oparciu o dystrybuantę P(X > 2) = 1 – P(X 2) = 1 – F(2)
Wnioskowanie statystyczne Przykład Obliczyć prawdopodobieństwo wylosowania co najwyżej trzech osób leworęcznych w 200 losowaniach, jeśli wiadomo, że prawdopodobieństwo spotkania osoby leworęcznej w pewnej populacji ludzi wynosi 0,05. Ponieważ spełnione są warunki: p = 0,05 < 0,1 oraz N = 200 > 50, zatem mamy do czynienia z rozkładem Poissona. Wówczas Prawdopodobieństwo wylosowania co najwyżej trzech osób leworęcznych wynosi 0,011.
Wybrane rozkłady zmiennej losowej ciągłej Wnioskowanie statystyczne Wybrane rozkłady zmiennej losowej ciągłej
Wnioskowanie statystyczne Rozkład równomierny (prostokątny, jednostajny) jest najprostszym rozkładem zmiennej losowej typu ciągłego. Rozkład ten bywa czasem stosowany w sytuacji, gdy można przypuszczać, że każda wartość zmiennej w pewnym przedziale liczbowym jest jednakowo możliwa. Rozkład wykładniczy jest jedynym rozkładem ciągłym, który ma własność zwaną brakiem pamięci. Własność tę można interpretować następująco: jeżeli zmienna losowa X jest czasem bezawaryjnej pracy pewnego elementu o rozkładzie wykładniczym, to niezależnie od dotychczasowego czasu pracy elementu, dalszy czas pracy nie zależy od „przeszłości” i ma taki sam rozkład, co całkowity czas pracy elementu.
Wnioskowanie statystyczne Zmienna losowa X ma rozkład normalny o parametrach m oraz , co w skrócie zapisuje się jako X: N(m, s), jeżeli jej funkcja gęstości wyraża się wzorem: Dystrybuantą zmiennej losowej X mającej rozkład normalny jest funkcją F(x) określona na zbiorze liczb rzeczywistych o postaci:
Wnioskowanie statystyczne Funkcja gęstości w rozkładzie normalnym: – jest symetryczna względem prostej x = (osią symetrii jest prosta pionowa przechodząca przez punkt x = μ), jest rosnąca dla x < μ, a malejąca dla x > μ – w punkcie x = osiąga wartość maksymalną – ramiona funkcji mają punkty przegięcia dla x = - σ oraz x = + σ – kształt funkcji gęstości zależy od wartości parametrów: i σ. Parametr decyduje o przesunięciu krzywej, natomiast parametr σ decyduje o „smukłości” krzywej (im mniejsza jest wariancja/odchylenie standardowe, tym wykres gęstości prawdopodobieństwa jest bardziej wysmukły)
Wnioskowanie statystyczne Wartość oczekiwana i wariancja dla rozkładu normalnego wyrażane są następującymi wzorami: Wartość m jest to taka wartość zmiennej losowej X, wokół której skupiają się wyniki wielokrotnych realizacji tej zmiennej. Innymi słowy, oczekuje się (ma się nadzieję), że wielokrotne realizacje zmiennej losowej X będą skupiały się wokół liczby m.
Wnioskowanie statystyczne Reguła trzech sigm Funkcja gęstości rozkładu normalnego ma zastosowanie do reguły „trzech sigma”, którą następnie rozwinięto na regułę „sześć sigma” – stosowaną w kontroli jakości, przede wszystkim w USA (np. General Electric, General Motors Company) Reguła trzech sigma – jeżeli zmienna losowa ma rozkład normalny to: – 68,3 % populacji mieści się w przedziale ( - σ; + σ) – 95,5 % populacji mieści się w przedziale ( - 2σ; + 2σ) – 99,7 % populacji mieści się w przedziale ( - 3σ; + 3σ) Reguła ta ma duże znaczenie w teorii błędów obserwacji, bowiem błędy przypadkowe pomiarów tej samej wielkości fizycznej zwykle tak się rozkładają, że wyniki tych pomiarów mają rozkład normalny. Rozkład ten nie wystąpi, gdy popełniony zostanie tendencyjny błąd systematyczny.
Wnioskowanie statystyczne Tablica dystrybuanty rozkładu normalnego N(0, 1) → dla u =1,64 F(u = 1,64) = Fu = 1,64 = 0,949497
Wnioskowanie statystyczne W celu obliczenia prawdopodobieństwa P(a < X b) należy skorzystać ze standaryzacji. Jeśli zmienna losowa X ma rozkład N(m, s) to zmienna standaryzowana u ma rozkład N(0,1), czyli: Wartości oraz należy odczytać w tablicach dystrybuanty standaryzowanego rozkładu normalnego. Przykład Dany jest rozkład zmiennej losowej X o parametrach N(15; 5). Obliczyć: a) P(X<12) b) P(X>14) c) P{12 < X < 14} a) P{X < 12} = b) P{X > 14} = 1 – P{X < 14}= 1 – c) P{12 < X < 14} =
Wnioskowanie statystyczne Przykład Wzrost kobiet w pewnej populacji ma rozkład normalny N(165,15). Oznacza to, iż zmienna losowa jaką jest wzrost kobiet ma rozkład normalny ze średnią równą 165 cm i odchyleniem standardowym równym 15 cm. Jaki jest udział w populacji kobiet o wzroście: a) do 160 cm, b) w przedziale 165-170 cm, c) powyżej 175 cm.
Wnioskowanie statystyczne Przykład Zmienna losowa X ma rozkład N(20; 5). Obliczyć ki, wiedząc, że
Wnioskowanie statystyczne
Wnioskowanie statystyczne
Wnioskowanie statystyczne Przykłady 1. W grupie studentów przeprowadzono test ze statystyki , gdzie zmienna losowa Xk oznaczała liczbę zdobytych punktów (od 0 do 100, gdzie k – jest liczbą studentów). Rozkład zmiennej Xk jest identyczny dla wszystkich studentów – E(Xk) = 70; D(Xk) = 20. Obliczyć prawdopodobieństwo tego, że: a) suma punktów uzyskanych przez 100 studentów będzie wyższa od 7500 punktów, b) przeciętna liczba zdobytych punktów w 100–osobowej grupie studentów będzie w przedziale 65–70 pkt. Korzystamy z twierdzenia Lindeberga–Levy’ego a) Niech zmienna Z będzie sumą zmiennych X1, X2, …, X100 → Z100 = X1 + X2 +…+ X100, wówczas ma ona rozkład zbliżony do normalnego o parametrach Prawdopodobieństwo tego, że suma punktów uzyskanych przez 100–osobową grupę studentów będzie wyższa od 7500 p. wynosi 0,621 %. b) Niech zmienna V będzie średnią ze zmiennych X1, X2, …, X100, wówczas ma ona rozkład zbliżony do normalnego o parametrach Prawdopodobieństwo tego, że średnia liczba punktów uzyskanych przez 100–osobową grupę studentów będzie w przedziale 65–70 p. wynosi 49,379 %.
Wnioskowanie statystyczne 2. Pewien towar produkowany jest w 2 gatunkach. 40 % produkcji stanowi gatunek 1, natomiast 60 % – drugi. Jakie jest prawdopodobieństwo, że w niezależnie pobranej partii towaru liczącej 50 sztuk, liczba sztuk 1–go gatunku będzie większa od 24. Jeżeli Yn jest liczbą sukcesów (mamy do czynienia z rozkładem dwumianowym), to jej rozkład dąży do rozkładu normalnego o parametrach 3. Prawdopodobieństwo wylosowania wyrobu 1–go gatunku wynosi 0,25. Obliczyć prawdopodobieństwo tego, że częstość wystąpienia sztuk I gatunku wśród 400 wylosowanych wyrobów wyniesie nie więcej niż 30 %. Przy dużej liczbie obserwacji częstość wystąpienia sukcesu w rozkładzie dwumianowym Yn na rozkład normalny o parametrach