Rozkłady statystyk z próby

Slides:



Advertisements
Podobne prezentacje
Opracowali: Patryk Klemczak Tomasz Klemczak ODSIECZ WIEDEŃSKA.
Advertisements

Kształtowanie się granic II Rzeczypospolitej
Wykład 4: Systemy nawigacji satelitarnej
WNIOSEK O PRZYZNANIE POMOCY
POGŁĘBIONA OCENA SYTUACJI FINANSOWEJ NA PODSTAWIE ANALIZY WSKAŹNIKOWEJ
Machine learning Lecture 3
Identyfikacja dansylowanych aminokwasów metodą cienkowarstwowej chromatografii na płytkach poliamidowych Gawahir Hassan.
Mechanika kwantowa dla niefizyków
Program Rozwoju Obszarów Wiejskich
Przyszłe zmiany sposobu finansowania zadań oświatowych
Wybrane bloki i magistrale komputerów osobistych (PC)
HELIOTECHNIKA W chwili obecnej jest niekonkurencyjna w porównaniu ze źródłami konwencjonalnymi, ale jest to „czysta energia” dlatego wiąże się z nią wiele.
Tolerancje i pasowania
B R Y Ł Y P L A T O Ń S K I E.
Bankowość Pieniądz Podstawowe informacje o bankach
Weryfikacja hipotez statystycznych
Krakowskie Sympozjum Naukowo-Techniczne
Zasilacze prądu stałego Czyli rzeczywiste źródła napięcia
Prof. nadzw. dr hab. inż. Jarosław Bartoszewicz
Mechanika kwantowa dla niefizyków
Grzegorz Karasiewicz Katedra Marketingu Wydział Zarządzania UW
1 czerwca w zerówce.
„ Mały Miś i polskie tradycje Bożego Narodzenia”
Box Behnken Design w optymalizacji procesu biosyntezy β-karotenu w hodowlach drożdży Rhodotorula rubra Ludmiła Bogacz-Radomska(1), Joanna Harasym(1,2,3),
Projekt z dnia 30 maja 2017 r. Ustawa z dnia …. ……………
Prof. dr hab. Roman Sobiecki Rachunki makroekonomiczne
CAPS LOCK - CERTYFIKOWANE SZKOLENIA JĘZYKOWE I KOMPUTEROWE
Prezentacje wykonali: Marcin Łukasik Wiktor Kołek
GOSPODAROWANIE ZASOBAMI W ORGANIZACJI
Co to jest SSC Master… SSC Master to platforma elektronicznego obiegu, dekretacji i akceptacji dokumentów w organizacji. Dzięki szerokiemu i elastycznemu.
Podstawy pomagania SPPiIK, 2016 Anna Gromińska.
Chemia biopierwiastków
Sedymentacja.
Współczesne kierunki polityki społecznej
Hiszpania,Portugalia,Litwa,Polska,Turcja,Włochy,Chorwacja Desery.
Prawo pracy – ćwiczenia (IX)
Dotarcie do specyficznej grupy docelowej
Sprawozdanie roczne z realizacji Planu działania Krajowej Sieci Obszarów Wiejskich na lata za rok 2016 Warszawa, 26 czerwca 2017 r. Materiał.
Srebrna Małopolska regionalne inicjatywy na rzecz seniorów
Stan Wojenny.
O UTWORZENIE ZWIĄZKU METROPOLITALNEGO W WOJEWÓDZTWIE ŚLĄSKIM
Wojewódzki Inspektorat Ochrony Środowiska w Białymstoku
ZAWODOZNAWSTWO Materiały zrealizowane w ramach projektu
Wykład 8: Złożone problemy przetwarzania mobilnego
Realizacja sprzężenia od siły w układzie sterowania robotem do zastosowań neurochirurgicznych Dorota Marszalik Wieliczka,
Funkcje generujące w kombinatoryce
Ruch turystyczny w Krakowie w 2015 roku
© dr hab. Inż. Paweł Jabłoński
Adsorpcja faza stała/ gazowa lub ciekła faza ciekła/ gazowa lub ciekła
MODELE EPIDEMIOLOGICZNE
Dowody matematyczne - zadania podstawowe
Zagadnienie prawdy Andrzej Łukasik Zakład Ontologii i Teorii Poznania
Ewolucja gwiazd.
Potencjał chemiczny Potencjał chemiczny ma charakter siły uogólnionej,
STAŁE RÓWNOWAGI REAKCJI PROTOLITYCZNYCH
Optymalizacja sieci drogowej propozycja algorytmu
Nie ma innego – Tylko Jezus Mariusz Śmiałek
W ramach stypendium Ministerstwa Kultury i Dziedzictwa Narodowego
R- Punkt referencyjny (wyjściowy) obrabiarki
Parki krajobrazowe na Podlasiu
Publicznej Szkole Podstawowej nr 4 im. Tadeusza Kościuszki
Materiały pochodzą z Platformy Edukacyjnej Portalu
Zasady poprawnej komunikacji – jak uniknąć konfliktów ?
Gimnazjum nr 3 im. J. Chełmońskiego w Zielonej Górze
Moje dziecko i jego potrzeby.
Edukacja psychologiczna
GMINA RUDZINIEC.
Czym jest mowa nienawiści?
Wykład 7 Prawo urzędnicze.
Zapis prezentacji:

Rozkłady statystyk z próby Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie Rozkłady statystyk z próby dr Marta Marszałek e-mail: marta.marszalek@sgh.waw.pl

Próba losowa – przykład 1. Lekkoatleta skaczący w dal codziennie, w ramach treningu, oddaje 15 skoków. Jego wyniki można zapisać: dzień A: x1A ; x2A ; x3A ; ………… x15A 𝑋 𝐴 dzień B: x1B ; x2B ; x3B ; ………… x15B 𝑋 𝐵 ⁞ ⁞ ⁞ ⁞ ⁞ Jakie wyniki może uzyskać skoczek w 1. skoku. Jakie wartości mogą pojawić się zamiast x1? Czy w 1. skoku rozważamy tylko jedną konkretną wartość, czy wszystkie możliwe wyniki (oczywiście z różnymi szansami)?

Zmienna losowa i próba losowa W zakresie rozważań teoretycznych, rezultat pierwszego skoku nie jest konkretną liczbą, lecz szeregiem możliwych do uzyskania (z różnym prawdopodobieństwem) rezultatów. Oznacza to, że jest to zmienna losowa. Próba losowa prosta – ciąg n zmiennych losowych (X1, X2,……Xn) niezależnych i posiadających jednakowe rozkłady, takie jak rozkład zmiennej losowej X w populacji generalnej.

Próba losowa – przykład 2. Zadanie: Trener zainteresowany jest średnim wynikiem uzyskanym każdego dnia, czyli: 𝑋 𝐴 ; 𝑋 𝐵 itd. Czy średnie wyniki uzyskane w poszczególnych dniach są identyczne? Od czego zależą? Czy średni wynik z 15 skoków różni się znacząco od średniej ze wszystkich rezultatów uzyskanych przez skoczka (np. w sezonie)? Cel: oszacowanie średniego wyniku skoczka. Szacujemy średnią w populacji na podstawie średniej z pobranej losowo próby.

Rozkład zmiennej losowej 𝑿 w populacji, (jedna z możliwych) próba losowa i wartości średnie – w populacji i próbie m (średnia w populacji) x̄ (średnia z próby) Rozkład w populacji x x xx x x xx x x x x x x x x wartości z próby

Średnia arytmetyczna jest liczbową charakterystyką próby i nosi nazwę statystyki z próby. Jest ona zmienną losową, której wartość zależy od tego, jaką w konkretnym przypadku próbę wylosowano. Istnieje stosunkowo duże prawdopodobieństwo, że losowa zmienna 𝒙 przyjmie wartość bliską średniej m w populacji, do oszacowania której służy.

Rozkłady z próby

Statystyka z próby Przykład: wybór szkoły językowej Kryteria: renoma, położenie, liczba native speaker’ów, średni wynik wystandaryzowanego testu Średnia z testu: 29,5 pkt. – brak interpretacji dlaczego? Wyjaśnienia: nie należy porównywać swojego wyniku do średniej z populacji Odpowiedź: populacja = wyniki wszystkich pojedynczych osób Przedmiot analizy: próby losowe, a nie osoby

Statystyką (statystyką z próby) = wartość liczbowa uzyskana na podstawie wyników z próby. Wariancja i odchylenie w próbie: dzielimy przez (n-1) Populacja: dzielimy przez N

Statystyka z próby i rozkład statystyki z próby Statystyka z próby to zmienna losowa będąca funkcją zmiennych losowych X1, X2,……Xn stanowiących próbę losową. Rozkład statystyki z próby – jest rozkładem prawdopodobieństwa wszystkich możliwych wartości, jakie ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania prób losowych o tych samych rozmiarach, pobranych z określonej populacji.

Znajomość rozkładu statystyki z próby jest konieczna przy wykorzystywaniu danej statystyki we wnioskowaniu statystycznym. Rozkład taki może być dokładny (przy ustalonym 𝑛) lub graniczny (przy dużym 𝑛).

I. Rozkłady dokładne statystyk z próby

Rozkład średniej arytmetycznej z próby

Rozkład średniej arytmetycznej ( 𝑥 ) z próby rozkład zmiennej losowej X odchylenie standardowe liczebnosć próby rozkład średniej postać wystandaryzowana zmiennej 1. 𝑋~𝑁(𝑚;𝜎) 𝜎−𝑧𝑛𝑎𝑛𝑒 n - dowolne 𝑋 ~𝑁(𝑚; 𝜎 𝑛 ) 𝑈= 𝑥 −𝑚 𝜎/ 𝑛 2. 𝑋~𝑁(𝑚;𝜎) 𝜎−𝑛𝑖𝑒𝑧𝑛𝑎𝑛𝑒 n – małe, (n<120 lub n<30) ma rozkład t-Studenta z wartością oczekiwaną m i odchyleniem standardowym 𝑆 𝑥 𝑛 𝑡= 𝑥 −𝑚 𝑆 𝑥 / 𝑛 3. 𝑋~𝑁(𝑚;𝜎) 𝜎−𝑑𝑜𝑤𝑜𝑙𝑛𝑒 n – duże (n>120) można stosować w przybliżeniu: 𝑋 ~𝑁(𝑚; 𝑆 𝑥 𝑛 ) 𝑈= 𝑥 −𝑚 𝑆 𝑥 / 𝑛

Ad 1. Rozkład średniej arytmetycznej z próby dla populacji normalnej ze znanym odchyleniem standardowym, próba dowolonej liczebności. Założenia: X: N(m,σ) σ - znane (X1,X2……Xn) próba losowa 𝑛 − dowolne Wniosek: Wystandaryzowana postać zmiennej: 𝑈= 𝑥 −𝑚 𝜎/ 𝑛

Rozkład normalny w populacji i rozkład średniej 𝒙 z próby o różnej liczebności

Rozkład średniej z próby ma wartość średnią taką jak cała populacja tzn., że przeciętnie średnia z próby pokrywa się ze średnią w populacji. Rozkład tej statystyki skupia się wokół parametru, który ma zostać oszacowany, co czyni 𝑥 dobrym estymatorem nieznanej wartości średniej w populacji m.

Założenia: X: N(m,σ) σ - nieznane (X1,X2……Xn) - próba losowa 𝑛−mał𝑒 Ad 2. Rozkład średniej arytmetycznej z próby dla populacji normalnej z nieznanym odchyleniem standardowym, próba mała. Założenia: X: N(m,σ) σ - nieznane (X1,X2……Xn) - próba losowa 𝑛−mał𝑒 Wniosek: ma rozkład t-Studenta o liczbie stopni swobody 𝑣=𝑛−1 Wystandaryzowana postać zmiennej: 𝑡= 𝑥 −𝑚 𝑆 𝑥 / 𝑛

Stopnie swobody (degree of freedom = df) – liczba niezależnych obserwacji w próbie. Liczba stopni swobody = liczba wszystkich pomiarów (która nie musi być równa liczbie wyników obserwacji) – liczba wszystkich ograniczeń (narzuconych na te pomiary). df = liczba pomiarów – liczba ograniczeń Ograniczenie – każda wielkość, która zostaje obliczona na podstawie tych samych pomiarów.

Stopnie swobody – przykład Przykład 1: W badaniu wylosowano 2 niezależne próby o znanych średnich. Próby zostały połączone. Liczebność próby 1. = n1 , Liczebność próby 2. = n2 . Odpowiedź: Jeżeli I próba składa się z n1, a II próba z n2 wyników obserwacji, to liczba stopni swobody (df) związana jest z odch.stand. dwóch średnich z próby wynosi: df = n1 + n2 - 2 Przykład 2: 200 losowo wybranych g.d. zapytano o dochody. Dochody pogrupowano uzyskując 5 przedziałów. Nie była znana wartość oczekiwana ani odchylenie standardowe rozkładu. Otrzymano wartość testu 20,51. Ile jest stopni swobody? df = k – r – 1, gdzie k – liczba przedziałow r – liczba ograniczeń (założeń) df = 5 – 2 – 1 = 2

Prawdopodobieństwo w rozkładzie t-Studenta -tα,v tα,v Rozkład t-Studenta został stablicowany. Tablice zawierają wartości tα,v takie, że P(|t|≥ tα,v ) =α f(t) 1-α α/2 α/2 t

Tablice rozkładu t-Studenta

Założenia: X: N(m,σ) σ - dowolne (X1,X2……Xn) próba losowa Ad 3. Rozkład średniej arytmetycznej z próby dla populacji normalnej ze dowolnym odchyleniem standardowym, próba duża. Założenia: X: N(m,σ) σ - dowolne (X1,X2……Xn) próba losowa 𝑛 − duże (>120) Wniosek: Wystandaryzowana postać zmiennej: 𝑋 ~𝑁(𝑚; 𝑆 𝑥 𝑛 ) 𝑈= 𝑥 −𝑚 𝑆 𝑥 / 𝑛

Rozkłady różnicy średnich arytmetycznych z dwóch prób

Rozkład różnicy średnich arytmetycznych z dwóch prób ( 𝒙 𝟏 − 𝒙 𝟐 ) rozkład zmiennej losowej X odchylenie standardowe liczebność próby rozkład różnicy średnich ( 𝒙 𝟏 − 𝒙 𝟐 ) postać wystandaryzowana zmiennej 4. 𝑋 1 ~𝑁( 𝑚 1 ; 𝜎 1 ) 𝑋 2 ~𝑁( 𝑚 2 ; 𝜎 2 ) 𝜎 1 , 𝜎 2 −𝑧𝑛𝑎𝑛𝑒 𝑛 1 , 𝑛 2 – dowolne 𝑥 1 − 𝑥 2 ~𝑁( 𝑚 1 − 𝑚 2 ; 𝜎 1 2 𝑛 1 + 𝜎 2 2 𝑛 2 ) 𝑢= 𝑥 1 − 𝑥 2 −( 𝑚 1 − 𝑚 2 ) 𝜎 1 2 𝑛 1 + 𝜎 2 2 𝑛 2 5. 𝑋 1 ~𝑁( 𝑚 1 ; 𝜎 1 ) 𝜎 1 , 𝜎 2 −𝑛𝑖𝑒𝑧𝑛𝑎𝑛𝑒 𝑛 1 , 𝑛 2 – małe 𝑥 1 − 𝑥 2 ma rozkład t-Studenta z wartością oczekiwaną 𝒎 𝟏 − 𝒎 𝟐 i odchyleniem standardowym: 𝑛 1 −1 𝑠 1 2 + 𝑛 2 −1 𝑠 2 2 𝑛 1 + 𝑛 2 −2 1 𝑛 1 + 1 𝑛 2 𝑡= 𝑥 1 − 𝑥 2 −( 𝑚 1 − 𝑚 2 ) 𝑛 1 −1 𝑠 1 2 + 𝑛 2 −1 𝑠 2 2 𝑛 1 + 𝑛 2 −2 1 𝑛 1 + 1 𝑛 2 gdzie 𝑛 1 + 𝑛 2 −2<120 – liczba stopni swobody

Wystandaryzowana postać zmiennej: Ad 4. Rozkład różnicy średnich arytmetycznych z prób dla dwóch populacji normalnych przy znanych odchyleniach standardowych Założenia: X1: N(m1,σ1) X2: N(m2,σ2) σ1,σ2 znane n1 i n2 liczebności prób Wniosek: Wystandaryzowana postać zmiennej: 𝑢= 𝑥 1 − 𝑥 2 −( 𝑚 1 − 𝑚 2 ) 𝜎 1 2 𝑛 1 + 𝜎 2 2 𝑛 2

Ad 5. Rozkład różnicy średnich arytmetycznych z prób dla dwóch populacji normalnych przy nieznanych (ale jednakowych) odchyleniach standardowych Założenia: X1: N(m1,σ) X2: N(m2,σ) σ - nieznane, jednakowe n1 i n2 liczebności prób Wniosek: ma rozkład t-Studenta, v= n1+n2-2 Wystandaryzowana postać zmiennej: 𝑡= 𝑥 1 − 𝑥 2 −( 𝑚 1 − 𝑚 2 ) 𝑛 1 −1 𝑠 1 2 + 𝑛 2 −1 𝑠 2 2 𝑛 1 + 𝑛 2 −2 1 𝑛 1 + 1 𝑛 2

II. Rozkłady graniczne statystyk z próby

1. Rozkład częstości z próby Zał.: X ma rozkład dwumianowy z parametrami n i p Wniosek: Statystyka (obserwowana przy 𝑛 doświadczeniach częstość sukcesów) posiadająca dokładny rozkład dwumianowy o parametrach E(W)=p i ma, na mocy twierdzenia de Moivre’a-Laplace’a przy n→∞ asymptotyczny rozkład normalny

2. Rozkład różnicy częstości z dwóch prób Zał.: X1 i X2 mają rozkłady dwumianowe z parametrami, odpowiednio n1 i p1 oraz n2 i p2 Wniosek: Statystyka (różnica częstości sukcesów z dwóch prób) ma, przy n1→∞ i n2→∞ na mocy twierdzenia de Moivre’a-Laplace’a graniczny rozkład normalny

3. Rozkład graniczny średniej z próby Zał.: X ma dowolny rozkład ( niekoniecznie normalny) ze średnią m i odchyleniem standardowym σ. Wniosek: z twierdzenia Lindeberga-Lévy’ego wynika, że średnia z próby ma przy n→∞ graniczny rozkład normalny

Rozkład w populacji (niekoniecznie normalny) i normalny rozkład średniej z próby Normalny rozkład X̄ Odch.stand. w popul.: σ Odch.stand.średniej Rozkład w populacji m (wartość oczekiwana w populacji i zarazem w rozkładzie średniej dla dużej próby)

4. Rozkład graniczny różnicy średnich z 2. prób Zał.: X1 i X2 mają dowolne rozkłady (niekoniecznie normalne) z parametrami odpowiednio m1 i σ1 oraz m2 i σ2. Wniosek: Z twierdzenia Lindeberga-Lévy’ego wynika, że różnica średnich z prób X̄1-X̄2 ma przy n1→∞ i n2→∞ graniczny rozkład normalny

Rozkłady graniczne (wnioski z twierdzeń granicznych) Wystandaryzowana postać statystyki z próby: 1. Częstość: 2. Różnica częstości:

3. Średnia: 4. Różnica średnich: Wystandaryzowana postać statystyki z próby: 3. Średnia: 4. Różnica średnich:

Podsumowanie

Podsumowanie Zastanawiając się, jaki rozkład ma średnia X̄ (różnica średnich X̄1 -X̄2) z próby, należy odpowiedzieć na następujące pytania: Czy badana cecha ma w populacji rozkład normalny 𝑋~𝑁(𝑚,𝜎)? Czy znane jest odchylenie standard. w populacji σ? Czy próba jest DUŻA czy mała? W zależności od odpowiedzi: X̄ z próby może mieć rozkład normalny, t Studenta, lub rozkład graniczny normalny. Analogicznie jest w przypadku różnicy średnich.

Dziękuję dr Marta Marszałek e-mail: marta.marszalek@sgh.waw.pl