Estymacja parametrów statystycznych – podstawowe pojęcia

Slides:



Advertisements
Podobne prezentacje
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Advertisements

Blok I: PODSTAWY TECHNIKI Lekcja 7: Charakterystyka pojęć: energia, praca, moc, sprawność, wydajność maszyn (1 godz.) 1. Energia mechaniczna 2. Praca 3.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
 Czasem pracy jest czas, w którym pracownik pozostaje w dyspozycji pracodawcy w zakładzie pracy lub w innym miejscu wyznaczonym do wykonywania pracy.
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Równowaga rynkowa w doskonałej konkurencji w krótkim okresie czasu Równowaga rynkowa to jest stan, kiedy przy danej cenie podaż jest równa popytowi. p.
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
RAPORT Z BADAŃ opartych na analizie wyników testów kompetencyjnych przeprowadzonych wśród uczestników szkoleń w związku z realizacją.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Menu Jednomiany Wyrażenia algebraiczne -definicja Mnożenie i dzielenie sum algebraicznych przez jednomian Mnożenie sum algebraicznych Wzory skróconego.
POLITECHNIKA RZESZOWSKA im. Ignacego Łukasiewicza WYDZIAŁ ELEKTROTECHNIKI I INFORMATYKI ZAKŁAD METROLOGII I SYSTEMÓW POMIAROWYCH METROLOGIA Andrzej Rylski.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
ZASTOSOWANIE  Programowanie  Ułatwianie pracy  Szybkie obliczanie  Spisywanie kosztów  Tworzenie tabel i wykresów  Obliczanie średniej, sumy,
Dorota Kwaśniewska OBRAZY OTRZYMYWA NE W SOCZEWKAC H.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
Ogólnopolska Konferencja Naukowa Finanse – Statystyka – Badania Empiryczne 26 październik 2016 rok Wrocław Katedra Prognoz i Analiz Gospodarczych Uniwersytet.
Opracowała: wicedyrektor Monika wołyńska, listopad 2016
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
W kręgu matematycznych pojęć
mutacyjnego algorytmu ewolucyjnego
Katedra Międzynarodowych Studiów Porównawczych
SYSTEM KWALIFIKACJI, AWANSÓW I SPADKÓW
terminologia, skale pomiarowe, przykłady
Przywiązanie partnerów a ich kompetencje społeczne
Rachunki zdań Tautologiczność funkcji
Liczby pierwsze.
Rachunek prawdopodobieństwa i statystyka
Modele SEM założenia formalne
Moje szczęście.
Podstawy automatyki I Wykład /2016
Wstęp do Informatyki - Wykład 3
Jacek Kłeczek Instruktor NPR
Wnioskowanie statystyczne. Estymacja i estymatory.
Hipotezy statystyczne
Własności statystyczne regresji liniowej
Weryfikacja hipotez statystycznych
Pisemne dzielenie liczb naturalnych
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Szybkość-zdolność do wykonywania ruchów w najkrótszych odcinkach czasu
Wnioskowanie statystyczne. Estymacja i estymatory.
Doskonalenie rachunku pamięciowego u uczniów
REGRESJA WIELORAKA.
Wyrównanie sieci swobodnych
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Prawa ruchu ośrodków ciągłych c. d.
1. Prezydent pewnego miasta postanowił dowiedzieć się, czy istnieje związek między typem osobowości jego mieszkańców a ich kreatywnością. W tym celu spytał.
Program na dziś Wprowadzenie Logika prezentacji i artykułu
WYBRANE ZAGADNIENIA PROBABILISTYKI
Prognoza ryzyka ING w skali miesiąca Symulacja historyczna
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Estymacja parametrów statystycznych – podstawowe pojęcia

Estymacja – po co i dlaczego? Jeśli jesteśmy w stanie zebrać wszystkie informacje na temat interesującej nas zbiorowości wówczas do pełnego opisu wystarczą nam metody statystyki opisowej. W wielu jednak sytuacjach mówiąc o zbiorowości opieramy się na danych pochodzących z próby. Aby prawidłowo uogólniać wyniki z próby na populację generalną należy stosować metody statystyki indukcyjnej.

Estymacja – po co i dlaczego? Procedur uogólniania wyników z próby losowej na zbiorowość dostarcza dział wnioskowania statystycznego. Wnioskowanie przybiera postać: estymacji parametrów statystycznych czyli szacowania nieznanych wartości parametrów np. średniej arytmetycznej w zbiorowości generalnej, odchylenia standardowego. testowania hipotez, które z kolei dotyczy weryfikacji przypuszczeń odnośnie określonego poziomu zmiennej losowej lub kształtu rozkładu w populacji generalnej.

Estymacja – po co i dlaczego? W każdym przypadku mamy do czynienia z ryzykiem błędu statystycznego ale dzięki wnioskowaniu ryzyko jego popełnienia może być kontrolowane przez badacza. Na podstawie danych uzyskanych z próby losowej obliczamy statystyki z próby, które są estymatorami parametrów populacji generalnej stąd estymacja.

Estymator – szacowany parametr Estymator – wielkość (charakterystyka, miara), obliczona na podstawie próby, służąca do oceny wartości nieznanych parametrów populacji generalnej.

Estymator – cechy: Dobór właściwej statystyki, będącej najlepszym estymatorem parametru w populacji generalnej dokonuje się na podstawie właściwości estymatorów (nieobciążony, zgodny, efektywny, dostateczny). Estymatory minimalizują błąd pojawiający się w badaniach częściowych

Estymator nieobciążony Estymator nieobciążony to ten, którego przeciętna wartość jest dokładnie równa wartości szacowanego parametru. Innymi słowy, przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony jest równa wartości szacowanego parametru. Obciążoność oznacza, że oszacowania dostarczone przez taki estymator są obarczone błędem systematycznym

Estymator - efektywność Estymator jest tym efektywniejszy, im mniejsza jest jego wariancja i odchylenie standardowe.

Estymator - zgodność Zgodność oznacza, że wartość estymatora zgodnego będzie bliska paramereu z populacji, będzie wzrastać wraz ze wzrostem proby

Estymator - dostateczny Estymator dostateczny zawierać będzie wszystkie informacje o szacowanym parametrze, jakie występują w próbie.

Założenia estymacji czyli kiedy ma zastosowanie? W praktyce jesteśmy zmuszeni do szacowania wartości parametrów wyłącznie na podstawie statystyk otrzymanych z próby – są one wystarczające, gdyż z godnie z centralnym twierdzeniem granicznym rozkład z próby zbliża się do rozkładu normalnego, bez względu ma kształt populacji.

Założenia estymacji czyli kiedy ma zastosowanie? Choć konkretne wartości z próby losowej różnią się od prawdziwych wartości odpowiadających im parametrów w populacji generalnej to stosując metody estymacji przedziałowej można odpowiedzieć na pytanie w jakim marginesie błędu poruszamy się, jak duży jest przedział liczbowy, który z przyjętym prawdopodobieństwem pokryje „nieznaną” wartość parametru.

…wróć – rozkład normalny to znaczy? W statystycznym wnioskowaniu o parametrach i rozkładach w populacjach generalnych na podstawie wyników badań prób losowych popełniane są błędy przypadkowe, których rozkład jest normalny lub granicznie normalny. Zawiera się w tym merytoryczny sens statystycznej indukcji, czyli wnioskowania. Na podstawie tej prawidłowości, skonstruowane zostały wszystkie metody estymacji parametrów oraz metody weryfikacji hipotez

…wróć – rozkład normalny to znaczy? Rozkład normalny jest rozkładem częstości, którego obraz przypomina kształtem dzwon, krzywa taka posiada 3 zasadnicze cechy: Jest jednomodalna Jest symetryczna Jej końce zbliżają się asomptotycznie do osi wartości – wykres funkcji dla wartości dążących do plus nieskończoności będzie zbliżać się do osi odciętych ale nigdy ich nie przetnie, ba nawet nie dotknie

Rozkład normalny

Rozkład nie - normalny? Rozkład normalny swoją nazwę zawdzięcza temu, że jest to typ rozkładu częstości, który jest charakterystyczny dla szeregu wskaźników społecznych w populacji ludzkiej: wzrost, waga, współczynnik inteligencji. Nie oznacza że inne typy rozkładów częstości są nienormalne

Założenia estymacji – tablice statystyczne Stosując metody estymacji korzystamy z właściwości rozkładu normalnego, który jest stablicowany, tak że przy określonych wartościach zmiennej standaryzowanej Z odczytujemy wartości konkretnych prawdopodobieństw np. wiemy, że w odległości jednego odchylenia standardowego od wartości oczekiwanej znajduje się ponad 68% obserwacji natomiast w odległości dwóch odchyleń standardowych znajduje się ponad 95% obserwacji

Skąd to wiemy? – z tablic statystycznych!!! Wartość zmiennej Z odczytujemy z wartości w pierwszym wierszu i kolumnie np. 0,95 to 0,9 + 0,05 przecięcie tych dwóch wartości w środku tabeli daje wynik prawdopodobieństwa. Spójrzmy na wartość Z dla 1,00 równa się ona 0,34135 (prawdopodobieństwo), jest to tablica rozkładów jednostronnych dlatego mnożymy razy 2 co równa się 0,6827 stąd ponad 68%, możemy to przedstawić za pomocą wykresu:

Estymacja - pojęcia Korzystając z tablic rozkładu normalnego łatwo nam odczytać prawdopodobieństwo z którym interesująca nas wartość parametru np. średniej arytmetycznej znajdzie się w granicach pewnego przedziału liczbowego. Przedział ten to przedział ufności, który pokrywa nam nieznaną wartość interesującego nas parametru. Prawdopodobieństwo o którym mowa to z kolei współczynnik ufności i wynosi p= 1-α, gdzie α to określone przez badacza małe prawdopodobieństwo niepokrycia szacowanego parametru wyznaczonym przedziałem liczbowym.

Możemy też powiedzieć, że z prawdopodobieństwem 1-α wartość szukanego parametru Z znajdzie się w przedziale –Z (α/2) do Z (α/2).

Estymacja - pojęcia Współczynniki ufności są odpowiednikami poziomów istotności czyli α dla testu dwustronnego Powyższe rozważania są trafne jeśli znamy odchylenie standardowe z populacji Gdy nie znamy posługujemy się estymatorem odchylenia standardowego z próby – stąd rozkład przybiera postać rozkładu t – Studenta (o czym szerzej na kolejnych slajdach)

Poziom istotności – współczynnik ufności

Przykład Zosi i Jasia Zosia wypełniając test inteligencji uzyskała wynik 115 punktów Jaś 80. To dużo czy mało jeśli średnia równa się 100 (na skali 0 – 200) a odchylenie standardowe równa się 10? Ile osób prawdopodobnie będzie lepszych a ile gorszych od Jasia i Zosi?

Założenia Pole pod krzywą to 100% co w wymiarze bezwzględnym stanowi 1,0. Pole pod krzywą wynosi więc 1, rozkład jest symetryczny więc pole po lewej stronie od średniej to 0,5 i po prawej 0,5. Prawdopodobieństwo wylosowania osoby poniżej i powyżej średniej jest takie samo. Zosia uzyskał wynik lepszy od średniej a więc jej odpowiada pole po prawej stronie średniej Jasiowi po lewej.

Działania Proporcji osób które prawdopodobnie lepiej zalicza test od Zosi odpowiada pole pod krzywą normalną na prawo od średniej. Zacznijmy od policzenia różnicy pomiędzy wynikiem Zosi a średnią: X - µ = 115 – 100 = 15, tę różnicę dzielimy przez odchylenie standardowe 15/10 = 1,5  zgodność z formułą standaryzacji – wynik ten oznacza, że IQ Zosi znajduje się w odległości 1,5 odchylenia standardowego od średniej

Otwieramy tablice Szukamy z = 1,5 = 0,43319 = 0,4332 (to pole jakie jest pod krzywą od średniej do punktu 1,5, i od średniej do – 1,5 ) 0,4332*2=0,8664 1 – 0,8664 = 0,1336 0,1336/2= 0,0668 (to pole od punktu 1,5 do plus nieskończoności i od –1,5 do minus nieskończoności)

Odpowiedź: Wobec powyższego 6,68% będzie miało prawdopodobnie lepszy wynik od Zosi gorszy zaś 93,32% Zosia jest mądra Jaś nie zobaczmy: 80-100/10=-2,0 (- oznacza że wartość Jasia jest po lewej stronie od średniej) Wartość Z = 0,4772 * 2 = 0,9544 1 – 0,9544 = 0,0456/2 = 0,0228 Jaś będzie lepszy tylko od niewiele ponad 2 % osób.

Zosia - wykres

Jak korzystać z tablic statystycznych? Jak odczytać Z dla współczynnika ufności równego 1- α = 0,95? Jeśli korzystamy z tabeli standardowego rozkładu Z to wygląda to następująco: Z tablicy standaryzowanego rozkładu normalnego wiemy, że Z przyjmuje wartość z przedziału od 0 do Z aby uwzględnić przedział od –Z do 0 musimy 0,95/2 = 0, 4750 i takiego prawdopodobieństwa szukamy wewnątrz tabeli odczytujemy odpowiadające jej wartości Z 1,9 + 0,06 + 1,96 a więc przedział który nas interesuje wynosi od -1,96 do 1,96. To przedział w którym z 0,95 prawdopodobieństwem mieści się szukany parametr.

Estymacja dla n<30 Rozkład t Studenta (pseudonim Gosseta, który wprowadził tą statystykę) w odróżnieniu od Z stasujemy dla grup małych z reguły n<30. Kluczowe dla testu t są stopnie swobody df. Rozkład t charakteryzuje się większą niepewnością w porównaniu z testem Z. Odchylenie standardowe z próby znacznie odbiega od odchylenia standardowego z populacji generalnej. df = n-1 – wzór na stopnie swobody dla jednej próby

Stopnie swobody ale właściwe jak to rozumieć? Wyobraźmy sobie formułę matematyczną x1 + x2+ x3 = 10 jeśli x3 równa się 5 to x1 może równać się 2 a x2 =3 lub też x1=1 to x2 =4 Takie równanie ma więc dwa stopnie swobody przy założeniu x3=5 dwie wartości (x1 i x2) mogą być różne

Jak odczytać wartość w tablicach? Przy odczytywaniu należy zwrócić uwagę czy tabela zawiera jednostronny czy dwustronny obszar krytyczny. Np. jak oszacować 99 procentowy obszar ufności przy próbie 20 osobowej? 1-0,99= 0,01 szukamy tej wartości w pierwszym wierszu po czym przesuwamy się w dół do 19 stopni swobody i odczytujemy t Dla jednostronnego 0,01/2 = 0,005 później postępujemy jak wyżej

Im krótszy przedział (różnica między górną i dolną granicą przedziału), tym bardziej precyzyjna jest estymacja przedziałowa. Im wyższa jest wartość współczynnika ufności, tym większa jest długość przedziału.