Podstawy statystyki Dr Janusz Górczyński.

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

Statystyka Wojciech Jawień
Estymacja. Przedziały ufności.
W dalszej części zajęć wyróżniać będziemy następujące
Analiza współzależności zjawisk
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Zmienne losowe i ich rozkłady
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
BUDOWA MODELU EKONOMETRYCZNEGO
Jak mierzyć asymetrię zjawiska?
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Statystyczne parametry akcji
Statystyka w doświadczalnictwie
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
BIOSTATYSTYKA I METODY DOKUMENTACJI
Rachunek prawdopodobieństwa 1
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Elementy Rachunku Prawdopodobieństwa c.d.
Elementy Rachunku Prawdopodobieństwa c.d.
Wzory ułatwiające obliczenia
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Elementy Rachunku Prawdopodobieństwa i Statystyki
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Analiza współzależności cech statystycznych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Podstawy analizy matematycznej II
Analiza szeregów czasowych
Elementy Rachunku Prawdopodobieństwa i Statystyki
RACHUNEK PRAWDOPODOBIEŃSTWA
Statystyka – zadania 4 Janusz Górczyński.
Kombinatoryka w rachunku prawdopodobieństwa.
DOŚWIADCZENIA LOSOWE.
Elementy Rachunku Prawdopodobieństwa i Statystyki
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Statystyka ©M.
Podstawy statystyki, cz. II
FUNKCJE Opracował: Karol Kara.
Rachunek różniczkowy funkcji jednej i wielu zmiennych
Co to jest dystrybuanta?
Dopasowanie rozkładów
Wnioskowanie statystyczne
Zagadnienia AI wykład 2.
STATYSTYKA Pochodzenie nazwy:
Elementy geometryczne i relacje
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
Statystyczna analiza danych
Statystyczna analiza danych
Statystyczna analiza danych
STATYSTYKA – kurs podstawowy wykład 3 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ze statystyki opisowej
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 2 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Statystyka matematyczna
Statystyka matematyczna
MIARY STATYSTYCZNE Warunki egzaminu.
Zapis prezentacji:

Podstawy statystyki Dr Janusz Górczyński

Literatura J. Jóźwiak, J.Podgórski, Statystyka od podstaw, PWE, Warszawa 1997 K. Zając, Zarys metod statystycznych, PWE, Warszawa, 1994 J. Górczyński, Podstawy statystyki, Wyd. II. WSZiM Sochaczew, 2000 J. Górczyński, Wybrane wzory i tablice statystyczne, Wyd. II. WSZiM Sochaczew, 2000

Czym zajmuje się statystyka? Odpowiadając na to pytanie rozważmy taką sytuację: interesuje nas poznanie takiej cechy jak np. zużycie paliwa na 100 km przez samochody pewnej firmy (i modelu). Szukając odpowiedzi na to pytanie można by ograniczyć się do spytania znajomego właściciela takiego pojazdu o to, ile jego pojazd zużywa paliwa.

Czym zajmuje się statystyka ? (2) Powiedzmy, że odpowiedź brzmi: 6,8 l/100 km. Natychmiast pojawiają się wątpliwości co do sposobu traktowania tej odpowiedzi. Czy to oznacza, że WSZYSTKIE samochody mają takie zużycie? Czy to oznacza, że ŚREDNIE zużycie jest takie?

Czym zajmuje się statystyka ? (3) Czy nasz znajomy jest DOBRYM reprezentantem ogółu właścicieli tego modelu? A może jeździ zbyt ostro? A może zbyt delikatnie? A może trzeba uzyskać odpowiedzi od większej liczby kierowców? Jeżeli tak, to od ilu? I jak ich wybrać?

Czym zajmuje się statystyka ? (4) Powiedzmy, że uzyskaliśmy odpowiedzi od 9 użytkowników badanego modelu. Niech to będą takie dane: 6,2 6,7 6,5 6,9 7,2 7,2 7,1 7,3 7,2 Co TERAZ możemy powiedzieć o zużycia paliwa? Najmniejsze zużycie to 6,2 l/100 km, a największe to 7,3 l/100 km.

Czym zajmuje się statystyka ? (5) A jak można teraz określić PRZECIĘTNE zużycie paliwa? Jedna z możliwości to ŚREDNIA ARYTMETYCZNA, w tym przykładzie równa 6,92 l/100 km. Pytanie kolejne: czy ta średnia odnosi się tylko do tych 9 pomiarów, czy też może być odniesiona do ogółu użytkowników badanego modelu?

Czym zajmuje się statystyka ? (6) Odpowiedzi na te i wiele innych pytań udziela STATYSTYKA, która zajmuje się badaniem zjawisk masowych. Analiza zjawisk masowych pozwala na poznanie natury zjawiska (cechy) i praw nim rządzących. Zastosowanie statystyki do naszego przykładu pozwoli na uogólnienie wniosków na wszystkich użytkowników badanego modelu samochodu.

Badanie statystyczne Celem badania statystycznego będzie najczęściej poznanie rozkładu danej cechy i oszacowanie charakterystyk tego rozkładu. Jeżeli zmienna losowa X jest modelem probalistycznym dla pewnej cechy w populacji generalnej, to rozkład często-ści występowania tej cechy jest opisany rozkładem prawdopodobieństwa zmiennej modelowej.

Statystyka a rachunek prawdopodobieństwa Statystyka korzysta z rachunku prawdopodobieństwa – działu matematyki zajmującego się badaniem zdarzeń przypadkowych (losowych). Tym samym będziemy korzystać z elementarnych pojęć rachunku prawdopodobieństwa.

Elelementy prawdopodobieństwa (1) Zdarzenie losowe – takie, którego wyniku nie jesteśmy w stanie przewidzieć. Przykładowo: wynik rzutu monetą, suma oczek przy rzucie dwoma kostkami sześciennymi. Zdarzenie elementarne – każda możliwa sytuacja w danym zagadnieniu (eksperymencie).

Elelementy prawdopodobieństwa (2) Przykładem zdarzenia elementarnego przy rzucie dwoma kostkami do gry jest para liczb odpowiadających liczbie oczek na każdej z kostek (1,1), (1,2)...(6,6). Zbiór wszystkich możliwych zdarzeń elementarnych oznaczamy symbolem . Zbiór  może być skończony lub nie (może zawierać nieskończenie wiele zdarzeń elementarnych).

Elementy prawdopodobieństwa (3) Zdarzenie losowe – jest to dowolny pod-zbiór zbioru zdarzeń elementarnych . Rozpatrzmy rzut 3 monetami. Zdarzeniem losowym (powiedzmy) A może być wyrzucenie 2 reszek. Prawdopodobieństwo zajścia zdarzenia losowego – jest to szansa zajścia tego zdarzenia. Prawdopodobieństwo jest liczbą z przedziału domkniętego <0; 1>

Obliczanie prawdopodobieństw (1) Przy obliczaniu prawdopodobieństwa zajścia dowolnego zdarzenia losowego A można korzystać z tzw. klasycznej definicji Laplace’a: gdzie k jest liczbą zdarzeń elementarnych tworzących zdarzenie A, a n liczbą wszyst-kich zdarzeń elementarnych w zbiorze .

Obliczanie prawdopodobieństw (2) Z podanego wzoru można oczywiście korzystać tylko wtedy, gdy zbiory zdarzeń elementarnych i zdarzeń tworzących zdarzenie losowe A są skończone (policzalne). Z podanego wzoru wynika, że P(A) może być równe 0 (dla k=0). Z podanego wzoru wynika, że P(A) może być równe 1 (dla k=n).

Obliczanie prawdopodobieństw (3) O zdarzeniu losowym A, którego P(A)=0 mówimy, że jest to zdarzenie niemożliwe. O zdarzeniu losowym A, którego P(A)=1 mówimy, że jest to zdarzenie pewne. Zdarzenie A’ nazywamy zdarzeniem przeciwnym do zdarzenia A. Suma zdarzeń A i A’ tworzy zdarzenie pewne.

Obliczanie prawdopodobieństw (4) Dla prawdopodobieństw zdarzeń A i A’ zachodzi relacja: P(A)+P(A’)=1 a stąd P(A’)=1-P(A) Relację powyższą wykorzystuje się przy obliczaniu prawdopodobieństwa zajścia A - jeżeli łatwiej jest obliczyć P(A’).

Obliczanie prawdopodobieństw (5) Przy obliczaniu prawdopodobieństw wykorzystuje się dwa klasyczne wzory: P(AB)=P(A)+P(B)-P(AB) (1) P(AB)=P(A)P(B/A) (2) Jeżeli zdarzenia A i B się wykluczają, to wzór 1 przyjmuje postać: P(AB)=P(A)+P(B) (3) Jeżeli A i B są niezależne, to wzór 2 przyjmuje postać: P(AB)=P(A)P(B) (4)

Przykłady obliczeń prawdopodobieństw

Przykład 1 Z talii 52 kart pobieramy losowo 1 kartę. Jakie jest p-stwo, że jest to as lub kier? Korzystamy z wzoru na p-stwo sumy dwu zdarzeń. Niech A oznacza wylosowanie asa, a B wylosowanie kiera. Zgodnie ze wzorem P(AB)=P(A)+P(B)-P(AB) mamy:

Przykład 2 Z urny o składzie 4 kule białe, 6 zielonych i 10 niebieskich losujemy 1 kulę. Jakie jest p-stwo, że jest to kula biała lub zielona? Korzystamy z wzoru na p-stwo sumy dwóch zdarzeń. Niech A oznacza wylosowanie kuli białej, a B zielonej. Zgodnie ze wzorem P(AB)=P(A)+P(B)-P(AB) mamy:

Przykład 3 Z urny o składzie 4 kule białe, 6 niebieskich i 10 zielonych losujemy dwie kule. Jakie jest p-stwo, że są to kule białe? Korzystamy z wzoru na p-stwo iloczynu dwóch zdarzeń. Niech A oznacza wylosowanie pierwszej kuli białej, a B drugiej kuli białej. Zgodnie ze wzorem P(AB)=P(A)P(B/A) mamy:

Przykład 3 inaczej Przykład 3 może być także rozwiązany z użyciem symbolu Newtona od określenia liczebności zbioru  i ilości zdarzeń elementarnych składających się na zdarzenie losowe.

Zmiene losowe - definicja Zmienną losową X nazywamy funkcję o wartościach rzeczywistych określoną na zbiorze zdarzeń elemen-tarnych  Zmienne losowe oznaczać będziemy dużymi litera-mi alfabetu (np. X, Y, Z), a ich wartości odpowiednio małymi literami (np. x, y, z). Ze względu na możliwy zbiór wartości rozróżniać będziemy dwa podstawowe typy zmiennych losowych: skokowe i ciągłe.

Zmienna losowa skokowa Zmienna losowa X typu skokowego przyjmuje skończoną lub przeliczalną liczbę wartości z pewnego przedziału. Zmienne tego typu nazywane są także zmiennymi dyskretnymi. Przykładem zmiennej tego typu może być np. liczba błędów na stronie pewnej książki.

Zmienne losowe ciągłe Zmienna losowa typu ciągłego przyjmuje nieskończenie wiele wartości z pewnego przedziału liczbowego. Przykładem tego typu zmiennej może być np. zawartość tłuszczu w mleku krów, czy zawartość białka w pewnym produkcie.

Rozkład zmiennej losowej skokowej Przyporządkowanie każdej wartości zmiennej losowej typu skokowego prawdopodobieństwa jej realizacji nazy-wamy funkcją rozkładu prawdopodobieństwa (w skrócie f.r.p.). Funkcja ta może być podana w formie tabelki, wzoru lub wykresu. Dla f.r.p. spełnione są warunki:

Rozkład zmiennej losowej ciągłej Funkcję f(x) spełniającą dwa warunki nazywamy funkcją gęstości prawdopodobieństwa (f.g.p.) pewnej zmiennej losowej X (ciągłej).

Funkcja dystrybuanty Dystrybuantą zmiennej losowej X nazywamy funkcję F(x) spełniającą warunek:

Własności dystrybuanty Funkcja dystrybuanty spełnia trzy warunki (lub inaczej ma następujące własności): 1. 2. jest niemalejąca 3. jest co najmniej prawostronnie ciągła W szczególności

Parametry rozkładu zmiennych losowych Momentem zwykłym rzędu k zmiennej losowej X nazywamy wartość oczekiwaną k-tej potęgi tej zmiennej:

Parametry rozkładu zmiennych losowych Momentem centralnym rzędu k zmiennej losowej X nazywamy wartość oczekiwaną funkcji

Wybrane momenty Moment zwykły rzędu pierwszego nazywamy wartością oczekiwaną zmiennej losowej X (wartością średnią): Moment centralny rzędu drugiego nazywamy wariancją zmiennej losowej X Pierwiastek kwadratowy z wariancji nazywamy odchyleniem standardowym

Związki między momentami Dla trzech pierwszych momentów zachodzą związki: Ze związków tych korzystamy przy praktycznym wyznaczaniu momentów centralnych.

Dodatkowe charakterystyki pozycyjne Medianą zmiennej losowej X nazywamy wartość Me spełniającą nierówności: Dla zmiennej ciągłej spełniony jest warunek: Mediana jest taką wartością zmiennej losowej X, która dzieli pole pod funkcją gęstości na dwie części o identycznej powierzchni.

Dodatkowe charakterystyki pozycyjne Kwantylem rzędu p zmiennej losowej X nazywamy wartość Kp spełniającą nierówności: Z powyższej definicji wynika, że dla zmiennej ciągłej prawdziwa jest zależność:

Dodatkowe charakterystyki pozycyjne Kwantyle rzędu p = 0.25, p = 0.50 oraz p = 0.75 nazywane są odpowiednio kwartylami i oznaczane symbolami Q1 - kwartyl pierwszy Q2 - kwartyl drugi Q3 - kwartyl trzeci Z definicji kwantylu wynika, że kwartyle dzielą zbiór wartości zmiennej losowej X na ćwiartki (po 25% zbioru elementów).

Dodatkowe charakterystyki pozycyjne Dominantą Do (modą Mo) zmiennej losowej X nazywamy taką wartość x tej zmiennej, której odpo-wiada największe prawdopodobieństwo realizacji (w przypadku zmiennej losowej skokowej). W przypadku zmiennej losowej ciągłej wartości x odpowiada maksimum lokalne funkcji gęstości.

Obliczanie dodatkowych charakterystyk Funkcja rozkładu p-stwa pewnej zmiennej losowej X dana jest tabelką: xi -3 -2 -1 1 3 pi 0,1 0,2 Obliczmy Me, k0,75 oraz Do (Mo) tej zmiennej losowej.

Charakterystyki .... Medianą tej zmiennej losowej jest dowolna liczba z zakresu od –1 do 0, co wynika z poniższych nierówności: Kwantylem rzędu 0,75 jest liczba 1, co wynika z nierówności: Dominanta nie istnieje, nie ma bowiem takiej wartości zmiennej, której odpowiada max. p-stwa.

Asymetria rozkładu zmiennej losowej Zmienna losowa X ma rozkład symetryczny, jeżeli istnieje taka wartość a, że każdemu punktowi odpowiada punkt taki, że spełnione są warunki: W przypadku ciągłej zmiennej losowej opisanej funkcją gęstości f(x) musi być spełniony warunek: dla każdego x

Asymetria rozkładu zmiennej losowej Punkt a nosi nazwę środka symetrii, a prosta x = a jest osią symetrii.

Asymetria rozkładu Asymetria prawostronna (M oznacza średnią, a M0 dominantę)

Asymetria rozkładu Asymetria lewostronna (M oznacza średnią, a M0 dominantę)

Miary asymetrii Miarą asymetrii może być różnica między wartością średnią (M) a dominantą (Mo), która mierzy nie tylko stopień asymetrii, ale także jej kierunek. Jest to jednak miara mianowana, a więc zależna od jednostek cechy. Lepszą miarą asymetrii jest współczynnik asymetrii (skośność) zdefiniowany jako gdzie DX jest odchyleniem standardowym.

Miary asymetrii (c.d) Jeżeli  > 0, to asymetria rozkładu jest dodatnia (prawostronna). Jeżeli  < 0, to asymetria rozkłau jest ujemna (lewostronna). W rozkładzie symetrycznym  = 0 (co wynika z faktu, że w rozkładach symetrycznych wszystkie momenty centralne rzędu nieparzystego są równe zero)

Kurtoza Miarą kształtu rozkładu zmiennej losowej jest kurtoza definiowana jest jako różnica stosunku momentu centralnego rzędu czwartego do kwadratu momentu centralnego rzędu drugiego a liczbą 3: Dodatnia wartość kurtozy wskazuje na wysmukły kształt rozkładu zmiennej losowej, ujemna z kolei na kształt spłaszczony. Kurtoza jest więc miarą koncentracji wartości zmiennej losowej wokół jej wartości średniej.

Podstawowe rozkłady zmiennych losowych 1. Rozkład zero-jedynkowy. Funkcja rozkładu prawdopodobieństwa dana jest tabelką: xi 0 1 pi q p Oczywiście p + q = 1 Parametrami rozkładu tej zmiennej są:

Podstawowe rozkłady zmiennych losowych 2. Rozkład dwumianowy (Bernoulliego) Rozkład ten otrzymujemy w wyniku n-krotnego powtarzania eksperymentu, w którym realizuje się zmienna zero-jedynkowa. Zmienna losowa przyjmuje n + 1 wartości, a jej f.r.p. dana jest wzorem: Parametry rozkładu są odpowiednio równe:

Wykresy f.r.p dla trzech p-stw sukcesu

Podstawowe rozkłady zmiennych losowych 3. Rozkład Poissona Zmienna losowa X przyjmująca wartości k = 0, 1, 2, ..., n ma rozkład Poissona, jeżeli jej f.r.p dana jest wzorem: Parametrami rozkładu tej zmiennej są odpowiednio: Rozkład Poissona może być wykorzystany jako przybliżenie rozkładu dwumianowego (Bernoulliego) w tych sytuacjach, gdy n jest duże, p małe i iloczyn np =  = const.

Wykresy f.r.p dla trzech wartości 

Podstawowe rozkłady zmiennych losowych 4. Rozkład normalny Funkcja gęstości rozkładu normalnego dana jest wzorem W rozkładzie normalnym przyjmuje się nastepujące oznaczenia parametrów: Jeżeli pewna zmienna losowa będzie miała rozkład normalny z wartością średnią m i odchyleniem standardowym s, to zapiszemy to jako Xm Wykresem funkcji gęstości rozkładu normalnego jest tzw. krzywa Gaussa.

Funkcja gęstości rozkładu normalnego z parametrami m i s

Funkcja dystrybuanty rozkładu normalnego

Wpływ parametrów rozkładu normalnego na kształt i położenie funkcji gęstości

Funkcja gęstości - interpretacja prawdopodobieństwa

Funkcja dystrybuanty - interpretacja prawdopodobieństwa

Prawo 3 sigm Niech pewna zmienna losowa X ma rozkład normalny N(m; s). Prawdopodobieństwo przyjęcia przez zmienną X wartości z przedziału <m-3s, m+3s> jest równe 0,997 . Wynik ten można zinterpretować następująco: w przedziale <m-3s, m+3s> mieszczą się prawie wszystkie elementy danej populacji (normalnej). Prawo to jest znane jako prawo 3 sigm.

Standaryzacja rozkładu Rozkład normalny ze średnią m = 0 oraz odchyleniem standardowym s = 1 nazywamy standardowym rozkładem normalnym i oznaczamy symbolem N(0; 1) Podstawienie pozwala na przekształcenie dowolnego rozkładu normalnego do standardowego rozkładu normalnego.

Standardowy rozkład normalny

Rozkład N(0; 1) Standardowy rozkład normalny jest stablicowany, w tablicach statystycznych najczęściej podawana jest dystrybuanta tego rozkładu. Zmienne losowe o standardowym rozkładzie normalnym są podstawą konstrukcji kilku kolejnych rozkładów o podstawowym znaczeniu w statystyce. Są to miedzy innymi rozkłady: 2- Pearsona t - Studenta F - Fishera-Snedecora