Co to są rozkłady normalne? - symetryczność - kształt dzwonowy („bell-shaped curve”) - jednomodalność („unimodal”) - średnia i odchylenie std. determinują całkowicie kształt krzywej - średnia arytmetyczna, mediana oraz dominanta są równe
Średnia i odchylenie standardowe całkowicie determinują kształt Rozkład normalny średnia arytmetyczna odchylenie standardowe Punkt przegięcia Średnia i odchylenie standardowe całkowicie determinują kształt rozkładu normalnego Odchylenie standardowe jest odległością pomiędzy średnią a punktem przegięcia krzywej rozkładu
Cechy rozkładu normalnego - c.d. (normal probability distribution) 1. Najważniejszy rozkład w statystyce. 2. Jest rozkładem zmiennej mierzonej w skali ciągłej. 3. Prawdopodobieństwo jakiejkolwiek pojedynczej wartości jest niedefiniowalne. 4. Prawdopodobieństwo określa się dla przedziałów. 5. Zakres dziedziny funkcji: -/+ nieskończoność
Przykłady zmiennych charakteryzujących się rozkładem normalnym 1. Wzrost 2. Waga 3. Poziom IQ 4. Temperatura ciała 5. Średnia roczna temperatura 6. Systematyczne pomiary tej samej wielkości 7. Suma co najmniej 12 liczb o dowolnym rozkładzie Przykłady zmiennych, których rozkład nie jest normalny 1. Dobowa temperatura w okresie zimowym 2. Prędkość wiatru 3. Średnia dobowa temperatura w roku 4. Długość ciąży kobiet w USA 5. Długość dzioba zięby afrykańskiej
Rozkład średniej dobowej temperatury ze stacji Łódź-Lublinek za lata 1951-1990 Histogram funkcji sinus Rozkład z wyeliminowanym cyklem rocznym
Example - Heights of U.S. Adults Female and Male adult heights are well approximated by normal distributions: YF~N(63.7,2.5) YM~N(69.1,2.6)
Zięba afrykańska 5 10 15 20 [%] 12 14 16 18 [mm] ogonki dziobki
μ +/- 1σ, znajduje się 68.3% obserwacji,
Test 3 sigma (3 σ)
Standaryzowany rozkład normalny Charakteryzuje się średnią = 0 i odchyleniem standardowym = 1 μ = 0, σ = 1 Standaryzacja X - dane oryginalne, Z - dane standaryzowane Statystyka Z informuje o tym o ile odchyleń standardowych oryginalna zmienna różni się od średniej.
Zaleta standaryzowanego rozkładu normalnego Korzystając z tablic statystycznych można bezpośrednio określić prawdopodobieństwo wystąpienia wartości z danego zakresu oraz percentyle. Percentyl jest jedną z 99 wartości, które dzielą szereg monotoniczny na 100 równych części, tak, że każda część reprezentuje 1% populacji 1 percentyl odcina 1% najniższych wartości 98 percentyl odcina 98% najniższych wartości
funkcja prawdopodobieństwa NIE przewyższenia wartości Z Dystrybuanta funkcja prawdopodobieństwa NIE przewyższenia wartości Z Dystrybuanta rozkładu normalnego Z
Obliczanie prawdopodobieństwa wystąpienia wartości z zakresu Krok 1 - określenie parametrów rozkładu normalnego na podstawie próby Krok 2 - określenie zakresu YL - YU dla którego obliczamy prawdopodobieństwo Krok 3 - transformacja Y-ów w wartości Z za pomocą wzoru: Krok 4 - odczytanie P(ZL Z ZU) z tablicy dystrybuanty rozkłądu normalnego P(ZL Z ZU) = P (Z ZU) - P (Z ZL) Wyznaczanie wartości o zadanym prawdopodobieństwie NIE przewyższenia (p)
Przekształcanie danych do rozkładu normalnego – silna dodatnia skośność logarytmowanie – słaba dodatnia skośność pierwiastkowanie – skośność ujemna potęgowanie Błąd standardowy średniej Odchylenie standardowe próbki Liczba elementów w próbce Błąd standardowy średniej informuje o stopniu rozproszenia średnich z próbki względem średniej dla populacji CI = M ± (z * SE)
Próbki losowe 20-elementowe zmiennej o standaryzowanym rozkładzie normalnym 90% 99%
Generator liczb losowych o rozkładzie normalnym
Ćwiczenia Oblicz prawdopodobieństwa: P (0 < Z < 1) = 0.3413 0.6826 0.0228 0.9772 0.2417 0.1788 Zad. 1. Długość ciąży cechuje się rozkładem normalnym. Średnia wynosi 268 dni, a odchylenie std. = 15 dni. Dziecko, które urodzi się co najmniej 3 tygodnie wcześniej jest wcześniakiem. Jaki jest procent wcześniaków w populacji? Zad. 2. IQ cechuje się rozkładem normalnym ze średnią = 100 i od. std. = 15. Aby zostać członkiem MENSY trzeba wykazać się IQ co najmniej 131. Jaki procent populacji należy do MENSY?
Zad. 3. Średnia roczna opadów w Anglii wynosi 28.45 cala, odchylenie standardowe = 3.45. Oblicz prawdopodobieństwo wystąpienia opadu z zakresu (30.1 - 35.35). Oblicz wartość 95 percentyla - czyli opad, który w 95 procentach lat nie będzie przekroczony.