Estymacja. Przedziały ufności.
Umiemy, korzystając z funkcji gęstości rozkładu, obliczać prawdopodobieństwo znalezienia zmiennej losowej w zadanym przedziale: Często musimy rozwiązywać zadanie odwrotne: Mamy z góry zadane prawdopodobieństwo P, a szukamy odpowiednich a i b.
Zadanie to nie jest jednoznaczne. Przykład: P=0,9=90%. a,b - ? P nazywamy poziomem ufności i często zapisujemy w postaci , gdyż zwykle jest nieco mniejsze od 100% (najczęściej 95%, wtedy )
Wybór przedziału ufności
Wybór przedziału ufności W praktyce stosujemy: symetryczny (dwustronny) wybór przedziału (równe prawdopodobieństwa po obu stronach) jednostronny wybór granicy przedziału prawostronny lewostronny
Fraktyle
Fraktyle, kwartyle, percentyle... Liczbę , taką że nazywamy fraktylem rozkładu prawdopodobieństwa zmiennej X. Nietrudno zauważyć, że x0,5 nazywamy medianą, x0,75 pierwszym, a x0,25 – trzecim kwartylem. Podobnie mówimy o (per)centylach, albo kwantylach. W symbolice panuje bałagan.
Fraktyle i wybór przedziału.
Symetryczny wybór przedziału Przy symetrycznym wyborze przedziału mamy . Jeśli funkcja gęstości jest parzysta (symetryczna względem zera) to: więc Rozkłady: standardowy normalny i t-Studenta są parzyste.
Symetryczny przedział dla stand. rozkładu normalnego.
Przedziały ufności Załóżmy, że X podlega rozkładowi normalnemu. Wiemy, że W takim razie
Przedziały ufności
Przedziały ufności
Przedziały ufności Rozwiązując te nierówności tak, aby w środku pozostało otrzymamy: Z prawdopodobieństwem (zwanym poziomem ufności) wyznaczony prze-dział zawiera wartość oczekiwaną .
Przedziały ufności Na przeszkodzie praktycznemu stosowaniu tego wzoru stoi nieznajomość . Czy popełnimy duży błąd zastępując jego estymatą s ?
Przedziały ufności Gosset badał rozkład zmiennej losowej Rozkład ten różni się trochę od rozkładu normalnego. Nazywa się rozkładem t-Stu-denta. Dokładny jego kształt określa liczba r = n-1, zwana liczbą stopni swobody.
Przedziały ufności Rozumowanie bardzo podobne do poprzedniego, prowadzi do wzoru: dla r > 30 różnica między t i u jest znikoma
Rozkład estymatora s2 Jeśli X ma rozkład normalny, to ma rozkład zwany rozkładem (chi-kwadrat) Pearsona. Kształt tego rozkładu zależy od liczby stopni swobody r = n – 1. Dla dużych n zbliża się on do rozkładu normalnego.
Przedział ufności wariancji Dla dodatnich a,b,c a<b<c pociąga: Np.
Przedział ufności wariancji. Z powyższego wynika, że przedział ufności wariancji dany jest wzorem: Przedział ufności dla odchylenia standar-dowego otrzymamy pierwiastkując wszystkie strony tej nierówności.
Statystyka opisowa
Statystyka opisowa Pełna wiedza o ciągłym rozkładzie prawdopodobieństwa zawarta jest w jego funkcji gęstości. Często jednak chcemy wyodrębnić pewne cechy rozkładu, jak np. jego symetrię. Podajemy wtedy parametry charakterystyczne, takie jak lub .
Momenty Momenty zwykłe rzędu k: Momenty centralne rzędu k:
Momenty Wartość oczekiwana to pierwszy moment zwykły: Wariancja to drugi moment centralny: Inne parametry rozkładu definiowane przy pomocy momentów to skośność i kurtoza.
Skośność i kurtoza nazywamy skośnością lub współ- czynnikiem asymetrii. nazywamy kurtozą. Kurtoza rozkładu normalnego jest równa 3. Nazwa ‘kurtoza’ często stosowana jest do nadwyżki kurtozy ponad 3, tj.
Kurtoza Kurtoza mniejsza od 3 (0) wskazuje, że rozkład jest bardziej płaski (platykurtyczny) od normalnego. Rozkład o większej kurtozie niż normalny (ostrzejszy) nazywa się leptokutycznym.
Kurtoza - niuanse Rozkład t-Studenta ma dla liczby stopni swobody mniejszej od 5 nieskończoną kurtozę. Przy r ≤ 2 nieskończona jest nawet wariancja.
Kurtoza - niuanse
Moda Moda (lub modalna), to wartość x dla której funkcja gęstości f(x) osiąga maksimum. Jeśli jest kilka maksimów lokalnych rozkład nazywamy wielomodalnym. Dla rozkładu normalnego moda, mediana i wartość oczekiwana są sobie równe.
Skośność i moda Skośność > 0 Rozkład skośny w prawo (skewed to right) Skośność < 0 Rozkład skośny w lewo Rozkład dwumodalny
Estymacja parametrów opisowych Należy pamiętać, że prawdziwe wartości wymienionych parametrów pozostają zazwyczaj nieznane (podobnie jak sama funkcja gęstości rozkładu). Wielkości wyznaczane na podstawie próby są tylko ich oszacowaniami (estymatami).
Dla odróżnienia parametru od estymaty, te ostatnie oznaczamy daszkiem lub zupełnie innym symbolem, np.: