Ilustracja związku dystrybuanty teoretycznej z empiryczną
Opis zadania Dla dystrybuanty F(x), która ma dobrze określoną funkcję odwrotną: losujemy niezależnie liczby u1, u2, . . . , un z rozkładu jednostajnego U [0, 1]; przekształcamy xk = F−1(uk) dla k = 1, 2, . . . , n; przez Sn(x) oznaczamy ilość tych elementów ciągu x1, x2,..., xn, których wartość jest mniejsza niż x. nazywamy dystrybuantą empiryczną. Dla kilku konkretnych przykładów dystrybuant F oraz dla kilku rzędów parametru n porównać (m.in. graficznie) otrzymaną dystrybuantę empiryczną Fn(x) z dystrybuantą teoretyczną F(x).
Dystrybuanta empiryczna a PWL Zauważamy, że Sn oznacza ilość sukcesów w n próbach Bernoulliego, gdzie sukces w i-tej próbie to zdarzenie {Xi < x} , a p=F(x) Zatem Sn ma rozkład Bernoulliego z parametrami n i p=F(x) Możemy zastosować tw. Borela, z którego wynika: Co oznacza, że dla odpowiednio dużego n Fn(x)≈F(x), czyli dystrybuanta empiryczna jest przybliżeniem dystrybuanty teoretycznej
Rozkład wykładniczy n=5 Błąd średniokwadratowy: 0,0210044 Największe odchylenie: 0,324
Rozkład wykładniczy n=20 Błąd średniokwadratowy: 0,00193983 Największe odchylenie: 0,1799
Rozkład wykładniczy n=100 Błąd średniokwadratowy: 0,000781755 Największe odchylenie: 0,0281
Rozkład wykładniczy n=1000 Błąd średniokwadratowy: 1,6035 · 10-7 Największe odchylenie: 0,0006999997
Rozkład Cauchy’ego n=5 Błąd średniokwadratowy: 0,00684262 Największe odchylenie: 0,0965
Rozkład Cauchy’ego n=20 Błąd średniokwadratowy: 7,5326 · 10-5 Największe odchylenie: 0,0381
Rozkład Cauchy’ego n=50 Błąd średniokwadratowy: 0,000646874 Największe odchylenie: 0,0256
Rozkład Cauchy’ego n=100 Błąd średniokwadratowy: 1,43857 · 10-5 Największe odchylenie: 0,0038
Rozkład Cauchy’ego n=1000 Błąd średniokwadratowy: 1,59877 · 10-7 Największe odchylenie: 0,0003999
Rozkład arcsin n=5 Błąd średniokwadratowy: 0,00706723 Największe odchylenie: 0,1878
Rozkład arcsin n=20 Błąd średniokwadratowy: 0,000405924 Największe odchylenie: 0,0442997
Rozkład arcsin n=100 Błąd średniokwadratowy: 0,000122224 Największe odchylenie: 0,0110998
Rozkład arcsin n=500 Błąd średniokwadratowy: 2,54179 · 10-7 Największe odchylenie: 0,0014028
Rozkład arcsin n=2000 Błąd średniokwadratowy: 8,76349 · 10-8 Największe odchylenie: 0,000296098
Rozkład Pareto z param. 2 n=5 Błąd średniokwadratowy: 0,0285624 Największe odchylenie: 0,1733
Rozkład Pareto z param. 2 n=20 Błąd średniokwadratowy: 0,00223757 Największe odchylenie: 0,0477
Rozkład Pareto z param. 2 n=100 Błąd średniokwadratowy: 0,000619006 Największe odchylenie: 0,0249999
Rozkład Pareto z param. 2 n=500 Błąd średniokwadratowy: 4,75187 · 10-5 Największe odchylenie: 0,00690007
Rozkład Pareto z param. 2 n=2000 Błąd średniokwadratowy: 4,00494 · 10-8 Największe odchylenie: 0,000400007
Rozkład kwadratowy n=5 Błąd średniokwadratowy: 0,0262666 Największe odchylenie: 0,183
Rozkład kwadratowy n=20 Błąd średniokwadratowy: 0,00031811 Największe odchylenie: 0,0185
Rozkład kwadratowy n=100 Błąd średniokwadratowy: 2,99292 · 10-6 Największe odchylenie: 0,0173001
Rozkład kwadratowy n=1000 Błąd średniokwadratowy: 4,57001 · 10-9 Największe odchylenie: 0,0021
Wnioski: Gdy liczba prób o rozkładzie, którego dystrybuanta wynosi F(x), dąży do nieskończoności to dystrybuanta empiryczna tych prób dąży do dystrybuanty teoretycznej Niektóre dystrybuanty empiryczne dążą szybciej do odpowiadającym im dystrybuant teoretycznych. Przy odpowiedniej liczbie prób możemy rozpoznać jakiego typu jest przybliżana dystrybuanta
Dziękujemy za uwagę!