Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń. Wyniki j-tej próby przedstawiamy w postaci n-wymiarowej zmiennej losowej x(j)=(x1(j),x2(j),...,xn(j)). Wektor ten ma rozkład prawdopodobieństwa g(x)=g(x1,x2,...,xn).
Pobieranie losowe 1. g(x)=g1(x1)g2(x2)...gn(xn) (prawdopodobieństwa pobrania poszczególnych elementów próby są niezależne od siebie), 2. g1(x)=g2(x)=...=gn(x)=f(x) (poszczególne rozkłady muszą być identyczne z rozkładem gęstości dla populacji).
Dystrybuanta empiryczna (rozkład w próbie) Wn(x)=nx/n nx – liczba elementów próby takich że xj<x. Wn(x) dąży do prawdziwej dystrybuanty F(x) dla n®¥.
Przedstawianie rozkładów z próby Wykresy liniowe (jednowymiarowe) Histogramy Wykresy schodkowe Wykresy słupkowe Wykresy impulsowe Konstrukcja histogramu h(x)=n(x<y£x+Dx) h(x1,x2,...,xn)=n(x1<y1£x1+Dx1,x2<y2£x2+Dx2,..., xn<yn£xn+Dxn)
Przedstawienie wyników pomiarów oporu 100 pojedynczych oporników Wykres liniowy Histogram – wykres słupkowy Histogram – wykres schodkowy Histogram – wykres z zaznaczonymi przedziałami błędów Zależność postaci histogramów z próby dla czterech różnych szerokości przedziałów
Statystyki i estymatory Statystyka: funkcja określona na elementach próby, np. średnia. Estymator: przybliżona wartość parametru rozkładu prawdopodobieństwa wyznaczona z próby. S=S(x1,x2,...,xn) Estymator jest nieobciążony jeżeli jego wartość oczekiwana nie zależy od liczby elementów próby. Estymator jest zgodny jeżeli jego wariancja dąży do zera wraz ze wzrostem liczby elementów próby.
Obliczanie momentów centralnych zbioru punktów
Estymator wartości średniej rozkładu Estymator wartości średniej jest zatem estymatorem nieobciążonym i zgodnym.
Dygresja: błądzenie przypadkowe (random walk) stop start
Estymator wariancji rozkładu (nieobciążony i zgodny)
Estymator wariancji wartości średniej: Estymator odchylenia standardowego wartości średniej: Estymator błędu ochylenia standardowego:
Obliczanie mediany z serii pomiarów wielkości prostej Sortujemy wyniki pomiarów od najmniejszego do największego, Jeżeli liczba pomiarów (n) jest nieparzysta to mediana (xm) jest środkowym wynikiem pomiaru o numerze (n+1)/2 Jeżeli liczba pomiarów jest parzysta to mediana jest średnią arytmetyczną największego wyniku z “lewej” i najmniejszego z “prawej” połowy.
Przenoszenie błędów (rachunek błędów) Niech x=(x1,x2,...,xn) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych z wariancjami s12, s22,..., sn2. Wtedy funkcja skalarna y=f(x) tej zmiennej losowej jest zmienną losową opisywaną w przybliżeniu rozkładem normalnym o następującej wariancji:
Jeżeli elementy x są skorelowane to we wzorze występuje pełna macierz wariancji-kowariancji
Szacowanie błędu “z góry” gdzie ry jest oszacowanym maksymalnym błędem wielkości y a rxi jest oszacowanym maksymalnym błędem wielkości xi.
Rozkład wariancji z próby (rozkład c2) Pobieramy próbę x1,x2,...,xn z rozkładu normalnego o a=0 i s=1. Dystrybuanta rozkładu zmiennej x2=x12+x22+...+xn2 jest dana następującą funkcją: gdzie G(y) jest funkcją gamma Eulera (silnią uogólnioną na liczby rzeczywiste).
Zatem sam rozkład wariancji jest dany następującą funkcją
Zasada największej wiarygodności (Maximum Likelihood Principle) Mamy próbę (x1,x2,...,xn) f(x,l): funkcja określająca rozkład gęstości prawdopodobieństwa, gdzie l jest zestawem parametrów rozkładu. Zasada największej wiarygodności: najlepsze l maksymalizuje prawdopodobieństwo wystąpienia próby. Ta zasada jest podstawą wszystkich metod estymowania parametrów rozkładu prawdopodobieństwa (a zatem i modelu matematycznego) z próby danych.
Ponieważ poszczególne elementy próby są niezależne iloraz wiarygodności funkcja wiarygodności
Przykład jakościowego porównywania dwu modeli poprzez obliczenie ilorazu wiarygodności Rzucamy monetą asymetryczną. Przypuszczamy, że albo prawdopodobieństwo wyrzucenia reszki jest 2 razy większe niż prawdopobobieństwo wyrzucenia orła (A) albo odwrotnie (B). Przypuśćmy, że w 5 rzutach otrzymaliśmy 1 raz orła i 4 razy reszkę. Wtedy:
Przykład zastosowania zasady największej wiarygodności: obliczanie wartości średniej przy założeniu, że rozkład prawdopodobieństwa jest rozkładem normalnym
Właściwości asymptotyczne funkcji wiarygodności Dla dużych prób
Obszary ufności w przestrzeni parametrów Obszar ufności definiujemy jako taki obszar w otoczeniu wartości oczekiwanej wektora parametrów i ograniczony powierzchnią o stałej gęstości prawdopodobieństwa, że prawdopodobieństwo znalezienia w nim prawdziwych wartości parametrów jest nie mniejsze niż zadana wartość (kwantyl). W jednym wymiarze mówimy o przedziale ufności. P=g l2 l2 l* l1 l1
W jednym wymiarze
Ogólnie dla wielowymiarowego rozkładu Gaussa