Nierówność informacyjna

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

ESTYMACJA PRZEDZIAŁOWA
Test zgodności c2.
hasło: student Szymon Drobniak pokój konsultacje: wtorek 13-14
Analiza wariancji jednoczynnikowa
Badania marketingowe na rynkach produktów sektora wysokich technologii Wybrane metody analizy danych.
BUDOWA MODELU EKONOMETRYCZNEGO
Wnioskowanie statystyczne CZEŚĆ III
Statystyka w doświadczalnictwie
hasło: student Joanna Rutkowska Aneta Arct
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Metody Przetwarzania Danych Meteorologicznych Wykład 4
Próby niezależne versus próby zależne
Próby niezależne versus próby zależne
Porównywanie średnich dwóch prób zależnych
Test t-studenta dla pojedynczej próby
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Testy nieparametryczne
Średnie i miary zmienności
Analiza wariancji.
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Dlaczego obserwujemy??? istotny wpływ, istotną różnicę, istotną zależność.
Hipotezy statystyczne
Rozkłady wywodzące się z rozkładu normalnego standardowego
Testy nieparametryczne
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Statystyka - to „nie boli”
Planowanie badań i analiza wyników
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
Porównywanie średnich 2 i więcej prób o rozkładach innych niż normalny
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Seminarium licencjackie Beata Kapuścińska
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Testowanie hipotez statystycznych
Dopasowanie rozkładów
Wnioskowanie statystyczne
Elementy geometryczne i relacje
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Testowanie hipotez Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
STATYSTYKA – kurs podstawowy wykład 6 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Testy nieparametryczne
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Wnioskowanie statystyczne Weryfikacja hipotez statystycznych
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
Zapis prezentacji:

Nierówność informacyjna Informacja zawarta w próbie Zależność między wariancją estymatora S parametru l a informacją Jeżeli obciążenie estymatora (B) jest równe zeru

Weryfikacja hipotez statystycznych Hipoteza statystyczna – założenie co do rozkładu cech w populacji. Test statystyczny – narzędzie weryfikacji tej hipotezy. Testy parametryczne: weryfikacja hipotez parametrycznych, które dotyczą parametrów rozkładu danej cechy w populacji generalnej. Testy nieparametryczne: weryfikacja hipotez nieparametrycznych dotyczących, np. zgodności rozkładu cech w populacji z rozkładem teoretycznym, zgodności rozkładów cech w dwóch różnych populacjach, losowości próby.

Hipotezy i testy parametryczne Hipoteza prosta – zakłada wartości wszystkich parametrów rozkładu. Hipoteza złożona – wartość co najmniej jednego parametru jest nieznana (np. zakładamy tylko postać funkcyjną rozkładu). Hipoteza zerowa (Ho) – hipoteza, którą weryfikujemy. Hipoteza alternatywna (H1) – co najmniej jeden z parametrów rozkłady jest różny od tego z hipotezy zerowej.

Błędy popełniane podczas weryfikacji hipotez statystycznych Błąd pierwszego rodzaju (false negative) – odrzucenie prawdziwej hipotezy Ho. Błąd drugiego rodzaju (false positive) –przyjęcie fałszywej hipotezy Ho.

Poziom istotności (a) P(|x|³xo)=a (test dwustronny) P(x³xo)=a (test jednostronny) Obszar krytyczny (Sc): P(xÎSc|Ho)=a Poziom istotności definiuje prawdopodobieństwo popełnienia błędu pierwszwego rodzaju (odrzucenia prawdziwej hipotezy zerowej).

Moc testu: prawdopodobieństwo odrzucenia hipotezy zerowej w zależności od hipotezy alternatywnej. M(Sc,l)=P(XÎSc|H)=P(XÎSc|l) Test najmocniejszy hipotezy prostej Ho względem hipotezy alternatywnej H1: P(Sc,l1)=1-b=max Test jednostajnie najmocniejszy: test najmocniejszy względem jakiejkolwiek hipotezy alternatywnej.

Test F Fishera równości wariancji Mamy dwie populacje o rozkładzie normalnym (np. przypadek pomiaru tej samej wielkości różnymi przyrządami). Pytanie: czy te populacje mają tą samą wariancję. W tym celu rozważamy iloraz F=s12/s22

Porównywanie wartości średnich (test Studenta)

Weryfikacja hipotezy, że x=l0

Weryfikacja hipotezy o równości wartości średnich z dwóch serii pomiarów

Przykład: porównywanie średnich z dwóch serii oznaczeń azotu w cynchoninie Grupa 1 9,29 9,53 9,38 9,48 9,35 9,61 9,43 9,68 średnia 9,363 9,575 odch.stand. 0,058 0,088

Test Studenta dla par wiązanych Oznaczanie zawartości NaOH w dwóch seriach roztworu po elektrolizie NaCl (mg/dm3) przed (x) i za filtrem (y) x y d=y-x 100,1 96,6 -3,5 115,1 115,6 +0,5 130,0 125,5 -4,5 93,6 94,0 +0,4 108,3 103,3 -5,0 137,2 134,4 -2,8 104,4 100,2 -4,2 97,3

Wykrywanie błędów grubych: test Dixona (nieparametryczny) x1 – wynik podejrzany o błąd gruby x2 – wynik mu najbliższy Wynik x1 możemy odrzucić na poziomie istotności a jeżeli Q > Q(a, n) (n jest liczbą pomiarów).

Wartości krytyczne testu Dixona 0.90 0.95 0.99 3 0.89 0.94 4 0.68 0.77 5 0.56 0.64 0.76 6 0.48 0.70 7 0.43 0.51 8 0.40 0.58

Przykład: pomiar zawartości grafitu w żeliwie 1 2,86 2 2,89 3 2,90 4 2,91 5 2,99

Testy nieparametryczne Testy losowości: badamy, czy próba jest losowa test mediany (Stevensa). Testy zgodności: badamy, czy rozkład z próby jest zgodny z założonym Test c2, test W Shapiro-Wilka, test Kołmogorowa test Lillieforsa (badanie normalności rozkładu). Testy jednorodności: badamy, czy dwie próby pochodzą z tej samej populacji test serii Walda-Wolfowitza, test U Manna-Whitneya, test Kołmogorowa-Smirnowa (dla prób niezależnych), test znaków, test kolejnosci par Wilcoxona (dla prób zależnych).

Test c2 dobroci dopasowania gi: wynik i-tego pomiaru fi: wartość teoretyczna wyniku i-tego pomiaru si: odchylenie standardowe i-tego pomiaru. Wielkości ui mają rozkład normalny o zerowej średniej i jednostkowej wariancji a zatem wielkość T ma rozkład c2 o N-p stopniach swobody, gdzie p jest liczbą estymowanych parametrów funkcji f. Dopasowanie uznajemy za złe na poziomie istotności a jeżeli T>c21-a

Zastosowanie testu c2 do weryfikacji hipotezy o rozkładzie częstości obserwacji f(x) x } } } } x1 x2 … xk … xr

npi: wartość oczekiwana liczby obserwacji w i-tym przedziale ni: liczba obserwacji wielkości w i-tym przedziale; n: całkowita liczba obserwacji. npi: wartość oczekiwana liczby obserwacji w i-tym przedziale Wartość oczekiwana wariancji liczby obserwacji. Hipotezę o zgodności rozkładu obserwowanego z rozkładem założonym odrzucamy na poziomie istotności a jeżeli C2>c21-a dla f stopni swobody. f=liczba stopni swobody=r-p-1 gdzie p jest liczbą parametrów rozkładu (najwyżej r-1 stopni swobody).

Przykład: porównanie liczby zliczeń par elektron-pozyton w komorze pęcherzykowej naświetlonej promieniowaniem g z rozkładem Poissona. C2=10.44 C20.99=16.81 Nie ma zatem podstaw do odrzucenia rozkładu Poissona.

Zastosowanie testu c2 do analizy tabeli wkładów x, y: zmienne losowe mogące przyjmować wartości odpowiednio x1, x2,…, xk oraz y1, y2,…, yl. Każdej kombinacji zmiennych (xi,yj) przyporządkowana jest liczba obserwacji nij. y1 y2 … yl x1 n11 n12 n1l x2 n21 n22 n2l xk nk1 nk2 nkl Jeżeli zmienne są współzależne na poziomie istotności a to C2>c21-a dla f=kl-1-(k+l-2)=(k-1)(l-1) stopni swobody.

Przykład z medycyny: ocena skuteczności dwóch metod leczenia danej choroby. x1: pierwsza metoda leczenia x2: druga metoda leczenia y1: przypadki wyleczone y2: przypadki niewyleczone y1 y2 x1 n11=a n12=b x2 n21=c n22=d f=liczba stopni swobody=(2-1)(2-1)=1 Jeżeli metody leczenia mają różną skuteczność to C2>c21-a

Test mediany (badanie losowości próby) Wyznaczamy medianę (m). Danym nieuporządkowanym przyporządkowujemy następujące oznaczenia: A gdy x<m B gdy x>m 0 gdy x=m Obliczamy liczbę następujących po sobie serii AAA…A i BBB…B. Liczby serii spełniają rozkład normalny z następującą wartością średnią i wariancją na – liczba pomiarów A; nb – liczba pomiarów B; n – liczba pomiarów

Przykład (seria 12 pomiarów) 74,5 191,0 55,5 5,15 36,4 35,0 46,0 10,9 7,35 6,65 B A 173,5 26,0 B A Mediana m=35,7 n=12, na=6, nb=6 Liczba serii k=8 E(k)=2*6*6/12+1=7, s2(k)=2*6*6*(2*6*6-1)/[12*12*(12-1)]=3.23 Dla a=5% (ok. 3s odchylenia) przedział ufności rozciąga się od k=3 do k=10. Próba jest zatem losowa.

Test Wilcoxona (par wiązanych) W tabeli ustawiamy w pary odpowiadające wielkości i obliczamy różnice. Sortujemy pary według różnic. Każdej parze przyporządkowujemy rangę, która jest równa numerowi porządkowemu pary (po sortowaniu), przy czym uśredniamy rangi, którym odpowiadają te same różnice. Osobno sumujemy rangi dodatnie i ujemne. Mniejsza z tych sum stanowi statystykę W Wilcoxona. Porównujemy W z wartością krytyczną i odrzucamy hipotezę o identyczności wyników w parach jeżeli W>Wtab.

Przykład: ocena różnic wysokości drzew wiosną i jesienią ranga znak 3,2 3,5 0,3 5 + 2,7 3,0 3,1 3,8 0,7 10 2,9 3,4 0,4 8,5 2,8 3,7 3,6 0,2 1,5 3,3 6 suma 31,4 34,8 55

Dla dużych prób liczba znaków „+” spełnia rozkład normalny z wartością średnią E(W+) i wariancją s2(W+):