Wykład 9 Analiza wariancji (ANOVA)

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

ESTYMACJA PRZEDZIAŁOWA
Test zgodności c2.
Rangowy test zgodności rozkładów
Wykład 5 Standardowy błąd a odchylenie standardowe
Wykład 11 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)
Wykład 10 Rozważmy populacje i jej podgrupy.
Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.
Wykład 6 Dwie niezależne próby
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Nowy kod Statistica 6.1 HEN6EUEKH8.
Wykład 7 Przedział ufności dla 1 – 2
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 8 Testy Studenta Jest kilka różnych testów Studenta. Mają one podobną strukturę ale służą do testowania różnych hipotez i różnią się nieco postacią.
Wykład 14 Liniowa regresja
Wykład 11 Analiza wariancji (ANOVA) Sposób analizy danych gdy mamy więcej niż dwa zabiegi lub populacje. Omówimy ANOV-ę w najprostszej postaci. Te same.
Wykład 5 Przedziały ufności
Wykład 12 Statystyczny model dla jednoczynnikowej ANOVy
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Wykład 4 Przedziały ufności
Metody Przetwarzania Danych Meteorologicznych Wykład 4
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Analiza wariancji.
Jednoczynnikowa analiza wariancji (ANOVA)
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Analiza wariancji.
Testy nieparametryczne
Testowanie hipotez statystycznych
Hipotezy statystyczne
Rozkłady wywodzące się z rozkładu normalnego standardowego
Testy nieparametryczne
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Modelowanie ekonometryczne
Hipotezy statystyczne
Kilka wybranych uzupelnień
Ekonometria stosowana
Statystyka - to „nie boli”
Testy statystycznej istotności
Ekonometria stosowana
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Wnioskowanie statystyczne
Ekonometria stosowana
Wykład 5 Przedziały ufności
Weryfikacja hipotez statystycznych
Testowanie hipotez Jacek Szanduła.
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Wnioskowanie statystyczne. Próbkowanie (sampling)
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Zapis prezentacji:

Wykład 9 Analiza wariancji (ANOVA) Sposób analizy danych, gdy porównujemy więcej niż dwie populacje/zabiegi. Omówimy ANOV-ę w najprostszej postaci. Te same podstawowe założenia/ograniczenia, co przy teście Studenta: W każdej populacji badana cecha ma rozkład normalny Obserwacje są niezależne i losowe Testujemy hipotezy o średnich w populacjach: I Dodatkowe założenie – standardowe odchylenia badanej cechy w badanych populacjach są sobie równe (podobne) – użyjemy uśrednionego SE

Uwaga: ANOVA może być stosowana także wtedy, gdy próby nie są niezależne, np. w zrandomizowanym układzie blokowym (zasada podobna do testu Studenta dla par). Tutaj jednak omówimy tylko układy zrandomizowane zupełne (=jednoblokowe). Cel: Testujemy hipotezy postaci: H0: 1 = 2 = 3 = … = k HA: nie wszystkie średnie są równe

Dlaczego nie stosujemy wielu testów Studenta? Wielokrotne porównania: prawdopodo-bieństwo błędu pierwszego rodzaju (odrzucenia prawdziwej hipotezy zerowej) byłoby trudne do kontrolowania. Estymacja błędu standardowego: ANOVA wykorzystuje informację zawartą we wszystkich obserwacjach: zwykle daje większą precyzję obliczenia/mniejsze SE niż indywidualne testy Studenta dla par. ANOVA automatycznie porównuje konfiguracje populacji większe niż pary.

Korekta Bonferoniego Przy k testach na poziomie α, przyjmujemy łączny poziom istotności kα. Prosta, ale na ogół konserwatywna: prawdo-podobieństwo błędu pierwszego rodzaju jest mniejsze niż założone kα – w efekcie strata mocy. Np. przy porównywaniu 5 populacji testem Studenta dla niezależnych prób Bonferoni daje poziom istotności równy

Notacja: k = 3 zabiegi (grupy) 1 48 40 39 2 30 3 42 44 32 4 43 35 średnia 34 SS 46

SS df MS Trzy kategorie: W każdej - trzy wartości: SS, df, MS. wewnątrz grup, pomiędzy grupami, łącznie. W każdej - trzy wartości: SS, df, MS. SS df MS wewnątrz pomiędzy łącznie

Notacja, cd.: k : # grup (prób, zabiegów), tutaj k = n1, n2, n3, …, nk : rozmiary grup (# obserwacji) n1 = , n2 = , n3 = y1 , y2, … yk = średnie w grupach y1= ,y2 = , y3= = całkowita średnia (wszystkich obserwacji) n* = całkowita liczba obserwacji n* =

Używamy i do indeksowania grup a j do indeksowania obserwacji w każdej grupie, np: yij . oznacza sumę ``wewnątrz grupy’’:

Uwzględniające wszystkie grupy oznacza sumę po grupach: np. ; tutaj n* =

UWAGA: Gdy rozmiary prób nie są równe nie jest średnią z k średnich! Można ją obliczyć jako = (n1y1 + n2y2 + …+n3y3) / n*

Wewnątrz grup: wypełniamy drugi rząd w tabeli Suma kwadratów wewnątrz grup (SSW): Liczymy SS dla każdej grupy (SS2, SS3 , itd.) SS1 = ..... SS2 = … = 32, SS3 = … = 46

SSW = SS1+SS2+…+SSk , tutaj SSW =.... Stopnie swobody wewnątrz grup: dfw = n* - k, tutaj dfw =... Średnia suma kwadratów wewnątrz grup: MSW = SSW / dfw , tutaj MSW =... MSW to uśredniona wariancja, np.(wykład 6): Uśrednione odchylenie standardowe sc = , tutaj sc =...

Pomiędzy grupami: wypełniamy pierwszy rząd tabeli Porównujemy średnie grupowe do całko-witej z wagą daną przez rozmiar grupy. Suma kwadratów pomiędzy grupami (SSB) SSB = Tutaj SSB =....

Stopnie swobody pomiędzy grupami (dfb) dfb = k – 1, tutaj dfb = ... Średnia suma kwadratów pomiędzy grupami (MSB) MSB = SSB/dfb, tutaj MSB =...

Całkowite: wypełniamy trzeci rząd tabeli Całkowita suma kwadratów (SST): SST= SST=82+12+22+…+82+52=348

Uwaga: SST = SSW+SSB, tu 348 = 120 + 228 Zwykle nie trzeba liczyć SST z definicji! Całkowita liczba stopni swobody (dft) dft = n* – 1 , tutaj dft = Uwaga: dft = dfb+dfw , tutaj 10 = 2 + 8

Tablica ANOV-y (ponownie) SS df MS Between Within Total puste

Ta tabela będzie dostępna na kolokwium i egzaminie: SS df MS Pomiędzy SSB= dfb = k – 1 SSB/dfb Wewnątrz SSW= dfw = n* – k SSW/dfw Całkowite SST= dft = n* – 1

Test F (Fishera) Założenia (jak w ANOV-ie): Dane dla k  2 populacji/zabiegów są niezależne Dane w każdej populacji mają rozkład normalny ze średnią i (dla populacji I), oraz z tym samym odchyleniem standardowym 

(wszystkie średnie są sobie równe) przeciwko Testujemy H0: 1 = 2 = 3 = … = k (wszystkie średnie są sobie równe) przeciwko HA: nie wszystkie średnie są sobie równe HA jest niekierunkowa, ale obszar odrzuceń będzie jednostronny (duże dodatnie wartości statystyki) Kroki: Obliczenie tabeli ANOV-y Testowanie

Jak opisać F test Zdefinować wszystkie  H0 podać za pomocą wzoru i słownie HA tylko słownie Statystyka testowa Fs = MSB/MSW Przy H0, Fs ma rozkład F Snedecora ze stopniami swobody (dfb, dfw) Na slajdach podane są wartości krytyczne z książki D.S. Moore i G. P. McCabe „Introduction to the Practice of Statistics” „numerator df” = dfb, „denominator df” = dfw.

Odrzucamy H0 , gdy zaobserwowane Fs > Fkrytyczne Przykładowy wniosek: „Na poziomie istotności α (nie) mamy przesłanki, aby twierdzić, że grupy różnią się poziomem badanej cechy.”

Przykład: Losową próbę 15 zdrowych mężczyzn podzielono losowo na 3 grupy składające się z 5 mężczyzn. Przez tydzień otrzymywali oni lekarstwo Paxil w dawkach 0, 20 i 40 mg dziennie. Po tym czasie zmierzono im poziom serotoniny. Czy Paxil wpływa na poziom serotoniny u zdrowych, młodych mężczyzn ? Niech 1 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 0 mg Paxilu. Niech 2 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 20 mg Paxilu. Niech 3 będzie średnim poziomem serotoniny u mężczyzn przyjmujących 40 mg Paxilu.

H0: 1 = 2 = 3 ; średni poziom serotoniny nie zależy od dawki Paxilu HA: średni poziom serotoniny nie jest ten sam we wszystkich grupach (albo średni poziom serotoniny zależy od dawki Paxilu). Zastosujemy F-Test

Fs = MSB / MSW przy H0 ma rozkład... Testujemy na poziomie  = 0.05. Wartość krytyczna F.05 = ... . Obserwujemy Fs =... Wniosek:...

Na jakiej zasadzie to działa ? Dla przypomnienia: Statystyka testu Studenta ma w liczniku różnicę między średnimi (y1-y2) Tę dzielimy przez miarę rozrzutu tej różnicy (SEy1-y2 ) Jeżeli (y1-y2) jest duże w porównaniu do błędu standardowego, to statystyka testu Studenta jest duża i odrzucamy H0.

Dla testu F: W liczniku mamy „uśredniony kwadrat różnicy między średnimi” (MSB) W mianowniku mamy oszacowanie zróżnicowania w obserwacji (MSW) Jeżeli MSB jest duże w porównaniu do MSW, to statystyka testu F jest duża i odrzucamy H0. Test F jest analogiczny do testu Studenta. Umożliwia jednoczesne porównanie dowolnej liczby średnich.

Test F można stosować również, gdy mamy tylko dwie próby. Wtedy: Statystyka testu F dla dwóch prób jest równa kwadratowi statystyki Studenta (przy (U)SE). Decyzje i p-wartości są dokładnie takie same dla obu testów.