Analiza wariancji.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Test zgodności c2.
Rangowy test zgodności rozkładów
hasło: student Szymon Drobniak pokój konsultacje: wtorek 13-14
Wykład 9 Analiza wariancji (ANOVA)
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
BUDOWA MODELU EKONOMETRYCZNEGO
Test zgodności Joanna Tomanek i Piotr Nowak.
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
hasło: student Joanna Rutkowska Aneta Arct
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Nowy kod Statistica 6.1 HEN6EUEKH8.
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Testy nieparametryczne
Średnie i miary zmienności
Jednoczynnikowa analiza wariancji (ANOVA)
Rozkład t.
Metody ilościowe w biznesie Wykład 1
Hipotezy statystyczne
Wieloczynnikowa analiza wariancji
Metoda analizy wariancji.
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Analiza współzależności cech statystycznych
Hipotezy statystyczne
Wyrażenia algebraiczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Testy nieparametryczne
Analiza reszt w regresji
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Hipotezy statystyczne
Zagadnienia regresji i korelacji
Podstawy analizy matematycznej I
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Statystyka ©M.
Ekonometria stosowana
Ekonometria stosowana
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Testowanie hipotez Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Wnioskowanie statystyczne. Próbkowanie (sampling)
Testy nieparametryczne
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Zapis prezentacji:

Analiza wariancji

Wprowadzenie Powiedzmy, że badamy pewną populację , w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym  Powiedzmy dalej, że istnieje pewien czynnik A wpływający na wartości cechy Y w taki sposób, że może wystąpić zróżnicowanie populacji  na szereg podpopulacji i odpowiadających poszczególnym poziom czynnika A

Cecha Y jest Czynnik A nie różnicuje populacji  na podpopulacje m

Cecha Y jest Czynnik A różnicuje populacji  na podpopulacje i m m1 ma

Cecha Y jest Czynnik A różnicuje populację  na podpopulacje i m m1 ma

Problem: czy czynnik A różnicuje populację  ? a1 = m1 - m aa = ma - m m1 m2 m ma a2 = m2 - m

Problem: czy czynnik A różnicuje populację  ? (2) Ogólnie efekt wpływu i-tego poziomu czynnika A można zapisać jako różnicę między średnią generalną dla tej i-tej podpopulacji i a średnią generalną w populacji : ai = mi – m dla i=1, 2, ..., a

Problem: czy czynnik A różnicuje populację  ? (3) Jeżeli czynnik A nie różnicuje populacji na podpopulacje, to wszystkie jego efekty są zerowe, czyli: ai = mi – m = 0 dla każdego i, tym samym: mi = m Mówimy wtedy, że wpływ czynnika A na wartości cechy Y jest nieistotny statystycznie.

Problem: czy czynnik A różnicuje populację  ? (4) Jeżeli jednak warunek ai = 0 nie będzie spełniony dla każdego i = 1, 2, ..., a , to tym samym czynnik A różnicuje populację  na co najmniej 2 podpopulacje. Mówimy wtedy, że wpływ czynnika A na wartości cechy Y jest istotny statystycznie.

Czym jest analiza wariancji? Jest metodą statystyczną pozwalającą na podstawie wyników zaplanowanego eksperymentu zbadanie, czy czynnik A wpływa istotnie na wartości analizowanej cechy. Metodę analizy wariancji na potrzeby doświadczeń rolniczych wprowadził R. Fisher, a podstawowym testem stosowanym w tej metodzie jest test F Fishera-Snedecora

Podstawowe pojęcia (1) Czynnik badany, np. model samochodu, model automatu produkcyjnego, rodzaj reklamy, dodatek owoców do jogurtu itp. Poziom czynnika badanego, np. dla takiego czynnika jak model samochodu będzie to konkretny model (Lanos, Peugeot 306, Ford Mondeo itd.)

Podstawowe pojęcia (2) Czynnik badany może mieć charakter czynnika jakościowego, np. model samochodu, rodzaj reklamy. Czynnik badany może mieć także charakter czynnika ilościowego, np. ilość owoców dodawanych do jogurtu.

Podstawowe pojęcia (3) Eksperyment – specjalnie zaprojektowane działanie zmierzające do uzyskania prób losowych o zadanych liczebnościach z poszczególnych poziomów czynnika badanego. Wyniki uzyskane w takim eksperymencie możemy oznaczyć jako

Podstawowe pojęcia (4) Dowolny wynik uzyskany w takim eksperymencie można zapisać jako sumę trzech elementów: Wzór ten przedstawia tzw. model liniowy analizy wariancji

Podstawowe pojęcia (5) Model pozwala na rozdzielenie ogólnej sumy kwadratów odchyleń na dwa składniki: Analogicznie rozdzielamy liczby stopni swobody:

Podstawowe pojęcia (6) Jak wiemy iloraz sumy kwadratów odchyleń przez odpowiadającą mu liczbę stopni swobody jest średnim kwadratem odchyleń. ale z równości sum kwadratów i liczb stopni swobody nie wynika równość średnich kwadratów, czyli:

Hipoteza zerowa (1) Model liniowy analizy wariancji pozwala na weryfikację hipotezy zerowej o braku wpływu czynnika badanego na wartości analizowanej cechy.

Hipoteza zerowa (2) Przy prawdziwości hipotezy zerowej statystyka (funkcja wyników próby) postaci: Ma rozkład F z liczbami stopni swobody vA i vE

Wnioskowanie Jeżeli to hipotezę zerową o braku wpływu czynnika badanego odrzucamy. Powiemy, że czynnik badany jest istotny statystycznie. Jeżeli powyższy warunek nie jest spełniony, to nie mamy podstaw do odrzucenia hipotezy zerowej. Powiemy, że czynnik badany jest nieistotny statystycznie.

Obliczenia analizy wariancji Na podstawie danych eksperymentalnych budujemy tabelę analizy wariancji Zmienność st. sw. var F Czynnika vA varA Błędu vE varE Całkowita vT varT

Obliczenia analizy wariancji Dalsze wzory analizy wariancji:

Wnioskowanie w analizie wariancji Przy prawdziwości statystyka ma rozkład F-Fishera z liczbami stopni swobody vA i vE. Jeżeli więc , to H0 odrzucamy jako zbyt mało prawdopodobną. Merytorycznie formułujemy wniosek, że czynnik klasyfikacyjny istotnie wpływa na wartości badanej cechy. Oznacza to jednocześnie, że co najmniej jedna średnia grupowa (obiektowa) różni się od pozostałych.

Wnioskowanie w analizie wariancji (c.d.) W dalszej części zajmiemy się sposobami szczegółowego porównania średnich grupowych w takiej sytuacji. W sytuacji, gdy (lub krytyczny poziom istotności jest większy od przyjętego ) nie mamy podstaw do odrzucenia hipotezy zerowej i tym samym badanie statystyczne wpływu czynnika klasyfikacyjnego jest zakończone. Oznacza to, że ewentualne różnice między średnimi grupowymi (w próbie) mają tylko charakter losowy.

Porównania szczegółowe W przypadku odrzucenia hipotezy zerowej wiemy, że co najmniej jedna średnia grupowa różni się od pozostałych. Problemem pozostaje rozdzielenie średnich na tzw. grupy jednorodne. Pod pojęciem grupy jednorodnej będziemy rozumieć taki zestaw średnich w populacjach, w którym dla każdej pary średnich próbkowych zachodzi związek:

Porównania szczegółowe (c.d.) Najmniejsza istotna różnica może być skonstruowana z użyciem różnych statystyk (najczęściej): t-Studenta (LSD) t studentyzowanego rozstępu (NIR Tukey’a -HSD, Newmana-Keulsa) F (NIR Scheffego) Ogólnie NIR będziemy wyznaczać wg wzoru: gdzie jest wartością tablicową odpowiedniej statystyki, a Sr błędem różnicy średnich.

Porównania szczegółowe (c.d.) W sytuacji, gdy w próbie losowej w każdej podgrupie mamy taką samą liczbę obserwacji (powiedzmy równą n) błąd różnicy średnich wyznaczamy z wzoru: W tych przypadkach, gdy liczba obserwacji w podgrupach jest różna, można skorzystać z wzoru: gdzie

Przykład liczbowy W celu porównania oceny ogólnej 5 wybranych produktów spożywczych zaplanowano odpowiedni eksperyment, w wyniku którego uzyskano poniższe wyniki: P1 P2 P3 P4 P5 1 8 8 7 7 7 2 7 9 7 9 6 3 7 8 8 7 7 4 8 9 7 8 6 Dane powyższe zostaną opracowane zgodnie z modelem liniowym jednoczynnikowej analizy wariancji:

Przykład liczbowy (c.d.) Obliczamy odpowiednie sumy i średnie: P1 P2 P3 P4 P5 1 8 8 7 7 7 37 2 7 9 7 9 6 38 3 7 8 8 7 7 37 4 8 9 7 8 6 38 Sumy 30 34 29 31 26 150 średnie 7.50 8.50 7.25 7.75 6.50 7.50 Obliczamy dalej: Poprawka = 150*7.50 = 1125 SST = (82 + 72 + ... + 62) - P = 1140 - 1125 = 15 SSA = (30*7.50 + ... + 26*6.50) - P = 1133.50 - 1125 = 8.5

Przykład liczbowy (c.d.) Pozostałe obliczenia zestawiamy już w tabeli analizy wariancji. Zmienność St. sw. S.S M.S Femp. F0.05 Produkt 4 8.5 2.125 4.904* 3.06 Błąd 15 6.5 0.43 Całkowita 19 15 Wnioskowanie: Ponieważ hipotezę o braku zróżnicowania między produktami odrzucamy. Oznacza to jednocześnie, że istnieją co najmniej 2 grupy jednorodne.

Przykład liczbowy, szczegółowe porównania Obliczamy i dalej NIR Tukey’a Poniżej mamy uporządkowane średnie dla produktów i ich podział na grupy jednorodne. P2 8.50 a P4 7.75 0.75 ab P1 7.50 1.00 0.25 ab P3 7.25 1.25 0.50 ab P5 6.50 2.00 1.25 b