JEDNOCZYNNIKOWA ANALIZA WARIANCJI

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Wykład 9 Analiza wariancji (ANOVA)
Analiza współzależności zjawisk
Porównywanie średnich dwóch prób niezależnych o rozkładach normalnych (test t-studenta)
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Statystyka w doświadczalnictwie
Nowy kod Statistica 6.1 HEN6EUEKH8.
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Mgr Sebastian Mucha Schemat doświadczenia:
Wykład 14 Liniowa regresja
Wykład 11 Analiza wariancji (ANOVA)
Korelacje, regresja liniowa
Test t-studenta dla pojedynczej próby
Próby niezależne versus próby zależne
Analiza wariancji ANOVA efekty główne
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Analiza wariancji.
Jednoczynnikowa analiza wariancji (ANOVA)
Rozkład t.
Hipotezy statystyczne
Wieloczynnikowa analiza wariancji
Metoda analizy wariancji.
Analiza wariancji jednoczynnikowa
Analiza wariancji.
Testy nieparametryczne
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
na podstawie materiału – test z użyciem komputerowo generowanych prób
Testy nieparametryczne
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Modelowanie ekonometryczne
Hipotezy statystyczne
Analiza wariancji ANOVA czynnikowa ANOVA
Statystyka - to „nie boli”
Testy statystycznej istotności
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
Testowanie hipotez statystycznych
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Dopasowanie rozkładów
Wnioskowanie statystyczne
Analiza wariancji ANOVA czynnikowa ANOVA
Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku.
Weryfikacja hipotez statystycznych
Estymatory punktowe i przedziałowe
Testowanie hipotez Jacek Szanduła.
Model ekonometryczny Jacek Szanduła.
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 11
Wstęp do regresji logistycznej
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
MIARY STATYSTYCZNE Warunki egzaminu.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
KONTRASTY Zastosowanie statystyki w bioinżynierii ćw 5.
Korelacja i regresja liniowa
Zapis prezentacji:

JEDNOCZYNNIKOWA ANALIZA WARIANCJI Zastosowanie statystyki w bioinżynierii ćw 5

Ogólny model liniowy Ogólny model liniowy umożliwia ilościowy opis związku między cechami jest rozszerzeniem modelu regresji wielorakiej dla pojedynczej zmiennej zależnej w którym błąd ma rozkład normalny która jest rozszerzeniem modelu prostej regresji liniowej Uogólniony model liniowy jest rozszerzeniem ogólnego modelu liniowego Np. regresja logistyczna

Klasyfikacja ogólnych modeli liniowych Klasyfikacja ogólnych modeli liniowych w zależności od rodzaju i charakteru zmiennych objaśniających: tylko predyktory jakościowe (skategoryzowane) – analiza wariancji (ANOVA) tylko zmienne objaśniające ciągłe – modele regresji predyktory jakościowe, jak i ciągłe – analiza kowariancji (ANCOVA) Układy zawierające czynniki jakościowe losowe – układy mieszane

Analiza wariacji Model liniowy analizy wariancji: Gdzie: yij − j-ta obserwacja z i-tej grupy µ − średnia wartość cechy w populacji i − efekt i-tej grupy eij − błąd czyli efekt związany ze zmiennością osobniczą, przypadkową, niewyjaśnioną modelem, może być również błędem pomiaru Liniowy model regresji dla porównania:

Analiza wariacji Rodzaje analizy wariancji: ANOVA - jednowymiarowa analiza wariancji : Jednoczynnikowa – wpływ jednego czynnika na jedną zmienną zależną Wieloczynnikowa – wpływ kilku czynników na jedną zmienną zależną MANOVA - wielowymiarowa analiza wariancji wpływ kilku czynników na kilka zmiennych zależnych Model Znaczenie Y ~ X Jednoczynnikowa analiza wariancji Y ~ X1 + X2 Dwuczynnikowa analiza wariancji Y ~ X1 * X2 Dwuczynnikowa analiza wariancji z interakcją

Analiza wariancji Podział zaobserwowanej zmienności (wariancji) na zmienność między grupami i w obrębie grup Całkowita wariancja Wariancja między grupami = efekt zmiennej niezależnej + efekt losowy (błąd losowy i efekty indywidualne) Wariancja wewnątrzgrupowa = efekt losowy (błąd losowy i efekty indywidualne) SKO OG SKO MG SKO WG gdzie SKO to suma kwadratów odchyleń, OG – ogólna, MG – między grupami, WG – wewnątrz grup

Hipoteza zerowa i alternatywna Pozwala na ocenę istotności różnic wielu średnich, hipoteza zerowa: H0 : µ1 = µ2 = ... = µk gdzie k to ilość grup Uwaga: Dla dwóch grup daje takie same wyniki jak test studenta dla dwóch prób niezależnych Hipoteza alternatywna dla k=3? Wszystkie średnie są równe Ważne: różnice wariancji między grupami wynikają z różnicy w przeciętnych poziomach zjawiska pomiędzy grupami Co najmniej jedna para średnich nie jest równa H1 : µ1 ≠ µ2 lub µ2 ≠ µ3 lub µ1 ≠ µ3

Analiza wariacji Tabela wariancyjna Gdzie: Źródło zmienności Lss SKO Dokładne obliczenia w Excelu Tabela wariancyjna Gdzie: N – liczba wszystkich obserwacji k – liczba grup SKO – suma kwadratów odchyleń ŚKO – średni kwadrat odchyleń Źródło zmienności Lss SKO ŚKO = SKO/Lss Ogólna N-1 SKOMG = - Między grupami k-1 ŚKOMG Wewnątrz grup N-k SKOWG = ŚKOWG Test F-Snedecora dla stopni swobody (k-1,N-k)

Test F Stosujemy test jednostronny oparty na rozkładzie F-Snedecora Różnice w średnich są istotne jeżeli wartość statystyki F jest większa niż 0.95 kwantyl rozkładu F dla określonych stopni swobody gdzie d1 i d2 to stopnie swobody 0.95 dla F < 2.758

Test F Zmienność w obrębie grup Czym większa zmienność wewnątrz grup tym większy mianownik i tym trudniej wykazać różnice między grupami Źródło wykresów: http://blog.minitab.com/blog/adventures-in-statistics-2/understanding-analysis-of-variance-anova-and-the-f-test Zmienność między grupami

ANOVA - założenia Zmienna zależna jest mierzona na skali ilościowej Zmienne objaśniające są niezależne – losowy dobór do grup Rozkład wyników w każdej grupie ma rozkład zbliżony do normalnego Wariancje w grupach są jednorodne (homogeniczność wariancji) Równoliczność obserwacji w podgrupach Dodatkowo: Addytywność efektów – brak interakcji, ważne przy analizie wieloczynnikowej

Homogeniczność wariancji i normalność rozkładu a równoliczność grup Przy różnej liczebności w podgrupach sprawdzamy czy nie ma istotnych odstępst testem chi-kwadrat ANALIZA > TESTY NIEPARAMETRYCZNE > TESTY TRADYCYJNE > CHI-KWADRAT Przy równolicznych grupach ANOVA jest odporna na brak równości wariancji i normalności rozkładu Nierównoliczne grupy i brak równości wariancji? Statystyka F będzie przeszacowana, jeśli wariancja jest większa w grupie mniej licznej – większe ryzyko fałszywego odrzucenia H0 Statystyka F będzie niedoszacowana, jeśli wariancja jest większa w grupie liczniejszej – większe ryzyko nieodrzucenia fałszywej H0

Analiza wariancji - założenia Testowanie jednorodności wariancji – test Test Leven’a Istotny statystycznie wynik wskazuje na różnice w zmienności pomiędzy grupami Założenia do analizy wariancji nie są spełnione SPSS: Eksploracja → Wykresy → Rozrzut-poziom z testem Levene-a → nie przekształcone Bazując na średniej SPSS: Analiza → porównywanie średnich → Jednoczynnikowa ANOVA → opcje → jednorodność wariancji

Rozkład normalny Brak normalności rozkładu w niewielkim stopniu wpływa na wyniki ANOVY Duża liczba obserwacji (>30 w każdej podgrupie) zapewnia działanie centralnego twierdzenia granicznego gdy nie ma rozkładu normalnego – szczególnie przy rozkładach skośnych Dla rozkładów symetrycznych ale leptokurtycznych obserwuje się mniejszą moc testu. Dla rozkładów platykurtycznych częściej popełniamy błąd I rodzaju. Słowniczek: Moc testu – prawdopodobieństwo niepopełnienia błędu drugiego rodzaju – nieodrzucenia fałszywej hipotezy zerowej Kurtoza – miara spłaszczenia rozkładu wartości cechy Źródło wykresu: http://statystykaopisowa.com/kurtoza/

Analiza wariancji – Rozkład zmiennej zależnej Minimalna wielkość próby? Minimum absolutne, aby program wykonał test: N-k > 0 Minimum zalecane w naukach przyrodniczych 5-7 w podgrupie Najlepiej? Jak najwięcej, co najmniej 30 w podgrupie Możemy sprawdzać zmienną zależną w każdej podgrupie lub rozkład wszystkich reszt modelu (przy dużej liczbie grup) lub małej liczebności próby

Brak jednorodności wariancji Sprawdzamy czy nie ma obserwacji odstających w grupach Dokonujemy transformacji zmiennej zależnej Wykluczamy grupę, w której wariancja różni się od pozostałych Stosujemy test nieparametryczny Używamy korekty Welcha lub Brown-Forsythe’a – poprawki do statystyki F uwzględniającej nierówne wariancji. Stosowane wymiennie, jednak test Welcha jest bardziej konserwatywny i ma większą moc. SPSS: Analiza → porównywanie średnich → Jednoczynnikowa ANOVA → opcje → Welch

Przewidywanie struktury drugorzędowej białka Przykładowe metody: CF AVG (Chou-Fasman, dev. 1970s) – prawdopodobieństwo wystąpienia aminokwasu w danej strukturze GOR (Garnier-Osguthorpe-Robson, dev. Late 1978, after CF) – jak wyżej, ale statystyka Bayesowska PHD (dev. 1993) – generuje wielokrotne dopasowania sekwencji z obecnymi w bazie Czy wszystkie metody dają podobne wyniki?

Dane Czy metoda wyznaczania struktury drugorzędowej białka ma wpływ na dokładność? Białko Metoda Dokładność Ubikwityna CF AVG 0.467 GOR 0.745 PHD 0.868 DeoxyHb 0.472 0.844 0.879 Rab5c 0.405 0.704 0.787 Prealbumina 0.449 0.772 0.78 RBP 0.49 0.764 0.853 Dane przekształcone, źródło: Seefeld K.,Linder E. 2007. Statistics Using R with Biological Examples

Przewidywanie struktury drugorzędowej białka Problem badawczy: Różnica w dokładności jest obserwowana, ale czy istotna? Jakim dotychczas poznanym testem możemy zweryfikować hipotezę?

Założenia

Wyniki Przykładowy zapis: F(2,12)=104,128; p<0.001 Wystąpiły istotne różnice między średnimi w porównywanych grupach Różnice pomiędzy którymi grupami są istotne?

Testy Post-Hoc równoliczne grupy, równe wariancje Testy post-hoc wykonujemy, kiedy różnice pomiędzy grupami są istotne. Tukey, nazwy alternatywne: Po polsku: UIR – test Uczciwie Istotnych Różnic Po angielsku: HSD – Honestly Significant Differences Test pierwszego wyboru przy spełnionych założeniach. Podobny do poprawki Bonferroniego, ale ma większą moc przy dużej liczbie porównań. Inne popularne testy: Dunnett, Duncan

Testy Post-Hoc nierównoliczne grupy, równe wariancje LSD Fishera, nazwy alternatywne: Po polsku: NIR – Najmniejsza Istotna Różnica Po polsku: LSD – Least Squared Difference Polega na wykonaniu k(k-1)/2 testów t-studenta bez poprawki Bardzo liberalny test, stosowany pomocniczo Bonferroni Polega na wykonaniu k(k-1)/2 testów t-studenta z poprawką na liczbę porównań Poprawka polega na podzieleniu błędu pierwszego rodzaju (α) na liczbę porównań Nie zakłada się równoliczności grup Konserwatywny, większa moc przy małej liczbie porównań Sheffe – jak wyżej, ale dzieli α na 2 * k(k-1)/2. Najbardziej konserwatywny.

Testy Post-Hoc nierównoliczne grupy, nierówne wariancje C Dunnetta Porównania stosowany przy niespełnionych założeniach dla równości wariancji T2 Tamhane’a Konserwatywny test stosowany przy niespełnionych założeniach dla równości wariancji

Wyniki - testy Post-hoc

Wyniki - testy Post-hoc

Zadania Irysy: Czy działki kielicha różnią się istotnie pomiędzy gatunkami Irysów? źródło: R, pakiet datasets WitD3: Czy istnieje różnica w ekspresji receptorów CD14 pod wpływem witaminy D3 i jej analogów w zależności od zastosowanej terapii oraz mutacji w linii komórkowej? źródło: R, pakiet PBImisc

Źródła Podręczniki: Bedyńska S., Cypryańska M. 2013. Statystyczny drogowskaz. Praktyczne Wprowadzenie do analizy wariancji. Wydawnictwo akademickie SEDNO. Biecek P. 2013. Analiza danych z programem R. Modele liniowe z efektami stałymi, losowymi, mieszanymi. Wydawnictwo naukowe PWN. Olech W., Wieczorek M. 2003. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW. Seefeld K.,Linder E. 2007. Statistics Using R with Biological Examples. https://cran.r-project.org/doc/contrib/Seefeld_StatsRBio.pdf Wybrane grafiki + polecana lektura poza podręcznikami: http://blog.minitab.com/blog/adventures-in-statistics-2/understanding-analysis-of- variance-anova-and-the-f-test