Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wykład 12 Statystyczny model dla jednoczynnikowej ANOVy y ij = +γ i + ij, ij ~ niezależne N(0, 2 ) μ- średnia wartość cechy w całej populacji μ i – średnia.

Podobne prezentacje


Prezentacja na temat: "Wykład 12 Statystyczny model dla jednoczynnikowej ANOVy y ij = +γ i + ij, ij ~ niezależne N(0, 2 ) μ- średnia wartość cechy w całej populacji μ i – średnia."— Zapis prezentacji:

1 Wykład 12 Statystyczny model dla jednoczynnikowej ANOVy y ij = +γ i + ij, ij ~ niezależne N(0, 2 ) μ- średnia wartość cechy w całej populacji μ i – średnia dla i-tej grupy γ i = μ i – μ H 0 : 1 = 2 = 3 = … = k jest równoważna H 0 : γ 1 = γ 2 = γ 3 = … = γ k =0

2 Model dwuczynnikowej ANOVy Zrandomizowany układ blokowy Wpływ zabiegu, wpływ bloku Model –Y ijk = + γ i + j + ijk Hipoteza –H 0 : γ 1 = γ 2 = γ 3 = … = γ k =0 (zabieg nie ma wpływu) –H 1 : Nie H 0 (niektóre γ są różne od zera)

3 Rozkład SS Suma kwadratów pomiędzy blokami SS(całkowita) = SS(wewnątrz)+SS(pomiędzy)+ SS(blok) df(całkowita) = df(wewnątrz)+df(pomiędzy)+df(blok) Df(blok)=b-1 = liczba bloków -1

4 Tabela ANOVy Źródło df SS MS statystyka F Between k-1 SSBt MSBt=SSBt/(k-1) Blok b-1 SSBl MSBl= SSBl/(b-1) Within n-k-b+1 SSW MSW=SSW/(n-k-b+1) F=MSBt/MSW Total n-1 SST

5 Przykład (wysokość roślin) Nawóz INawóz IINawóz IIIŚrednia dla bloku Blok Blok Blok Blok Blok n555 Średnia dla zabiegu

6 Budujemy tabelę ANOVy Całkowita średnia = SSBt (SS zabiegu)= MSBt = SSBl (SS bloków)= MSBl =

7 SSW = SST – SSBt – SSBl = df(SSW) =, MSW = F s = MSBt / MSW = df for numerator=, df for denominator= Wartość krytyczna= Decyzja Wniosek

8 Dane jakościowe Obserwacje klasyfikujemy do jakościowych klas Zliczamy liczbę obserwacji w każdej klasie Jeżeli są tylko dwie klasy, to liczba obserwacji w pierszej klasie ma rozkład

9 Jeżeli mamy więcej niż dwie klasy, Możemy się skoncentrować na jednej klasie - rozkład Albo możemy rozważać wszystkie klasy na raz

10 Przypomnienie: p (nieznane) p-stwo sukcesu – np. bycia w klasie 1 n liczba obserwacji. Obserwujemy y = # obserwacji w klasie 1. = y ma rozkład, Jeżeli np i n(1-p) są dość duże to rozkład ten możemy aproksymować rozkładem

11 Rozkład 2 Niech y 1, … y k będą niezależnymi zmiennymi losowymi o rozkładzie N(0,1). Suma kwadratów tych zmiennych ma rozkład 2 k (rozkład chi- kwadrat z k stopniami swobody).

12 Test zgodności chi-kwadrat Rozważymy przypadek danych jakościowych Mamy próbę składającą się z n niezależnych obserwacji Będziemy testowali hipotezę o p-stwach należenia do poszczególnych klas Do obliczania wartości krytycznych skorzystamy z przybliżenia, które działa dla dużych rozmiarów prób.

13 Liczymy oczekiwaną liczbę obserwacji w każdej klasie: n p i (p i – założone p-stwo ``bycia w i-tej klasie) Test możemy stosować gdy oczekiwana liczba obserwacji w każdej z klas jest niemniejsza niż 5. Test jest w założeniu podobny do testu znaków ale nie wykorzystuje rozkładu dwumianowego.

14 Prosty przypadek: dwie klasy Np. samiec/samica, tak/nie, sukces/porażka, poprawa/pogorszenie, itd. Badamy model genetyczny dziedziczenia pewnej cechy. Mamy dwie linie homozygotyczne muszki Drosophila, jedną z czerwonymi oczami i jedną z fioletowymi oczami. Sugeruje się, że za kolor oczu odpowiedzialny jest tylko jeden gen i że allel oczu czerwonych dominuje nad allelem oczu fioletowych.

15 Jeżeli założona hipoteza jest prawdziwa to w krzyżówce F2 stosunek liczby muszek z czerwonymi oczami do liczby muszek z fioletowymi oczami powinien być w przybliżeniu równy Aby zweryfikować tę hipotezę wyhodowano 43 muszki z populacji F2 (wykorzystując kilku rodziców z linii homozygotycznych). 29 z tych muszek miało czerwone oczy a 14 fioletowe oczy.

16 Klasy: Czerwone oczy; hipotetyczne p-stwo p = oczekiwana liczba: E1 = Fioletowe oczy; hipotetyczne p-stwo p = Oczekiwana liczba: E2 =

17 Czy allel czerwonych oczu dominuje nad allelem fioletowych oczu ? Niech p będzie p-stwem, że muszka w populacji F2 ma czerwone oczy H 0 : p = ; H A :

18 Użyjemy testu zgodności chi-kwadrat 2 s = (O-E) 2 /E przy H0 ma w przybliżeniu rozkład chi-kwadrat z df = #klas - 1 =. Testujemy na poziomie = 0.05 ; Wartość krytyczna = = Tablica wartości krytycznych z książki ``Introduction to the Practice of Statistics, D.S. Moore, G. P. McCabe

19

20 2 s = (zaobserwowana - oczekiwana) 2 / oczekiwana = (O-E) 2 /E = Wniosek:

21 Możemy także testować przeciwko alternatywie kierunkowej np. p < W tym przypadku odrzucamy H0 gdy OBA poniższe warunki sa spełnione: X 2 s > 2 1 (2 ), tzn. < 0.75 (tzn estymator odchyla się od hipotetycznej wartości w tym samym kierunku co H A )

22 Więcej niż 2 klasy U słodkiego groszku allel fioletowego koloru kwiatów (F) jest dominujący nad allelem czerwonego koloru (C) a allel wydłużonych ziaren pyłku (d) jest dominujący nad allelem okrągłych ziaren (o). Mamy P1 rodziców homozygotycznych z allelami dominującymi (FFdd) i P2 rodziców homozygotycznych z allelami recesywnymi (CCoo). W generacji F1 wszystkie groszki mają genotypy ( ) i mają Groszki z populacji F1 krzyżujemy i dostajemy populację F2. Przypuszcza się, że geny kontrolujące obie cechy są odległe o 20 cM. Jeżeli jest to prawdą to w populacji F2 poszczególne fenotypy powinny występować w proporcjach 67.44:7.56:7.56:17.44

23 67.44% fioletowe/wydłużone FFdd albo FCdd albo FFdo albo FCdo, [( )/4] 7.56% fioletowe/okrągłe : FFoo albo FCoo, [(2 - 2 )/4] 7.56% czerwone/wydłużone = CCdd albo CCLdo, [(2 - 2 )/4] 17.44% czerwone/okrągłe = CCoo, [(1- ) 2 /4], Gdzie = (p-stwo rekombinacji). Wyhodowano 381 osobników z populacji F2 i zaobserwowano 284 fioletowe/wydłużone 21 fioletowe/okrągłe 21 czerwone/wydłużone 55 czerwone/okrągłe

24 Czy geny są w odległości 20 cM ? Niech p 1, p 2, p 3, p 4 będą p-stwami odpowiednio fioletowe/wydłużone, fioletowe/okragłe, czerwone/wydłużone, czerwone/okrągłe w populacji F2. H 0 : p 1 =0.6744, p 2 = , p 3 =0.0756, p 4 = ; p-stwa poszczególnych klas odpowiadają odległości 20 cM. H A : p-stwa klas nie odpowiadają odległości 20 cM.

25 Użyjemy testu chi-kwadrat, df = #klas - 1 = 2 s = (O-E) 2 /E ma przy H 0 rozkład Testujemy na poziomie = 0.05; Wartość krytyczna = Wartości oczekiwane liczby obserwacji w każdej klasie przy H 0 (n p i ):

26 2 s = Wniosek:

27 Podsumowanie testu chi-kwadrat zgodności Definiujemy p i dla każdej klasy i formułujemy hipotezę. Jeżeli są tylko dwie klasy to alternatywę można łatwo opisać za pomocą wzoru, może ona też być kierunkowa.

28 Jeżeli mamy więcej niż dwie klasy alternatywę należy opisać słowami. Dla każdej klasy liczymy E i = np i. Sprawdzamy czy wszystkie E i są nie mniejsze niż 5. (Jeżeli nie to nie można stosować testu chi-kwadrat) Liczymy 2 s = (O-E) 2 /E sumując po wszystkich klasach. Porównujemy z wartością krytyczną z rozkładu 2 k-1 ; odrzucamy H 0 gdy statystyka jest większa od wartości krytycznej.

29 Tablice wielodzielcze "2x2, dwa rzędy i dwie kolumny Dane jakościowe z czterema klasami, które można połączyć w pary. Dwie typowe sytuacje: Dwie niezależne próby; w każdej obserwujemy jedną cechę o dwu wartościach Jedna próba; obserwujemy dwie różne cechy z których każda może przyjmować dwie wartości.

30 Przykład sytuacji 1 Próby to lekarstwo i placebo (lub dowolne dwa zabiegi); obserwowana zmienna to poprawa lub brak poprawy. próby samce" i samice" (dowolne dwie grupy, które chcemy porównać); obserwowana zmienna – np. kolor oczu, ``fioletowe i czerwone. Przykład sytuacji 2 obserwujemy kolor oczu" (czerwone/fioletowe) i kształt skrzydła" (normalny/mniejszy) Oberwujemy czy ludzie palą i ćwiczą

31 : Kolor oczu czerwonefioletowe Kszatłt skrzydła normalne3911 mniejsze klasy; obserwacje w tabeli 2x2 Testujemy niezależność zmiennych definiujących rzędy i kolumny. W tym przypadku będzie to odpowiadać testowaniu hipotezy czy oba geny leżą na innych chromosomach.

32 Przykład (wstępny): Obserwowane zabiegSuma LekarstwoPlacebo WynikPoprawa15419 Brak poprawy Suma262147

33 p 1 = p-stwo, że nastąpi poprawa jeżeli pacjent bierze lekarstwo p 2 = p-stwo, że nastąpi poprawa jeżeli pacjent bierze placebo H 0 : p 1 = p 2 H A : p 1 p 2 ( or p 1 > p 2 )

34 W przeciwieństwie do testu zgodności nie mamy hipotetycznych wartości na p. Zamiast tego, H 0 mówi, że oba p-stwa są takie same. Można to wyrazić w terminach niezależności. H A mówi, że p-stwa są różne co oznacza, że zmienne ``zabieg i wynik nie są niezależne.

35 = = Jakich wartości oczekiwalibyśmy gdyby H 0 była prawdziwa ? Poprawa nastąpiła u 19 pacjentów. Jest to 19/47 = 40.4% wszystkich badanych. 26 pacjentów brało lekarstwo; Jeżeli H 0 jest prawdziwa to u około 40.4% z nich powinna nastąpić poprawa =

36 Podobnie liczba pacjentów u których nastąpiła poprawa mimo, że brali placebo powinna być bliska Ponadto oczekujemy, że nie nastąpiła poprawa u osób biorących lekarstwo i u osób biorących placebo. Te oczekiwane wartości umieszczamy w podobnej tabeli.

37 Oczekiwane zabiegSuma LekarstwoPlacebo WynikPoprawa Brak poprawy Suma262147

38 Ogólnie, E = (suma w rzędzie)(suma w kolumnie)/(całkowita suma ) Dla każdej z czterech klas. Aby stosować test chi-kwadrat E w każdej klasie powinno być nie mniejsze niż 5.

39 Łączymy obie tabele: Oberwowane (Oczekiwane)zabiegSuma LekarstwoPlacebo WynikPoprawa15 (10.5)4 (8.5)19 Brak poprawy 11 (15.5)17 (12.5)28 Suma262147

40 Czy u pacjentów biorących lekarstwo poprawa występuje częściej niż u pacjentów biorących placebo ? p 1 = p-stwo poprawy u pacjentów biorących lekarstwo p 2 = p-stwo poprawy u pacjentów biorących placebo H 0 : p 1 = p 2 ; p-stwo poprawy jest takie samo w obu grupach (albo wynik i zabieg są niezależne). H A : p 1 > p 2 ; p-stwo poprawy jest większe u pacjentów biorących lekarstwo

41 Stosujemy test 2 dla niezależności X 2 s = (O-E) 2 /E przy H 0 ma rozkład 2 1. Testujemy na poziomie istotności = 0.01; odrzucamy H 0 gdy X 2 s > [używamy kolumny 0.02 bo alternatywa jest kierunkowa] [Ponieważ alternatywa jest kierunkowa musimy wykonać kolejny krok]

42 2 s = Wniosek

43 Stopnie swobody df = 1 dla tabeli 2x2. Ogólnie (#rzędów- 1)(#kolumn-1) Wartości krytyczne Gdy H A jest niekierunkowa szukamy w kolumnie, gdy jest kierunkowa w kolumnie 2.

44 Co oznacza odrzucenie H 0 ? Czasami trzeba być ostrożnym przy formułowaniu wniosków. Gdy odrzucamy H 0 to mamy przesłanki aby przypuszczać, że zmienne nie są niezależne, co nie zawsze odpowiada związkowi przyczynowemu. Nasze badanie wskazuje, że stan pacjentów biorących lekarstwo częściej się poprawia niż stan pacjentów biorących placebo. Tutaj kontrolowaliśmy zabieg więc możemy przypuszczać, że istnieje związek przyczynowy. Gdybyśmy jednak testowali niezależność koloru oczu i kształtu skrzydeł u muszek owocówek nie moglibyśmy stwierdzić związku przyczynowego (np. Kolor oczu wpływa na kształt skrzydeł). Możemy tylko powiedzieć że oba fenotypy są zmiennymi zależnymi.


Pobierz ppt "Wykład 12 Statystyczny model dla jednoczynnikowej ANOVy y ij = +γ i + ij, ij ~ niezależne N(0, 2 ) μ- średnia wartość cechy w całej populacji μ i – średnia."

Podobne prezentacje


Reklamy Google