Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)

Slides:

Advertisements

Podobne prezentacje

Regresja i korelacja materiały dydaktyczne.

Advertisements

Excel Narzędzia do analizy regresji

Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.

Estymacja. Przedziały ufności.

Wykład 9 Analiza wariancji (ANOVA)

Wykład 5 Standardowy błąd a odchylenie standardowe

Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej.

Wykład 11 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn)

Wykład 10 Rozważmy populacje i jej podgrupy.

Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.

Analiza współzależności zjawisk

Analiza wariancji jednoczynnikowa

Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia

Analiza korelacji.

Wykład 7 Przedział ufności dla 1 – 2

Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby

Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego

Wykład 8 Testy Studenta Jest kilka różnych testów Studenta. Mają one podobną strukturę ale służą do testowania różnych hipotez i różnią się nieco postacią.

Wykład 14 Liniowa regresja

Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.

Wykład 5 Przedziały ufności

Wykład 12 Statystyczny model dla jednoczynnikowej ANOVy

Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego

Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn) Kolor oczu czerwonefioletowe Rozmiar skrzydła normalne3911 mniejsze1832.

Wykład 11 Analiza wariancji (ANOVA)

Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.

Wykład 4 Przedziały ufności

Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.

Analiza współzależności dwóch zjawisk

Średnie i miary zmienności

Korelacja, autokorelacja, kowariancja, trendy

Hipotezy statystyczne

Testy nieparametryczne

Elementy Rachunku Prawdopodobieństwa i Statystyki

Konstrukcja, estymacja parametrów

Testowanie hipotez statystycznych

Analiza współzależności cech statystycznych

dr hab. Ryszard Walkowiak prof. nadzw.

Elementy Rachunku Prawdopodobieństwa i Statystyki

Rozkłady wywodzące się z rozkładu normalnego standardowego

Testy nieparametryczne

BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:

Testy nieparametryczne

Elementy Rachunku Prawdopodobieństwa i Statystyki

Modelowanie ekonometryczne

Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:

Podstawy statystyki, cz. II

Planowanie badań i analiza wyników

FUNKCJE Opracował: Karol Kara.

Wykład 16 Inne zagadnienia z prostej regresji liniowej.

Regresja wieloraka.

Dopasowanie rozkładów

Wykład 5 Przedziały ufności

Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.

Statystyczna analiza danych w praktyce

Statystyczna analiza danych

Statystyczna analiza danych

Statystyczna analiza danych

STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.

Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.

STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.

STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

STATYSTYKA – kurs podstawowy wykład 11

Rozkład z próby Jacek Szanduła.

Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)

Jednorównaniowy model regresji liniowej

Analiza współzależności zjawisk

Zapis prezentacji:

Wykład 13 Przykład z muszkami (krzyżówka wsteczna CcNn z ccnn) Kolor oczu czerwone fioletowe Rozmiar skrzydła normalne 39 11 mniejsze 18 32

Uzupełniamy tabelkę wartościami oczekiwanymi przy Ho Kolor oczu Suma czerwone fioletowe Kształt skrzydła normalne 39 ( ) 11 ( ) 50 mniejsze 18 ( ) 32 ( ) 57 43 100

Czy w badanej populacji muszek kolor oczu i kształt skrzydła są zmiennymi niezależnymi ? p1 = Pr(czerwone oczy | normalne skrzydła), p2 = Pr(czerwone oczy | mniejsze skrzydła), H0: p1 = p2 ; kolor oczu i rozmiar skrzydła są niezależne HA: p1  p2 ; kolor oczu i rozmiar skrzydła są zmiennymi zależnymi

Zastosujemy test chi-kwadrat dla niezależności 2s =  (O-E)2/E ma przy H0 rozkład 21 . Testujemy na poziomie  = 0.05; odrzucamy gdy 2s > 3.84 = 2critical X2 = Wniosek

Nie możemy jednak powiedzieć, że czerwone oczy powodują, że muszka ma normalne skrzydła. Prawidłowy wniosek to obserwacja, że kolor oczu i kształt skrzydła są zmiennymi zależnymi albo, że u muszek z normalnymi skrzydłami częściej występują czerwone oczy niż u muszek z mniejszymi skrzydłami. Nie możemy formułować wniosku przyczynowego ponieważ nie kontrolujemy analizowanych zmiennych a jedynie je obserwujemy. [W tym wypadku zależność wynika z faktu, że geny determinujące kształt oczu i rozmiar skrzydła leżą na jednym chromosomie.]

Tablice wielodzielcze: rk r rzędów, k kolumn: rk Analiza analogiczna do tablic 22. Przykład: 34 (r = 3 ; k = 4 )

Kolor włosów Suma Brązowe Czarne Jasne Rude Kolor oczu 438 (331.7) 288 (154.1) 115 (356.5) 16 (14.6) 857 Szare/ Zielone 1387 (1212.3) 746 (563.3) 946 (1303.0) 53 (53.4) 3132 Niebieskie 807 (1088.0) 189 (505.6) 1768 (1169.5) 47 (48.0) 2811 2632 1223 2829 116 6800

Czy kolor oczu i włosów są zmiennymi zależnymi? H0: Kolor włosów i kolor oczu to zmienne niezależne HA: Kolor oczu i kolor włosów to zmienne zależne Wykonujemy test niezależności chi-kwadrat 2 = (O-E)2/E ma przy H0 rozkład 26. {df = (r-1)(k-1) = (2)(3) = 6}

Testujemy na poziomie  = .0005. Wartość krytyczna 26 = . Wniosek

Estymator dla Pr(Oczy niebieskie) = Estymator dla Pr(Oczy niebieskie| włosy brązowe) = Estymator dla Pr(Oczy niebieskie | czarne włosy) = Estymator dla Pr(Oczy niebieskie | jasne włosy) = Estymator dla Pr(Oczy niebieskie | rude włosy) =

Testowanie niezależności odpowiada testowaniu, że odpowiednie p-stwa warunkowe są te same w każdej klasie. Gdy testujemy niezależność w dużych tabelach to na ogół nie zapisujemy H0 za pomocą p-stw warunkowych Przypomnienie założeń: Próby losowe Obserwacje niezależne "E" w każdej komórce musi być  5

Dokładny test Fishera Stosujemy dla małych rozmiarów prób Przykład : ECMO ECMO to ``nowa’’ procedura służąca ratowaniu noworodków cierpiących na poważne zaburzenia pracy układu oddechowego. CMT – konwencjonalna terapia

Zabieg Wynik CMT ECMO Suma Zgon 4 1 5 Życie 6 28 34 10 29 39

H0: wynik nie zależy od zabiegu Znajdziemy warunkowe p-stwo zaobserwowanych wyników przy ustalonych ``sumach’’ w rzędach i kolumnach (przy H0 ). Przypomnijmy symbol Newtona - – na tyle sposobów można wybrać zbiór k elementowy ze zbioru n elementowego

Na ile sposobów dokładnie 4 dzieci spośród 5 z tych które ``miały’’ umrzeć mogło przypadkowo zostać przyporządkowanych do grupy CMT – Na ile sposobów dokładnie 6 dzieci spośród 34 z tych które ``miały’’ przeżyć mogło przypadkowo zostać przyporządkowanych do grupy CMT – Na ile sposobów 10 dzieci spośród 39 mogło przypadkowo zostać przyporządkowanych do grupy CMT –

HA: ECMO jest lepsza niż CMT Przypadki bardziej ekstremalne w kierunku alternatywy # liczba śmierci = CMT:4, ECMO:1  CMT:5, ECMO:0 P-wartość = Wniosek

Przedziały ufności dla różnicy między p-stwami warunkowymi W tabelach 2x2, wyrażamy H0 jako p1 = p2 Przykład z lekarstwem p1 = Pr(poprawa | lekarstwo), p2 = Pr(poprawa | placebo).

Przybliżony 95% PU dla p1-p2 wynosi W przykładzie z lekarstwami

PU dla p1-p2 wynosi Mamy 95% pewności, że p-stwo poprawy po zażyciu lekarstwa jest większe od p-stwa poprawy po zażyciu placebo o co najmniej i nie więcej niż o W ogólności do konstrukcji przedziałów ufności na poziomie (1–) stosujemy Z/2 (zamiast 1.96) .

Regresja liniowa Dane: pary obserwacji (X, Y), (x1, y1), (x2, y2), …, (xn, yn) Przykłady: X = stężenie, Y = szybkość reakcji X = dawka, Y =odpowiedź X = waga, Y = wzrost X = wyniki z pierwszego kolokwium, Y = wyniki z drugiego kolokwium

Najczęściej mamy jedną losową próbę i obserwujemy dwie zmienne Czasami jedną z tych zmiennych kontrolujemy – wówczas zwykle nazywamy ją X a ``odpowiedź’’ oznaczamy jako Y

Przykład : n = 5 x y (x-x) (y-y) (x-x)* (y-y) xy 14.7+ .79x różnice 5 12 -1 2 -2 60 10.79 1.209 7 11 1 77 9.22 1.780 -4 -8 24 13.15 -1.149 9 63 -0.220 6 3 -12 54 7.65 -1.649 suma 30 50 -22 278 Suma [()2] 28 26 8.714

Wartości brzegowe: Jak zwykle średnie x = x/n, y = y/n Sumy kwadratów: SSX = (x-x)2 = 28 = (n-1) sX2 , SSY = (y-y)2 = 26 = (n-1) sY2 Sx= Sy=

Nowa wielkość: "suma iloczynów“ SPXY = (x –x)(y –y) = Mierzy stopień korelacji między X i Y Gdy SPXY>0 to ``najlepsza’’ prosta opisująca relację między X i Y odpowiada funkcji rosnącej a gdy SPXY <0 , funkcji malejącej. Wygodny wzór do obliczeń SPXY = (xy) – (x)(y)/n = xy – nxy = ,

Model statystyczny Y = 0 + 1 X + błąd losowy Dla ustalonej wartości X, Y jest zmienną losową o wartości oczekiwanej Y|X = 0 + 1 X i odchyleniu standardowym Y|X . Będziemy zakładali, że Y|X nie zależy od X. Nasz cel – estymacja 0 i 1.

1 estymujemy za pomocą b1 = 0 estymujemy za pomocą b0 = y - b1x = Wyestymowana prosta regresji ma wzór

W jakim sensie ta prosta jest najlepsza ? Dla każdej wartości możemy obliczyć wartość y przewidywaną przez daną prostą = b0 + b1 x . Dla każdej pary obserwacji (x,y) obliczamy różnicę między wartością zaobserwowaną y a przewidywaną różnica = y -

Suma kwadratów różnic Definicja: SS(res) = (y- )2 Możemy korzystać ze wzoru SS(res) = SSY - SP2XY /SSX SS(res) =

``Najlepsza’’ prosta to taka, która daje najmniejszą możliwą wartość SS(res) SS(res) mierzy jakość dopasowania

Nie zdążyliśmy Testowanie hipotez dla regresji Standardowe założenie – Błąd ma rozkład normalny Najbardziej interesująca hipoteza to H0: 1 = 0 (Y nie jest skorelowane z X) Można tu stosować test analogiczny do testu Studenta. Warto o tym poczytać.