Programy hodowlane i pakiety statystyczne

Slides:



Advertisements
Podobne prezentacje
Test zgodności c2.
Advertisements

Wykład 9 Analiza wariancji (ANOVA)
Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.
Porównywanie średnich dwóch prób niezależnych o rozkładach normalnych (test t-studenta)
Analiza wariancji jednoczynnikowa
Zmienne losowe i ich rozkłady
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
Nowy kod Statistica 6.1 HEN6EUEKH8.
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Pakiety statystyczne Maciej Szydłowski (dr)
Niepewności przypadkowe
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Korelacje, regresja liniowa
Test t-studenta dla pojedynczej próby
Próby niezależne versus próby zależne
Test t-studenta dla pojedynczej próby
Analiza wariancji ANOVA efekty główne
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Analiza wariancji.
Jednoczynnikowa analiza wariancji (ANOVA)
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Testy nieparametryczne
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
na podstawie materiału – test z użyciem komputerowo generowanych prób
Testy nieparametryczne
Modelowanie ekonometryczne
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Analiza wariancji ANOVA czynnikowa ANOVA
Statystyka - to „nie boli”
Planowanie badań i analiza wyników
Testy statystycznej istotności
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
Testowanie hipotez statystycznych
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Dopasowanie rozkładów
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
Estymatory punktowe i przedziałowe
Testowanie hipotez Jacek Szanduła.
Statystyczna Analiza Danych SAD2 Wykład 4 i 5. Test dla proporcji (wskaźnika struktury) 2.
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 11
Rozkład z próby Jacek Szanduła.
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Korelacja i regresja liniowa
Test t-studenta dla pojedynczej próby
Zapis prezentacji:

Programy hodowlane i pakiety statystyczne dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/ regulamin + program http://jay.au.poznan.pl/~strabel

Plan na dziś Przypomnienie paru terminów i metod statystycznych Podstawy pracy z pakietem Statistica Zadania ćwiczeniowe

Gdzie szukać danych? http://lib.stat.cmu.edu/datasets http/support.sas.com/training/forms/hecftp1.html http://www.amstat.org/publications/jse/datasets/moore/ dane w pakiecie R

Relacje między zmiennymi Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób. Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.

Dwie podstawowe cechy relacji Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża. Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).

Wspólna postać większości testów statystycznych. Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej) Np. wariancja spowodowana wpływem rasy do pozostałej wariancji. Jak duży to musi stosunek, żeby uznać go za istotny?

Czy 40% wyjaśnionej zmienności jest wystarczające do uznania relacji za istotną? Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną. Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności. Czy coś jest istotne czy nie, zależy od poziomu istotności.

Poziom istotności Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji. Malejący wskaźnik wiarygodności rezultatu. Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.

Jaki wynik jest istotny? Graniczny poziom istotności jest sprawą umowną Utrwalona tradycja: p Ł 0.05 – wynik statystycznie istotny p Ł 0.01 – wynik wysoce istotny

Jak wyliczyć poziom istotności? Obliczenia są złożone i różne w różnych przypadkach. Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego. Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).

Rozkład normalny Ma kształt dzwonu i zależy od średniej i odch. stand. 68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej 95% przypadków w przedziale ±2 odch. stand.

Jak stwierdzić czy rozkład jest normalny? Wykresy normalności Testy normalności

Wykres normalności Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y). W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.

Testy normalności Test Kołmogorowa-Smirnowa (znana średnia i wariancja) Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek) Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)

Co, jeżeli zmienna nie ma rozkładu normalnego? Transformacja danych Testy niezależne od rozkładu (nie parametryczne) – mają małą moc! Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?

Centralne twierdzenie graniczne Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.

Jeszcze jeden powód popularności testów opartch na rozkładzie normalnym Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej. Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.

Istotność statystyczna a liczba przeprowadzonych analiz Im więcej analiz przeprowadzimy, tym większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne) 10 zmiennych to 45 korelacji i ok. 2 korelacji z p  Ł 0,05 Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?

test t Testowanie pojedynczej średniej Porównanie średnich w dwóch grupach: Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień

Testowanie pojedynczej średniej Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)? Założenie: rozład normalny

Testowanie różnic między dwiema grupami – grupy niezależne Czy rasa wbp i pbz mają różne tempo przyrostu? (Statistica: Test t dla prób niezależnych w grupach) Próby nie muszą być duże, np. po 10 obserwacji. Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .

Testowanie różnic między dwiema grupami – c.d. Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa Nie wszyscy się z tym zgadzają!

Pakiet Statistica

Import danych tekstowych 1 2 3

4 5 Pamiętaj! Zamień kropki na przecinki

Podstawowe statystyki opisowe

Podstawowe statystyki opisowe

Podstawowe statystyki opisowe

Wykres ramka-wąsy

Wykresy rozkładu histogram - słupek proporcjonalny do liczby obserwacji w przedziale wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.: 7° 000038 4 wartości = 7,0 1 wartość = 7,3 1 wartość = 7,8

Histogram – 2 cechy

Wykres łodyga-liść

Rozkład normalny

Cecha o rozkładzie normalnym

Cecha o innym rozkładzie

Testy normalności

Wykresy skategoryzowane Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie. Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.

Wykresy powierzchniowe 3W

Wykresy powierzchniowe 3W - funkcje wygładzania powierzchni Liniowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY). Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia. Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni

Wykres macierzowy

Porównanie średnich

Plasma-Retinol http://lib.stat.cmu.edu/datasets AGE: Age (years) SEX: Sex (1=Male, 2=Female). SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker) QUETELET: Quetelet (weight/(height^2)) VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No) CALORIES: Number of calories consumed per day. FAT: Grams of fat consumed per day. FIBER: Grams of fiber consumed per day. ALCOHOL: Number of alcoholic drinks consumed per week. CHOLESTEROL: Cholesterol consumed (mg per day). BETADIET: Dietary beta-carotene consumed (mcg per day). RETDIET: Dietary retinol consumed (mcg per day) BETAPLASMA: Plasma beta-carotene (ng/ml) RETPLASMA: Plasma Retinol (ng/ml)

Zadania Oblicz średnie Utwórz skategoryzowane (względem nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu Narysuj histogramy spożycia kalorii i cholesterolu Przetestuj normalność spożycia kalorii i cholesterolu Czy płeć różnicuje spożycie alkoholu lub cholesterolu?

Dla chętnych CPS_85_Wages http://lib.stat.cmu.edu/datasets 1. Czy zarobki mają rozkład normalny? 2. Jakie są średnie zarobki i ich zróżnicowanie w grupie mężczyzn i kobiet? 3. Czy zarobki zależą od płci? 4. Czy zawarcie związku małżeńskiego może się przełożyć na zwiększone zarobki? 5. Czy przynależność do związku zawodowego zwiększa zarobki?