Programy hodowlane i pakiety statystyczne dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/ regulamin + program http://jay.au.poznan.pl/~strabel
Plan na dziś Przypomnienie paru terminów i metod statystycznych Podstawy pracy z pakietem Statistica Zadania ćwiczeniowe
Gdzie szukać danych? http://lib.stat.cmu.edu/datasets http/support.sas.com/training/forms/hecftp1.html http://www.amstat.org/publications/jse/datasets/moore/ dane w pakiecie R
Relacje między zmiennymi Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób. Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.
Dwie podstawowe cechy relacji Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża. Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).
Wspólna postać większości testów statystycznych. Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej) Np. wariancja spowodowana wpływem rasy do pozostałej wariancji. Jak duży to musi stosunek, żeby uznać go za istotny?
Czy 40% wyjaśnionej zmienności jest wystarczające do uznania relacji za istotną? Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną. Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności. Czy coś jest istotne czy nie, zależy od poziomu istotności.
Poziom istotności Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji. Malejący wskaźnik wiarygodności rezultatu. Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.
Jaki wynik jest istotny? Graniczny poziom istotności jest sprawą umowną Utrwalona tradycja: p Ł 0.05 – wynik statystycznie istotny p Ł 0.01 – wynik wysoce istotny
Jak wyliczyć poziom istotności? Obliczenia są złożone i różne w różnych przypadkach. Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego. Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).
Rozkład normalny Ma kształt dzwonu i zależy od średniej i odch. stand. 68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej 95% przypadków w przedziale ±2 odch. stand.
Jak stwierdzić czy rozkład jest normalny? Wykresy normalności Testy normalności
Wykres normalności Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y). W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.
Testy normalności Test Kołmogorowa-Smirnowa (znana średnia i wariancja) Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek) Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)
Co, jeżeli zmienna nie ma rozkładu normalnego? Transformacja danych Testy niezależne od rozkładu (nie parametryczne) – mają małą moc! Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?
Centralne twierdzenie graniczne Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.
Jeszcze jeden powód popularności testów opartch na rozkładzie normalnym Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej. Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.
Istotność statystyczna a liczba przeprowadzonych analiz Im więcej analiz przeprowadzimy, tym większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne) 10 zmiennych to 45 korelacji i ok. 2 korelacji z p Ł 0,05 Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?
test t Testowanie pojedynczej średniej Porównanie średnich w dwóch grupach: Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień
Testowanie pojedynczej średniej Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)? Założenie: rozład normalny
Testowanie różnic między dwiema grupami – grupy niezależne Czy rasa wbp i pbz mają różne tempo przyrostu? (Statistica: Test t dla prób niezależnych w grupach) Próby nie muszą być duże, np. po 10 obserwacji. Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .
Testowanie różnic między dwiema grupami – c.d. Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa Nie wszyscy się z tym zgadzają!
Pakiet Statistica
Import danych tekstowych 1 2 3
4 5 Pamiętaj! Zamień kropki na przecinki
Podstawowe statystyki opisowe
Podstawowe statystyki opisowe
Podstawowe statystyki opisowe
Wykres ramka-wąsy
Wykresy rozkładu histogram - słupek proporcjonalny do liczby obserwacji w przedziale wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.: 7° 000038 4 wartości = 7,0 1 wartość = 7,3 1 wartość = 7,8
Histogram – 2 cechy
Wykres łodyga-liść
Rozkład normalny
Cecha o rozkładzie normalnym
Cecha o innym rozkładzie
Testy normalności
Wykresy skategoryzowane Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie. Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.
Wykresy powierzchniowe 3W
Wykresy powierzchniowe 3W - funkcje wygładzania powierzchni Liniowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY). Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia. Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni
Wykres macierzowy
Porównanie średnich
Plasma-Retinol http://lib.stat.cmu.edu/datasets AGE: Age (years) SEX: Sex (1=Male, 2=Female). SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker) QUETELET: Quetelet (weight/(height^2)) VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No) CALORIES: Number of calories consumed per day. FAT: Grams of fat consumed per day. FIBER: Grams of fiber consumed per day. ALCOHOL: Number of alcoholic drinks consumed per week. CHOLESTEROL: Cholesterol consumed (mg per day). BETADIET: Dietary beta-carotene consumed (mcg per day). RETDIET: Dietary retinol consumed (mcg per day) BETAPLASMA: Plasma beta-carotene (ng/ml) RETPLASMA: Plasma Retinol (ng/ml)
Zadania Oblicz średnie Utwórz skategoryzowane (względem nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu Narysuj histogramy spożycia kalorii i cholesterolu Przetestuj normalność spożycia kalorii i cholesterolu Czy płeć różnicuje spożycie alkoholu lub cholesterolu?
Dla chętnych CPS_85_Wages http://lib.stat.cmu.edu/datasets 1. Czy zarobki mają rozkład normalny? 2. Jakie są średnie zarobki i ich zróżnicowanie w grupie mężczyzn i kobiet? 3. Czy zarobki zależą od płci? 4. Czy zawarcie związku małżeńskiego może się przełożyć na zwiększone zarobki? 5. Czy przynależność do związku zawodowego zwiększa zarobki?