Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Programy hodowlane i pakiety statystyczne

Podobne prezentacje


Prezentacja na temat: "Programy hodowlane i pakiety statystyczne"— Zapis prezentacji:

1 Programy hodowlane i pakiety statystyczne
dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/ regulamin + program

2 Plan na dziś Przypomnienie paru terminów i metod statystycznych
Podstawy pracy z pakietem Statistica Zadania ćwiczeniowe

3 Gdzie szukać danych? http://lib.stat.cmu.edu/datasets
http/support.sas.com/training/forms/hecftp1.html dane w pakiecie R

4 Relacje między zmiennymi
Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób. Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.

5 Dwie podstawowe cechy relacji
Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża. Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).

6 Wspólna postać większości testów statystycznych.
Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej) Np. wariancja spowodowana wpływem rasy do pozostałej wariancji. Jak duży to musi stosunek, żeby uznać go za istotny?

7 Czy 40% wyjaśnionej zmienności jest wystarczające do uznania relacji za istotną?
Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną. Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności. Czy coś jest istotne czy nie, zależy od poziomu istotności.

8 Poziom istotności Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji. Malejący wskaźnik wiarygodności rezultatu. Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.

9 Jaki wynik jest istotny?
Graniczny poziom istotności jest sprawą umowną Utrwalona tradycja: p Ł 0.05 – wynik statystycznie istotny p Ł 0.01 – wynik wysoce istotny

10 Jak wyliczyć poziom istotności?
Obliczenia są złożone i różne w różnych przypadkach. Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego. Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).

11 Rozkład normalny Ma kształt dzwonu i zależy od średniej i odch. stand.
68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej 95% przypadków w przedziale ±2 odch. stand.

12 Jak stwierdzić czy rozkład jest normalny?
Wykresy normalności Testy normalności

13 Wykres normalności Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y). W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.

14 Testy normalności Test Kołmogorowa-Smirnowa (znana średnia i wariancja) Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek) Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)

15 Co, jeżeli zmienna nie ma rozkładu normalnego?
Transformacja danych Testy niezależne od rozkładu (nie parametryczne) – mają małą moc! Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?

16 Centralne twierdzenie graniczne
Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.

17 Jeszcze jeden powód popularności testów opartch na rozkładzie normalnym
Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej. Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.

18 Istotność statystyczna a liczba przeprowadzonych analiz
Im więcej analiz przeprowadzimy, tym większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne) 10 zmiennych to 45 korelacji i ok. 2 korelacji z p  Ł 0,05 Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?

19 test t Testowanie pojedynczej średniej
Porównanie średnich w dwóch grupach: Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień

20 Testowanie pojedynczej średniej
Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)? Założenie: rozład normalny

21 Testowanie różnic między dwiema grupami – grupy niezależne
Czy rasa wbp i pbz mają różne tempo przyrostu? (Statistica: Test t dla prób niezależnych w grupach) Próby nie muszą być duże, np. po 10 obserwacji. Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .

22 Testowanie różnic między dwiema grupami – c.d.
Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa Nie wszyscy się z tym zgadzają!

23 Pakiet Statistica

24 Import danych tekstowych
1 2 3

25 4 5 Pamiętaj! Zamień kropki na przecinki

26

27 Podstawowe statystyki opisowe

28 Podstawowe statystyki opisowe

29 Podstawowe statystyki opisowe

30 Wykres ramka-wąsy

31 Wykresy rozkładu histogram - słupek proporcjonalny do liczby obserwacji w przedziale wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.: 4 wartości = 7,0 1 wartość = 7,3 1 wartość = 7,8

32 Histogram – 2 cechy

33 Wykres łodyga-liść

34 Rozkład normalny

35 Cecha o rozkładzie normalnym

36 Cecha o innym rozkładzie

37 Testy normalności

38 Wykresy skategoryzowane
Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie. Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.

39

40

41

42 Wykresy powierzchniowe 3W

43 Wykresy powierzchniowe 3W - funkcje wygładzania powierzchni
Liniowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY). Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia. Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni

44 Wykres macierzowy

45 Porównanie średnich

46 Plasma-Retinol AGE: Age (years) SEX: Sex (1=Male, 2=Female). SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker) QUETELET: Quetelet (weight/(height^2)) VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No) CALORIES: Number of calories consumed per day. FAT: Grams of fat consumed per day. FIBER: Grams of fiber consumed per day. ALCOHOL: Number of alcoholic drinks consumed per week. CHOLESTEROL: Cholesterol consumed (mg per day). BETADIET: Dietary beta-carotene consumed (mcg per day). RETDIET: Dietary retinol consumed (mcg per day) BETAPLASMA: Plasma beta-carotene (ng/ml) RETPLASMA: Plasma Retinol (ng/ml)

47 Zadania Oblicz średnie
Utwórz skategoryzowane (względem nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu Narysuj histogramy spożycia kalorii i cholesterolu Przetestuj normalność spożycia kalorii i cholesterolu Czy płeć różnicuje spożycie alkoholu lub cholesterolu?

48 Dla chętnych CPS_85_Wages http://lib.stat.cmu.edu/datasets
1. Czy zarobki mają rozkład normalny? 2. Jakie są średnie zarobki i ich zróżnicowanie w grupie mężczyzn i kobiet? 3. Czy zarobki zależą od płci? 4. Czy zawarcie związku małżeńskiego może się przełożyć na zwiększone zarobki? 5. Czy przynależność do związku zawodowego zwiększa zarobki?


Pobierz ppt "Programy hodowlane i pakiety statystyczne"

Podobne prezentacje


Reklamy Google