Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Programy hodowlane i pakiety statystyczne
dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/ regulamin + program
2
Plan na dziś Przypomnienie paru terminów i metod statystycznych
Podstawy pracy z pakietem Statistica Zadania ćwiczeniowe
3
Gdzie szukać danych? http://lib.stat.cmu.edu/datasets
http/support.sas.com/training/forms/hecftp1.html dane w pakiecie R
4
Relacje między zmiennymi
Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób. Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.
5
Dwie podstawowe cechy relacji
Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża. Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).
6
Wspólna postać większości testów statystycznych.
Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej) Np. wariancja spowodowana wpływem rasy do pozostałej wariancji. Jak duży to musi stosunek, żeby uznać go za istotny?
7
Czy 40% wyjaśnionej zmienności jest wystarczające do uznania relacji za istotną?
Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną. Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności. Czy coś jest istotne czy nie, zależy od poziomu istotności.
8
Poziom istotności Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji. Malejący wskaźnik wiarygodności rezultatu. Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.
9
Jaki wynik jest istotny?
Graniczny poziom istotności jest sprawą umowną Utrwalona tradycja: p Ł 0.05 – wynik statystycznie istotny p Ł 0.01 – wynik wysoce istotny
10
Jak wyliczyć poziom istotności?
Obliczenia są złożone i różne w różnych przypadkach. Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego. Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).
11
Rozkład normalny Ma kształt dzwonu i zależy od średniej i odch. stand.
68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej 95% przypadków w przedziale ±2 odch. stand.
12
Jak stwierdzić czy rozkład jest normalny?
Wykresy normalności Testy normalności
13
Wykres normalności Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y). W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.
14
Testy normalności Test Kołmogorowa-Smirnowa (znana średnia i wariancja) Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek) Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)
15
Co, jeżeli zmienna nie ma rozkładu normalnego?
Transformacja danych Testy niezależne od rozkładu (nie parametryczne) – mają małą moc! Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?
16
Centralne twierdzenie graniczne
Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.
17
Jeszcze jeden powód popularności testów opartch na rozkładzie normalnym
Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej. Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.
18
Istotność statystyczna a liczba przeprowadzonych analiz
Im więcej analiz przeprowadzimy, tym większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne) 10 zmiennych to 45 korelacji i ok. 2 korelacji z p Ł 0,05 Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?
19
test t Testowanie pojedynczej średniej
Porównanie średnich w dwóch grupach: Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień
20
Testowanie pojedynczej średniej
Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)? Założenie: rozład normalny
21
Testowanie różnic między dwiema grupami – grupy niezależne
Czy rasa wbp i pbz mają różne tempo przyrostu? (Statistica: Test t dla prób niezależnych w grupach) Próby nie muszą być duże, np. po 10 obserwacji. Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .
22
Testowanie różnic między dwiema grupami – c.d.
Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa Nie wszyscy się z tym zgadzają!
23
Pakiet Statistica
24
Import danych tekstowych
1 2 3
25
4 5 Pamiętaj! Zamień kropki na przecinki
27
Podstawowe statystyki opisowe
28
Podstawowe statystyki opisowe
29
Podstawowe statystyki opisowe
30
Wykres ramka-wąsy
31
Wykresy rozkładu histogram - słupek proporcjonalny do liczby obserwacji w przedziale wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.: 7° 4 wartości = 7,0 1 wartość = 7,3 1 wartość = 7,8
32
Histogram – 2 cechy
33
Wykres łodyga-liść
34
Rozkład normalny
35
Cecha o rozkładzie normalnym
36
Cecha o innym rozkładzie
37
Testy normalności
38
Wykresy skategoryzowane
Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie. Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.
42
Wykresy powierzchniowe 3W
43
Wykresy powierzchniowe 3W - funkcje wygładzania powierzchni
Liniowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY). Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia. Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni
44
Wykres macierzowy
45
Porównanie średnich
46
Plasma-Retinol AGE: Age (years) SEX: Sex (1=Male, 2=Female). SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker) QUETELET: Quetelet (weight/(height^2)) VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No) CALORIES: Number of calories consumed per day. FAT: Grams of fat consumed per day. FIBER: Grams of fiber consumed per day. ALCOHOL: Number of alcoholic drinks consumed per week. CHOLESTEROL: Cholesterol consumed (mg per day). BETADIET: Dietary beta-carotene consumed (mcg per day). RETDIET: Dietary retinol consumed (mcg per day) BETAPLASMA: Plasma beta-carotene (ng/ml) RETPLASMA: Plasma Retinol (ng/ml)
47
Zadania Oblicz średnie
Utwórz skategoryzowane (względem nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu Narysuj histogramy spożycia kalorii i cholesterolu Przetestuj normalność spożycia kalorii i cholesterolu Czy płeć różnicuje spożycie alkoholu lub cholesterolu?
48
Dla chętnych CPS_85_Wages http://lib.stat.cmu.edu/datasets
1. Czy zarobki mają rozkład normalny? 2. Jakie są średnie zarobki i ich zróżnicowanie w grupie mężczyzn i kobiet? 3. Czy zarobki zależą od płci? 4. Czy zawarcie związku małżeńskiego może się przełożyć na zwiększone zarobki? 5. Czy przynależność do związku zawodowego zwiększa zarobki?
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.