Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

SAS Zintegrowany system programów do:

Podobne prezentacje


Prezentacja na temat: "SAS Zintegrowany system programów do:"— Zapis prezentacji:

1 SAS Zintegrowany system programów do:
wprowadzania, zarządzania, manipulowania i prezentacji danych analizy statystycznej i matematycznej wspomagania dezycji wspomagania projektów ...i.t.d

2 Organizacja danych 1. Opis zmiennych 2. Dane rasa wagaP wagaK ID IMIE
1023 Pirat spaniel 24 22 1049 Aniel jamnik 18 16 1219 Rabuś 26 24.5 1246 Lotna 19 18.5 1078 Docent 22.7

3 Tworzenie zbioru danych
DATA psiklub; INPUT idno imie $ rasa $ wagap wagak ; utrata = wagap – wagak ; CARDS ; 1023 Pirat spaniel 24 22 1049 Aniel jamnik 18 16 1219 Rabuś 26 24.5 1246 Lotna 19 18.5 1078 Docent 22.7 ; Psiklub to dane tymczasowe. Isnieją tylko w tej sesji

4 INPUT idno imie $ rasa $ wagap wagak ; utrata = wagap – wagak ; RUN ;
Wczytywanie danych z pliku DATA psiklub ; INFILE ‘mojedane.txt’ INPUT idno imie $ rasa $ wagap wagak ; utrata = wagap – wagak ; RUN ;

5 Wczytujemy rekordy o różnej długości
1023 Pirat spaniel 5 24 22 1049 Aniel jamnik 18 16 1219 Rabuś 7 26 24.5 1246 Lotna 19 18.5 1078 Docent 6 26 22.7 @=trzymaj ten rekord dopóki zdecyduję jak go przeczytać DATA psiklub ; INFILE ‘mojedane.txt’ INPUT idno imie $ rasa $ @; SELECT (rasa); WHEN ( ‘spaniel’ ) INPUT wiek wagap wagak ; OTHERWISE INPUT wagap wagak ; END ; RUN ;

6 Język SASa Deklaracje (statements) Wyrażenia (expressions) Funkcje
Opcje Formaty

7 Reguły dla nazw bazy danych i zmiennych
1-8 znaków Pierwszy znak to litera albo podkreślnik „_” Nie ma przerw

8 Kroki DATA i PROC DATA ... ; . . . PROC / DATA / RUN PROC ... ; . . .

9 Wydruk danych PROC PRINT DATA=psiklub ;
TITLE ‘Pieski z naszego klubu’ ; RUN ;

10 Poszerzanie danych DATA psiklub_2 ; SET psiklub ;
procent_utracone = utrata / wagap * 100 ; RUN;

11 Podstawowe statystyki MEANS
MEANS liczy: N minimum maximum średnią odch. std. PROC MEANS DATA=psiklub_2 ; RUN ; PROC MEANS DATA=psiklub_2 ; VAR wagap ; RUN ; PROC MEANS DATA=psiklub_2 ; VAR wagap wagak; CLASS rasa ; TITLE ‘Wagi psów w poszczególnych rasach’; RUN ;

12 Sortowanie danych PROC SORT DATA=psiklub_2 ; BY rasa ; RUN ;
BY rasa wagak ; RUN ;

13 Więcej statystyk opisowych UNIVARIATE
PROC SORT DATA=psiklub_2 ; BY rasa ; PROC UNIVARIATE ; VAR utrata ; ID imie ; RUN ; Imiona 5 psów o najwyższej i najniższej utracie wagi tabela częstości i różne wykresy PROC UNIVARIATE FREQ ; PROC UNIVARIATE PLOT;

14 Korelacje CORR PROC CORR data=psiklub PEARSON SPEARMAN;
VAR wagap wagak ; TITLE ‘Korelacja między wagami’ ; RUN ; Korelacje Spearmana to korelacje między rankingami dla dwóch cech.

15 Ranking RANK PROC RANK DATA=psiklub DESCENDING; VAR wagap wagak ;
RANKS rank1 rank2 ; RUN ; rank1 rank2 1023 Pirat spaniel 1049 Aniel jamnik 1219 Rabuś spaniel 1246 Lotna jamnik 1078 Docent spaniel

16 Standaryzacja zmiennych STANDARD
DATA nowedane ; SET psiklub ; wagastd = wagap ; PROC STANDARD DATA=nowedane mean=0 std=1 OUT = danestd ; VAR wagastd ; RUN;

17 Dane sklasyfikowane Analiza pakietem SAS

18 Zmienne nieciągłe o ograniczonej liczbie wartości
Ulubiony kolor? Zielony, czerwony, żółty Który mąż? Pierwszy, drugi, trzeci (Można uporządkować) Ocena: 0 – 9 pkt. niedostateczna 10 – mierna 20 – 29 dostateczna

19 Dwie zmienne - tabele kontyngencji
Contingency to uwarunkowanie Tabela 2×2 Chore Zdrowe RAZEM Świnie szczepione 10 65 75 Grupa kontrolna 20 55 30 120 150

20 Świnie przydzielono losowo do dwóch grup po 75 osobników
Chore Zdrowe RAZEM Świnie szczepione 10 65 75 Grupa kontrolna 20 55 30 120 150 Wartości stałe Wartości losowe

21 U stu losowo wybranych świń zbadano DNA i mięso
CC CT TT RAZEM Mięso kwaśne 12 31 13 56 Mięso dobre 15 14 44 27 45 28 100 Wartości losowe Wartości losowe

22 Zbadano wszystkie świnie w chlewni (251)
CC CT TT RAZEM Mięso kwaśne 29 73 28 130 Mięso dobre 62 30 121 91 102 58 251 Wartości stałe Wartości stałe

23 Interesujące pytania Jakie są częstości w poszczególnych podgrupach?
Czy istnieje zależność między dwoma kryteriami podziału na grupy? Jaka jest siła zależności?

24 FREQ PROC FREQ OPCJE ; BY zmienna TABLES zmienna*zmienna*… / OPCJE
WEIGHT zmienna

25

26 Wczytanie liczebności
= trzymaj wczytaną linię dla następnej iteracji DATA swinie ; DO grupa = 1 TO 2 ; DO stan = 1 TO 2 ; INPUT liczba ; OUTPUT ; END ; CARDS ; 10 65 20 55 ; Chore Zdrowe RAZEM Świnie szczepione 10 65 75 Grupa kontrolna 20 55 30 120 150

27 PROC FREQ DATA=swinie ;
WEIGHT liczba ; TABLES grupa * stan ; RUN ;

28 Test niezależności dwóch zmiennych
H0: Czy świnia jest zdrowa czy chora nie zależy od szczepienia. H1: Jest zależność między stanem zdrowia a szczepieniem Test Chi-kwadrat dla niezależności dwóch zmiennych (grupujących) St. swobody = (W-1)×(K-1)

29 PROC FREQ DATA = swinie ;
WEIGHT liczba ; TABLES grupa * stan / CHISQ ; RUN ;

30 Statystyki Chi-kwadrat – rozważa różnice między częstościami obserwowanymi i oczekiwanymi. Dla tablicy 2 na 2 to może być test między proporcjami. Hipotezą alternatywną jest ta o ogólnej asocjacji. Chi-kw. ilorazu wiarogodności – interpretacja podobna jak przy chi-kwadrat. Poprawka uciągl chi-kwadrat – jak chi-kwadrat ale z pewną poprawką, przydatną gdy próba jest mała

31 Statystyki – c.d. Chi-kwadrat Mantela-Haenszela – Hipotezą alternatywną jest ta o liniowej asocjacji między zmiennymi. Zmienne muszą być na skali porządkowej! Test dokładny Fishera – liczy P obserwowania wyników, które dają co najmniej tyle dowodów na asocjacje ile te rzeczywiście obserwowane, pod warunkiem, że H0 jest prawdą. Sumy wierszy i kolumn są traktowane jako stałe. Hipoteza alternatywna to ta o asocjacji ogólnej. Poprawka uciągl chi-kwadrat – jak chi-kwadrat, ale z pewną poprawką przydatną gdy próba jest mała

32 Dokładny (exact) test Fishera
Kiedy liczba obserwacji na 1 st. swobody jest < 5 Badania wśród 10 najlepszych studentów Uczestnictwo w wykładach Opinia o wykładach Nieciekawe Przeciętne Interesujące Fascynujące Rzadko 0-5 2 1 Czasami 5-10 Często 10-15 Stopnie swobody = 2 × 3 = 6 Liczba obserwacji = 10

33 DATA studenci ; INPUT uczestnictwo $ opinia $ ; CARDS ; rzadko nieciekawe rzadko przeciętne czasami przeciętne czasami interesujące często interesujące często fascynujące ; PROC FREQ ; TABLES uczestnictwo * opinia / EXACT ; RUN ; Wczytywanie surowych danych!

34

35 Miary asocjacji Współczynnik FI Współczynnik wielodzielczości P
Tablica 2× ≤ Fi ≤ 1 Inne 0 ≤ Fi ≤ 1 Współczynnik wielodzielczości P 0 ≤ P ≤ 1 Wartość V Cramera Tablica 2× ≤ V ≤ 1 Inne V = Fi

36 Miary asocjacji między zmiennymi uporządkowanymi
Gamma Tau-b Kendalla Tau-c Stuarta Korelacja Pearsona Korelacja Spearmana Inne

37 Uwarstwione tablice kontyngencji
Chlewnia grupa chore zdrowe A szczepiona kontrolna B szczepiona kontrolna C szczepiona kontrolna

38 H0: W żadnej chlewni nie ma zależności między szczepieniem i stanem zdrowotnym
H1: Jest pewna zależność Statystyki testowe Cochrana-Mantela-Haenszela

39 DATA swinie ; INPUT chlewnia $ grupa $ stan $ liczba ; CARDS ; A szczepiona chore 10 A szczepiona zdrowe 65 A kontrolna chore 20 A kontrolna zdrowe 55 B szczepiona chore 8 B szczepiona zdrowe 52 B kontrolna chore 12 B kontrolna zdrowe 48 C szczepiona chore 23 C szczepiona zdrowe 77 C kontrolna chore 38 C kontrolna zdrowe 62 ; PROC FREQ ; TABLES chlewnia * grupa * stan / CMH ; WEIGHT liczba ; RUN ; Kolejność!!! Badamy zależność między grupą i stanem zdrowia biorąc poprawkę na chlewnię

40

41 Statystyka 1 Statystyka korelacji
H1: W co najmniej jednej chlewni jest liniowa zależność między zmiennymi Dotyczy zmiennych, które można uporządkować, np: kolejny poród a liczba prosiąt w miocie

42 Statystyka 2 Statystyka średnich w wierszach (ANOVA)
H1: W co najmniej jednej warstwie średnie w wierszach różnią się Warunek: drugą (ostatnią) zmienną można uporządkować, np: stan zdrowotny a liczba prosiąt w miocie

43 Statystyka 3 Ogólna statystyka skojarzenia
H1: W co najmniej jednej chlewni jest jakaś zależność między zmiennymi Niezależne od typu zmiennych Wniosek: W co najmniej jednej chlewni istnieje zależność między szczepieniami i stanem zdrowia.

44 Można kontrolować więcej zmiennych
PROC FREQ ; TABLES sezon * chlewnia * grupa * stan / CMH ; WEIGHT liczba ; RUN ;

45 Uwaga Statystyki CMH rzadko wykrywają zależność jeżeli jej kierunek jest różny w poszczególnych populacjach (warstwach).

46 Zadanie 1 Testowano nowy lek dla owiec. Chore owce podzielono na dwie grupy po 20 sztuk: grupę leczoną i kontrolną. Owce leczone Grupa kontrolna wyleczone 15 7 chore 5 13 Sformułuj hipotezę H0 Zastosuj test chi-kwadrat Wyciągnij wnioski.

47 Zadanie 2 Efektywność Średnia ocen >4.0 >3.5 3.0
Wyniki badań nad powiązaniem średnich wyników na studiach i efektywnością pracy nowych pracowników. Przeanalizowano 90 pracowników: Efektywność Średnia ocen >4.0 >3.5 3.0 > przeciętna 19 8 3 przeciętna 9 12 15 < przeciętna 6 5 13 Czy są dowody na takie powiązanie?

48 Zadanie 3 Wyniki badań nad powiązaniem mutacji w genie leptyny świni i poziomem leptyny we krwi CC wysoki CC średni CT wysoki CC niski CT średni CT niski TT niski TT średni Sformułuj hipotezę H0 Wczytaj surowe dane! Ile jest stopni swobody? Przeprowadź test typu EXACT Zinterpretuj wynik

49 Zadanie dla chętnych Testowano skuteczność leku na pacjentach w 4 klinikach Klinika Stan zdrowia Pogorszenie Bez zmian Poprawa 1 Placebo Lek 10 12 15 14 17 2 6 4 20 22 3 7 5 25 Przeanalizuj skuteczność leku, uwzględniając fakt, że leczenie przeprowadzano w czterech różnych klinikach.


Pobierz ppt "SAS Zintegrowany system programów do:"

Podobne prezentacje


Reklamy Google