Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

SAS Zintegrowany system programów do: wprowadzania, zarządzania, manipulowania i prezentacji danych analizy statystycznej i matematycznej wspomagania dezycji.

Podobne prezentacje


Prezentacja na temat: "SAS Zintegrowany system programów do: wprowadzania, zarządzania, manipulowania i prezentacji danych analizy statystycznej i matematycznej wspomagania dezycji."— Zapis prezentacji:

1 SAS Zintegrowany system programów do: wprowadzania, zarządzania, manipulowania i prezentacji danych analizy statystycznej i matematycznej wspomagania dezycji wspomagania projektów...i.t.d

2 Organizacja danych 1023Piratspaniel Anieljamnik Rabuśspaniel Lotnajamnik Docentspaniel Dane IDIMIE rasawagaPwagaK 1. Opis zmiennych

3 DATA psiklub; INPUT idno imie $ rasa $ wagap wagak ; utrata = wagap – wagak ; CARDS ; 1023Piratspaniel Anieljamnik Rabuśspaniel Lotnajamnik Docentspaniel ; Psiklub to dane tymczasowe. Isnieją tylko w tej sesji Tworzenie zbioru danych

4 DATA psiklub ; INFILE mojedane.txt INPUT idno imie $ rasa $ wagap wagak ; utrata = wagap – wagak ; RUN ; Wczytywanie danych z pliku

5 1023Piratspaniel Anieljamnik Rabuśspaniel Lotnajamnik Docentspaniel Wczytujemy rekordy o różnej długości DATA psiklub ; INFILE mojedane.txt INPUT idno imie $ rasa ; SELECT (rasa); WHEN ( spaniel ) INPUT wiek wagap wagak ; OTHERWISE INPUT wagap wagak ; END ; RUN ten rekord dopóki zdecyduję jak go przeczytać

6 Język SASa Deklaracje (statements) Wyrażenia (expressions) Funkcje Opcje Formaty

7 Reguły dla nazw bazy danych i zmiennych 1-8 znaków Pierwszy znak to litera albo podkreślnik _ Nie ma przerw

8 DATA... ;... PROC / DATA / RUN PROC... ;... PROC / DATA / RUN Kroki DATA i PROC

9 Wydruk danych PROC PRINT DATA=psiklub ; TITLE Pieski z naszego klubu ; RUN ;

10 Poszerzanie danych DATA psiklub_2 ; SET psiklub ; procent_utracone = utrata / wagap * 100 ; RUN;

11 Podstawowe statystyki MEANS PROC MEANS DATA=psiklub_2 ; RUN ; PROC MEANS DATA=psiklub_2 ; VAR wagap ; RUN ; PROC MEANS DATA=psiklub_2 ; VAR wagap wagak; CLASS rasa ; TITLE Wagi psów w poszczególnych rasach; RUN ; MEANS liczy: N minimum maximum średnią odch. std.

12 Sortowanie danych PROC SORT DATA=psiklub_2 ; BY rasa ; RUN ; PROC SORT DATA=psiklub_2 ; BY rasa wagak ; RUN ;

13 Więcej statystyk opisowych UNIVARIATE PROC SORT DATA=psiklub_2 ; BY rasa ; PROC UNIVARIATE ; VAR utrata ; BY rasa ; ID imie ; RUN ; PROC UNIVARIATE FREQ ; PROC UNIVARIATE PLOT; Imiona 5 psów o najwyższej i najniższej utracie wagi tabela częstości i różne wykresy

14 Korelacje CORR PROC CORR data=psiklub PEARSON SPEARMAN; VAR wagap wagak ; TITLE Korelacja między wagami ; RUN ; Korelacje Spearmana to korelacje między rankingami dla dwóch cech.

15 Ranking RANK PROC RANK DATA=psiklub DESCENDING; VAR wagap wagak ; RANKS rank1 rank2 ; RUN ; 1023 Pirat spaniel Aniel jamnik Rabuś spaniel Lotna jamnik Docent spaniel rank1 rank2

16 Standaryzacja zmiennych STANDARD DATA nowedane ; SET psiklub ; wagastd = wagap ; PROC STANDARD DATA=nowedane mean=0 std=1 OUT = danestd ; VAR wagastd ; RUN;

17 Dane sklasyfikowane Analiza pakietem SAS

18 Zmienne nieciągłe o ograniczonej liczbie wartości Ulubiony kolor? Zielony, czerwony, żółty Który mąż? Pierwszy, drugi, trzeci (Można uporządkować) Ocena: 0 – 9 pkt. niedostateczna 10 – 19 mierna 20 – 29 dostateczna

19 Dwie zmienne - tabele kontyngencji Contingency to uwarunkowanie ChoreZdroweRAZEM Świnie szczepione Grupa kontrolna RAZEM Tabela 2×2

20 ChoreZdroweRAZEM Świnie szczepione Grupa kontrolna RAZEM Wartości stałe Wartości losowe Świnie przydzielono losowo do dwóch grup po 75 osobników

21 CCCTTTRAZEM Mięso kwaśne Mięso dobre RAZEM Wartości losowe U stu losowo wybranych świń zbadano DNA i mięso

22 CCCTTTRAZEM Mięso kwaśne Mięso dobre RAZEM Wartości stałe Zbadano wszystkie świnie w chlewni (251)

23 Interesujące pytania 1.Jakie są częstości w poszczególnych podgrupach? 2.Czy istnieje zależność między dwoma kryteriami podziału na grupy? 3.Jaka jest siła zależności?

24 FREQ PROC FREQ OPCJE ; BY zmienna TABLES zmienna*zmienna*… / OPCJE WEIGHT zmienna

25

26 Wczytanie liczebności DATA swinie ; DO grupa = 1 TO 2 ; DO stan = 1 TO 2 ; INPUT liczba ; OUTPUT ; END ; CARDS ; ; ChoreZdroweRAZEM Świnie szczepion e Grupa kontrolna RAZEM = trzymaj wczytaną linię dla następnej iteracji

27 PROC FREQ DATA=swinie ; WEIGHT liczba ; TABLES grupa * stan ; RUN ;

28 Test niezależności dwóch zmiennych H0: Czy świnia jest zdrowa czy chora nie zależy od szczepienia. H1: Jest zależność między stanem zdrowia a szczepieniem Test Chi-kwadrat dla niezależności dwóch zmiennych (grupujących) St. swobody = (W-1)×(K-1)

29 PROC FREQ DATA = swinie ; WEIGHT liczba ; TABLES grupa * stan / CHISQ ; RUN ;

30 Statystyki Chi-kwadrat – rozważa różnice między częstościami obserwowanymi i oczekiwanymi. Dla tablicy 2 na 2 to może być test między proporcjami. Hipotezą alternatywną jest ta o ogólnej asocjacji. Chi-kw. ilorazu wiarogodności – interpretacja podobna jak przy chi-kwadrat. Poprawka uciągl chi-kwadrat – jak chi-kwadrat ale z pewną poprawką, przydatną gdy próba jest mała

31 Statystyki – c.d. Chi-kwadrat Mantela-Haenszela – Hipotezą alternatywną jest ta o liniowej asocjacji między zmiennymi. Zmienne muszą być na skali porządkowej! Test dokładny Fishera – liczy P obserwowania wyników, które dają co najmniej tyle dowodów na asocjacje ile te rzeczywiście obserwowane, pod warunkiem, że H0 jest prawdą. Sumy wierszy i kolumn są traktowane jako stałe. Hipoteza alternatywna to ta o asocjacji ogólnej. Poprawka uciągl chi-kwadrat – jak chi-kwadrat, ale z pewną poprawką przydatną gdy próba jest mała

32 Dokładny (exact) test Fishera Kiedy liczba obserwacji na 1 st. swobody jest < 5 Uczestnictwo w wykładach Opinia o wykładach NieciekawePrzeciętneInteresująceFascynujące Rzadko Czasami Często Stopnie swobody = 2 × 3 = 6 Liczba obserwacji = 10 Badania wśród 10 najlepszych studentów

33 DATA studenci ; INPUT uczestnictwo $ opinia $ ; CARDS ; rzadko nieciekawe rzadko przeciętne czasami przeciętne czasami interesujące często interesujące często fascynujące ; PROC FREQ ; TABLES uczestnictwo * opinia / EXACT ; RUN ; Wczytywanie surowych danych!

34

35 Miary asocjacji Współczynnik FI Tablica 2×2 -1 Fi 1 Inne0 Fi 1 Współczynnik wielodzielczości P 0 P 1 Wartość V Cramera Tablica 2×2 -1 V 1 InneV = Fi

36 Miary asocjacji między zmiennymi uporządkowanymi Gamma Tau-b Kendalla Tau-c Stuarta Korelacja Pearsona Korelacja Spearmana Inne

37 Uwarstwione tablice kontyngencji Chlewnia grupachorezdrowe Aszczepiona1065 kontrolna Bszczepiona852 kontrolna Cszczepiona2377 kontrolna3862

38 H0: W żadnej chlewni nie ma zależności między szczepieniem i stanem zdrowotnym H1: Jest pewna zależność Statystyki testowe Cochrana-Mantela- Haenszela

39 DATA swinie ; INPUT chlewnia $ grupa $ stan $ liczba ; CARDS ; A szczepiona chore 10 A szczepiona zdrowe 65 A kontrolna chore 20 A kontrolna zdrowe 55 B szczepiona chore 8 B szczepiona zdrowe 52 B kontrolna chore 12 B kontrolna zdrowe 48 C szczepiona chore 23 C szczepiona zdrowe 77 C kontrolna chore 38 C kontrolna zdrowe 62 ; PROC FREQ ; TABLES chlewnia * grupa * stan / CMH ; WEIGHT liczba ; RUN ; Kolejność!!! Badamy zależność między grupą i stanem zdrowia biorąc poprawkę na chlewnię

40

41 Statystyka 1 Statystyka korelacji H1: W co najmniej jednej chlewni jest liniowa zależność między zmiennymi Dotyczy zmiennych, które można uporządkować, np: kolejny poród a liczba prosiąt w miocie

42 Statystyka 2 Statystyka średnich w wierszach (ANOVA) H1: W co najmniej jednej warstwie średnie w wierszach różnią się Warunek: drugą (ostatnią) zmienną można uporządkować, np: stan zdrowotny a liczba prosiąt w miocie

43 Statystyka 3 Ogólna statystyka skojarzenia H1: W co najmniej jednej chlewni jest jakaś zależność między zmiennymi Niezależne od typu zmiennych Wniosek: W co najmniej jednej chlewni istnieje zależność między szczepieniami i stanem zdrowia.

44 Można kontrolować więcej zmiennych PROC FREQ ; TABLES sezon * chlewnia * grupa * stan / CMH ; WEIGHT liczba ; RUN ;

45 Uwaga Statystyki CMH rzadko wykrywają zależność jeżeli jej kierunek jest różny w poszczególnych populacjach (warstwach).

46 Zadanie 1 Testowano nowy lek dla owiec. Chore owce podzielono na dwie grupy po 20 sztuk: grupę leczoną i kontrolną. Owce leczoneGrupa kontrolna wyleczone157 chore513 (a) Sformułuj hipotezę H0 (b) Zastosuj test chi-kwadrat (c) Wyciągnij wnioski.

47 Zadanie 2 Wyniki badań nad powiązaniem średnich wyników na studiach i efektywnością pracy nowych pracowników. Przeanalizowano 90 pracowników: EfektywnośćŚrednia ocen >4.0> > przeciętna1983 przeciętna91215 < przeciętna6513 Czy są dowody na takie powiązanie?

48 Zadanie 3 Wyniki badań nad powiązaniem mutacji w genie leptyny świni i poziomem leptyny we krwi CC wysoki CC średni CT wysoki CC niski CT wysoki CC niski CT średni CT niski TT niski CC średni TT niski CC wysoki TT średni 1.Sformułuj hipotezę H0 2.Wczytaj surowe dane! 3.Ile jest stopni swobody? 4.Przeprowadź test typu EXACT 5.Zinterpretuj wynik

49 Zadanie dla chętnych Testowano skuteczność leku na pacjentach w 4 klinikach KlinikaStan zdrowia PogorszenieBez zmian Poprawa 1Placebo Lek Placebo Lek Placebo Lek Placebo Lek Przeanalizuj skuteczność leku, uwzględniając fakt, że leczenie przeprowadzano w czterech różnych klinikach.


Pobierz ppt "SAS Zintegrowany system programów do: wprowadzania, zarządzania, manipulowania i prezentacji danych analizy statystycznej i matematycznej wspomagania dezycji."

Podobne prezentacje


Reklamy Google