SAS Zintegrowany system programów do:

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

I część 1.
BADANIE KORELACJI ZMIENNYCH
BIOSTATYSTYKA I METODY DOKUMENTACJI Ćwiczenie 1
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Wykład 13 Estymacja wartości oczekiwanej zmiennej zależnej.
Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń
Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
ANALIZA WSPÓŁZALEŻNOŚCI
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 8 Testy Studenta Jest kilka różnych testów Studenta. Mają one podobną strukturę ale służą do testowania różnych hipotez i różnią się nieco postacią.
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA
Analiza wariancji ANOVA efekty główne
Analiza współzależności dwóch zjawisk
Średnie i miary zmienności
Elementy statystyki dla lekarzy Planowanie badań i zbieranie danych
Plan na dziś Ogólny model liniowy (GLM) Model mieszany (MIXED)
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Rozkłady wywodzące się z rozkładu normalnego standardowego
Testy nieparametryczne
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Modelowanie ekonometryczne
Statystyka – zadania 4 Janusz Górczyński.
Hipotezy statystyczne
Korelacja rang.
Warlubie, r.. Wyniki egzaminów gimnazjalnych szkół powiatu świeckiego w roku 2011 w kontekście wyników kraju, województwa i innych powiatów.
Kilka wybranych uzupelnień
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Statystyka ©M.
Podstawy statystyki, cz. II
Ekonometria stosowana
Analiza wariancji ANOVA czynnikowa ANOVA
Planowanie badań i analiza wyników
Ekonometryczne modele nieliniowe
Seminarium licencjackie Beata Kapuścińska
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Statystyka medyczna Piotr Kozłowski
Analiza wariancji ANOVA czynnikowa ANOVA
Statystyczna analiza danych
Korelacje dwóch zmiennych. Korelacje Kowariancja.
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 11
Jednorównaniowy model regresji liniowej
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Analiza współzależności zjawisk
MIARY STATYSTYCZNE Warunki egzaminu.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Zapis prezentacji:

SAS Zintegrowany system programów do: wprowadzania, zarządzania, manipulowania i prezentacji danych analizy statystycznej i matematycznej wspomagania dezycji wspomagania projektów ...i.t.d

Organizacja danych 1. Opis zmiennych 2. Dane rasa wagaP wagaK ID IMIE 1023 Pirat spaniel 24 22 1049 Aniel jamnik 18 16 1219 Rabuś 26 24.5 1246 Lotna 19 18.5 1078 Docent 22.7

Tworzenie zbioru danych DATA psiklub; INPUT idno imie $ rasa $ wagap wagak ; utrata = wagap – wagak ; CARDS ; 1023 Pirat spaniel 24 22 1049 Aniel jamnik 18 16 1219 Rabuś 26 24.5 1246 Lotna 19 18.5 1078 Docent 22.7 ; Psiklub to dane tymczasowe. Isnieją tylko w tej sesji

INPUT idno imie $ rasa $ wagap wagak ; utrata = wagap – wagak ; RUN ; Wczytywanie danych z pliku DATA psiklub ; INFILE ‘mojedane.txt’ INPUT idno imie $ rasa $ wagap wagak ; utrata = wagap – wagak ; RUN ;

Wczytujemy rekordy o różnej długości 1023 Pirat spaniel 5 24 22 1049 Aniel jamnik 18 16 1219 Rabuś 7 26 24.5 1246 Lotna 19 18.5 1078 Docent 6 26 22.7 @=trzymaj ten rekord dopóki zdecyduję jak go przeczytać DATA psiklub ; INFILE ‘mojedane.txt’ INPUT idno imie $ rasa $ @; SELECT (rasa); WHEN ( ‘spaniel’ ) INPUT wiek wagap wagak ; OTHERWISE INPUT wagap wagak ; END ; RUN ;

Język SASa Deklaracje (statements) Wyrażenia (expressions) Funkcje Opcje Formaty

Reguły dla nazw bazy danych i zmiennych 1-8 znaków Pierwszy znak to litera albo podkreślnik „_” Nie ma przerw

Kroki DATA i PROC DATA ... ; . . . PROC / DATA / RUN PROC ... ; . . .

Wydruk danych PROC PRINT DATA=psiklub ; TITLE ‘Pieski z naszego klubu’ ; RUN ;

Poszerzanie danych DATA psiklub_2 ; SET psiklub ; procent_utracone = utrata / wagap * 100 ; RUN;

Podstawowe statystyki MEANS MEANS liczy: N minimum maximum średnią odch. std. PROC MEANS DATA=psiklub_2 ; RUN ; PROC MEANS DATA=psiklub_2 ; VAR wagap ; RUN ; PROC MEANS DATA=psiklub_2 ; VAR wagap wagak; CLASS rasa ; TITLE ‘Wagi psów w poszczególnych rasach’; RUN ;

Sortowanie danych PROC SORT DATA=psiklub_2 ; BY rasa ; RUN ; BY rasa wagak ; RUN ;

Więcej statystyk opisowych UNIVARIATE PROC SORT DATA=psiklub_2 ; BY rasa ; PROC UNIVARIATE ; VAR utrata ; ID imie ; RUN ; Imiona 5 psów o najwyższej i najniższej utracie wagi tabela częstości i różne wykresy PROC UNIVARIATE FREQ ; PROC UNIVARIATE PLOT;

Korelacje CORR PROC CORR data=psiklub PEARSON SPEARMAN; VAR wagap wagak ; TITLE ‘Korelacja między wagami’ ; RUN ; Korelacje Spearmana to korelacje między rankingami dla dwóch cech.

Ranking RANK PROC RANK DATA=psiklub DESCENDING; VAR wagap wagak ; RANKS rank1 rank2 ; RUN ; rank1 rank2 1023 Pirat spaniel 24 22 2 2 3 1049 Aniel jamnik 18 16 2 5 5 1219 Rabuś spaniel 26 24.5 1.5 1 1 1246 Lotna jamnik 19 18.5 0.5 4 4 1078 Docent spaniel 26 22.7 3.5 3 2

Standaryzacja zmiennych STANDARD DATA nowedane ; SET psiklub ; wagastd = wagap ; PROC STANDARD DATA=nowedane mean=0 std=1 OUT = danestd ; VAR wagastd ; RUN;

Dane sklasyfikowane Analiza pakietem SAS

Zmienne nieciągłe o ograniczonej liczbie wartości Ulubiony kolor? Zielony, czerwony, żółty Który mąż? Pierwszy, drugi, trzeci (Można uporządkować) Ocena: 0 – 9 pkt. niedostateczna 10 – 19 mierna 20 – 29 dostateczna

Dwie zmienne - tabele kontyngencji Contingency to uwarunkowanie Tabela 2×2 Chore Zdrowe RAZEM Świnie szczepione 10 65 75 Grupa kontrolna 20 55 30 120 150

Świnie przydzielono losowo do dwóch grup po 75 osobników Chore Zdrowe RAZEM Świnie szczepione 10 65 75 Grupa kontrolna 20 55 30 120 150 Wartości stałe Wartości losowe

U stu losowo wybranych świń zbadano DNA i mięso CC CT TT RAZEM Mięso kwaśne 12 31 13 56 Mięso dobre 15 14 44 27 45 28 100 Wartości losowe Wartości losowe

Zbadano wszystkie świnie w chlewni (251) CC CT TT RAZEM Mięso kwaśne 29 73 28 130 Mięso dobre 62 30 121 91 102 58 251 Wartości stałe Wartości stałe

Interesujące pytania Jakie są częstości w poszczególnych podgrupach? Czy istnieje zależność między dwoma kryteriami podziału na grupy? Jaka jest siła zależności?

FREQ PROC FREQ OPCJE ; BY zmienna TABLES zmienna*zmienna*… / OPCJE WEIGHT zmienna

Wczytanie liczebności @@ = trzymaj wczytaną linię dla następnej iteracji DATA swinie ; DO grupa = 1 TO 2 ; DO stan = 1 TO 2 ; INPUT liczba @@ ; OUTPUT ; END ; CARDS ; 10 65 20 55 ; Chore Zdrowe RAZEM Świnie szczepione 10 65 75 Grupa kontrolna 20 55 30 120 150

PROC FREQ DATA=swinie ; WEIGHT liczba ; TABLES grupa * stan ; RUN ;

Test niezależności dwóch zmiennych H0: Czy świnia jest zdrowa czy chora nie zależy od szczepienia. H1: Jest zależność między stanem zdrowia a szczepieniem Test Chi-kwadrat dla niezależności dwóch zmiennych (grupujących) St. swobody = (W-1)×(K-1)

PROC FREQ DATA = swinie ; WEIGHT liczba ; TABLES grupa * stan / CHISQ ; RUN ;

Statystyki Chi-kwadrat – rozważa różnice między częstościami obserwowanymi i oczekiwanymi. Dla tablicy 2 na 2 to może być test między proporcjami. Hipotezą alternatywną jest ta o ogólnej asocjacji. Chi-kw. ilorazu wiarogodności – interpretacja podobna jak przy chi-kwadrat. Poprawka uciągl chi-kwadrat – jak chi-kwadrat ale z pewną poprawką, przydatną gdy próba jest mała

Statystyki – c.d. Chi-kwadrat Mantela-Haenszela – Hipotezą alternatywną jest ta o liniowej asocjacji między zmiennymi. Zmienne muszą być na skali porządkowej! Test dokładny Fishera – liczy P obserwowania wyników, które dają co najmniej tyle dowodów na asocjacje ile te rzeczywiście obserwowane, pod warunkiem, że H0 jest prawdą. Sumy wierszy i kolumn są traktowane jako stałe. Hipoteza alternatywna to ta o asocjacji ogólnej. Poprawka uciągl chi-kwadrat – jak chi-kwadrat, ale z pewną poprawką przydatną gdy próba jest mała

Dokładny (exact) test Fishera Kiedy liczba obserwacji na 1 st. swobody jest < 5 Badania wśród 10 najlepszych studentów Uczestnictwo w wykładach Opinia o wykładach Nieciekawe Przeciętne Interesujące Fascynujące Rzadko 0-5 2 1 Czasami 5-10 Często 10-15 Stopnie swobody = 2 × 3 = 6 Liczba obserwacji = 10

DATA studenci ; INPUT uczestnictwo $ opinia $ ; CARDS ; rzadko nieciekawe rzadko przeciętne czasami przeciętne czasami interesujące często interesujące często fascynujące ; PROC FREQ ; TABLES uczestnictwo * opinia / EXACT ; RUN ; Wczytywanie surowych danych!

Miary asocjacji Współczynnik FI Współczynnik wielodzielczości P Tablica 2×2 -1 ≤ Fi ≤ 1 Inne 0 ≤ Fi ≤ 1 Współczynnik wielodzielczości P 0 ≤ P ≤ 1 Wartość V Cramera Tablica 2×2 -1 ≤ V ≤ 1 Inne V = Fi

Miary asocjacji między zmiennymi uporządkowanymi Gamma Tau-b Kendalla Tau-c Stuarta Korelacja Pearsona Korelacja Spearmana Inne

Uwarstwione tablice kontyngencji Chlewnia grupa chore zdrowe ---------------------------------------------------------- A szczepiona 10 65 kontrolna 20 55 B szczepiona 8 52 kontrolna 12 48 C szczepiona 23 77 kontrolna 38 62

H0: W żadnej chlewni nie ma zależności między szczepieniem i stanem zdrowotnym H1: Jest pewna zależność Statystyki testowe Cochrana-Mantela-Haenszela

DATA swinie ; INPUT chlewnia $ grupa $ stan $ liczba ; CARDS ; A szczepiona chore 10 A szczepiona zdrowe 65 A kontrolna chore 20 A kontrolna zdrowe 55 B szczepiona chore 8 B szczepiona zdrowe 52 B kontrolna chore 12 B kontrolna zdrowe 48 C szczepiona chore 23 C szczepiona zdrowe 77 C kontrolna chore 38 C kontrolna zdrowe 62 ; PROC FREQ ; TABLES chlewnia * grupa * stan / CMH ; WEIGHT liczba ; RUN ; Kolejność!!! Badamy zależność między grupą i stanem zdrowia biorąc poprawkę na chlewnię

Statystyka 1 Statystyka korelacji H1: W co najmniej jednej chlewni jest liniowa zależność między zmiennymi Dotyczy zmiennych, które można uporządkować, np: kolejny poród a liczba prosiąt w miocie

Statystyka 2 Statystyka średnich w wierszach (ANOVA) H1: W co najmniej jednej warstwie średnie w wierszach różnią się Warunek: drugą (ostatnią) zmienną można uporządkować, np: stan zdrowotny a liczba prosiąt w miocie

Statystyka 3 Ogólna statystyka skojarzenia H1: W co najmniej jednej chlewni jest jakaś zależność między zmiennymi Niezależne od typu zmiennych Wniosek: W co najmniej jednej chlewni istnieje zależność między szczepieniami i stanem zdrowia.

Można kontrolować więcej zmiennych PROC FREQ ; TABLES sezon * chlewnia * grupa * stan / CMH ; WEIGHT liczba ; RUN ;

Uwaga Statystyki CMH rzadko wykrywają zależność jeżeli jej kierunek jest różny w poszczególnych populacjach (warstwach).

Zadanie 1 Testowano nowy lek dla owiec. Chore owce podzielono na dwie grupy po 20 sztuk: grupę leczoną i kontrolną. Owce leczone Grupa kontrolna wyleczone 15 7 chore 5 13 Sformułuj hipotezę H0 Zastosuj test chi-kwadrat Wyciągnij wnioski.

Zadanie 2 Efektywność Średnia ocen >4.0 >3.5 3.0 Wyniki badań nad powiązaniem średnich wyników na studiach i efektywnością pracy nowych pracowników. Przeanalizowano 90 pracowników: Efektywność Średnia ocen >4.0 >3.5 3.0 > przeciętna 19 8 3 przeciętna 9 12 15 < przeciętna 6 5 13 Czy są dowody na takie powiązanie?

Zadanie 3 Wyniki badań nad powiązaniem mutacji w genie leptyny świni i poziomem leptyny we krwi CC wysoki CC średni CT wysoki CC niski CT średni CT niski TT niski TT średni Sformułuj hipotezę H0 Wczytaj surowe dane! Ile jest stopni swobody? Przeprowadź test typu EXACT Zinterpretuj wynik

Zadanie dla chętnych Testowano skuteczność leku na pacjentach w 4 klinikach Klinika Stan zdrowia Pogorszenie Bez zmian Poprawa 1 Placebo Lek 10 12 15 14 17 2 6 4 20 22 3 7 5 25 Przeanalizuj skuteczność leku, uwzględniając fakt, że leczenie przeprowadzano w czterech różnych klinikach.