Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

R.

Podobne prezentacje


Prezentacja na temat: "R."— Zapis prezentacji:

1 R

2 R – środowisko do manipulowania danymi obliczeń na macierzach
analizy statystycznej tworzenia wykresów tworzenia własnych programów, także statystycznych

3 http://cran.R-project.org Standardowa instalacja
Środowisko + 8 ‘standardowych’ pakietów statystycznych Inne pakiety można instalować później

4 R pod Linuxem $ mkdir mojkatalog $ cd mojkatalog $ R >… >q( )

5 R w Windows Utwórz „mojkatalog”
W skrócie do R ustaw właściwość „Rozpocznij w” (np. c:\mojkatalog)

6 Pomoc w R help( table ) lub ?table
help.start( ) – odpala przeglądarkę i wyświetla pomoc w postaci strony html help.search – poszukiwanie pomocy na różne sposoby example( temat ) – wyświetla przykład dla danego tematu

7 ; oddziela kolejne komendy w tym samej linii # ta linia jest niewa¿na
Jêzyk R A i a to dwie ró¿ne rzeczy Polecenia R ; oddziela kolejne komendy w tym samej linii # ta linia jest niewa¿na ª strzałka przywraca poprzednie komendy

8 Uruchamianie komend przygotowanych w pliku tekstowym
Linux source(„mojekomendy.R”) Windows menu File->Source Zapamiętanie wyników w pliku sink(„mojewyniki.txt”) sink( ) – wyniki z powrotem na ekran

9 Obiekty czyli liczby, znaki, tabele, funkcje …
objects( ) - wyświetla wszystkie bieżące obiekty rm( x, y ) – usuwa obiekty x i y Wszyskie obiekty razem tworzą workspace. Może być zapamiętany w twoim katalogu jeśli zechcesz.

10 concatenate = powiązać
Tworzymy wektor liczb (obiekt) assign( x, c( 2.0, 3.0, 4.0 ) ) lub krócej x <- c( 2.0, 3.0, 4.0 ) albo c( 2.0, 3.0, ) -> x i dalej Y <- c( x, 0, x ) – razem 7 liczb concatenate = powiązać

11 aRytmetyka v <- 2 * x + y + 1 2 3 4 2 3 4 2 (x, x, 2)
(v)

12 aRytmetyka + - * / ^ log exp sin cos tan sqrt sqrt( 3^2 ) daje 3
x daje 2 3 4 max( x ) daje 4 min( x ) daje 2 length( x ) daje 3 sum( x ) daje 9

13 Funkcje statystyczne mean( x ) daje 3 sum( x ) / length( x ) daje 3 var( x ) daje 1

14 Sekwencje regularne z <- 1:7 daje 1 2 3 4 5 6 7
z <- seq( -1.5, 1.0, by=0.5 ) daje z <- seq( length=4, from=10, by=2 ) daje

15 Wektory znakowe pakiet <- c( „SAS”, „R” )
jaki <- c( „płatny”, „darmowy” ) A <- paste( pakiet, jaki, sep=„ jest ” ) daje „SAS jest płatny” „R jest darmowy”

16 Wybieranie z wektora (1)
a <- ( ”pies”, ”kot”, ”mysz”, ”papuga”) a[2] kot a[4] papuga a[3:4] mysz papuga

17 Wybieranie z wektora (2)
a <- c( 6, 7, 8, 9 ) a[ -(2:3) ] daje 6 i 9 a[ a >= 8 ] daje 8 i 9 a[ a != 7 ] daje 6, 8 i 9 a[ a>6 & a!=8 ] daje 7 i 9 a[ a<7 | a>8 ] -> b teraz b zawiera 6 i 9

18 Zmienna grupująca (1) styl <- c(”jazz”, ”folk”, ”hh”, ”hh”, ”folk” ) grupa <- factor( styl ) ; grupa [1] jazz folk hh hh folk Levels: folk hh jazz table( grupa ) folk hh jazz

19 Obliczamy średnie w grupach
styl<- c( ”jazz”, ”folk”, ”hh”, ”hh”, ”folk” ) cena <- c( 40 , , 61 , , ) grupa <- factor( styl ) ; tapply ( cena, grupa, mean ) daje folk hh jazz

20 Macierze (1) a <- 1:6 1 2 3 4 5 6 dim( a ) <- c( 2, 3 ) 1 3 5
a[ 2, 1 ] <- 0

21 Macierze (2) a 1 3 b 5 2 4 6 1 3 5 X<- cbind( a, b ) daje X= 2 4 6
X<- rbind( a, a ) daje X=

22 Lista rodzina <- list( tata=Jan, mama=Maria,
l.dzieci=3, wiek.dzieci = c(5, 2, 1) ) rodzina[ [2] ] to Maria rodzina[ [4] ] [3] to 1 albo rodzina$tata daje Jan

23 Specjalna lista do składowania danych
Rama danych Specjalna lista do składowania danych ID IMIE RASA wagaP wagaK 1049 Aniel jamnik 18 16 1219 Rabuś spaniel 26 24.5 1246 Lotna 19 18.5 1078 Docent 22.7 Gdy pierwszy wiersz danych stanowią nazwy (header) kolumn Psy <-read.table( „mojplik.txt” , header=TRUE ) attach( Psy ) # udostępnia dane NowePsy <- edit( Psy ) #edycja danych

24 Dane przykładowe data( ) wypisuje wszystkie bazy danych
data( nazwa_danych ) udostępnia dane Jeżeli przykładowe dane są poza pakietem base library( nls ) udostępnia pakiet nls data( ) data( Puromycin ) udostępnia dane

25 Wczytujemy przykładowe dane
data( ) data( chickwts ) attach( chickwts ) chickwts weight feed horsebean horsebean horsebean horsebean horsebean horsebean …………………

26 Podstawowa analiza danych
podstawowe statystyki wykres ‘łodyga-liście’ histogram zgodność z rozkładem normalnym dystrybuanta emp. i teoretyczna wykres kwantyl-kwantyl test Shapiro-Wilka

27 Min. 1st Qu. Median Mean 3rd Qu. Max.
summary( weight ) Min. 1st Qu. Median Mean 3rd Qu. Max.

28 stem( weight ) dwie obserwacje: 40… i 42…
The decimal point is 2 digit(s) to the right of the | 1 | 1 | 2 | 2 | 3 | 3 | 4 | 02 dwie obserwacje: 40… i 42…

29 hist( weight )

30 library( stats ) plot( ecdf( weight ) )
Tworzymy empiryczną dystrybuantę czyli empirical cumulative distribution function library( stats ) plot( ecdf( weight ) )

31 Nakładamy dystrybuantę teoretyczną rozkładu normalnego
srednia <- mean( weight ) odch.std <- sqrt( var( weight ) ) x <- seq( 100, 450, 1 ) gestosc <- pnorm( x, srednia, odch.std ) lines( x, gestosc, col = "red„ )

32

33 Porównujemy kwantyle empiryczne i teoretyczne
prawa strona jest trochę za ‘krótka’ qqnorm( weight ) dodajemy linię prostą qqline( weight )

34 library( stats ) shapiro.test( weight ) Shapiro-Wilk normality test data: weight W = , p-value =

35 Porównanie dwóch populacji
O rozkładzie normalnym – test t O dowolnym rozkładzie ciągłym – test nieparametryczny Wilcoxona

36 table( feed ) feed casein horsebean linseed meatmeal soybean sunflower

37 Karma roślinna ( bób + soja + siemię lniane + słonecznik ) R <- weight[ feed == 'horsebean' | feed == 'soybean' | feed == 'linseed' | feed == 'sunflower' ] Karma pochodzenia zwierzęcego ( kazeina + mięso ) Z <- weight[ feed == 'casein' | feed == 'meatmeal' ]

38 Wykres ramka-wąsy boxplot( R, Z )

39 Porównanie dwóch populacji - test t
t.test( R, Z ) t = df = p-value =

40 Testujemy jednorodność wariancji
var.test( R, Z ) F test to compare two variances data: R and Z F = num df = 47 denom df = 22 p-value =

41 Test t gdy wariancje są równe
t.test( R, Z, var.equal=TRUE ) t = , df = 69, p-value =

42 Porównanie dwóch populacji o dowolnych rozkładach ciągłych – test nieparametryczny Wilcoxona
H0: populacje mają ten sam rozkład ciągły (medianę) H1: mediany rozkładów są różne Brak założeń o normalności rozkładu! Wygodne! Mniejsza moc! Jeśli można lepiej ‘unormować’ dane.

43 Testy nieparametryczne analizują rangi
Obserwacje w populacjach A i B 12, 13, 15, 16, 17, 17.5, 19, 28 Rangi A : Rangi B:

44 Przykład dla danych symulowanych
B <- rchisq( 100, 5 ) hist(B) A <- rchisq( 100, 1 ) hist(A)

45 Wilcoxon rank sum test with continuity correction
Test Wilcoxona wilcox.test( A, B ) Wilcoxon rank sum test with continuity correction data: A and B W = 736 p-value < 2.2e-16 alternative hypothesis: true mu is not equal to 0 Przy obserwacjach nie sparowanych Wilcoxon = Mann-Whitney

46 Porównanie wielu populacji
O rozkładzie normalnym – analiza wariancji (ANOVA) O dowolnym rozkładzie ciągłym – test nieparametryczny Kruskal-Wallis

47 boxplot( weight ~ feed, data = chickwts )

48 Porównanie dwóch modeli liniowych
ANOVA Porównanie dwóch modeli liniowych waga = μ + karma + błąd model1 <- lm( weight ~ 1 + feed, data=chickwts) waga = μ + błąd model2 <- lm( weight ~ , data=chickwts)

49 ANOVA anova( model1, model2 ) Analysis of Variance Table
Model 1: weight ~ 1 Model 2: weight ~ 1 + feed Res.Df RSS Df Sum of Sq F Pr(>F) e-10 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

50 lm(formula = weight ~ 1 + feed, data = chickwts) Residuals:
summary( model1 ) Call: lm(formula = weight ~ 1 + feed, data = chickwts) Residuals: Min Q Median Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** feedhorsebean e-09 *** feedlinseed e-05 *** feedmeatmeal * feedsoybean *** feedsunflower

51 ANOVA - Sprawdzamy założenie
bartlett.test( weight ~ feed, data = chickwts ) Bartlett test for homogeneity of variances data: weight by feed Bartlett's K-squared = df = 5 p-value = 0.66

52 Kruskal-Wallis kruskal.test( weight ~ feed, data = chickwts )
Kruskal-Wallis rank sum test Kruskal-Wallis chi-squared = df = 5 p-value = 5.113e-07

53 Zadanie dla chętnych Analizowano wpływ mutacji w genie leptyny (CC, CG, GG) na ekspresję tego genu (poziom mRNA). Zbadano 14 świń i dla każdej wykonano 3 pomiary ekspresji genu. Zbadaj wpływ genu na średni (z trzech pomiarów) poziom leptyny. Wykorzystaj test nieparametryczny. dane22.txt kol 1: genotyp Leptyny kol 2: pomiar 1 kol 3: pomiar 2 kol 4: pomiar 3


Pobierz ppt "R."

Podobne prezentacje


Reklamy Google