Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

R. R – środowisko do manipulowania danymi obliczeń na macierzach analizy statystycznej tworzenia wykresów tworzenia własnych programów, także statystycznych.

Podobne prezentacje


Prezentacja na temat: "R. R – środowisko do manipulowania danymi obliczeń na macierzach analizy statystycznej tworzenia wykresów tworzenia własnych programów, także statystycznych."— Zapis prezentacji:

1 R

2 R – środowisko do manipulowania danymi obliczeń na macierzach analizy statystycznej tworzenia wykresów tworzenia własnych programów, także statystycznych

3 Standardowa instalacja Środowisko + 8 standardowych pakietów statystycznych Inne pakiety można instalować później

4 R pod Linuxem $ mkdir mojkatalog $ cd mojkatalog $ R >… >q( )

5 R w Windows Utwórz mojkatalog W skrócie do R ustaw właściwość Rozpocznij w (np. c:\mojkatalog)

6 Pomoc w R help( table ) lub ?table help.start( ) – odpala przeglądarkę i wyświetla pomoc w postaci strony html help.search – poszukiwanie pomocy na różne sposoby example( temat ) – wyświetla przykład dla danego tematu

7 Jêzyk R A i a to dwie ró¿ne rzeczy Polecenia R ; oddziela kolejne komendy w tym samej linii # ta linia jest niewa¿na ª strzałka przywraca poprzednie komendy

8 Linux source(mojekomendy.R) Windows menu File->Source Zapamiętanie wyników w pliku sink(mojewyniki.txt) sink( ) – wyniki z powrotem na ekran Uruchamianie komend przygotowanych w pliku tekstowym

9 Obiekty czyli liczby, znaki, tabele, funkcje … objects( ) - wyświetla wszystkie bieżące obiekty rm( x, y ) – usuwa obiekty x i y Wszyskie obiekty razem tworzą workspace. Może być zapamiętany w twoim katalogu jeśli zechcesz.

10 Tworzymy wektor liczb (obiekt) assign( x, c( 2.0, 3.0, 4.0 ) ) lub krócej x <- c( 2.0, 3.0, 4.0 ) albo c( 2.0, 3.0, 4.0 ) -> x i dalej Y <- c( x, 0, x ) – razem 7 liczb c oncatenate = powiązać

11 v <- 2 * x + y (x, x, 2) ( y=[x,0,x] ) (v) aRytmetyka

12 + - * / ^ log exp sin cos tan sqrt sqrt( 3^2 ) daje 3 x daje max( x ) daje 4 min( x ) daje 2 length( x ) daje 3 sum( x ) daje 9

13 Funkcje statystyczne mean( x ) daje 3 sum( x ) / length( x ) daje 3 var( x ) daje 1

14 Sekwencje regularne z <- 1:7 daje z <- seq( -1.5, 1.0, by=0.5 ) daje z <- seq( length=4, from=10, by=2 ) daje

15 Wektory znakowe pakiet <- c( SAS, R ) jaki <- c( płatny, darmowy ) A <- paste( pakiet, jaki, sep= jest ) daje SAS jest płatny R jest darmowy

16 Wybieranie z wektora (1) a <- ( pies, kot, mysz, papuga) a[2] kot a[4]papuga a[3:4]mysz papuga

17 Wybieranie z wektora (2) a <- c( 6, 7, 8, 9 ) a[ -(2:3) ] daje 6 i 9 a[ a >= 8 ] daje 8 i 9 a[ a != 7 ] daje 6, 8 i 9 a[ a>6 & a!=8 ] daje 7 i 9 a[ a 8 ] -> b teraz b zawiera 6 i 9

18 Zmienna grupująca (1) styl <- c(jazz, folk, hh, hh, folk ) grupa <- factor( styl ) ; grupa [1] jazz folk hh hh folk Levels: folk hh jazz table( grupa ) folk hh jazz 2 2 1

19 Obliczamy średnie w grupach styl<- c( jazz, folk, hh, hh, folk ) cena <- c( 40, 30, 61, 63, 40 ) grupa <- factor( styl ) ; tapply ( cena, grupa, mean ) daje folk hh jazz

20 Macierze (1) a <- 1: dim( a ) <- c( 2, 3 ) a[ 2, 1 ] <

21 Macierze (2) a b56b56 X<- cbind( a, b ) daje X= X<- rbind( a, a ) daje X=

22 Lista rodzina <- list( tata=Jan, mama=Maria, l.dzieci=3, wiek.dzieci = c(5, 2, 1) ) rodzina[ [2] ] to Maria rodzina[ [4] ] [3] to 1 albo rodzina$tata daje Jan

23 Rama danych Specjalna lista do składowania danych Psy <-read.table( mojplik.txt, header=TRUE ) attach( Psy ) # udostępnia dane NowePsy <- edit( Psy ) #edycja danych IDIMIERASA wagaPwagaK 1049Anieljamnik Rabuśspaniel Lotnajamnik Docentspaniel Gdy pierwszy wiersz danych stanowią nazwy (header) kolumn

24 Dane przykładowe data( ) wypisuje wszystkie bazy danych data( nazwa_danych ) udostępnia dane Jeżeli przykładowe dane są poza pakietem base library( nls ) udostępnia pakiet nls data( ) data( Puromycin ) udostępnia dane

25 data( ) data( chickwts ) attach( chickwts ) chickwts weight feed horsebean horsebean horsebean horsebean horsebean horsebean ………………… Wczytujemy przykładowe dane

26 Podstawowa analiza danych podstawowe statystyki wykres łodyga-liście histogram zgodność z rozkładem normalnym –dystrybuanta emp. i teoretyczna –wykres kwantyl-kwantyl –test Shapiro-Wilka

27 summary( weight ) Min. 1st Qu. Median Mean 3rd Qu. Max

28 stem( weight ) The decimal point is 2 digit(s) to the right of the | 1 | | | | | | | 02 dwie obserwacje: 40… i 42…

29 hist( weight )

30 Tworzymy empiryczną dystrybuantę czyli empirical cumulative distribution function library( stats ) plot( ecdf( weight ) )

31 Nakładamy dystrybuantę teoretyczną rozkładu normalnego srednia <- mean( weight ) odch.std <- sqrt( var( weight ) ) x <- seq( 100, 450, 1 ) gestosc <- pnorm( x, srednia, odch.std ) lines( x, gestosc, col = "red )

32

33 qqnorm( weight ) dodajemy linię prostą qqline( weight ) Porównujemy kwantyle empiryczne i teoretyczne prawa strona jest trochę za krótka

34 library( stats ) shapiro.test( weight ) Shapiro-Wilk normality test data: weight W = , p-value =

35 Porównanie dwóch populacji O rozkładzie normalnym – test t O dowolnym rozkładzie ciągłym – test nieparametryczny Wilcoxona

36 table( feed ) feed casein horsebean linseed meatmeal soybean sunflower

37 Karma roślinna ( bób + soja + siemię lniane + słonecznik ) R <- weight[ feed == 'horsebean' | feed == 'soybean' | feed == 'linseed' | feed == 'sunflower' ] Karma pochodzenia zwierzęcego ( kazeina + mięso ) Z <- weight[ feed == 'casein' | feed == 'meatmeal' ]

38 boxplot( R, Z ) Wykres ramka-wąsy

39 Porównanie dwóch populacji - test t t.test( R, Z ) t = df = p-value =

40 Testujemy jednorodność wariancji var.test( R, Z ) F test to compare two variances data: R and Z F = num df = 47 denom df = 22 p-value =

41 Test t gdy wariancje są równe t.test( R, Z, var.equal=TRUE ) t = , df = 69, p-value =

42 Porównanie dwóch populacji o dowolnych rozkładach ciągłych – test nieparametryczny Wilcoxona H0: populacje mają ten sam rozkład ciągły (medianę) H1: mediany rozkładów są różne Brak założeń o normalności rozkładu! Wygodne! Mniejsza moc! Jeśli można lepiej unormować dane.

43 Testy nieparametryczne analizują rangi Obserwacje w populacjach A i B 12, 13, 15, 16, 17, 17. 5, 19, 28 Rangi A : Rangi B:

44 Przykład dla danych symulowanych A <- rchisq( 100, 1 ) hist(A) B <- rchisq( 100, 5 ) hist(B)

45 Test Wilcoxona wilcox.test( A, B ) Wilcoxon rank sum test with continuity correction data: A and B W = 736 p-value < 2.2e-16 alternative hypothesis: true mu is not equal to 0 Przy obserwacjach nie sparowanych Wilcoxon = Mann-Whitney

46 Porównanie wielu populacji O rozkładzie normalnym – analiza wariancji (ANOVA) O dowolnym rozkładzie ciągłym – test nieparametryczny Kruskal-Wallis

47 boxplot( weight ~ feed, data = chickwts )

48 ANOVA Porównanie dwóch modeli liniowych waga = μ + karma + błąd model1 <- lm( weight ~ 1 + feed, data=chickwts) waga = μ + błąd model2 <- lm( weight ~ 1, data=chickwts)

49 ANOVA anova( model1, model2 ) Analysis of Variance Table Model 1: weight ~ 1 Model 2: weight ~ 1 + feed Res.Df RSS Df Sum of Sq F Pr(>F) e-10 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

50 summary( model1 ) Call: lm(formula = weight ~ 1 + feed, data = chickwts) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** feedhorsebean e-09 *** feedlinseed e-05 *** feedmeatmeal * feedsoybean *** feedsunflower

51 ANOVA - Sprawdzamy założenie bartlett.test( weight ~ feed, data = chickwts ) Bartlett test for homogeneity of variances data: weight by feed Bartlett's K-squared = df = 5 p-value = 0.66

52 Kruskal-Wallis kruskal.test( weight ~ feed, data = chickwts ) Kruskal-Wallis rank sum test Kruskal-Wallis chi-squared = df = 5 p-value = 5.113e-07

53 Zadanie dla chętnych Analizowano wpływ mutacji w genie leptyny (CC, CG, GG) na ekspresję tego genu (poziom mRNA). Zbadano 14 świń i dla każdej wykonano 3 pomiary ekspresji genu. Zbadaj wpływ genu na średni (z trzech pomiarów) poziom leptyny. Wykorzystaj test nieparametryczny. dane22.txt kol 1: genotyp Leptyny kol 2: pomiar 1 kol 3: pomiar 2 kol 4: pomiar 3


Pobierz ppt "R. R – środowisko do manipulowania danymi obliczeń na macierzach analizy statystycznej tworzenia wykresów tworzenia własnych programów, także statystycznych."

Podobne prezentacje


Reklamy Google