Statystyka Powtorzenie

Slides:

Advertisements

Podobne prezentacje

Regresja i korelacja materiały dydaktyczne.

Advertisements

Excel Narzędzia do analizy regresji

Analiza wariancji jednoczynnikowa

Skale pomiarowe – BARDZO WAŻNE

BUDOWA MODELU EKONOMETRYCZNEGO

Jak mierzyć asymetrię zjawiska?

Analiza współzależności

Statystyka w doświadczalnictwie

Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.

Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia

Analiza korelacji.

Wykład 14 Liniowa regresja

Metody Przetwarzania Danych Meteorologicznych Wykład 4

Korelacje, regresja liniowa

Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.

Wykład 4. Rozkłady teoretyczne

Korelacja, autokorelacja, kowariancja, trendy

Jednoczynnikowa analiza wariancji (ANOVA)

Hipotezy statystyczne

Analiza wariancji jednoczynnikowa

Testy nieparametryczne

Konstrukcja, estymacja parametrów

Testowanie hipotez statystycznych

Analiza współzależności cech statystycznych

i jak odczytywać prognozę?

Ekonometria. Co wynika z podejścia stochastycznego?

BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:

Analiza wariancji jednoczynnikowa.

Testy nieparametryczne

Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2

Prognozowanie z wykorzystaniem modeli ekonometrycznych

Modelowanie ekonometryczne

Hipotezy statystyczne

Zagadnienia regresji i korelacji

Kilka wybranych uzupelnień

Statystyka i opracowanie wyników badań

Planowanie badań i analiza wyników

Regresja wieloraka.

Seminarium licencjackie Beata Kapuścińska

Testowanie hipotez statystycznych

Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów

Dopasowanie rozkładów

Wnioskowanie statystyczne

Statystyka medyczna Piotr Kozłowski

Weryfikacja hipotez statystycznych

Estymatory punktowe i przedziałowe

Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski

Podstawowe pojęcia i terminy stosowane w statystyce

Statystyczna analiza danych w praktyce

Testowanie hipotez Jacek Szanduła.

Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.

Statystyczna analiza danych

Model ekonometryczny Jacek Szanduła.

Statystyczna analiza danych

Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,

Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.

ze statystyki opisowej

Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”

Modele nieliniowe sprowadzane do liniowych

STATYSTYKA – kurs podstawowy wykład 11

Wstęp do regresji logistycznej

Statystyka matematyczna

Statystyka matematyczna

Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja.

Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)

Jednorównaniowy model regresji liniowej

Analiza niepewności pomiarów Zagadnienia statystyki matematycznej

MIARY STATYSTYCZNE Warunki egzaminu.

Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.

Korelacja i regresja liniowa

Zapis prezentacji:

Statystyka Powtorzenie Dr Wioleta Drobik-Czwarno

Populacja Próba Parametry Statystyki EX, µ D2X, δ2 S2 DX, δ S p ρ r średnia D2X, δ2 S2 DX, δ S p w ρ r ... wnioskowanie

Proces modelowania ma charakter iteracyjny i multidyscyplinarny Jak powstaje Model matematyczny Dane uzyskane na podstawie modelu Dane eksperymentalne Rozwiązanie i weryfikacja modelu Problem badawczy Helen M. Byrne (2010), Nature Reviews Cancer Sformułowanie modelu matematycznego Proces modelowania ma charakter iteracyjny i multidyscyplinarny

Etapy analizy statystycznej Problem badawczy Hipotezy badawcze Wybór próby i narzędzi badawczych Gromadzenie danych Analiza danych Wnioski

Statystyka opisowa (opis próby) Miary położenia (skupienia, tendencji centralnej): średnia arytmetyczna, mediana, dominanta Miary zmienności (rozproszenia, rozrzutu, dyspersji): wariancja, odchylenie standardowe, wskaźnik zmienności Miary asymetrii (skośności): Średnia a mediana Współczynniki asymetrii

Asymetria

Statystyka opisowa „słabe punkty” Badamy zarobki w pewnej niewielkiej firmie: 1500 2000 16000 Średnia = 3500 Mediana=1750 Dominanta =1500

Estymacja badana cecha: masa ciała ryjówki malutkiej badanie nr 1 średnia = 4,8 g badanie nr 2 średnia = 6,2 g badanie nr 3 średnia = 5,1 g

Estymacja przedziałowa (przedziały ufności) P(x1< EX <x2) = 1 - α np.: P(3 < EX < 7) = 0,99 P(4 < EX < 6) = 0,95

Weryfikacja hipotez statystycznych Hipoteza badawcza: leki A i B różnie wpływają na stan kliniczny pacjentów EXA ≠ EXB (na tym nam zależy) Hipoteza statystyczna (H0): lek A i B tak samo wpływają na stan kliniczny pacjentów EXA = EXB (łatwiejsze do zbadania)

Test statystyczny Zbiór reguł postępowania, w wyniku których podejmujemy decyzję o przyjęciu lub odrzuceniu H0. decyzja prawdziwa fałszywa przyjmujemy + błąd II rodzaju (β) moc testu (1-β) 0,8-0,9 odrzucamy błąd I rodzaju poziom istotności (α) 0,05; 0,01

Weryfikacja hipotez „słabe punkty” H0: bezbarwny płyn w naczyniu to woda H1: bezbarwny płyn nie jest wodą Testowanie: testy fizyko-chemiczne (obarczone błędem wykonania) A. odrzucamy H0, przyjmując H1 B. nie możemy odrzucić H0: nie możemy wykluczyć, że płyn w naczyniu jest wodą. Ale czy na pewno to potwierdziliśmy.....

Wybór testu statystycznego Czy istnieje zależność między grupami badawczymi? (tak/nie) Ile mamy grup badawczych? (2/>2) Jaka jest skala pomiarowa zmiennych? (nominalna/porządkowa/ilościowa) Jaki jest rozkład zmiennych? (normalny/inny) Czy wariancje w poszczególnych grupach są jednorodne? (tak/nie)

Analizy statystyczne w R

Przykładowa baza danych Baza „survey” z pakietu MASS Baza zawiera odpowiedzi 237 studentów uniwersytetu Adelaide na pytania zawarte w ankiecie Przykładowe zmienne: Płeć: „Male”, „Female” W.Hnd: praworęczność ”right” lub leworęczność „left”, Pulse (uderzenia serca na minute) Smoke (jak dużo papierosów pali student): „Heavy”,”Regul”, „Occas”, „Never” Height (wzrost w cm) Age (wiek)

Przykładowa baza danych

Cechy jakościowe Tabela liczebności (kontyngencji) Przykład: funkcja table() – zestawienie liczebności w grupach Przykład:

Statystyka opisowa – cechy ilościowe Cechy ilościowe - najważniejsze funkcje: length — długość wektora (liczba elementów) sum — suma elementów wektora max, min— maksymalna i minimalna wartość z wektora mean — średnia arytmetyczna Jeśli podamy dodatkowy parametr trim - to funkcja policzy, średnią po odrzuceniu określonego odsetka wartości skrajnych, np. mean(x,trim=0.1) – to średnia z x po odrzuceniu 10% wartości skrajnych quantile— dowolny kwantyl, np. quantile(x,.5) - to mediana z x, inaczej median(x) sd — odchylenie standardowe var — wariancja moda – wartość występująca najczęściej

Statystyka opisowa Funkcja summary() wyświetla proste podsumowania wektora obserwacji Dla zmiennej jakościowej: Liczebności obserwacji w każdym z możliwych poziomów Dla zmiennej ilościowej: Wektor z wartościami: Minimum Maksimum Średnia Mediana Kwartyle

Statystyka opisowa Wynik funkcji summary() dla przykładowej ramki danych

Wykresy Możliwość wykorzystania jednego z dwóch systemów graficznych Pakiet graphics – wykorzystany w podstawowej wersji R Pakiet grid wykorzystany w dodatkowych pakietach np. lattice, ggplot2 Pakiet graphics Pakiet lattice Pakiet ggplot2 plot(Pulse,Height) xyplot(Height~Pulse) qplot(Pulse,Height)

Wykresy Histogram – przedstawia liczebności obiektów w poszczególnych przedziałach (klasach) danej zmiennej Funkcja hist() Histogram, ustawienia domyślne Zmiana liczby przedziałów (breaks)

Wykresy Wykres pudełkowy – zmienność pojedynczej lub kilku zmiennych Funkcja boxplot() Obserwacje odstające (ang. outliers) - ponad 1,5 przedziału międzykwartylowego (IQR) od kwartyli

Wykresy Wykres rozrzutu – zależności między parą zmiennych ilościowych Funkcja plot() plot(Pulse,Height,col=rainbow(2),pch=19)

Wykresy Najważniejsze argumenty wykresów main – tytuł np. main=„wykres” xlab, ylab - tytuły osi np. xlab=”nazwa osi x” ylim – dolna i górna granica wartości dla osi y np. zakres od 0 do 50 co 5: ylim=c(0,50,5) breaks – liczba przedziałów przy tworzeniu histogramu col - kolory

Testowanie hipotez p-value = prawdopodobieństwo testowe, graniczny poziom istotności Prawdopodobieństwo uzyskania analizowanych danych przy założeniu, że hipoteza zerowa jest prawdziwa Miara prawdopodobieństwa popełnienia błędu pierwszego rodzaju czyli nieodrzucenia fałszywej hipotezy zerowej p-value > 0.05 –brak podstaw do odrzucenia hipotezy zerowej p-value <= 0.05 – istotnie odrzucamy hipotezę zerową p-value <= 0.01 – wysokoistotnie odrzucamy hipotezę zerową

Wybrane testy statystyczne Sprawdzanie czy zmienna ma rozkład normalny Ograniczenia przy powtórzonych wartościach w próbie Test Shapiro-Wilka shapiro.test(x) H0: badana zmienna ma rozkład normalny Wartość empiryczna testu Czyli: 1 x 10^-16 Prawdopodobieństwo testowe < 0.01 więc odrzucamy hipotezę zerową wysokoistotnie Prawdopodobieństwo testowe > 0.05 więc brak podstaw do odrzucenia hipotezy zerowej

Wybrane testy statystyczne Sprawdzanie zgodności rozkładu z założonym (ang. Chi square goodness of fit test) H0: Rozkład jest zgodny z założonym (1:7:1:1) zakładamy, że 70% studentów należy do osób nie palących, a w każdej z pozostałych grup znajduje się po 10% studentów

Wybrane testy statystyczne Test na jednorodność wariancji F-Snedecora var.test(x,y) H0: σ21= σ22

Wybrane testy statystyczne Test na proporcje – mała próba binom.test(x=9,n=20,p=0.2) Oparty na rozkładzie dwumianowym 9 sukcesów w 20 próbach prawdopodobieństwo sukcesu 20% H0: p=0.2

Wybrane testy statystyczne Test na proporcje – duża próba (odpowiednik testu U) Oparty na statystyce Chi-kwadrat prop.test(x=2000,n=100000,p=0.2) 2000 sukcesów w 100 000 prób prawdopodobieństwo sukcesu 20% H0: p=0.2

Wybrane testy statystyczne Test na średnią w jednej populacji Zakłada rozkład normalny Test t-studenta Przykład: Czy średni wzrost studentów był równy 170 cm? t.test(x,mu=170) H0: μ=170

Wybrane testy statystyczne Test na średnią w dwóch populacjach Zakłada rozkład normalny i jednorodność wariancji Test t-studenta Przykład: Czy średnia wzrostu dla studentów obu płci jest taka sama? t.test(wzrost_M,wzrost_F) H0: μ1= μ2

Wybrane testy statystyczne Test na niezależność chi-kwadrat Musimy mieć tabelę liczebności np: Kolejne elementy to gatunek filmowy: sensacyjny, komedia, horror kobiety<-c(21,12,32) mezczyzni<-c(33,22,33) chisq.test(bind(kobiety, mezczyzni)) H0: Cechy są niezależne

Wybrane testy statystyczne Test na niezależność chi-kwadrat Czy częstotliwość palenia tytoniu u studentów zależy od płci?

Korelacja liniowa Pearsona Wybrane testy statystyczne Korelacja liniowa Pearsona Wartości od -1 do +1 Liniowa zależność pomiędzy dwoma zmiennymi ilościowymi funkcja: cor() lub z testem istotności cor.test()

Dr Wioleta Drobik-Czwarno Modele liniowe Dr Wioleta Drobik-Czwarno

Analiza korelacji liniowej to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje zależność?) wsp. korelacji liniowej Pearsona – określa kierunek i siłę zależności

Analiza korelacji liniowej „słabe punkty”

Modele liniowe Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą Zmienne są mierzone na skali ilościowej Cel modelowania: Punktowe lub przedziałowe szacowanie wartości cechy objaśnianej na podstawie zmiennych objaśniających Zrozumienie zależności między obserwowanymi zmiennymi Które zmienne objaśniające, i w jaki sposób, są zależne od zmiennej objaśnianej?

Metoda najmniejszych kwadratów Johann Carl Friedrich Gauss (1777-1855) - Używa metody do prac dotyczących astronomii od roku 1795 Adrien-Marie Legendre (1752 -1833) - Pierwsza opublikowana praca w 1805 r

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów – minimalizowana jest suma reszt czyli kwadratów odchyleń wartości rzeczywistych (Y) od wartości szacowanych cechy (Ŷ) Reszta (e) – różnica między wartością obserwowaną, a szacowaną

Analiza regresji Pierwsze użycie terminu regresja – badania nad dziedziczeniem wzrostu Sir Francis Galton (1822 – 1911)

Analiza regresji Regresją nazywamy funkcję, w której wartość cechy zależnej (objaśnianej) wyrażona jest za pomocą wartości cech niezależnych (objaśniających) Funkcja liniowa: Gdzie: byx – współczynnik regresji, przyrost cechy zależnej przypadający na przyrost o jednostkę cechy niezależnej (współczynnik kierunkowy prostej) ayx – wyraz wolny funkcji regresji (punkt przecięcia linii prostej z osią Y)

Współczynnik regresji prostej Stała regresji (wyraz wolny funkcji)

Regresja liniowa Założenia: Zależność jest liniowa Brak znaczących obserwacji odstających Homoscedastyczność – wariancja reszt, składnika losowego jest taka sama dla wszystkich obserwacji Reszty mają rozkład zbliżony do rozkładu normalnego Regresja wielokrotna: Liczba obserwacji musi być większa, bądź równa liczbie parametrów Brak współliniowości parametrów Nie występuje autokorelacja reszt

Założenia modelu Zależność jest liniowa Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php Sposób weryfikacji: Inspekcja wykresów punktowych Jeżeli założenie nie jest spełnione: transformacja zmiennej zależnej dopasować model nieliniowy

Założenia modelu Brak znaczących obserwacji odstających Sposób weryfikacji: Inspekcja wykresów punktowych, statystyka opisowa, odległość Cooka Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

Normalność reszt Rozkład zakłócenia losowego przekłada się na spodziewany rozkład reszt Weryfikujemy: Normalność rozkładu reszt Homoscedastyczność Analiza jakości dopasowania modelu oraz jego diagnostyka opiera się na analizie reszt

Założenia modelu Homoscedastyczność reszty Żródło: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php homoscedastyczność - stałość wariancji składnika losowego dla poszczególnych wartości zmiennej niezależnej

Założenia modelu Normalność reszt – diagnostyka Histogram oraz wykres kwantyl-kwantyl Testy statystyczne (np. Shapiro-Wilka) tylko jako dodatkowe źródło informacji Źródło: http://support.sas.com/

Normalność reszt Wykres kwantyl-kwantyl – Uwaga na małą liczebność próby ! N = 10 N = 1000 http://onlinestatbook.com/2/advanced_graphs/q-q_plots.html

Normalność reszt Normalność rozkładu reszt Rozkład normalny Tzw. grube ogony - gęstość prawdopodobieństwa na końcach rozkładów jest większa niż w rozkładzie normalnym Normalność rozkładu reszt Rozkład normalny Grube ogony Cienkie ogony

Normalność reszt Asymetria lewostronna Asymetria prawostronna

Możliwości ekstrapolacji Model regresji nie powinien być ekstrapolowany na dane spoza zakresu na których został opracowany https://www.pinterest.com/pin/18929260905651518/

Weryfikacja założeń modelu w R normalność rozkładu reszt, homoscedastyczność normalność rozkładu reszt homoscedastyczność Wpływ pojedynczych obserwacji na szacowany model

Weryfikacja założeń modelu w R Reszty Wartości dopasowane przez model Dla adekwatnego modelu reszty nie powinny zależeć funkcyjnie od zmiennej objaśnianej, powinny mieć średnią warunkową równą zeru, niezależnie od wartości yi

Weryfikacja założeń modelu w R Standaryzowane reszty to reszty dzielone przez ocenę odchylenia standardowego reszt Wariancja reszt powinna być jednorodna i nie powinna zależeć funkcyjnie od wartości dopasowanych przez model obserwacja jakiegokolwiek trendu wskazuje na odstępstwo od założeń jednorodności wariancji niejednorodną wariancję można zredukować przez odpowiednią transformację zmiennych Pierwiastki z modułów standaryzowanych reszt Linia prosta na środku wskazuje na brak zależności wariancji reszt od oszacowanych wartości Wartości dopasowane przez model

Weryfikacja założeń modelu w R Kwantyle empiryczne dla standaryzowanych reszt Wykres kwantyl-kwantyl (ang. Q-Q plot) Inaczej: wykres kwantylowy dla rozkładu normalnego Weryfikacja zgodności z rozkładem teoretycznym Dobre dopasowanie rozkładu teoretycznego do zaobserwowanych wartości w przypadku gdy wykreślane wartości będą tworzyły linię prostą Mała liczebność próby utrudnia lub uniemożliwia prawidłową interpretację Wartości kwantyli rozkładu normalnego odpowiadające resztom

Wartość wpływowa = wysoka odmienność + wysoka dźwignia Weryfikacja założeń modelu w R Odległość Cooka miara stopnia zmiany współczynników regresji, gdyby dany przypadek pominąć w obliczeniach miara wpływu poszczególnych obserwacji na prostą regresji wysoka dźwignia (ang. leverage) – typowa wartość Yi i nietypowa wartość Xi wysoka odmienność (ang. discrepacy) – nietypowa wartość Yi dla typowej wartości Xi Wartość wpływowa = wysoka odmienność + wysoka dźwignia Duża odległość Cooka ( > 1) – duży wpływ na obciążenie równania regresji Dźwignia – miara wpływu obserwacji na ocenę współczynników modelu

Weryfikacja założeń modelu w R

Ocena dopasowania modelu SST = SSR + SSE SST – Suma kwadratów odchyleń całkowitych SSE – suma kwadratów odchyleń nie wyjaśnionych regresją (reszt) SSR – suma kwadratów odchyleń wyjaśnionych regresją Współczynnik determinacji

Współczynnik determinacji Procent wariancji wyjaśnionej przez model Jaki procent zmienności zmiennej zależnej (Y - objaśnianej) jest wyjaśniany za pomocą zmiennej niezależnej (X - objaśniającej) Na ile nasz model wyjaśnia zgromadzone dane pomiarowe? Dla prostej regresji liniowej otrzymujemy podnosząc do kwadratu współczynnik korelacji liniowej Pearsona (r) Przyjmuje wartości od 0 do 1 Im bliżej jedynki tym lepsze dopasowanie modelu do danych Silna zależność od liczby parametrów modelu – aby tego uniknąć liczymy zmodyfikowany R2

Istotność Istotność modelu Istotność współczynników regresji Test F-Snedecora H0: Funkcja regresji jest nieistotna H0 > Funkcja regresji jest istotna Istotność współczynników regresji yx = 0 – istotność współczynnika kierunkowego yx = 0 – istotność wyrazu wolnego Hipotezy weryfikujemy przy pomocy testu t-studenta

Regresja liniowa przykład w R Gen_1 Gen_2 -1.06 -1.08 -0.81 -1.02 -0.48 -0.39 -0.42 -0.30 -0.58 -0.35 -0.24 -0.31 -0.05 -0.18 -0.33 -0.20 0.51 -0.11 -0.53 -0.09 -0.47 0.16 0.10 0.45 0.39 0.53 0.11 0.67 0.52 0.80 0.34 0.87 1.08 0.92 1.21 Zmiana w poziomie ekspresji dwóch genów Czy istnieje zależność pomiędzy poziomem ekspresji analizowanych genów? Czy zależność jest prostoliniowa? Dopasuj model, który opisuje zmianę w poziomie eskpresji genu 2 w zależności od poziomu ekspresji genu 1 Źródło: http://www.jadwigabrzezinska.republika.pl/materialy.html

Regresja liniowa przykład w R Czy istnieje zależność pomiędzy poziomem ekspresji analizowanych genów?

Regresja liniowa przykład w R Współczynnik korelacji Pearsona Istnieje silna zależność (r=0,882; p<0,001) pomiędzy poziomem ekspresji pierwszego genu, a genu drugiego Jak możemy tę zależność scharakteryzować?

Diagnostyka

Diagnostyka

Diagnostyka modelu

Model liniowy w R Funkcja lm: model <- lm(y~x) – wykonuje dopasowanie modelu liniowego, wyznacza oceny współczynników  oraz wylicza wartości reszt summary(model) – funkcja summary dla modelu regresji liniowej. Zwraca dodatkowe informacje i testuje istotność funkcji regresji i współczynników

Model liniowy w R formuła modelu statystyki opisowe dla reszt Ocena wartości współczynników regresji i ich istotność Współczynnik determinacji Poprawiony współczynnik determinacji Błąd standardowy dla reszt Istotność funkcji regresji

Współczynnik determinacji X Y -1,06 -1,08 -1,084 0,000 1,176 -0,81 -1,02 -0,842 0,032 0,708 -0,48 -0,39 -0,521 0,017 0,272 -0,42 -0,463 0,214 -0,3 -0,58 -0,347 0,054 0,120 -0,35 -0,24 -0,395 0,024 0,156 -0,31 -0,05 -0,356 0,094 0,127 -0,18 -0,33 -0,230 0,010 0,053 -0,2 0,51 -0,250 0,577 0,062 -0,11 -0,53 -0,162 0,135 0,026 -0,09 -0,47 -0,143 0,107 0,020 0,16 0,1 0,100 0,45 0,39 0,381 0,145 0,53 0,11 0,459 0,122 0,211 0,67 0,52 0,595 0,006 0,354 0,8 0,34 0,721 0,520 0,87 1,08 0,789 0,085 0,623 0,92 1,21 0,838 0,139 0,702 SSE SSR 1.547 5.500

Regresja liniowa przykład w R Predykcja Wartość obserwowana cechy Y Średnia

Modele liniowe w R Model: Jeżeli funkcja regresji jest istotna, możemy szacować wartości zmiennej zależnej (y) na podstawie wartości zmiennej niezależnej (x) Oszacuj poziom ekspresji genu 2 na podstawie poziomu ekspresji dla genu 1 Gen 1 Predykcja Gen 2 -0,35 -0,24 0,67 0,52 0,92 1,21

Glukoza Za pomocą dwóch różnych urządzeń zmierzono poziom glukozy u 15 pacjentów, Czy uzyskane wyniki są skorelowane?

Pytania pomocnicze Czy model jest istotny? Jak dobre jest dopasowanie modelu? Czy zależność jest prostoliniowa?

Glukoza

Glukoza

Szerokość głowy Analizowano zależność pomiędzy szerokością głowy u starszego oraz młodszego syna. Przeanalizuj wykresy diagnostyczne dla modelu regresji liniowej.

Szerokość głowy Oceń dopasowane modelu Oszacuj szerokość głowy dla młodszego syna, jeżeli dla jego starszego brata ten parametr jest równy 15,5 cm

Ograniczenia modelu regresji liniowej Małe możliwości ekstrapolacji Zmienna objaśniana musi być na skali ilościowej Prosta regresja liniowa – analiza tylko dwóch zmiennych Tylko zależność prostoliniowa – bardzo częsty błąd! Co zamiast prostej regresji liniowej? Regresja wielokrotna – więcej zmiennych objaśniających Uogólnione modele linowe – zmienna objaśniająca Y nie jest cechą o rozkładzie normalnym (np. regresja logistyczna, regresja Poissona)

Źródła Biecek P. 2013. Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW.