Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Klasyczny model regresji liniowej (KMRL)

Podobne prezentacje


Prezentacja na temat: "Klasyczny model regresji liniowej (KMRL)"— Zapis prezentacji:

1 Klasyczny model regresji liniowej (KMRL)
Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie Klasyczny model regresji liniowej (KMRL) dr Marta Marszałek

2 Plan cel i wykorzystanie analizy regresjii pojęcie i założenia KMRL
model regresji liniowej funkcja regresji liniowej estymacja przedziałowa (współczynnika regresji liniowej, wyrazu wolnego i prognozy) prognoza przykłady

3 Analiza regresji Cel: opisanie zależności pomiędzy zmiennymi za pomocą funkcji Wykorzystanie: do prognozowania (predykcji) jaką wartość przyjmie zmienna zależna, przy ustalonych wartościach drugiej zmiennej (niezależnej).

4 Z matematyki: funkcja liniowa: 𝑓 𝑥 =𝑎𝑥+𝑏 𝑦=𝑎𝑥+𝑏

5 Dwuwymiarowa zmienna losowa 𝑋,𝑌 , gdzie:. Y – zm. zależna,. X – zm
Dwuwymiarowa zmienna losowa 𝑋,𝑌 , gdzie: Y – zm. zależna, X – zm. niezależna Regresja I rodzaju Y względem X pokazuje jak zmienia się warunkowa wartość oczekiwana zmiennej losowej Y, czyli E(Y/X=xi) w zależności od zmian wartości zmiennej X. Obraz geometryczny tej funkcji to linia regresji I rodzaju, czyli zbiór punktów płaszczyzny [xi, E(Y/X=xi)] Jej przybliżeniem jest wyznaczana na podstawie próby w oparciu o punkty (xi, ȳi) empiryczna krzywa regresji.

6 Punkty o współrz.(xi, ȳi) tworzą empiryczną krzywą regresji.
Przykład: Czytelnicy pisma o gotowaniu w USA: x - liczba wizyt w restauracji y - roczne dochody (tys.$) y x ni. 1 2 3 4 8 10 12 7 n.j 40 Punkty o współrz.(xi, ȳi) tworzą empiryczną krzywą regresji. y Średnie warunkowe: ȳ1=75,83 ȳ2=78,13 ȳ3=74, ȳ4=71, ȳ5=67,5 x

7 Empiryczna krzywa regresji
przypuszczenie o przybliżonym kształcie funkcji regresji nie pozwala na określenie postaci analitycznej tej zależności nie może być wykorzystana do prognozowania (predykcji)

8 Regresja II rodzaju przybliżenie za pomocą funkcji matem
Regresja II rodzaju przybliżenie za pomocą funkcji matem. związku między zmiennymi. Regresja II rodzaju Y względem X: prosta o równaniu Ŷ = αyX+βy , dla której średni kwadrat odchyleń wartości zmiennej Y od tej prostej jest najmniejszy: E{[Y-(αyX+βy)]2} → min. αy - współczynnik regresji liniowej βy - wyraz wolny

9 y x

10 Klasyczny model regresji liniowej
𝑌 = 𝑌 + 𝜀 Y- zmienna zależna 𝑌 - f. regresji II rodzaju – wyrażająca wpływ zmiennej niezależnej X na zmienną Y ε - składnik losowy: zmienna losowa opisująca odchylenia wartości zmiennej zależnej od jej regresji II rodzaju i wyrażająca wpływ wszystkich innych (poza X) czynników oddziałujących na zmienną Y.

11 Klasyczny model regresji liniowej
𝑌 = 𝑌 + 𝜀 , gdzie Y – zmienna zależna 𝑌 – f. regresji II rodzaju ε – składnik losowy inaczej: 𝒀=𝑬(𝒀/𝑿=𝒙) + 𝜺=𝜶𝒙+𝜷 +𝜺 przy czym E(Y/ X=x) = αx + β wartości oczekiwane warunkowych rozkładów zm. losowej Y są liniową funkcją ustalonych wartości zmiennej losowej X D2(Y/X=x)=σ2 wariancja zmiennej losowej Y w jej rozkładach warunkowych jest stała (niezależna od x)

12 Model regresji liniowej
f(y/x) β E(Yj) y xj εj x E(Y/X)=αx +β x1 x2

13 Klasyczny model regresji liniowej
Y = E(Y/X = xi)+εi = αxi + β εi i=1,2,…n wpływ X na Y skł. losowy: wpływ innych czynników Założenia: 1. E(εi ) = brak systematycznego oddziaływania skład. los na zm. Y (f. regresji I rodzaju jest liniowa) 2. D2(εi )=σ wariancje skład. losowego, a zarazem wariancje w warunkowych rozkładach zmiennej Y są takie same ( nie zależą od X) 3. cov(εi,εj)= składniki losowe są nieskorelowane (czynniki, dla i≠j kształtujące zmienną ε nie są ze sobą powiązane w sposób sugerujący jakąś prawidłowość). 4. εi : N(0,σ) rozkłady składnika losowego a zarazem warunkowe rozkłady zmiennej Y są normalne.

14 Cel: określenie matematycznej funkcji (liniowej), która najlepiej określi, jak kształtują się wartości zmiennej losowej zależnej pod wpływem drugiej zmiennej. 𝒀 = 𝜶 𝒙+ 𝜷 Pytanie: Jak wyznaczyć wartości liczbowe 𝜶 i 𝜷 , które są oszacowaniami nieznanych parametrów α i β ? Odpowiedź: Należy zastosować metodę najmniejszych kwadratów (MNK).

15 Wykres rozrzutu punktów empirycznych
y x umożliwia wstępnie wybrać odpowiedni analityczny typ funkcji.

16 MNK pozwala wyznaczyć funkcję położoną „najbliżej” punktów (obserwacji empirycznych)
(xi,yi) yi ŷi xi ei = yi – ŷi (reszta) yi wartość empiryczna y ŷi wartość teoretyczna x

17 Metoda najmniejszych kwadratów (MNK)
Kryterium dopasowania prostej regresji według MNK jest minimalizacja sumy kwadratów reszt: czyli minimalizacja sumy kwadratów różnic pomiędzy wartościami empirycznymi i teoretycznymi.

18 Estymatory uzyskane metodą najmniejszych kwadratów są:
najefektywniejsze (pozwalają szacować parametry α i β klasycznego modelu regresji z najmniejszym błędem standardowym) zgodne nieobciążone (pozwalają szacować parametry α i β klasycznego modelu regresji bez błędów systematycznych) liniowe ang. Best linear unbiased estimator – BLUE

19 Model regresji dla próby (!!!)
Współczynnik regresji: o ile średnio zmieni się wartość zmiennej zależnej y, gdy x zmieni się o jednostkę. wyraz wolny ei = yi -ŷi (reszty) 𝒚𝒊 = 𝜶 𝒙𝒊 + 𝜷 + 𝒆𝒊 [sα̂] [sβ̂] [se] Błędy standardowe Odchylenie standardowe ocen parametrów składnika resztowego

20 Uwaga! Estymtory a parametry

21 Parametr populacji (𝜽)
Estymator vs. parametr Estymator (𝑻𝒏 ) (=statystyka z próby) Parametr populacji (𝜽) (z próby) (liczbowa charakterystyka populacji generalnej) 𝑥 𝑚=𝐸𝑋 𝑆 𝑥 2 𝑆 𝑥 ω 𝜎 2 = 𝐷 2 𝑋 𝜎=𝐷𝑋 𝑝 𝛼 𝛽 wyznaczane na wartości podstawie próby (znane) na ogół nieznane

22 Estymatory parametrów α i β funkcji regresji

23 Estymatory parametrów stochastycznych modelu
Wariancja i odchylenie standardowe składnika resztowego. reszty: ei = yi -ŷi yi – wartości empiryczne ŷi =α̂xi+β̂ - wartości teoretyczne

24 b) Standardowe błędy ocen parametrów α i β – są miarą błędów szacunku parametrów α i β dokonanych za pomocą estymatorów α̂ i β̂

25 Funkcja regresji (!!!) główny składnik modelu regresji;
wyznaczona na podstawie próby losowej lub innych pozastatystycznych przesłanek; parametry tej funkcji podlegają estymacji (szacowaniu) za pomocą procedur ustalonych w ramach teorii korelacji i regresji. 𝒚 = 𝜶 𝒙+ 𝜷

26 Model regresji dla próby – własności (!!!)
∑ŷi = ∑yi ∑ei = 0 przechodzi przez punkt (x̄, ȳ)

27 Przykład: Dla 11 losowo wybranych krajów europejskich zestawiono liczbę turystów, którzy je odwiedzili w 2009 r. (dane w milionach osób) oraz wpływów z tych przyjazdów (dane w miliardach USD) : Kraj Austria Belgia Dania Francja Hiszpania Holandia Grecja Niemcy Słowacja Szwajcaria Włochy Ogółem Przyjazdy (mln osób) 21,9 7,2 4,5 79,2 57,2 10,1 15,9 24,9 4,4 8,6 42,7 276,6 Wpływy (mld USD) 21,6 11,8 6,7 56,3 62,0 13,3 17,4 40,0 4,6 14,5 46,2 294,4 Pytanie: należy oszacować równanie regresji wysokości wpływów z turystyki względem liczby osób odwiedzających poszczególne kraje.

28 Współczynnik regresji Wyraz wolny
Zmienna niezależna: przyjazdy (w mln os.) Zmienna zależna: wpływy (w mld USD) Współczynniki Błąd standardowy Przecięcie 7,11 3,44 Przyjazdy 0,78 0,1 Współczynnik regresji Wyraz wolny Odchylenie standardowe składnika resztowego Błędy standardowe ocen parametrów

29 Współczynniki Błąd standardowy Przecięcie 7,11 3,44 Przyjazdy 0,78 0,1 Współczynnik regresji: gdy l. przyjazdów rośnie o 1mln, to wartość wpływów z turystyki wzrośnie średnio o 0,78 mld USD Wyraz wolny Teoretyczna wielkość wpływów z turystyki różni się od obserwowanej w próbie średnio o 7,78 mld. Przyjmując, że wraz ze wzrostem przyjazdów o 1 mln, wartość wpływów wzrośnie średnio o 0,78 mld USD mylimy się przeciętnie 0 0,1 mld USD

30 Model i równanie regresji (!!!)
Równanie funkcji regresji: 𝒚 = 𝜶 𝒙+ 𝜷 Model regresji: 𝒚𝒊 = 𝜶 𝒙𝒊 + 𝜷 + 𝒆𝒊 [sα̂] [sβ̂] [se]

31 Wnioskowanie w klasycznym modelu normalnej regresji liniowej (!!!)
Przedział ufności dla współczynnika regresji gdzie 1-γ to współczynnik ufności, oznaczony tak trochę nietypowo, dla odróżnienia od współczynnika regresji α

32 Wnioskowanie w klasycznym modelu normalnej regresji liniowej (!!!)
2. Hipoteza dla współczynnika regresji H0 : α = α0 H1: α ≠ α0 (możliwy także znak < lub > ) Przy założeniu prawdziwości H0, statystyka ma rozkład t-Studenta z 𝑛−2 stopniami swobody.

33 Należy sprawdzić czy współczynnik regresji jest istotny czy nie.
Proste o współczynniku regresji α=0

34 Hipoteza o istotności współczynnika regresji (α0 = 0)
H0 : α = 0 współczynnik regresji liniowej w populacji jest nieistotny statystycznie H1: α ≠ 0 współczynnik regresji liniowej w populacji jest istotny statystycznie Inne postaci H1: α > 0 wsp. regr. istotnie dodatni α < 0 wsp. regr. istotnie ujemny Statystyka testująca ma wówczas postać i przy założeniu prawdziwości H0 ma rozkład t-Studenta z n-2 stopniami swobody.

35 Wartość testu dla H0 : α = 0 Program EXCEL
Współczynniki Błąd standardowy t Stat Wartość-p Przecięcie 7,10809 3,44206 2,0650 0,068912 Przyjazdy 0,78167 0,10017 7,8032 2,7E-05 Współczynniki Model B Błąd standardowy t istotność (Stała) 7, ,442 2,065 ,069 Przyjazdy ,782 ,100 7,803 ,000 Program SPSS

36 Dla każdego 𝛼≥𝑤𝑎𝑟𝑡𝑜ś𝑐𝑖−𝑝 hipotezę 𝐻 0 odrzucamy
Dla każdego 𝛼<𝑤𝑎𝑟𝑡𝑜ś𝑐𝑖 −𝑝 brak podstaw do odrzucenia 𝐻 0

37 Dokładność dopasowania
Przy tym samym zakresie zmienności cechy Y widzimy, że wykresy różnią się wielkością reszt. Ten drugi jest lepiej „dopasowany”.

38 Dokładność dopasowania
Czy można porównywać reszty, gdy zakres zmienności cechy Y jest zupełnie inny?

39 Podział odchylenia całkowitego yi - ȳ
yi ŷi ȳ x̄ xi y ei = yi-ŷi odchylenie nie wyjaśnione regresją (reszta) ŷi-ȳ odchylenie wyjaśnione regresją x

40 Dokładność dopasowania prostej metodą najmniejszych kwadratów
Całkowita suma Suma kwadr. odchyleń Suma kwadratów odchyleń kwadr. odchyleń wyjaśnionych regresją niewyjaśnionych regresją Total = Model + Residual Współczynnik determinacji ( 𝑅 2 ) 0≤𝑅2≤1 R2 - wyraża jaka część obserwowanej w próbie całkowitej zmienności Y została wyjaśniona regresją liniową Y względem X

41 Współczynnik determinacji
Suma kwadr. odchyleń wyjaśnionych regresją Całkowita suma kwadr. odchyleń Suma kwadratów odchyleń nie wyjaśnionych regresją (reszt)

42 Współczynnik determinacji
R2=1 Między zmiennymi zachodzi funkcyjna zależność liniowa tzn. wszystkie punkty empiryczne leża na prostej regresji. Wszystkie reszty są równe 0. R2=0 Zróżnicowanie wartości cechy X nie dostarcza żadnych informacji o zróżnicowaniu wartości cechy Y.

43 Współczynnik determinacji a współczynnik korelacji liniowej
Pierwiastek kwadratowy ze współczynnika determinacji r2 opatrzony znakiem + lub – jest równy współczynnikowi korelacji liniowej Pearsona. Znak powinien być zgodny ze znakiem obliczonego współczynnika regresji.

44 Analiza wariancji w modelu regresji
Źródło zmienności Suma kwadratów Stopnie swobody Średni kwadrat odchyleń Statystyka F Regresja (MODEL) ∑(Ŷi –Ȳ)2 1 ∑(Ŷi –Ȳ)2 / 1 Se2 Reszty (RESIDUAL) ∑(Yi - Ŷi)2 n-2 Se2 = ∑(Yi - Ŷi)2 / (n-2) Zmienność całkowita (TOTAL) ∑(Yi – Ȳ)2 n-1 -

45 Statystyka F Statystyka F pozwala zweryfikować hipotezę o istotności wpływu zmiennej niezależnej na zmienną zależną, czyli hipotezę postaci: 𝐻0: 𝛼 = 0. Test ten ma rozkład F-Snedecora z liczbą stopni swobody licznika 𝑣1=1 i mianownika 𝑣2=𝑛−2. Statystyka F z jednym stopniem swobody licznika i test t stosowane do weryfikacji tej samej hipotezy są równoważne: 𝐹1, 𝑛−2 = 𝑡2𝑛−2

46 Analiza wariancji w modelu regresji (program Excel)
            ANALIZA WARIANCJI df SS MS F Istotność F Regresja 1 5255,58 60,89059 2,7E-05 Resztkowy 9 776,80 86,31 Razem 10 6032,38 F1,n-2 = t2n-2 Współczynniki Błąd standardowy t Stat Wartość-p Przecięcie 7,10809 3,44206 2,0650 0,068912 Przyjazdy 0,78167 0,10017 7,8032 2,7E-05

47 Weryfikacja założeń modelu normalnej regresji liniowej.
Weryfikacja odbywa się ex post. 1. E(εi ) = 0 - test serii 2. D2(εi ) = σ2 - test Bartleta 3. cov(εi,εj)=0 - test Durbina-Watsona

48 1. Badanie losowości reszt
Reszty rozrzucone losowo reszty x Zakrzywienie w zbiorze reszt na skutek złego dopasowania reszty x

49 2. Badanie heteroscedastyczności (brak stałej wariancji składnika losowego)
Reszty rozrzucone losowo – brak heteroscedastyczności reszty x Wariancja reszt wzrasta –heteroscedastyczność reszty x

50 Predykcja (PROGNOZA) na podstawie modelu regresji liniowej (!!!)
Najlepszym nieobciążonym estymatorem pojedynczej realizacji zm. losowej Yx (prognoza) jest statystyka: 𝑌 𝑥 𝑃 = 𝛼 𝑥+ 𝛽 Standardowy błąd prognozy: Od czego zależy wielkość błędu prognozy?

51 Przedział ufności dla pojedynczej wartości Yx (prognozy)
Prognoza: Ŷx = α̂ x + β̂ Wyznaczenie wartości teoretycznej: Standardowy błąd prognozy: s(YxP) Estymacja przedziałowa (przedział ufności dla prognozy):

52 Model regresji ze zmienną czasową – funkcja trendu*
* Materiał dodatkowy

53 Funkcja regresji ze zmienną czasową – funkcja trendu
Czasem zmienna niezależna x reprezentuje zmiany w czasie - oznaczamy ją wtedy t , gdzie t = 1, 2, 3 … n. Otrzymujemy wtedy szereg czasowy obserwacji zmiennej y, który, tak jak wcześniej w przypadku regresji, może być podstawą do szacowania funkcji trendu. Podobnie, jak przy funkcji regresji, wykorzystujemy MNK (metodę najmniejszych kwadratów).

54 Przykład: Tabela prezentuje liczbę profili na FB (mln) w pewnym kraju w ostatnich 10 latach.
yt 1 0,03 2 0,08 3 0,16 4 0,38 5 0,73 6 1,3 7 2,2 8 4,9 9 9,5 10 16,1 yt t

55 Oszacowana MNK liniowa funkcja trendu liczby profili na FB ma postać: ŷ=1,456 t – 4, [0,35] [2,17] yt t

56 Czy oszacowana MNK liniowa funkcja trendu nadaje się do prognozowania?
yt t yt ŷt et = yt - ŷt 1 0,03 -3,016 3,046 2 0,08 -1,559 1,639 3 0,16 -0,103 0,263 4 0,38 1,353 -0,973 5 0,73 2,810 -2,080 6 1,3 4,266 -2,966 7 2,2 5,723 -3,523 8 4,9 7,179 -2,279 9 9,5 8,635 0,865 10 16,1 10,092 6,008 35,38 t

57 Jak oszacować inną niż liniowa funkcję trendu? Np. wykładniczą?
y = β*αt logarytmujemy ln y = ln β + t * ln α Y = B + A*t y = eαt+β logarytmujemy ln y = αt+β Y = αt+β

58 Szacowanie funkcji wykładniczej
t yt ln yt ŷt 1 0,03 -3,51 0,040 2 0,08 -2,53 0,079 3 0,16 -1,83 0,156 4 0,38 -0,97 0,309 5 0,73 -0,32 0,613 6 1,3 0,26 1,216 7 2,2 0,79 2,412 8 4,9 1,59 4,782 9 9,5 2,25 9,483 10 16,1 2,78 18,804 35,38

59 Wykładnicza funkcja trendu liczby profili na FB : ŷ= 0,02 *1,98t

60 Wybrane przykłady pakietów statystycznych
STATA 12

61 Dziękuję dr Marta Marszałek


Pobierz ppt "Klasyczny model regresji liniowej (KMRL)"

Podobne prezentacje


Reklamy Google