Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie dr Marta Marszałek
Plan cel i wykorzystanie analizy regresjii pojęcie i założenia KMRL model regresji liniowej funkcja regresji liniowej estymacja przedziałowa (współczynnika regresji liniowej, wyrazu wolnego i prognozy) prognoza przykłady
Analiza regresji Cel: opisanie zależności pomiędzy zmiennymi za pomocą funkcji Wykorzystanie: do prognozowania (predykcji), czyli przewidywania, jaką wartość przyjmie zmienna zależna, przy ustalonych wartościach drugiej zmiennej (niezależnej).
Regresja I rodzaju Y względem X pokazuje jak zmienia się warunkowa wartość oczekiwana zmiennej losowej Y, czyli E(Y/X=x i ) w zależności od zmian wartości zmiennej X. Obraz geometryczny tej funkcji to linia regresji I rodzaju, czyli zbiór punktów płaszczyzny [x i, E(Y/X=x i )] Jej przybliżeniem jest wyznaczana na podstawie próby w oparciu o punkty (x i, ȳ i ) empiryczna krzywa regresji.
Przykład: Czytelnicy pisma „Kuchnia_PL”: x - liczba wizyt w restauracji y - roczne dochody (tys. $) y x n i n.j Punkty o współrz.(x i, ȳ i ) tworzą empiryczną krzywą regresji. y Średnie warunkowe: ȳ 1 =75,83 ȳ 2 =78,13 ȳ 3 =74,5 ȳ 4 =71,67 ȳ 5 =67,5 x
Empiryczna krzywa regresji przypuszczenie o przybliżonym kształcie funkcji regresji. nie pozwala jednak na określenie postaci analitycznej tej zależności. nie może być w związku z tym wykorzystana do prognozowania (predykcji).
Regresja II rodzaju przybliżenie za pomocą funkcji matem. związku między zmiennymi. Regresja II rodzaju Y względem X: prosta o równaniu Ŷ = α y X+β y, dla której średni kwadrat odchyleń wartości zmiennej Y od tej prostej jest najmniejszy: E{[Y-(α y X+β y )] 2 } → min. α y - współczynnik regresji liniowej β y - wyraz wolny
x y
Klasyczny model regresji liniowej
Model regresji liniowej f(y/x) β E(Y j ) y x j ε j x E(Y/X)=αx +β x1x1 x2x2
Klasyczny model regresji liniowej Y = E(Y/X = x i )+ε i = αx i + β + ε i i=1,2,…n wpływ X na Y skł. losowy: wpływ innych czynników Założenia: 1. E(ε i ) = 0 brak systematycznego oddziaływania skład. los. na zm. Y (f. regresji I rodzaju jest liniowa) 2. D 2 (ε i )=σ 2 wariancje skład. losowego, a zarazem wariancje w warunkowych rozkładach zmiennej Y są takie same ( nie zależą od X) 3. cov(ε i,ε j )=0 składniki losowe są nieskorelowane (czynniki, dla i≠j kształtujące zmienną ε nie są ze sobą powiązane w sposób sugerujący jakąś prawidłowość) ε i : N(0,σ) rozkłady składnika losowego a zarazem warunkowe rozkłady zmiennej Y są normalne.
Wykres rozrzutu punktów empirycznych y x umożliwia wstępnie wybrać odpowiedni analityczny typ funkcji.
MNK pozwala wyznaczyć funkcję położoną „najbliżej” punktów (obserwacji empirycznych) (x i,y i ) y i ŷ i x i e i = y i – ŷ i (reszta) y i wartość empiryczna ŷ i wartość teoretyczna y x
Metoda najmniejszych kwadratów (MNK) Kryterium dopasowania prostej regresji według MNK jest minimalizacja sumy kwadratów reszt: czyli minimalizacja sumy kwadratów różnic pomiędzy wartościami empirycznymi i teoretycznymi.
Estymatory uzyskane metodą najmniejszych kwadratów są: najefektywniejsze (pozwalają szacować parametry α i β klasycznego modelu regresji z najmniejszym błędem standardowym) zgodne nieobciążone (pozwalają szacować parametry α i β klasycznego modelu regresji bez błędów systematycznych) liniowe ang. Best linear unbiased estimator – BLUE
Model regresji dla próby (!!!)
Estymatory parametrów α i β funkcji regresji
Estymatory parametrów stochastycznych modelu a)Wariancja i odchylenie standardowe składnika resztowego. reszty: e i = y i -ŷ i y i – wartości empiryczne ŷ i =α̂x i +β̂ - wartości teoretyczne
b) Standardowe błędy ocen parametrów α i β – są miarą błędów szacunku parametrów α i β dokonanych za pomocą estymatorów α̂ i β̂
Funkcja regresji (!!!) główny składnik modelu regresji; wyznaczona na podstawie próby losowej lub innych pozastatystycznych przesłanek; parametry tej funkcji podlegają estymacji (szacowaniu) za pomocą procedur ustalonych w ramach teorii korelacji i regresji.
Model regresji dla próby – własności (!!!) 1.∑ŷ i = ∑y i 2. ∑e i = 0 3.przechodzi przez punkt (x̄, ȳ)
Przykład: Dla 11 losowo wybranych krajów europejskich zestawiono liczbę turystów, którzy je odwiedzili w 2009 r. (dane w milionach osób) oraz wpływów z tych przyjazdów (dane w miliardach USD) : Kraj Austria Belgia Dania Francja Hiszpania Holandia Grecja Niemcy Słowacja Szwajcari a Włochy Ogółem Przyjazdy (mln osób) 21,97,24,579,257,210,115,924,94,48,642,7276,6 Wpływy (mld USD) 21,611,86,756,362,013,317,440,04,614,546,2294,4 Pytanie: należy oszacować równanie regresji wysokości wpływów z turystyki względem liczby osób odwiedzających poszczególne kraje.
Współczynnik regresji Wyraz wolny Błędy standardowe ocen parametrów Odchylenie standardowe składnika resztowego WspółczynnikiBłąd standardowy Przecięcie7,113,44 Przyjazdy0,780,1 Zmienna niezależna: przyjazdy (w mln os.) Zmienna zależna: wpływy (w mld USD)
Współczynnik regresji: gdy l. przyjazdów rośnie o 1mln, to wartość wpływów z turystyki wzrośnie średnio o 0,78 mld USD Wyraz wolny Przyjmując, że wraz ze wzrostem przyjazdów o 1 mln, wartość wpływów wzrośnie średnio o 0,78 mld USD mylimy się przeciętnie 0 0,1 mld USD Teoretyczna wielkość wpływów z turystyki różni się od obserwowanej w próbie średnio o 7,78 mld. WspółczynnikiBłąd standardowy Przecięcie 7,113,44 Przyjazdy0,780,1
Model i równanie regresji (!!!) Równanie funkcji regresji: Model regresji:
Wnioskowanie w klasycznym modelu normalnej regresji liniowej (!!!) 1.Przedział ufności dla współczynnika regresji gdzie 1-γ to współczynnik ufności, oznaczony tak trochę nietypowo, dla odróżnienia od współczynnika regresji α
Wnioskowanie w klasycznym modelu normalnej regresji liniowej (!!!)
Należy sprawdzić czy współczynnik regresji jest istotny czy nie. Proste o współczynniku regresji α=0
Hipoteza o istotności współczynnika regresji (α 0 = 0) H 0 : α = 0 współczynnik regresji liniowej w populacji jest nieistotny statystycznie H 1 : α ≠ 0 współczynnik regresji liniowej w populacji jest istotny statystycznie Inne postaci H 1 : α > 0 wsp. regr. istotnie dodatni α < 0 wsp. regr. istotnie ujemny Statystyka testująca ma wówczas postać i przy założeniu prawdziwości H 0 ma rozkład t-Studenta z n-2 stopniami swobody.
Wartość testu dla H 0 : α = 0 Program EXCEL Współczynniki Błąd standardowyt StatWartość-p Przecięcie7,108093,442062,06500, Przyjazdy0,781670,100177,80322,7E-05 Współczynniki Model B Błąd standardowy t istotność (Stała) 7,108 3,4422,065,069 Przyjazdy,782,1007,803,000 Program SPSS
Dokładność dopasowania Przy tym samym zakresie zmienności cechy Y widzimy, że wykresy różnią się wielkością reszt. Ten drugi jest lepiej „dopasowany”.
Dokładność dopasowania Czy można porównywać reszty, gdy zakres zmienności cechy Y jest zupełnie inny?
Podział odchylenia całkowitego y i - ȳ y i ŷ i ȳ x̄ x i e i = y i -ŷ i odchylenie nie wyjaśnione regresją (reszta) ŷ i -ȳ odchylenie wyjaśnione regresją y x
Dokładność dopasowania prostej metodą najmniejszych kwadratów
Współczynnik determinacji Całkowita suma kwadr. odchyleń Suma kwadratów odchyleń nie wyjaśnionych regresją (reszt) Suma kwadr. odchyleń wyjaśnionych regresją
Współczynnik determinacji R 2 =1 Między zmiennymi zachodzi funkcyjna zależność liniowa tzn. wszystkie punkty empiryczne leża na prostej regresji. Wszystkie reszty są równe 0. R 2 =0 Zróżnicowanie wartości cechy X nie dostarcza żadnych informacji o zróżnicowaniu wartości cechy Y.
Współczynnik determinacji a współczynnik korelacji liniowej Pierwiastek kwadratowy ze współczynnika determinacji r 2 opatrzony znakiem + lub – jest równy współczynnikowi korelacji liniowej Pearsona. Znak powinien być zgodny ze znakiem obliczonego współczynnika regresji.
Analiza wariancji w modelu regresji Źródło zmienności Suma kwadratów Stopnie swobody Średni kwadrat odchyleń Statystyka F Regresja (MODEL) ∑(Ŷ i –Ȳ) 2 1∑(Ŷ i –Ȳ) 2 / 1 ∑(Ŷ i –Ȳ) 2 S e 2 Reszty (RESIDUAL) ∑(Y i - Ŷ i ) 2 n-2S e 2 = ∑(Y i - Ŷ i ) 2 / (n-2) Zmienność całkowita (TOTAL) ∑(Y i – Ȳ) 2 n-1 -
Statystyka F
Analiza wariancji w modelu regresji (program Excel) ANALIZA WARIANCJI dfSSMSF Istotność F Regresja15255,58 60,890592,7E-05 Resztkowy9776,8086,31 Razem106032,38 Współczynniki Błąd standardowyt StatWartość-p Przecięcie7,108093,442062,06500, Przyjazdy0,781670,100177,80322,7E-05 F 1,n-2 = t 2 n-2
Weryfikacja założeń modelu normalnej regresji liniowej. Weryfikacja odbywa się ex post. 1. E(ε i ) = 0 - test serii 2. D 2 (ε i ) = σ 2 - test Bartleta 3. cov(ε i,ε j )=0 - test Durbina-Watsona
1. Badanie losowości reszt Reszty rozrzucone losowo reszty 0 x Zakrzywienie w zbiorze reszt na skutek złego dopasowania reszty 0 x
2. Badanie heteroscedastyczności (brak stałej wariancji składnika losowego) Reszty rozrzucone losowo – brak heteroscedastyczności reszty 0 x Wariancja reszt wzrasta – heteroscedastyczność reszty 0 x
Predykcja (PROGNOZA) na podstawie modelu regresji liniowej (!!!)
Przedział ufności dla pojedynczej wartości Y x (prognozy) Prognoza: Ŷ x = α̂ x + β̂ Wyznaczenie wartości teoretycznej: Standardowy błąd prognozy: s(Y x P ) Estymacja przedziałowa (przedział ufności dla prognozy):
Model regresji ze zmienną czasową – funkcja trendu* * Materiał dodatkowy
Funkcja regresji ze zmienną czasową – funkcja trendu Czasem zmienna niezależna x reprezentuje zmiany w czasie - oznaczamy ją wtedy t, gdzie t = 1, 2, 3 … n. Otrzymujemy wtedy szereg czasowy obserwacji zmiennej y, który, tak jak wcześniej w przypadku regresji, może być podstawą do szacowania funkcji trendu. Podobnie, jak przy funkcji regresji, wykorzystujemy MNK (metodę najmniejszych kwadratów).
Przykład: Tabela prezentuje liczbę profili na FB (mln) w pewnym kraju w ostatnich 10 latach. tytyt 10,03 20,08 30,16 40,38 50,73 61,3 72,2 84,9 99,5 1016,1 t ytyt
Oszacowana MNK liniowa funkcja trendu liczby profili na FB ma postać: ŷ=1,456 t – 4,472 [0,35] [2,17] ytyt t
Czy oszacowana MNK liniowa funkcja trendu nadaje się do prognozowania? tytyt ŷtŷt e t = y t - y ̂ t 10,03-3,0163,046 20,08-1,5591,639 30,16-0,1030,263 40,381,353-0,973 50,732,810-2,080 61,34,266-2,966 72,25,723-3,523 84,97,179-2,279 99,58,6350, ,110,0926,008 35,38 0 t ytyt
Jak oszacować inną niż liniowa funkcję trendu? Np. wykładniczą? y = β*α t logarytmujemy ln y = ln β + t * ln α Y = B + A*t y = e αt+β logarytmujemy ln y = αt+β Y = αt+β
Szacowanie funkcji wykładniczej tytyt ln y t ŷtŷt 10,03-3,510,040 20,08-2,530,079 30,16-1,830,156 40,38-0,970,309 50,73-0,320,613 61,30,261,216 72,20,792,412 84,91,594,782 99,52,259, ,12,7818,804 35,38
Wykładnicza funkcja trendu liczby profili na FB : ŷ= 0,02 *1,98 t
Wybrane przykłady pakietów statystycznych STATA 12
Dziękuję dr Marta Marszałek