Klasyczny model regresji liniowej (KMRL)

Slides:



Advertisements
Podobne prezentacje
Opracowali: Patryk Klemczak Tomasz Klemczak ODSIECZ WIEDEŃSKA.
Advertisements

Kształtowanie się granic II Rzeczypospolitej
Wykład 4: Systemy nawigacji satelitarnej
WNIOSEK O PRZYZNANIE POMOCY
POGŁĘBIONA OCENA SYTUACJI FINANSOWEJ NA PODSTAWIE ANALIZY WSKAŹNIKOWEJ
Machine learning Lecture 3
Identyfikacja dansylowanych aminokwasów metodą cienkowarstwowej chromatografii na płytkach poliamidowych Gawahir Hassan.
Mechanika kwantowa dla niefizyków
Program Rozwoju Obszarów Wiejskich
Przyszłe zmiany sposobu finansowania zadań oświatowych
Wybrane bloki i magistrale komputerów osobistych (PC)
HELIOTECHNIKA W chwili obecnej jest niekonkurencyjna w porównaniu ze źródłami konwencjonalnymi, ale jest to „czysta energia” dlatego wiąże się z nią wiele.
Tolerancje i pasowania
B R Y Ł Y P L A T O Ń S K I E.
Bankowość Pieniądz Podstawowe informacje o bankach
Weryfikacja hipotez statystycznych
Krakowskie Sympozjum Naukowo-Techniczne
Zasilacze prądu stałego Czyli rzeczywiste źródła napięcia
Prof. nadzw. dr hab. inż. Jarosław Bartoszewicz
Mechanika kwantowa dla niefizyków
Grzegorz Karasiewicz Katedra Marketingu Wydział Zarządzania UW
1 czerwca w zerówce.
„ Mały Miś i polskie tradycje Bożego Narodzenia”
Box Behnken Design w optymalizacji procesu biosyntezy β-karotenu w hodowlach drożdży Rhodotorula rubra Ludmiła Bogacz-Radomska(1), Joanna Harasym(1,2,3),
Projekt z dnia 30 maja 2017 r. Ustawa z dnia …. ……………
Prof. dr hab. Roman Sobiecki Rachunki makroekonomiczne
CAPS LOCK - CERTYFIKOWANE SZKOLENIA JĘZYKOWE I KOMPUTEROWE
Prezentacje wykonali: Marcin Łukasik Wiktor Kołek
GOSPODAROWANIE ZASOBAMI W ORGANIZACJI
Co to jest SSC Master… SSC Master to platforma elektronicznego obiegu, dekretacji i akceptacji dokumentów w organizacji. Dzięki szerokiemu i elastycznemu.
Podstawy pomagania SPPiIK, 2016 Anna Gromińska.
Chemia biopierwiastków
Sedymentacja.
Współczesne kierunki polityki społecznej
Hiszpania,Portugalia,Litwa,Polska,Turcja,Włochy,Chorwacja Desery.
Prawo pracy – ćwiczenia (IX)
Dotarcie do specyficznej grupy docelowej
Sprawozdanie roczne z realizacji Planu działania Krajowej Sieci Obszarów Wiejskich na lata za rok 2016 Warszawa, 26 czerwca 2017 r. Materiał.
Srebrna Małopolska regionalne inicjatywy na rzecz seniorów
Stan Wojenny.
O UTWORZENIE ZWIĄZKU METROPOLITALNEGO W WOJEWÓDZTWIE ŚLĄSKIM
Wojewódzki Inspektorat Ochrony Środowiska w Białymstoku
ZAWODOZNAWSTWO Materiały zrealizowane w ramach projektu
Wykład 8: Złożone problemy przetwarzania mobilnego
Realizacja sprzężenia od siły w układzie sterowania robotem do zastosowań neurochirurgicznych Dorota Marszalik Wieliczka,
Funkcje generujące w kombinatoryce
Ruch turystyczny w Krakowie w 2015 roku
© dr hab. Inż. Paweł Jabłoński
Adsorpcja faza stała/ gazowa lub ciekła faza ciekła/ gazowa lub ciekła
MODELE EPIDEMIOLOGICZNE
Dowody matematyczne - zadania podstawowe
Zagadnienie prawdy Andrzej Łukasik Zakład Ontologii i Teorii Poznania
Ewolucja gwiazd.
Potencjał chemiczny Potencjał chemiczny ma charakter siły uogólnionej,
STAŁE RÓWNOWAGI REAKCJI PROTOLITYCZNYCH
Optymalizacja sieci drogowej propozycja algorytmu
Nie ma innego – Tylko Jezus Mariusz Śmiałek
W ramach stypendium Ministerstwa Kultury i Dziedzictwa Narodowego
R- Punkt referencyjny (wyjściowy) obrabiarki
Parki krajobrazowe na Podlasiu
Publicznej Szkole Podstawowej nr 4 im. Tadeusza Kościuszki
Materiały pochodzą z Platformy Edukacyjnej Portalu
Zasady poprawnej komunikacji – jak uniknąć konfliktów ?
Gimnazjum nr 3 im. J. Chełmońskiego w Zielonej Górze
Moje dziecko i jego potrzeby.
Edukacja psychologiczna
GMINA RUDZINIEC.
Czym jest mowa nienawiści?
Wykład 7 Prawo urzędnicze.
Zapis prezentacji:

Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie Klasyczny model regresji liniowej (KMRL) dr Marta Marszałek e-mail: marta.marszalek@sgh.waw.pl

Plan cel i wykorzystanie analizy regresjii pojęcie i założenia KMRL model regresji liniowej funkcja regresji liniowej estymacja przedziałowa (współczynnika regresji liniowej, wyrazu wolnego i prognozy) prognoza przykłady

Analiza regresji Cel: opisanie zależności pomiędzy zmiennymi za pomocą funkcji Wykorzystanie: do prognozowania (predykcji) jaką wartość przyjmie zmienna zależna, przy ustalonych wartościach drugiej zmiennej (niezależnej).

Z matematyki: funkcja liniowa: 𝑓 𝑥 =𝑎𝑥+𝑏 𝑦=𝑎𝑥+𝑏

Dwuwymiarowa zmienna losowa 𝑋,𝑌 , gdzie:. Y – zm. zależna,. X – zm Dwuwymiarowa zmienna losowa 𝑋,𝑌 , gdzie: Y – zm. zależna, X – zm. niezależna Regresja I rodzaju Y względem X pokazuje jak zmienia się warunkowa wartość oczekiwana zmiennej losowej Y, czyli E(Y/X=xi) w zależności od zmian wartości zmiennej X. Obraz geometryczny tej funkcji to linia regresji I rodzaju, czyli zbiór punktów płaszczyzny [xi, E(Y/X=xi)] Jej przybliżeniem jest wyznaczana na podstawie próby w oparciu o punkty (xi, ȳi) empiryczna krzywa regresji.

Punkty o współrz.(xi, ȳi) tworzą empiryczną krzywą regresji. Przykład: Czytelnicy pisma o gotowaniu w USA: x - liczba wizyt w restauracji y - roczne dochody (tys.$) y x 60- 65- 70- 75- 80- 65 70 75 80 85 ni. 1 2 3 4 1 2 3 1 4 1 1 3 3 2 3 2 1 6 1 5 1 8 10 12 7 n.j 5 8 9 12 6 40 Punkty o współrz.(xi, ȳi) tworzą empiryczną krzywą regresji. y Średnie warunkowe: ȳ1=75,83 ȳ2=78,13 ȳ3=74,5 ȳ4=71,67 ȳ5=67,5 x

Empiryczna krzywa regresji przypuszczenie o przybliżonym kształcie funkcji regresji nie pozwala na określenie postaci analitycznej tej zależności nie może być wykorzystana do prognozowania (predykcji)

Regresja II rodzaju przybliżenie za pomocą funkcji matem Regresja II rodzaju przybliżenie za pomocą funkcji matem. związku między zmiennymi. Regresja II rodzaju Y względem X: prosta o równaniu Ŷ = αyX+βy , dla której średni kwadrat odchyleń wartości zmiennej Y od tej prostej jest najmniejszy: E{[Y-(αyX+βy)]2} → min. αy - współczynnik regresji liniowej βy - wyraz wolny

y x

Klasyczny model regresji liniowej 𝑌 = 𝑌 + 𝜀 Y- zmienna zależna 𝑌 - f. regresji II rodzaju – wyrażająca wpływ zmiennej niezależnej X na zmienną Y ε - składnik losowy: zmienna losowa opisująca odchylenia wartości zmiennej zależnej od jej regresji II rodzaju i wyrażająca wpływ wszystkich innych (poza X) czynników oddziałujących na zmienną Y.

Klasyczny model regresji liniowej 𝑌 = 𝑌 + 𝜀 , gdzie Y – zmienna zależna 𝑌 – f. regresji II rodzaju ε – składnik losowy inaczej: 𝒀=𝑬(𝒀/𝑿=𝒙) + 𝜺=𝜶𝒙+𝜷 +𝜺 przy czym E(Y/ X=x) = αx + β wartości oczekiwane warunkowych rozkładów zm. losowej Y są liniową funkcją ustalonych wartości zmiennej losowej X D2(Y/X=x)=σ2 wariancja zmiennej losowej Y w jej rozkładach warunkowych jest stała (niezależna od x)

Model regresji liniowej f(y/x) β E(Yj) y xj εj x E(Y/X)=αx +β x1 x2

Klasyczny model regresji liniowej Y = E(Y/X = xi)+εi = αxi + β + εi i=1,2,…n wpływ X na Y skł. losowy: wpływ innych czynników Założenia: 1. E(εi ) = 0 brak systematycznego oddziaływania skład. los. na zm. Y (f. regresji I rodzaju jest liniowa) 2. D2(εi )=σ2 wariancje skład. losowego, a zarazem wariancje w warunkowych rozkładach zmiennej Y są takie same ( nie zależą od X) 3. cov(εi,εj)=0 składniki losowe są nieskorelowane (czynniki, dla i≠j kształtujące zmienną ε nie są ze sobą powiązane w sposób sugerujący jakąś prawidłowość). ------------------------------------- 4. εi : N(0,σ) rozkłady składnika losowego a zarazem warunkowe rozkłady zmiennej Y są normalne.

Cel: określenie matematycznej funkcji (liniowej), która najlepiej określi, jak kształtują się wartości zmiennej losowej zależnej pod wpływem drugiej zmiennej. 𝒀 = 𝜶 𝒙+ 𝜷 Pytanie: Jak wyznaczyć wartości liczbowe 𝜶 i 𝜷 , które są oszacowaniami nieznanych parametrów α i β ? Odpowiedź: Należy zastosować metodę najmniejszych kwadratów (MNK).

Wykres rozrzutu punktów empirycznych y x umożliwia wstępnie wybrać odpowiedni analityczny typ funkcji.

MNK pozwala wyznaczyć funkcję położoną „najbliżej” punktów (obserwacji empirycznych) (xi,yi) yi ŷi xi ei = yi – ŷi (reszta) yi wartość empiryczna y ŷi wartość teoretyczna x

Metoda najmniejszych kwadratów (MNK) Kryterium dopasowania prostej regresji według MNK jest minimalizacja sumy kwadratów reszt: czyli minimalizacja sumy kwadratów różnic pomiędzy wartościami empirycznymi i teoretycznymi.

Estymatory uzyskane metodą najmniejszych kwadratów są: najefektywniejsze (pozwalają szacować parametry α i β klasycznego modelu regresji z najmniejszym błędem standardowym) zgodne nieobciążone (pozwalają szacować parametry α i β klasycznego modelu regresji bez błędów systematycznych) liniowe ang. Best linear unbiased estimator – BLUE

Model regresji dla próby (!!!) Współczynnik regresji: o ile średnio zmieni się wartość zmiennej zależnej y, gdy x zmieni się o jednostkę. wyraz wolny ei = yi -ŷi (reszty) 𝒚𝒊 = 𝜶 𝒙𝒊 + 𝜷 + 𝒆𝒊 [sα̂] [sβ̂] [se] Błędy standardowe Odchylenie standardowe ocen parametrów składnika resztowego

Uwaga! Estymtory a parametry

Parametr populacji (𝜽) Estymator vs. parametr Estymator (𝑻𝒏 ) (=statystyka z próby) Parametr populacji (𝜽) (z próby) (liczbowa charakterystyka populacji generalnej) 𝑥 𝑚=𝐸𝑋 𝑆 𝑥 2 𝑆 𝑥 ω 𝜎 2 = 𝐷 2 𝑋 𝜎=𝐷𝑋 𝑝 𝛼 𝛽 wyznaczane na wartości podstawie próby (znane) na ogół nieznane

Estymatory parametrów α i β funkcji regresji

Estymatory parametrów stochastycznych modelu Wariancja i odchylenie standardowe składnika resztowego. reszty: ei = yi -ŷi yi – wartości empiryczne ŷi =α̂xi+β̂ - wartości teoretyczne

b) Standardowe błędy ocen parametrów α i β – są miarą błędów szacunku parametrów α i β dokonanych za pomocą estymatorów α̂ i β̂

Funkcja regresji (!!!) główny składnik modelu regresji; wyznaczona na podstawie próby losowej lub innych pozastatystycznych przesłanek; parametry tej funkcji podlegają estymacji (szacowaniu) za pomocą procedur ustalonych w ramach teorii korelacji i regresji. 𝒚 = 𝜶 𝒙+ 𝜷

Model regresji dla próby – własności (!!!) ∑ŷi = ∑yi ∑ei = 0 przechodzi przez punkt (x̄, ȳ)

Przykład: Dla 11 losowo wybranych krajów europejskich zestawiono liczbę turystów, którzy je odwiedzili w 2009 r. (dane w milionach osób) oraz wpływów z tych przyjazdów (dane w miliardach USD) : Kraj Austria Belgia Dania Francja Hiszpania Holandia Grecja Niemcy Słowacja Szwajcaria Włochy Ogółem Przyjazdy (mln osób) 21,9 7,2 4,5 79,2 57,2 10,1 15,9 24,9 4,4 8,6 42,7 276,6 Wpływy (mld USD) 21,6 11,8 6,7 56,3 62,0 13,3 17,4 40,0 4,6 14,5 46,2 294,4 Pytanie: należy oszacować równanie regresji wysokości wpływów z turystyki względem liczby osób odwiedzających poszczególne kraje.

Współczynnik regresji Wyraz wolny Zmienna niezależna: przyjazdy (w mln os.) Zmienna zależna: wpływy (w mld USD) Współczynniki Błąd standardowy Przecięcie 7,11 3,44 Przyjazdy 0,78 0,1 Współczynnik regresji Wyraz wolny Odchylenie standardowe składnika resztowego Błędy standardowe ocen parametrów

Współczynniki Błąd standardowy Przecięcie 7,11 3,44 Przyjazdy 0,78 0,1 Współczynnik regresji: gdy l. przyjazdów rośnie o 1mln, to wartość wpływów z turystyki wzrośnie średnio o 0,78 mld USD Wyraz wolny Teoretyczna wielkość wpływów z turystyki różni się od obserwowanej w próbie średnio o 7,78 mld. Przyjmując, że wraz ze wzrostem przyjazdów o 1 mln, wartość wpływów wzrośnie średnio o 0,78 mld USD mylimy się przeciętnie 0 0,1 mld USD

Model i równanie regresji (!!!) Równanie funkcji regresji: 𝒚 = 𝜶 𝒙+ 𝜷 Model regresji: 𝒚𝒊 = 𝜶 𝒙𝒊 + 𝜷 + 𝒆𝒊 [sα̂] [sβ̂] [se]

Wnioskowanie w klasycznym modelu normalnej regresji liniowej (!!!) Przedział ufności dla współczynnika regresji gdzie 1-γ to współczynnik ufności, oznaczony tak trochę nietypowo, dla odróżnienia od współczynnika regresji α

Wnioskowanie w klasycznym modelu normalnej regresji liniowej (!!!) 2. Hipoteza dla współczynnika regresji H0 : α = α0 H1: α ≠ α0 (możliwy także znak < lub > ) Przy założeniu prawdziwości H0, statystyka ma rozkład t-Studenta z 𝑛−2 stopniami swobody.

Należy sprawdzić czy współczynnik regresji jest istotny czy nie. Proste o współczynniku regresji α=0

Hipoteza o istotności współczynnika regresji (α0 = 0) H0 : α = 0 współczynnik regresji liniowej w populacji jest nieistotny statystycznie H1: α ≠ 0 współczynnik regresji liniowej w populacji jest istotny statystycznie Inne postaci H1: α > 0 wsp. regr. istotnie dodatni α < 0 wsp. regr. istotnie ujemny Statystyka testująca ma wówczas postać i przy założeniu prawdziwości H0 ma rozkład t-Studenta z n-2 stopniami swobody.

Wartość testu dla H0 : α = 0 Program EXCEL   Współczynniki Błąd standardowy t Stat Wartość-p Przecięcie 7,10809 3,44206 2,0650 0,068912 Przyjazdy 0,78167 0,10017 7,8032 2,7E-05 Współczynniki Model B Błąd standardowy t istotność (Stała) 7,108 3,442 2,065 ,069 Przyjazdy ,782 ,100 7,803 ,000 Program SPSS

Dla każdego 𝛼≥𝑤𝑎𝑟𝑡𝑜ś𝑐𝑖−𝑝 hipotezę 𝐻 0 odrzucamy Dla każdego 𝛼<𝑤𝑎𝑟𝑡𝑜ś𝑐𝑖 −𝑝 brak podstaw do odrzucenia 𝐻 0

Dokładność dopasowania Przy tym samym zakresie zmienności cechy Y widzimy, że wykresy różnią się wielkością reszt. Ten drugi jest lepiej „dopasowany”.

Dokładność dopasowania Czy można porównywać reszty, gdy zakres zmienności cechy Y jest zupełnie inny?

Podział odchylenia całkowitego yi - ȳ yi ŷi ȳ x̄ xi y ei = yi-ŷi odchylenie nie wyjaśnione regresją (reszta) ŷi-ȳ odchylenie wyjaśnione regresją x

Dokładność dopasowania prostej metodą najmniejszych kwadratów Całkowita suma Suma kwadr. odchyleń Suma kwadratów odchyleń kwadr. odchyleń wyjaśnionych regresją niewyjaśnionych regresją Total = Model + Residual Współczynnik determinacji ( 𝑅 2 ) 0≤𝑅2≤1 R2 - wyraża jaka część obserwowanej w próbie całkowitej zmienności Y została wyjaśniona regresją liniową Y względem X

Współczynnik determinacji Suma kwadr. odchyleń wyjaśnionych regresją Całkowita suma kwadr. odchyleń Suma kwadratów odchyleń nie wyjaśnionych regresją (reszt)

Współczynnik determinacji R2=1 Między zmiennymi zachodzi funkcyjna zależność liniowa tzn. wszystkie punkty empiryczne leża na prostej regresji. Wszystkie reszty są równe 0. R2=0 Zróżnicowanie wartości cechy X nie dostarcza żadnych informacji o zróżnicowaniu wartości cechy Y.

Współczynnik determinacji a współczynnik korelacji liniowej Pierwiastek kwadratowy ze współczynnika determinacji r2 opatrzony znakiem + lub – jest równy współczynnikowi korelacji liniowej Pearsona. Znak powinien być zgodny ze znakiem obliczonego współczynnika regresji.

Analiza wariancji w modelu regresji Źródło zmienności Suma kwadratów Stopnie swobody Średni kwadrat odchyleń Statystyka F Regresja (MODEL) ∑(Ŷi –Ȳ)2 1 ∑(Ŷi –Ȳ)2 / 1 Se2 Reszty (RESIDUAL) ∑(Yi - Ŷi)2 n-2 Se2 = ∑(Yi - Ŷi)2 / (n-2) Zmienność całkowita (TOTAL) ∑(Yi – Ȳ)2 n-1 -

Statystyka F Statystyka F pozwala zweryfikować hipotezę o istotności wpływu zmiennej niezależnej na zmienną zależną, czyli hipotezę postaci: 𝐻0: 𝛼 = 0. Test ten ma rozkład F-Snedecora z liczbą stopni swobody licznika 𝑣1=1 i mianownika 𝑣2=𝑛−2. Statystyka F z jednym stopniem swobody licznika i test t stosowane do weryfikacji tej samej hipotezy są równoważne: 𝐹1, 𝑛−2 = 𝑡2𝑛−2

Analiza wariancji w modelu regresji (program Excel)             ANALIZA WARIANCJI   df SS MS F Istotność F Regresja 1 5255,58 60,89059 2,7E-05 Resztkowy 9 776,80 86,31 Razem 10 6032,38 F1,n-2 = t2n-2   Współczynniki Błąd standardowy t Stat Wartość-p Przecięcie 7,10809 3,44206 2,0650 0,068912 Przyjazdy 0,78167 0,10017 7,8032 2,7E-05

Weryfikacja założeń modelu normalnej regresji liniowej. Weryfikacja odbywa się ex post. 1. E(εi ) = 0 - test serii 2. D2(εi ) = σ2 - test Bartleta 3. cov(εi,εj)=0 - test Durbina-Watsona

1. Badanie losowości reszt Reszty rozrzucone losowo reszty 0 x Zakrzywienie w zbiorze reszt na skutek złego dopasowania reszty 0 x

2. Badanie heteroscedastyczności (brak stałej wariancji składnika losowego) Reszty rozrzucone losowo – brak heteroscedastyczności reszty 0 x Wariancja reszt wzrasta –heteroscedastyczność reszty 0 x

Predykcja (PROGNOZA) na podstawie modelu regresji liniowej (!!!) Najlepszym nieobciążonym estymatorem pojedynczej realizacji zm. losowej Yx (prognoza) jest statystyka: 𝑌 𝑥 𝑃 = 𝛼 𝑥+ 𝛽 Standardowy błąd prognozy: Od czego zależy wielkość błędu prognozy?

Przedział ufności dla pojedynczej wartości Yx (prognozy) Prognoza: Ŷx = α̂ x + β̂ Wyznaczenie wartości teoretycznej: Standardowy błąd prognozy: s(YxP) Estymacja przedziałowa (przedział ufności dla prognozy):

Model regresji ze zmienną czasową – funkcja trendu* * Materiał dodatkowy

Funkcja regresji ze zmienną czasową – funkcja trendu Czasem zmienna niezależna x reprezentuje zmiany w czasie - oznaczamy ją wtedy t , gdzie t = 1, 2, 3 … n. Otrzymujemy wtedy szereg czasowy obserwacji zmiennej y, który, tak jak wcześniej w przypadku regresji, może być podstawą do szacowania funkcji trendu. Podobnie, jak przy funkcji regresji, wykorzystujemy MNK (metodę najmniejszych kwadratów).

Przykład: Tabela prezentuje liczbę profili na FB (mln) w pewnym kraju w ostatnich 10 latach. yt 1 0,03 2 0,08 3 0,16 4 0,38 5 0,73 6 1,3 7 2,2 8 4,9 9 9,5 10 16,1 yt t

Oszacowana MNK liniowa funkcja trendu liczby profili na FB ma postać: ŷ=1,456 t – 4,472 [0,35] [2,17] yt t

Czy oszacowana MNK liniowa funkcja trendu nadaje się do prognozowania? yt t yt ŷt et = yt - ŷt 1 0,03 -3,016 3,046 2 0,08 -1,559 1,639 3 0,16 -0,103 0,263 4 0,38 1,353 -0,973 5 0,73 2,810 -2,080 6 1,3 4,266 -2,966 7 2,2 5,723 -3,523 8 4,9 7,179 -2,279 9 9,5 8,635 0,865 10 16,1 10,092 6,008 35,38 t

Jak oszacować inną niż liniowa funkcję trendu? Np. wykładniczą? y = β*αt logarytmujemy ln y = ln β + t * ln α Y = B + A*t y = eαt+β logarytmujemy ln y = αt+β Y = αt+β

Szacowanie funkcji wykładniczej t yt ln yt ŷt 1 0,03 -3,51 0,040 2 0,08 -2,53 0,079 3 0,16 -1,83 0,156 4 0,38 -0,97 0,309 5 0,73 -0,32 0,613 6 1,3 0,26 1,216 7 2,2 0,79 2,412 8 4,9 1,59 4,782 9 9,5 2,25 9,483 10 16,1 2,78 18,804 35,38

Wykładnicza funkcja trendu liczby profili na FB : ŷ= 0,02 *1,98t

Wybrane przykłady pakietów statystycznych STATA 12

Dziękuję dr Marta Marszałek e-mail: marta.marszalek@sgh.waw.pl