Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.

Slides:



Advertisements
Podobne prezentacje
BUDOWA MODELU EKONOMETRYCZNEGO
Advertisements

Analiza współzależności cech statystycznych
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Ekonometria WYKŁAD 10 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Plan Czym się zajmiemy: 1.Bilans przepływów międzygałęziowych 2.Model Leontiefa.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania 1 Metody optymalizacji - Energetyka 2015/2016 Metody programowania liniowego.
Ekonometria WYKŁAD 7 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ekonometria stosowana Slajdy pomocnicze Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Ekonometria Wykład 1 Uwarunkowania modelowania ekonometrycznego. Uogólniona metoda najmniejszych kwadratów dr hab. Mieczysław Kowerski.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Modelowanie i podstawy identyfikacji 2015/2016Identyfikacja – metoda najmniejszych kwadratów  Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii.
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Badania elastooptyczne Politechnika Rzeszowska Katedra Samolotów i Silników Lotniczych Ćwiczenia Laboratoryjne z Wytrzymałości Materiałów Temat ćwiczenia:
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Podział wartości dodanej Michał Lewandowski, Szkoła Główna Handlowa, Główny Urząd Statystyczny Maciej Banaś, Ministerstwo Rodziny, Pracy i Polityki Społecznej.
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Ekonometria WYKŁAD 1 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
BYĆ PRZEDSIĘBIORCZYM - nauka przez praktykę Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Zależności wprost proporcjonalne Radosław Hołówko Konsultant: Agnieszka Pożyczka.
Badanie dynamiki zjawisk dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Podstawy analizy portfelowej
Zjawisko fotoelektryczne zewnętrzne i wewnętrzne
KOSZTY W UJĘCIU ZARZĄDCZYM. POJĘCIE KOSZTU Koszt stanowi wyrażone w pieniądzu celowe zużycie majątku trwałego i obrotowego, usług obcych, nakładów pracy.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Matematyka przed egzaminem czyli samouczek dla gimnazjalisty Przygotowała Beata Czerniak FUNKCJE.
STATYSTYKA – kurs podstawowy wykład 11
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
Katarzyna Rychlicka Wielomiany. Katarzyna Rychlicka Wielomiany Przykłady Wykresy funkcji wielomianowych Równania wielomianowe Działania na wielomianach.
POP i SIR POK1 i POK2.
Dorota Kwaśniewska OBRAZY OTRZYMYWA NE W SOCZEWKAC H.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Katedra Międzynarodowych Studiów Porównawczych
terminologia, skale pomiarowe, przykłady
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Przywiązanie partnerów a ich kompetencje społeczne
Modele SEM założenia formalne
Pojedyńczy element, mała grupa
Własności statystyczne regresji liniowej
Weryfikacja hipotez statystycznych
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
REGRESJA WIELORAKA.
Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)
Statystyka i Demografia wykład 9
Korelacja i regresja liniowa
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie dr Marta Marszałek

Plan cel i wykorzystanie analizy regresjii pojęcie i założenia KMRL model regresji liniowej funkcja regresji liniowej estymacja przedziałowa (współczynnika regresji liniowej, wyrazu wolnego i prognozy) prognoza przykłady

Analiza regresji Cel: opisanie zależności pomiędzy zmiennymi za pomocą funkcji Wykorzystanie: do prognozowania (predykcji), czyli przewidywania, jaką wartość przyjmie zmienna zależna, przy ustalonych wartościach drugiej zmiennej (niezależnej).

Regresja I rodzaju Y względem X pokazuje jak zmienia się warunkowa wartość oczekiwana zmiennej losowej Y, czyli E(Y/X=x i ) w zależności od zmian wartości zmiennej X. Obraz geometryczny tej funkcji to linia regresji I rodzaju, czyli zbiór punktów płaszczyzny [x i, E(Y/X=x i )] Jej przybliżeniem jest wyznaczana na podstawie próby w oparciu o punkty (x i, ȳ i ) empiryczna krzywa regresji.

Przykład: Czytelnicy pisma „Kuchnia_PL”: x - liczba wizyt w restauracji y - roczne dochody (tys. $) y x n i n.j Punkty o współrz.(x i, ȳ i ) tworzą empiryczną krzywą regresji. y Średnie warunkowe: ȳ 1 =75,83 ȳ 2 =78,13 ȳ 3 =74,5 ȳ 4 =71,67 ȳ 5 =67,5 x

Empiryczna krzywa regresji przypuszczenie o przybliżonym kształcie funkcji regresji. nie pozwala jednak na określenie postaci analitycznej tej zależności. nie może być w związku z tym wykorzystana do prognozowania (predykcji).

Regresja II rodzaju przybliżenie za pomocą funkcji matem. związku między zmiennymi. Regresja II rodzaju Y względem X: prosta o równaniu Ŷ = α y X+β y, dla której średni kwadrat odchyleń wartości zmiennej Y od tej prostej jest najmniejszy: E{[Y-(α y X+β y )] 2 } → min. α y - współczynnik regresji liniowej β y - wyraz wolny

x y

Klasyczny model regresji liniowej

Model regresji liniowej f(y/x) β E(Y j ) y x j ε j x E(Y/X)=αx +β x1x1 x2x2

Klasyczny model regresji liniowej Y = E(Y/X = x i )+ε i = αx i + β + ε i i=1,2,…n wpływ X na Y skł. losowy: wpływ innych czynników Założenia: 1. E(ε i ) = 0 brak systematycznego oddziaływania skład. los. na zm. Y (f. regresji I rodzaju jest liniowa) 2. D 2 (ε i )=σ 2 wariancje skład. losowego, a zarazem wariancje w warunkowych rozkładach zmiennej Y są takie same ( nie zależą od X) 3. cov(ε i,ε j )=0 składniki losowe są nieskorelowane (czynniki, dla i≠j kształtujące zmienną ε nie są ze sobą powiązane w sposób sugerujący jakąś prawidłowość) ε i : N(0,σ) rozkłady składnika losowego a zarazem warunkowe rozkłady zmiennej Y są normalne.

Wykres rozrzutu punktów empirycznych y x umożliwia wstępnie wybrać odpowiedni analityczny typ funkcji.

MNK pozwala wyznaczyć funkcję położoną „najbliżej” punktów (obserwacji empirycznych) (x i,y i ) y i ŷ i x i e i = y i – ŷ i (reszta) y i wartość empiryczna ŷ i wartość teoretyczna y x

Metoda najmniejszych kwadratów (MNK) Kryterium dopasowania prostej regresji według MNK jest minimalizacja sumy kwadratów reszt: czyli minimalizacja sumy kwadratów różnic pomiędzy wartościami empirycznymi i teoretycznymi.

Estymatory uzyskane metodą najmniejszych kwadratów są: najefektywniejsze (pozwalają szacować parametry α i β klasycznego modelu regresji z najmniejszym błędem standardowym) zgodne nieobciążone (pozwalają szacować parametry α i β klasycznego modelu regresji bez błędów systematycznych) liniowe ang. Best linear unbiased estimator – BLUE

Model regresji dla próby (!!!)

Estymatory parametrów α i β funkcji regresji

Estymatory parametrów stochastycznych modelu a)Wariancja i odchylenie standardowe składnika resztowego. reszty: e i = y i -ŷ i y i – wartości empiryczne ŷ i =α̂x i +β̂ - wartości teoretyczne

b) Standardowe błędy ocen parametrów α i β – są miarą błędów szacunku parametrów α i β dokonanych za pomocą estymatorów α̂ i β̂

Funkcja regresji (!!!) główny składnik modelu regresji; wyznaczona na podstawie próby losowej lub innych pozastatystycznych przesłanek; parametry tej funkcji podlegają estymacji (szacowaniu) za pomocą procedur ustalonych w ramach teorii korelacji i regresji.

Model regresji dla próby – własności (!!!) 1.∑ŷ i = ∑y i 2. ∑e i = 0 3.przechodzi przez punkt (x̄, ȳ)

Przykład: Dla 11 losowo wybranych krajów europejskich zestawiono liczbę turystów, którzy je odwiedzili w 2009 r. (dane w milionach osób) oraz wpływów z tych przyjazdów (dane w miliardach USD) : Kraj Austria Belgia Dania Francja Hiszpania Holandia Grecja Niemcy Słowacja Szwajcari a Włochy Ogółem Przyjazdy (mln osób) 21,97,24,579,257,210,115,924,94,48,642,7276,6 Wpływy (mld USD) 21,611,86,756,362,013,317,440,04,614,546,2294,4 Pytanie: należy oszacować równanie regresji wysokości wpływów z turystyki względem liczby osób odwiedzających poszczególne kraje.

Współczynnik regresji Wyraz wolny Błędy standardowe ocen parametrów Odchylenie standardowe składnika resztowego WspółczynnikiBłąd standardowy Przecięcie7,113,44 Przyjazdy0,780,1 Zmienna niezależna: przyjazdy (w mln os.) Zmienna zależna: wpływy (w mld USD)

Współczynnik regresji: gdy l. przyjazdów rośnie o 1mln, to wartość wpływów z turystyki wzrośnie średnio o 0,78 mld USD Wyraz wolny Przyjmując, że wraz ze wzrostem przyjazdów o 1 mln, wartość wpływów wzrośnie średnio o 0,78 mld USD mylimy się przeciętnie 0 0,1 mld USD Teoretyczna wielkość wpływów z turystyki różni się od obserwowanej w próbie średnio o 7,78 mld. WspółczynnikiBłąd standardowy Przecięcie 7,113,44 Przyjazdy0,780,1

Model i równanie regresji (!!!) Równanie funkcji regresji: Model regresji:

Wnioskowanie w klasycznym modelu normalnej regresji liniowej (!!!) 1.Przedział ufności dla współczynnika regresji gdzie 1-γ to współczynnik ufności, oznaczony tak trochę nietypowo, dla odróżnienia od współczynnika regresji α

Wnioskowanie w klasycznym modelu normalnej regresji liniowej (!!!)

Należy sprawdzić czy współczynnik regresji jest istotny czy nie. Proste o współczynniku regresji α=0

Hipoteza o istotności współczynnika regresji (α 0 = 0) H 0 : α = 0 współczynnik regresji liniowej w populacji jest nieistotny statystycznie H 1 : α ≠ 0 współczynnik regresji liniowej w populacji jest istotny statystycznie Inne postaci H 1 : α > 0 wsp. regr. istotnie dodatni α < 0 wsp. regr. istotnie ujemny Statystyka testująca ma wówczas postać i przy założeniu prawdziwości H 0 ma rozkład t-Studenta z n-2 stopniami swobody.

Wartość testu dla H 0 : α = 0 Program EXCEL Współczynniki Błąd standardowyt StatWartość-p Przecięcie7,108093,442062,06500, Przyjazdy0,781670,100177,80322,7E-05 Współczynniki Model B Błąd standardowy t istotność (Stała) 7,108 3,4422,065,069 Przyjazdy,782,1007,803,000 Program SPSS

Dokładność dopasowania Przy tym samym zakresie zmienności cechy Y widzimy, że wykresy różnią się wielkością reszt. Ten drugi jest lepiej „dopasowany”.

Dokładność dopasowania Czy można porównywać reszty, gdy zakres zmienności cechy Y jest zupełnie inny?

Podział odchylenia całkowitego y i - ȳ y i ŷ i ȳ x̄ x i e i = y i -ŷ i odchylenie nie wyjaśnione regresją (reszta) ŷ i -ȳ odchylenie wyjaśnione regresją y x

Dokładność dopasowania prostej metodą najmniejszych kwadratów

Współczynnik determinacji Całkowita suma kwadr. odchyleń Suma kwadratów odchyleń nie wyjaśnionych regresją (reszt) Suma kwadr. odchyleń wyjaśnionych regresją

Współczynnik determinacji R 2 =1 Między zmiennymi zachodzi funkcyjna zależność liniowa tzn. wszystkie punkty empiryczne leża na prostej regresji. Wszystkie reszty są równe 0. R 2 =0 Zróżnicowanie wartości cechy X nie dostarcza żadnych informacji o zróżnicowaniu wartości cechy Y.

Współczynnik determinacji a współczynnik korelacji liniowej Pierwiastek kwadratowy ze współczynnika determinacji r 2 opatrzony znakiem + lub – jest równy współczynnikowi korelacji liniowej Pearsona. Znak powinien być zgodny ze znakiem obliczonego współczynnika regresji.

Analiza wariancji w modelu regresji Źródło zmienności Suma kwadratów Stopnie swobody Średni kwadrat odchyleń Statystyka F Regresja (MODEL) ∑(Ŷ i –Ȳ) 2 1∑(Ŷ i –Ȳ) 2 / 1 ∑(Ŷ i –Ȳ) 2 S e 2 Reszty (RESIDUAL) ∑(Y i - Ŷ i ) 2 n-2S e 2 = ∑(Y i - Ŷ i ) 2 / (n-2) Zmienność całkowita (TOTAL) ∑(Y i – Ȳ) 2 n-1 -

Statystyka F

Analiza wariancji w modelu regresji (program Excel) ANALIZA WARIANCJI dfSSMSF Istotność F Regresja15255,58 60,890592,7E-05 Resztkowy9776,8086,31 Razem106032,38 Współczynniki Błąd standardowyt StatWartość-p Przecięcie7,108093,442062,06500, Przyjazdy0,781670,100177,80322,7E-05 F 1,n-2 = t 2 n-2

Weryfikacja założeń modelu normalnej regresji liniowej. Weryfikacja odbywa się ex post. 1. E(ε i ) = 0 - test serii 2. D 2 (ε i ) = σ 2 - test Bartleta 3. cov(ε i,ε j )=0 - test Durbina-Watsona

1. Badanie losowości reszt Reszty rozrzucone losowo reszty 0 x Zakrzywienie w zbiorze reszt na skutek złego dopasowania reszty 0 x

2. Badanie heteroscedastyczności (brak stałej wariancji składnika losowego) Reszty rozrzucone losowo – brak heteroscedastyczności reszty 0 x Wariancja reszt wzrasta – heteroscedastyczność reszty 0 x

Predykcja (PROGNOZA) na podstawie modelu regresji liniowej (!!!)

Przedział ufności dla pojedynczej wartości Y x (prognozy) Prognoza: Ŷ x = α̂ x + β̂ Wyznaczenie wartości teoretycznej: Standardowy błąd prognozy: s(Y x P ) Estymacja przedziałowa (przedział ufności dla prognozy):

Model regresji ze zmienną czasową – funkcja trendu* * Materiał dodatkowy

Funkcja regresji ze zmienną czasową – funkcja trendu Czasem zmienna niezależna x reprezentuje zmiany w czasie - oznaczamy ją wtedy t, gdzie t = 1, 2, 3 … n. Otrzymujemy wtedy szereg czasowy obserwacji zmiennej y, który, tak jak wcześniej w przypadku regresji, może być podstawą do szacowania funkcji trendu. Podobnie, jak przy funkcji regresji, wykorzystujemy MNK (metodę najmniejszych kwadratów).

Przykład: Tabela prezentuje liczbę profili na FB (mln) w pewnym kraju w ostatnich 10 latach. tytyt 10,03 20,08 30,16 40,38 50,73 61,3 72,2 84,9 99,5 1016,1 t ytyt

Oszacowana MNK liniowa funkcja trendu liczby profili na FB ma postać: ŷ=1,456 t – 4,472 [0,35] [2,17] ytyt t

Czy oszacowana MNK liniowa funkcja trendu nadaje się do prognozowania? tytyt ŷtŷt e t = y t - y ̂ t 10,03-3,0163,046 20,08-1,5591,639 30,16-0,1030,263 40,381,353-0,973 50,732,810-2,080 61,34,266-2,966 72,25,723-3,523 84,97,179-2,279 99,58,6350, ,110,0926,008 35,38 0 t ytyt

Jak oszacować inną niż liniowa funkcję trendu? Np. wykładniczą? y = β*α t logarytmujemy ln y = ln β + t * ln α Y = B + A*t y = e αt+β logarytmujemy ln y = αt+β Y = αt+β

Szacowanie funkcji wykładniczej tytyt ln y t ŷtŷt 10,03-3,510,040 20,08-2,530,079 30,16-1,830,156 40,38-0,970,309 50,73-0,320,613 61,30,261,216 72,20,792,412 84,91,594,782 99,52,259, ,12,7818,804 35,38

Wykładnicza funkcja trendu liczby profili na FB : ŷ= 0,02 *1,98 t

Wybrane przykłady pakietów statystycznych STATA 12

Dziękuję dr Marta Marszałek