Regresja i korelacja materiały dydaktyczne.

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

ESTYMACJA PRZEDZIAŁOWA
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Analiza korelacji.
Wykład 14 Liniowa regresja
Wykład 11 Analiza wariancji (ANOVA)
Wykład 4 Przedziały ufności
Metody Przetwarzania Danych Meteorologicznych Wykład 4
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Analiza współzależności dwóch zjawisk
Wykład 4. Rozkłady teoretyczne
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
dr hab. Ryszard Walkowiak prof. nadzw.
Hipotezy statystyczne
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
Rozkłady wywodzące się z rozkładu normalnego standardowego
Analiza reszt w regresji
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Statystyka – zadania 4 Janusz Górczyński.
1 Kilka wybranych uzupełnień do zagadnień regresji Janusz Górczyński.
Hipotezy statystyczne
Zagadnienia regresji i korelacji
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Kilka wybranych uzupelnień
Ekonometria stosowana
Planowanie badań i analiza wyników
Ekonometria stosowana
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Weryfikacja hipotez statystycznych
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Ekonometria WYKŁAD 7 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
MNK – podejście algebraiczne
Analiza współzależności zjawisk
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
Zapis prezentacji:

Regresja i korelacja materiały dydaktyczne

Regresja liniowa W populacji generalnej rozważamy dwie zmienne X i Y takie, że zmienna losowa Y ma rozkład normalny z parametrami μ = m(x) i σ = σy/x zaś zmienna X jest zmienną rzeczywistą (lub losową). Wartość oczekiwana zmiennej losowej Y jest funkcją liniową zmiennej X postaci: m(x) = b + ax. Wariancja σ2y/x oznacza, że zmienność cechy Y jest niezależna od zmiennej X (jest stała).

Estymacja parametrów modelu Nieznane parametry modelu y = b +ax muszą być estymowane na podstawie odpowiedniej próby losowej. Zagadnienie estymacji parametrów modelu sprowadza się do takiego dobrania parametrów aby suma kwadratów odległości każdego punktu empirycznego od prostej regresji była jak najmniejsza.

Estymacja parametrów modelu gdzie (yi, xi) oznacza elementy próby losowej.

Estymacja parametrów modelu Każdą obserwację empiryczną można zapisać jako: yi = b + a·xi +ei. Problem estymacji sprowadza się do wyznaczenia minium funkcji s danej wzorem.

Estymacja parametrów modelu Funkcja s jest funkcją dwóch niewiadomych (a i b), aby znaleźć minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s względem obu niewiadomych: i przyrównać te pochodne do zera.

Estymacja parametrów modelu Otrzymujemy układ równań postaci: Rozwiązując mamy:

Istotność równania regresji Istotność wyestymowanego równania regresji badamy weryfikując hipotezę zerową H0 : a = 0 wobec H1 : a ≠ 0 Przy prawdziwości H0 statystyka: ma rozkład t Studenta z liczbą stopni swobody równej n - 2. Wyrażenie jest oszacowaniem wariancji odchyleń od regresji z próby:

Istotność współczynnika regresji Jeżeli |t| > tkryt, to H0 : a = 0 odrzucamy jako statystycznie mało prawdopodobną i mówimy o istotności wyznaczonego równania regresji. Jeśli nie to wyniki próby nie przeczą hipotezie H0 i funkcja regresji jest stała. Współczynnik regresji mówi nam o tym, o ile zmieni się zmienna zależna y przy wzroście zmiennej x o jednostkę.

Dopasowanie prostej regresji Odchylenie obserwowanej wartości od jej średniej można zapisać następująco: Pierwszy składnik to część całkowitego odchylenia zmiennej y, która jest wyjaśniona regresją liniową y względem x, drugi składnik to część zmienności całkowitej, która nie została wyjaśniona regresją.

Współczynnik determinacji Wyrażenie to nazywamy współczynnikiem determinacji. r2 <0; 1> Informuje on o tym, jaka część zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem X.

Jeżeli między zmiennymi Y i X istnieje pełna zależność, to wszystkie punkty empiryczne leżą na prostej, reszty są zerowe, a r2 = 1. W przypadku braku zależności (a = 0) funkcja regresji jest stała i r2 = 0.

Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego poziomu istotności , wartość krytyczną tn-2,. Jeżeli obliczona wartość t znajduje w dwustronnym obszarze krytycznym (-, - tn-2,), (tn-2,, +), to H0 należy odrzucić na korzyść hipotezy H1

Weryfikacja hipotezy o istotności regresji Weryfikacji hipotezy o istotności regresji testem F Fishera-Snedecora. Analiza wariancji ma postać Zmienność df SS M.S Femp. F Regresji 1 MSR FR Odchyleń n-2 SSE MSE Fa,1,n-2 Całkowita n-1

Predykcja na podstawie regresji liniowej Model regresji można wykorzystać do przewidywania wartości które przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej X. Jest to zagadnienie predykcji lub prognozowania. Niestety, im wartość x, dla której dokonujemy predykcji jest bardziej odległa od średniej z próby tym mniejsza dokładność prognozy.

Przedział ufności dla wartości z modelu Dla regresji liniowej statystyka: ma rozkład t Studenta z liczbą stopni swobody n - 2. Na tej podstawie możemy wyznaczyć przedział ufności dla wartości z modelu:

Współczynnik korelacji Miarą siły związku między zmiennymi losowymi jest współczynnik korelacji , Empiryczny współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji . Współczynnik korelacji określa także kierunek zależności. r = 1 r = -1

Kwadrat współczynnika korelacji z próby nazywany jest współczynnikiem determinacji i jest on, drugim poza współczynnikiem korelacji miernikiem siły związku między zmiennymi. Interpretacja współczynnika determinacji – podaje on w jakiej części zmienność jednej cechy jest wyjaśniona przez drugą cechę.

Weryfikacja hipotezy o istotności korelacji Założymy, że rozkład zmiennych losowych Y i X w populacji generalnej jest normalny. Na podstawie n - elementowej próby chcemy zweryfikować hipotezę, że zmienne te są liniowo niezależne: wobec Jeżeli H0 jest prawdziwa, to statystyka: ma rozkład t Studenta z liczbą stopni swobody v = n – 2. Hipoteza o istotności korelacji może być także zweryfikowana poprzez porównanie wyznaczonego współczynnika z próby z wartościami krytycznymi współczynnika korelacji wielokrotnej Pearsona.

Regresja wielokrotna liniowa Dotychczas rozpatrywaliśmy tylko dwie zmienne: Y i X. Częściej mamy do czynienia z przypadkami w których jest zmienna losową Y oraz k zmiennych X (stałych lub losowych).

Współczynniki modelu b1, ..., bk będziemy nazywać cząstkowymi współczynnikami regresji. Kryterium estymacji : należy tak dobrać parametry modelu, aby suma kwadratów odchyleń od modelu była jak najmniejsza:

Badanie istotności regresji wielokrotnej Hipotezę o nieistotności regresji wielokrotnej możemy zapisać jako: jej weryfikacja testem F Fishera-Snedecora. Tabela analizy wariancji ma postać: Zmienność d.f SS MS Femp. F Regresji k SSR MSR FR Odchyleń n-k-1 SSE MSE Całkowita n-1 SST

Sumy kwadratów odchyleń i średnie kwadraty potrzebne do zweryfikowania hipotezy o istotności regresji mogą być wyznaczone z niżej podanych wzorów.

Badanie istotności regresji wielokrotnej Hipotezę odrzucamy gdy Odrzucenie hipotezy H0 jest równoznaczne z tym, że co najmniej jeden współczynnik regresji jest różny od zera; tzn. istnieje związek funkcyjny liniowy między zmienną zależną a zmiennymi niezależnymi. Problem statystyczny które zmienne niezależne powinny pozostać w modelu regresji.

Weryfikacja hipotez o istotności cząstkowych współczynników regresji Problem sprowadza się do zweryfikowania serii k hipotez zerowych mówiących o tym, że i-ty cząstkowy współczynnik regresji jest równy zero. Hipotezy te mogą być weryfikowane testem t-Studenta

Weryfikacja hipotez Wyrażenie jest oszacowaniem średniego kwadratu odchyleń od regresji. Przy prawdziwości hipotez zerowych tak określone statystyki mają rozkład t-Studenta z liczbą stopni swobody równą n-k-1

Hipotezę będziemy odrzucać, jeżeli wartość statystyki t znajdzie się w obszarze krytycznym. Jeżeli zmienne niezależne są z sobą powiązane to oceny istotności cząstkowych współczynników regresji nie są niezależne.

Problem doboru zmiennych W przypadku istnienia silnych współzależności między zmiennymi niezależnymi analizując funkcję regresji wielokrotnej dochodzimy do wniosku, że jest ona istotna statystycznie (testem F). Weryfikując dalej hipotezy o istotności cząstkowych współczynników uzyskujemy wartości testu t Studenta, które nie przeczą hipotezom zerowym. Czyli mamy istotną funkcję regresji ale wszystkie zmienne (analizowane oddzielnie) są nieistotne, powinny więc być usunięte z modelu. Zaczynamy od pełnego zestawu potencjalnych zmiennych niezależnych, a następnie kolejno usuwamy z modelu tę zmienną niezależną, której rola w opisywaniu zależności między zmienną Y a zmiennymi niezależnymi jest najmniejsza. Podejście takie nosi nazwę regresji krokowej.

Regresja krokowa Algorytm postępowania: Zaczynamy od pełnego (potencjalnie) zestawu zmiennych niezależnych. Estymujemy model i wyznaczamy Wyznaczamy wektor wartości empirycznych statystyk t dla hipotez . 3. Usuwamy z modelu tę zmienną, dla której uzyskaliśmy najmniejszą wartość empiryczną statystyki t (co do wartości bezwzglednej) i ponownie estymujemy model. Postępowanie takie kontynuujemy tak długo, dopóki w modelu nie pozostaną tylko zmienne istotne.

maksymalizacji wartości współczynnika determinacji W trakcie wykonywania regresji krokowej powinniśmy obserwować zmiany wartości współczynnika determinacji jak i średniego kwadratu błędu. Postępowanie ma doprowadzić do maksymalizacji wartości współczynnika determinacji przy jednoczesnej minimalizacji średniego kwadratu błędu.

Ocena dopasowania modelu Miarą stopnia dopasowania modelu jest korelacja wielokrotna R lub jej kwadrat (współczynnik determinacji D). Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak największego współczynnika determinacji (korelacji), ale przy możliwie małym średnim kwadracie odchyleń od regresji:

Regresja wielomianowa (krzywoliniowa) W wielu przypadkach interesuje nas nieliniowy związek między zmienną Y a zmienną X, np.:

Linearyzacja modelu regresji wielomianowej Przykład modelu nieliniowego z dwoma zmiennymi niezależnymi:

Wnioskowanie dla regresji wielokrotnej Współczynniki regresji: i-ty, cząstkowy współczynnik regresji opisuje o ile średnio zmieni się wartość zmiennej Y przy wzroście i-tej wartości zmiennej X o jednostkę przy ustalonych wartościach pozostałych zmiennych niezależnych. W przypadku większości modeli regresji krzywoliniowej taka interpretracja nie jest możliwa.

Funkcje wielomianowe Model regresji wielomianowej dwóch zmiennych niezależnych jest postaci: Etap pierwszy - Wyznaczanie funkcji regresji dla jednej zmiennej niezależnej tzn. zmienna Y jest funkcją tylko jednej zmiennej niezależnej, np.

Problemy z estymacją funkcji regresji Estymacja funkcji regresji jest zagadniem trudnym ponieważ: Brak jest pewności, że zbiór analizowanych zmiennych niezależnych jest pełny. 2. Typ funkcji regresji nie jest znany dlatego pojawia się problem doboru kształtu funkcji regresji i zestawu zmiennych niezależnych. 3. W wielu sytuacjach można uzyskać porównywalną „dobroć dopasowania modelu”, współczynnik korelacji lub R2, dla różnych typów funkcji regresji i zestawów zmiennych niezależnych.