Jednorównaniowy model regresji liniowej
Model regresji definiujemy: gdzie: yi - i-ta wartość zmiennej objaśnianej (zależnej), xij - i-ta wartość j-tej zmiennej objaśniającej (niezależnej; j=1,2,...k), εi - i-ta reszta (błąd) modelu (różnica między oszacowaną i empiryczną wartością yi), n - liczba obserwacji, k- liczba zmiennych objaśniających.
Postać funkcji g określa typ modelu Postać funkcji g określa typ modelu. Najczęściej jest to funkcja liniowa. Zatem model ten ma następującą postać:
Alternatywna definicja modelu regresji jest następująca: W tym przypadku funkcja regresji g oznacza warunkową wartość oczekiwaną zmiennej objaśnianej, pod warunkiem, że zmienne objaśniające przyjęły wartości określone przez (k-wymiarowy) wektor X. !!! Aby modele te mogły być zapisane za pomocą równań w/w równań musi być spełniony warunek: tzn. wartość oczekiwana reszty modelu dla dowolnego wektora zmiennych objaśniających X musi być równa zeru.
Założenia modelu regresji liniowej z jedną zmienną objaśniającą – każda ze zmiennych objaśniających podlega rozkładowi normalnemu.
W zbiorowości generalnej rozważamy dwie zmienne X i Y: - zmienna losowa Y ma rozkład normalny o parametrach μ = m(x) i σ = σy/x - zmienna X jest zmienną rzeczywistą (lub losową). Wartość oczekiwana zmiennej losowej Y jest funkcją liniową zmiennej X postaci: m(x) = b + ax. Wariancja σ2y/x oznacza, że zmienność cechy Y jest niezależna od zmiennej X (jest stała).
Estymacja parametrów modelu funkcji regresji Parametry modelu y = b +ax estymujemy (szacujemy ich wartości) na podstawie próby losowej. Estymacji parametrów modelu polega na dobraniu tak ich parametrów, aby suma kwadratów odległości każdego punktu empirycznego od prostej regresji była jak najmniejsza. Estymacja modelu liniowego za pomocą klasycznej metody najmniejszych kwadratów (KMNK)
gdzie (yi, xi) oznacza elementy próby losowej
Każdą obserwację empiryczną można zapisać jako: yi = b + a·xi +ei Każdą obserwację empiryczną można zapisać jako: yi = b + a·xi +ei. Problem estymacji sprowadza się zatem do wyznaczenia minium funkcji s danej wzorem:
Funkcja s jest funkcją dwóch niewiadomych (a i b) Funkcja s jest funkcją dwóch niewiadomych (a i b). Aby znaleźć minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s względem obu niewiadomych: a następnie przyrównać te pochodne do zera.
Otrzymujemy układ równań postaci: Rozwiązując go otrzymujemy:
Istotność paramatrów funkcji regresji: H0 : a = 0 wobec H1 : a ≠ 0 ma rozkład t Studenta z liczbą stopni swobody równej n - 2. Wyrażenie jest oszacowaniem wariancji odchyleń od regresji z próby:
Estymacja przedziałowa współczynnika kierunkowego : t, jest wartością krytyczną zmiennej losowej Studenta dla =(n-2) stopni swobody Estymacja przedziałowa współczynnika przesunięcia :
Przedział ufności dla dowolnego punktu prostej regresji: Szerokość przedziału ufności, podobnie jak wariancja, rośnie wraz z odchyleniem od punktu środkowego prostej regresji.
Dopasowanie Odchylenie obserwowanej wartości od jej średniej można zapisać następująco: Pierwszy składnik to część całkowitego odchylenia zmiennej y, która jest wyjaśniona regresją liniową y względem x. Drugi składnik to część zmienności całkowitej, która nie została wyjaśniona regresją.
Współczynnik determinacji – jaka część zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem X r2 <0; 1>
Predykcja - przewidywanie wartości, które przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej X. Niestety, im wartość x, dla której dokonujemy predykcji jest bardziej odległa od średniej z próby, tym mniejsza dokładność prognozy.
Współczynnik korelacji Miarą siły związku między zmiennymi losowymi jest współczynnik korelacji , Empiryczny współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji . Współczynnik korelacji określa także kierunek zależności. r = 1 r = -1