Wykład 14 Liniowa regresja

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
ESTYMACJA PRZEDZIAŁOWA
KORELACJA I REGRESJA WIELOWYMIAROWA
BADANIE KORELACJI ZMIENNYCH
Estymacja. Przedziały ufności.
Wykład 9 Analiza wariancji (ANOVA)
Wykład 5 Standardowy błąd a odchylenie standardowe
Wykład 14 Diagnostyka Diagnostyka – ocena prawidłowości założeń
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Portfel wielu akcji. Model Sharpe’a
Współczynnik beta Modele jedno-, wieloczynnikowe Model jednowskaźnikowy Sharpe’a Linia papierów wartościowych.
Metody ekonometryczne
Statystyka w doświadczalnictwie
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Mgr Sebastian Mucha Schemat doświadczenia:
Analiza korelacji.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Wykład 4 Przedziały ufności
Korelacje, regresja liniowa
ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
AGH Wydział Zarządzania
Testy nieparametryczne
dr hab. Ryszard Walkowiak prof. nadzw.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Zagadnienia regresji i korelacji
Elementy Rachunku Prawdopodobieństwa i Statystyki
Statystyka - to „nie boli”
Planowanie badań i analiza wyników
Ekonometryczne modele nieliniowe
Regresja wieloraka.
Testowanie hipotez statystycznych
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Dopasowanie rozkładów
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Ekonometria stosowana
Wykład 5 Przedziały ufności
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
KORELACJA I REGRESJA WIELOWYMIAROWA
Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja.
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
MNK – podejście algebraiczne
MIARY STATYSTYCZNE Warunki egzaminu.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
Zapis prezentacji:

Wykład 14 Liniowa regresja Związek między próbkowym współczynnikem korelacji a współczynnikiem nachylenia prostej regresji. r = b1 sX / sY  = 1 X / Y  = 0  1 = 0 Testowanie H0: 1 = 0 odpowiada testowaniu H0:  = 0

Współczynnik dopasowania Jaki procent zróżnicowania Y jest wyjaśniony przez prostą regresji (liniową zależność od X). SSY = SS(całkowite) = SS(regresja) + SS(resid albo resztowa) Wsp. Dop = SS(regresja)/SSY =1-SS(resid)/SSY = r2

W przykładzie z wężami, r = 0.9437, więc r2 = 0.89. Tak więc około 89% zróżnicowania Y jest wyjaśnionych przez regresję. 11% nie jest wyjaśnionych przez regresję.

Związek r2 ze standardowym odchyleniem W przybliżeniu (przybliżenie jest dokładne dla dużych n)

W naszym przykładzie, sY|X /sY = 12.5/35.34 = 0.3537 = 0.3308 (n było małe więc przybliżenie nie jest dokładne)

Co to oznacza? Gdy r2 jest bliskie 1 resztowe SD jest małe w porównaniu do całkowitego SD dla Y, tzn. punkty leżą blisko prostej regresji. Gdy Gdy r2 jest bliskie zeru, standardowy błąd resztowy jest prawie tak samo duży jak standardowe odchylenie dla Y, tzn. rozrzut Y wokół prostej regresji jest prawie tak samo duży jak rozrzut wokół średniej.

Diagnostyka Założenia Liniowość: Y = 0 + 1 X + błąd losowy Równość wariancji – σY|X jest stałe Błędy mają rozkład normalny Obserwacje są niezależne

Diagnostyka Rysunki !!!!! Diagramy Y vs X Wykresy błędów w funkcji X Przewidywanego Y Numeru obserwacji Wykresy kwantyl-kwantyl dla błędów

Istnieją również formalne testy sprawdzające każde z tych założeń, dostępne w pakietach statystycznych. Nawet gdy używamy formalnych testów powinniśmy wykonać rysunki – to najlepszy sposób aby zaobserwować specyficzne odchylenia od założeń.

Wykres błędów 1

Wykres niemal idealny Podobny rozrzut w całym zakresie x =stała wariancja Symetryczny wokół 0 Brak regularności = założenie o liniowości jest prawdopodobnie spełnione

Wariancja nie jest stała Rozrzut zwiększa się ze wzrostem X Problem można często rozwiązać stosując odpowiednie transformacje. Zwykle logarytmujemy lub pierwiastkujemy Y. UWAGA – wtedy zmieniamy model. Zmienia się wzór zależności zmiennej odpowiedzi od X (np. nie zachowujemy liniowości). Czasami stosuje się ważoną regresję – konieczna znajomość wzoru opisującego zależność wariancji błędów od X.

Brak liniowości Błędy układają się wg. pewnej krzywej – najprawdopodobniej zależność Y od X nie jest liniowa Można spróbować dopasować krzywą wielomianową lub wykładniczą

Jeżeli model wykładniczy lub wielomianowy jest prawidłowy wówczas można dokonać odpowiednich przekształceń i analizować dane używając liniowej regresji. Załóżmy, że prawdziwa relacja jest w formie Y ≈ k ecX . Wówczas stosując przekształcenie Y' = log Y mamy zależność liniową Y' ≈ log (k ecX) = log k + cX. Jeżeli prawdziwa relacja jest w formie Y = a + c X2 + błąd, to możemy dane analizować stosując regresję liniową Y na X2

Przykład Brak liniowości p-wartość β1=0 przeciwko β1 ≠ 0 jest poniżej 0.000000001 Dopasowana prosta Y=5.22+0.2959*X

Obserwacje odstające Obserwacja odstająca to punkt który leży zdecydowanie dalej od prostej regresji niż inne punkty. Zwiększa oszacowanie na błąd resztowy co może prowadzić do osłabienia mocy detekcji zależności Y od X. Z obserwacjami odstającymi Y=0.45+0.89 X r2=0.7784 p-wartość < 0.00001 Po usunięciu Y=0.06+0.98 X r2=0.9674

Punkty szczególnie wpływające na prostą regresji Na ogół są to takie punkty dla których X wyraźnie różni się od pozostałych X (UWAGA – takie punkty ``przyciągają’’ do siebie prostą regresji i mogą nie być zakwalifikowane jako odstające)

Przykład: Regresja w oparciu o pełne dane Y = .71 + 0.32X r2 = 0.376 P-wartość dla H0 : β1 =0 przeciwko HA : β1 ≠ 0 jest mniejsza niż 0.0002.

Po usunięciu punktu (6,6) Y = 1.94 + 0.032X r2 = 0.00085 P-wartość dla H0 : β1 =0 przeciwko HA : β1 ≠ 0 jest w przybliżeniu równa 0.8578.

Dane nie są losowe Jeżeli obserwacje nie są niezależne i losowe to należy użyć odpowiedni model uwzględniający tę zależność. W przypadku nie uwzględnienia zależności tradycyjne analizy mogą dać zupełnie błędne wyniki. Problem zależności obserwacji należy rozwiązać na etapie planowania eksperymentu.

Ostrożnie z ekstrapolacją. Zależność między Y a X wyestymowana w oparciu o dane może nie zachodzić poza obszarem wyznaczonym przez te wartości X, które zostały uwzględnione w procesie estymacji. Regresja wieloraka Y = 0 + 1 X1 + 2 X2 + 3 X3 + …

Podsumowanie Jakościowe Ilościowe Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Dyskretne Ciągłe

W metodach omawianych na tym kursie zajmowaliśmy się zwykle badaniem związku między zmienną ``odpowiedzi’’ a czynnikiem. Postaw problem Zidentyfikuj zmienne Co jest odpowiedzią ? Czy jest ona ilościowa czy jakościowa ? Co jest czynnikiem ? Czy jest on ilościowy czy jakościowy ?

Przykłady: W teście Studenta dla dwóch prób odpowiedź jest ilościowa a czynnik ustala podział na dwie grupy, np. lekarstwo/placebo. Możemy o czynniku myśleć jako o zmiennej jakościowej o dwóch poziomach. W teście Studenta dla jednej próby jest tylko zmienna odpowiedzi, która jest

W ANOV-ie odpowiedź jest a czynnik jest W regresji odpowiedź jest i czynnik jest W teście zgodności chi-kwadrat jest tylko zmienna odpowiedzi. W teście chi-kwadrat w tablicach wielodzielczych odpowiedź jest