Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
KORELACJA I REGRESJA WIELOWYMIAROWA
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza współzależności
Dane dotyczące sprzedaży wody mineralnej
Analiza współzależności
1 Dane dotyczące sprzedaży wody mineralnej Tygodnie Ilość sprzedanej wody mineralnej Y (litrów) Cena jednego litra X (płn.) 1101,3 262,0 351,7 4121,5 5101,6.
Metody ekonometryczne
Metody ekonometryczne
Metody ekonometryczne
Statystyka w doświadczalnictwie
Ekonometria wykladowca: dr Michał Karpuk
Nowy kod Statistica 6.1 HEN6EUEKH8.
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Mgr Sebastian Mucha Schemat doświadczenia:
Analiza korelacji.
Wykład 14 Liniowa regresja
Prognozowanie na podstawie modelu ekonometrycznego
Korelacje, regresja liniowa
Analiza wariancji ANOVA efekty główne
Wykład 4. Rozkłady teoretyczne
Korelacja, autokorelacja, kowariancja, trendy
Seminarium 2 Krzywe kalibracyjne – rodzaje, wyznaczanie, obliczanie wyników Równanie regresji liniowej Współczynnik korelacji.
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
i jak odczytywać prognozę?
Jak mierzyć i od czego zależy?
Ekonometria. Co wynika z podejścia stochastycznego?
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Elementy Rachunku Prawdopodobieństwa i Statystyki
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Modelowanie ekonometryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Ekonometria stosowana
Analiza wariancji ANOVA czynnikowa ANOVA
Statystyka i opracowanie wyników badań
Ekonometria stosowana
Regresja wieloraka.
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Ekonometryczne modele nieliniowe
Ekonometria stosowana
D. Ciołek EKONOMETRIA – wykład 3
D. Ciołek EKONOMETRIA – wykład 2
Analiza wariancji ANOVA czynnikowa ANOVA
Regresja liniowa Dany jest układ punktów
Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.
Estymatory punktowe i przedziałowe
Model ekonometryczny Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Ekonometria WYKŁAD 3 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Treść dzisiejszego wykładu l Metoda Najmniejszych Kwadratów (MNK) l Współczynnik determinacji l Koincydencja l Kataliza l Współliniowość zmiennych.
Statystyka Powtorzenie
„Gospodarka i Społeczeństwo”   Zielone miejsca pracy w krajach Unii Europejskiej – studium empiryczne z zastosowaniem analizy regresji Barbara.
KORELACJA I REGRESJA WIELOWYMIAROWA
EKONOMETRIA W3 prof. UG, dr hab. Tadeusz W. Bołt
Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja.
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Model ekonometryczny z dwiema zmiennymi
MNK – podejście algebraiczne
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
Zapis prezentacji:

Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia Przykładowe oblicznia w Statistica Weryfikacja założeń w Statistica Zadanie

Regresja wieloraka Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi)

Typowe zadanie Jak przewidzieć odsetek upadków zwierząt przy transporcie? Jakie zmienne związane są z upadkami zwierząt? Co decyduje o upadkach zwierząt? Które z nich są najważniejsze i w jakim stopniu są powiązane ze stratami zwierząt?

regresja pierwszego rzędu y = a + b1x1 + b2x2 + b3x3 + ... + e drugiego rzędu y = a + b1x1 + b2x2x2 + ... y = a + b1x1 + b2x2 + b3x2x3 + Dlaczego te regresje są liniowe?

y = a + b1x1 + b2x2 + b3x3 + ... + e a to wyraz wolny. Średnia? b1, b2, b3 – cząstkowe współczynniki regresji to niezależne wkłady każdej ze zmiennych objaśniających Dlaczego cząstkowe?

Współczynniki cząstkowe obrazują zależności po uwzględnieniu pozostałych czynników. przykład: długość włosów i wzrost Jak je oszacować?

Jak wyznaczyć prostą regresji metoda najmniejszych kwadratów metoda najmniejszych kwadratów ważonych metoda najmniejszych reszt bezwględnych

Metoda najmniejszych kwadratów

R-kwadrat czyli współczynnik determinacji Mówi o jakości przewidywania R2=30% znaczy 30% wariancji opisane przez zmienne opisujące i 70% wciąż nie opisane (błędy)

R-kwadrat R-kwadrat = 1 - SSE / SST SSE - suma kwadratów reszt SST - suma kwadratów obserwacji

R-kwadrat skorygowane R-kwadrat zależy od liczby zmiennych objaśniających! Im więcej zmiennych tym większy. R-kwadrat skorygowane NIE zależy od liczby zmiennych objaśniających Porównując dwa modelu o różnej liczbie zmiennych patrz na R-kwadrat skorygowane

R czyli korelacja R to pierwiastek z R-kwadrat. Tylko dodatni ( 0 - 1 ) !!! wskazuje na stopień powiązania zmiennych

Zależność między zmiennymi jest liniowa Trudne do sprawdzenia Małe odstępstwa niegroźne Liniowość oceniamy na oko – wykresy rozrzutu Co jeżeli zależność nie jest liniowa? transformacja danych regresja nieliniowa

Regresja mówi o współwystępowaniu zjawisk, a nie o przyczynach i skutkach! Regresja liczby kradzieży na liczbę policjantów jest dodatnia!

Zwodnicza regresja Jeżeli w modelu umieścisz dużą liczbę zmiennych objaśniających część z nich na pewno będzie istotna. Im więcej danych tym mniej złudne są wyniki. Ile?

Reszty mają rozkład normalny Ważne przy testowaniu, nie przy szacowaniu Stosujemy histogramy reszt i wykresy normalności reszt Niewielkie odchylenia nie są groźne Dobry model daje duży R-kwadrat i normalność reszt. Czy taki potrafimy znaleźć?

Nadmiarowość danych % upadków przy transporcie tak samo dobrze opisuje liczba przejechanych kilometrów jak i dystans do ubojni (to to samo) Statistica daje sygnał o „złym uwarunkowaniu macierzy”, ale nie zawsze.

Odstające obserwacje Znacznie przekłamują oszacowania. Najczęściej to błędy powstałe przy wpisywaniu danych. Najlepiej usunąć je przed analizą regresji.

Przykładowe dane

Analiza bez interakcji z wieloma zmiennymi objaśniającymi ciągłymi

Który model jest najlepszy? Ten z max. R-kwadrat? Im szerszy model tym większy wsp. determ. Lepiej stosować statystykę Fj SSEj / MSE

Jak wyznaczyć najlepszy model? Najlepiej rozpatrywać każdy model z osobna (Statistica tego nie ułatwia). Jeżeli więcej zmiennych kandydujących to korzystamy z regresji krokowej wstecznej postępującej

R. krokowa postępująca Najprostszy model – tylko wyraz wolny Testujemy każdy z osobna, i dodajemy do modelu zmienną, której F>Fwprow. Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F<Fusun.

y = -0,27 + 0,04  dystans + 0,45  obsada BETA to współ., po standaryzacji wszystkich zmiennych na średnią 0 i odch. std=1. Wskazują relatywny wkład każdej zmiennej.

Po dopasowaniu modelu zawsze analizujemy reszty. Powtarzamy analizę jeżeli mamy duże wartości odstające!

Wykres reszt wg przypadków Jeśli jedna lub więcej reszt wychodzi poza granicę ±3s usuwamy dane i powtarzamy analizę.

Odległości Mahalanobisa Odległości przypadków przewidywanych od średniej przewidywań. Sposób na analizę wartości ekstremalnych po stronie zmiennych objaśniających.

Wykres odstających wg. przypadków

Reszty usunięte ...to reszty jakie byśmy uzyskali, gdyby dany przypadek pominąć przy obliczeniach regresji. Jeśli reszta usunięta znacznie się różni od zwykłej reszty standaryzowanej, to dany przypadek przekłamuje całą analizę!

Reszty wzg. usuniętych reszt

udział tłuszczu w ciele Problem na ćwiczenia udział tłuszczu w ciele Ważny dla zdrowia Trudny w pomiarze - wymaga ważenia ciała w wodzie. Czy można go przewidzieć na podstawie łatwych pomiarów.

dane BODYFAT Density determined from underwater weighing Percent body fat from Siri's (1956) equation Age (years) Weight (lbs) Height (inches) Neck circumference (cm) Chest circumference (cm) Abdomen 2 circumference (cm) Hip circumference (cm) Thigh circumference (cm) Knee circumference (cm) Ankle circumference (cm) Biceps (extended) circumference (cm) Forearm circumference (cm) Wrist circumference (cm) dane BODYFAT http://lib.stat.cmu.edu/datasets/

Zadania na ćwiczenia Skonstruuj dobry model predykcji udziału tłuszczu w ciele Które zmienne są najlepiej objaśniają udział tłuszczu w ciele człowieka? Dokonaj analizy reszt. Usuń przypadki zniekształcające przewidywanie i popraw model.

zadanie dla chętnych Zbrodnie Detroit http://lib.stat.cmu.edu/datasets/detroit The data are on the homicide rate in Detroit for the years 1961-1973. FTP - Full-time police per 100,000 population UEMP - % unemployed in the population MAN - number of manufacturing workers in thousands LIC - Number of handgun licences per 100,000 population GR - Number of handgun registrations per 100,000 population CLEAR - % homicides cleared by arrests WM - Number of white males in the population NMAN - Number of non-manufacturing workers in thousands GOV - Number of government workers in thousands HE - Average hourly earnings WE - Average weekly earnings HOM - Number of homicides per 100,000 of population ACC - Death rate in accidents per 100,000 population ASR - Number of assaults per 100,000 population skonstruuj model predykcji liczby zabójstw