Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)

Podobne prezentacje


Prezentacja na temat: "Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)"— Zapis prezentacji:

1 Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)

2 Odkrywanie i analiza zależności pomiędzy zmiennymi ilościowymi (liczbowymi)
Przedmiotem kolejnych dwóch wykładów będą zależności dla Zmiennych jednowymiarowych Korelacja liniowa Test istotności współczynnika korelacji liniowej Regresja prosta Współczynniki regresji, wyznaczanie ich MNK Ocena dopasowania modelu Współczynnik determinacji Standardowy błąd estymacji Współczynnik zmienności losowej Zmiennych wielowymiarowych Macierz korelacji Korelacje cząstkowe Regresja wieloraka

3 niezależna (objaśniająca, predyktor, egzogeniczna, zewnętrzna)
Metody statystyczne stosuje się do badania struktury zbiorowości i zależności pomiędzy jej cechami Metody statystyczne dotyczące analizy struktury zbiorowości opierały się na obserwacjach tylko jednej cechy, a jeśli brano pod uwagę kilka cech, to każdą analizowano oddzielnie. W wielu przypadkach, do poznania całokształtu zagadnienia potrzebna jest analiza zbiorowości z punktu widzenia kilku cech, pomiędzy którymi występują pewne zależności Odkrywanie postaci i siły zależności występujących pomiędzy cechami zbiorowości są przedmiotem analizy korelacji i regresji. Uwzględniając liczbę zmiennych (analizowanych cech zbiorowości) rozróżnia się następujące odmiany zależności Rodzaj zmiennej zależna (objaśniana, endogeniczna, odpowiedzi, prognozowana, wewnętrzna) niezależna (objaśniająca, predyktor, egzogeniczna, zewnętrzna) jednowymiarowa jedna zmienna wiele zmiennych wielowymiarowa

4 Zależność zmiennych KISIM, WIMiIP, AGH

5 Wykres rozrzutu KISIM, WIMiIP, AGH

6 Wprowadzenie do analizy zależności pomiędzy danymi statystycznymi
Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich: siła (współczynnik determinacji , współczynnik korelacji) postać ( dopasowanie funkcji reprezentujących zależność - aproksymacja) kierunek (monotoniczność) Współzależność między zmiennymi może być dwojakiego rodzaju: funkcyjna stochastyczna (probabilistyczna).

7 Przykłady związków funkcyjnych i statystycznych

8 Rodzaje zależności pomiędzy danymi - zależność funkcyjna
Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. W przypadku zależności funkcyjnej: y = f (x), każdej wartości zmiennej (X) odpowiada jedna i tylko jedna wartość zmiennej (Y). Symbolem X oznaczamy zmienną objaśniającą (niezależną), natomiast symbolem Y - zmienną objaśnianą (zależną ).

9 Postać związków – przykłady dla jednowymiarowej zmiennej objaśnianej (y), gdy jedna jest zmienna objaśniająca (x) a b c d

10 Wykrywanie korelacji Obserwacja szeregów statystycznych zawierających informacje o cechach pozwala wykrywać zależności korelacyjne. Jeśli naszym celem jest analiza zachowania pewnej wielkości losowej Y, zbieramy również informacje towarzyszące, które mogą mieć znaczenie w analizie interesującej nas wielkości. Badana wartość, choć losowa, w istotny sposób zależy od innych zmiennych i zrozumienie charakteru tej zależności może być pożyteczne w wielu zadaniach np. przewidywania przyszłych wartości interesującej nas zmiennej. KISIM, WIMiIP, AGH

11 Rodzaje zależności pomiędzy danymi Zależność korelacyjna
Zależność stochastyczna występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Zależność korelacyjna polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Związki typu statystycznego są możliwe do wykrycia oraz ilościowego opisu w przypadku, kiedy mamy do czynienia z wieloma obserwacjami, opisującymi badane obiekty, zjawiska czy też procesy

12

13 Badanie zależności statystycznych pomiędzy danymi empirycznymi
W badaniach statystycznych zależności pomiędzy cechami najczęściej sprowadza się do funkcji liniowych. Nieliniowe związki pomiędzy zmiennymi mogą być opisywane przez wielomiany drugiego i wyższych stopni albo przez inne funkcje (wykładnicze, logarytmiczne, trygonometryczne itp.) . Przy podejmowaniu decyzji o wyborze funkcji aproksymacyjnej, opisującej w przybliżeniu związek pomiędzy analizowanymi cechami, pomocne jest sporządzenie wykresu rozrzutu wartości badanych zmiennych. Jeśli okaże się, że pomiędzy zmiennymi widoczna jest zależność i nie jest ona liniowa, wówczas trzeba znaleźć odpowiednie rozwiązanie nieliniowe

14 Miarą siły i kierunku zależności liniowej jest współczynnik korelacji liniowej
Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (r). Przyjmuje on wartości z przedziału domkniętego <-1; 1>. Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej

15 Przykłady układów punktów przy różnych wartościach współczynnika korelacji liniowej

16 Wzór do obliczania empirycznego współczynnika korelacji
gdzie: xi oraz yi oznaczają empiryczne wartości zmiennych X i Y, natomiast x oraz y oznaczają średnie wartości tych zmiennych. Współczynnik korelacji daje też informację o kierunku zależności, bo jeśli małym wartościom X odpowiadają przeważnie małe wartości zmiennej Y, a dużym wartościom X duże wartości Y, to licznik wyrażenia dla r będzie dodatni, mianownik jest zawsze dodatni, zatem r>0 oznacza zależność rosnącą, r<0 –malejącą.

17 Współczynnik korelacji
r – współczynnik korelacji r=0 zmienne nie są skorelowane 0,0 ≤ r < 0,1 korelacja nikła 0,1 ≤ r < 0,3 korelacja słaba 0,3 ≤ r < 0,5 korelacja przeciętna 0,5 ≤ r < 0,7 korelacja wysoka 0,7 ≤ r < 0,9 korelacja bardzo wysoka 0,9 ≤ r < 1 korelacja prawie pełna KISIM, WIMiIP, AGH

18 Związek korelacyjny pomiędzy zmiennymi X1 i X2,
Macierz korelacji Związek korelacyjny pomiędzy zmiennymi X1 i X2, z wyłączeniem działania zmiennej X3 KISIM, WIMiIP, AGH

19 Postaci zależności Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. Chodzi o to, aby wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa Może się bowiem okazać, że wyliczona wartość współczynnika korelacji jest zbliżona do zera, a mimo to pomiędzy korelowanymi zmiennymi występuje współzależność, tyle że nieliniowa KISIM, WIMiIP, AGH

20 Wykresy rozrzutu Powiązanie między współczynnikiem korelacji a układem punktów Wykresy, które reprezentują graficznie związek pomiędzy zmiennymi, nazywane są wykresami rozrzutu. Wzrokowa ocena umożliwia często określenie siły i rodzaju zależności. Im bliżej położone są punkty na wykresie tym większej korelacji możemy się spodziewać. Najważniejsza jest statystyczna istotność korelacji. Konieczna jest weryfikacja istotności wyliczonego z próby współczynnika. Wartość współczynnika bliska 0 oznacza jedynie brak zależności liniowej. KISIM, WIMiIP, AGH

21 Badanie istotności współczynnika korelacji liniowej
Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: zmienna t ma rozkład Studenta z n-2 stopniami swobody; u ma rozkład normalny. Hipotezę H0 odrzucamy ilekroć wartość obliczona funkcji testowej znajdzie się w obszarze krytycznym (zdefiniowanym przez hipotezę H1 z wartością krytyczną t ,n-2 ). gdy n<100 gdy n>100

22 Niejednoznaczność informacji przekazywanej przez współczynnik korelacji - przykład
Interpretacja: przez analogię do filmu Seksmisja: jeśli bociany to miejsce wybrały musi to być „zdrowy” region – pomyśleli młodzi i postanowili się tu osiedlić … a może bociany lubią (jeść) dzieci?

23 Wybrane zagadnienia analizy regresji prostej
Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Pojęcie funkcji w zastosowaniu do badań empirycznych nie może być zazwyczaj stosowane bez pewnych zastrzeżeń. Z definicji funkcji wynika, że jednej wartości zmiennej niezależnej (objaśniającej, predyktora) może być przyporządkowana dokładnie jedna wartość zmiennej zależnej (objaśnianej). KISIM, WIMiIP, AGH

24 Wybrane zagadnienia analizy regresji prostej
Badacz w praktyce ma zazwyczaj do czynienia z sytuacją, w której przy kilku powtórzeniach doświadczenia, zachowując za każdym razem te same wartości zmiennej niezależnej, otrzymuje inne wartości mierzonej zmiennej zależnej. Wartości te zwykle leżą blisko siebie, ale nie są na ogół identyczne dla celów użytkowych należało pojęcie funkcji uczynić bardziej elastycznym, a terminy zmienna niezależna i zmienna zależna dostosować odpowiednio do nowych potrzeb. Do tego celu w statystyce matematycznej wprowadzono pojęcie regresji oznaczające obliczenia wykorzystywane do ilościowego opisu zależności jednej zmiennej od drugiej KISIM, WIMiIP, AGH

25 Regresja prosta (regresja liniowa)
Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Model regresji liniowej prostej przyjmuje postać: Y = β 0+ β1 x + ε gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy, a ε błąd. Zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. Źródłem błędu są wpływy innych nie uwzględnionych w modelu zmiennych, takich jak np. błędy pomiarowe. Zakłada się przy tym, że błędy mają średnią wartość równą zero i nieznaną wariancję oraz, że błędy nie są nawzajem skorelowane. Współczynniki regresji β0 oraz β1 można wyznaczyć korzystając z metody najmniejszych kwadratów (MNK).

26 Regresja liniowa Założenia:
błędy pomiarów są niezależne i mają ten sam rozkład, przy czym Eεi=0 oraz Varεi=σ2<∞, i=1, 2, ..., n. nieznana funkcja regresji ma postać f(x)=ax+b, (występuje tylko jeden predyktor), gdzie a, b są liczbami rzeczywistymi W wyniku eksperymentu obserwujemy zatem zmienne losowe Yi = axi + b + εi, i=1, ..., n inaczej: Y = β0+ β1x + ε, gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy a ε błąd KISIM, WIMiIP, AGH

27 Istota metody najmniejszych kwadratów - MNK
Wprowadzona przez Legendre'a i Gaussa, jest najczęściej stosowaną w praktyce metodą statystyczną Jej istota jest następująca: Wynik kolejnego pomiaru yi można przedstawić jako sumę (nieznanej) wielkości mierzonej y oraz błędu pomiarowego i , Od tej wielkości oczekujemy, aby suma kwadratów była jak najmniejsza:

28 Ocena stopnia dopasowania modelu do danych rzeczywistych
Zasadniczy cel analizy regresji polega na ocenie nieznanych parametrów modelu regresji. Ocena ta jest dokonywana za pomocą metody najmniejszych kwadratów (MNK). MNK sprowadza się do minimalizacji sum kwadratów odchyleń wartości teoretycznych od wartości rzeczywistych (czyli tzw. reszt modelu). Dopasowany model regresji prostej, który daje punktową ocenę średniej wartości y dla określonej wartości x przyjmuje postać: gdzie f(x) oznacza teoretyczną wartość zmiennej zależnej, b0 i b1 to odpowiednio oceny wyrazu wolnego i współczynnika kierunkowego, uzyskane na podstawie wyników z próby.

29 MNK Wyrażenie Osiągnie min wtedy i tylko wtedy gdy

30 KISIM, WIMiIP, AGH

31 MNK ay – parametr regresji (estymator współczynnika regresji)
by – wyraz wolny KISIM, WIMiIP, AGH

32 Typowanie postaci zależności STATISTICA/wykresy/ wykresy rozrzutu 2W

33 Wykres ilustrujący zależność pomiędzy średnią temperaturą a zużyciem gazu
MODEL REGRESJI:

34 Założenia MNK 1.) model jest liniowy 2.) liczba obserwacji n musi być większa lub równa liczbie oszacowanych parametrów 3.) 4.) 5.) składniki losowe (reszty) są nieskorelowane 6.) reszty mają rozkład normalny

35 Współczynnik determinacji
r2 (R2) – współczynnik determinacji (wielkość ta oznacza kwadrat współczynnika korelacji) przyjmuje wartości z przedziału [0,1] jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Jeśli wartość R2 jest duża, to oznacza to, że błędy dla tego modelu są stosunkowo małe i w związku z tym model jest dobrze dopasowany do rzeczywistych danych. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych KISIM, WIMiIP, AGH

36 Na weryfikację modelu składają się testy sprawdzające:
Weryfikacja modelu Na weryfikację modelu składają się testy sprawdzające: Istotność parametrów modelu (test t) Istotność całego modelu (test F Fishera-Snedecora) - istotność współczynnika kierunkowego - istotność współczynnika determinacji - istotność liniowego związku między zmiennymi (analiza wariancji) Założenia MNK Zweryfikowany model może posłużyć do predykcji zmiennej zależnej KISIM, WIMiIP, AGH

37 Regresja wieloraka – regresja dla wielu zmiennych niezależnych
KISIM, WIMiIP, AGH

38 Liniowy model regresji wielorakiej:
Regresja wieloraka Jeśli w modelu regresji mamy do czynienia z więcej niż jedną zmienną objaśniającą (niezależną), mówimy o regresji wielorakiej (wielokrotnej). Liniowy model regresji wielorakiej: y = β0+ β1x1 + β2x βkxk + ε gdzie βj – parametry modelu (współczynniki regresji) ε – składnik losowy PI, WIMiIP, AGH

39

40 KISIM, WIMiIP, AGH

41 Współczynniki korelacji i determinacji
Współczynniki, które otrzymujemy jeśli wcześniej dokonamy standaryzacji wszystkich zmiennych na średnią równą 0 i odchylenie standardowe równe 1. Wielkość tych współczynników BETA pozwala na porównanie relatywnego wkładu każdej ze zmiennych niezależnych do predykcji zmiennej zależnej. Współczynniki regresji KISIM, WIMiIP, AGH

42 KISIM, WIMiIP, AGH

43 Najważniejsze etapy weryfikacji modelu to:
Weryfikacja modelu Najważniejsze etapy weryfikacji modelu to: weryfikacja merytoryczna weryfikacja statystyczna W trakcie weryfikacji merytorycznej sprawdzamy zgodność wyników uzyskanych z modelu z wiedzą teoretyczną Jeśli weryfikacja statystyczna wskazuje na niedopasowanie modelu, zwykle potwierdza się to podczas weryfikacji merytorycznej

44 Ocena dopasowania modelu do danych Współczynnik determinacji R2
Jeśli wartość współczynnika determinacji R2 (wielkość ta oznacza kwadrat współczynnika korelacji) jest duża, to oznacza, że błędy dla przyjętego modelu są stosunkowo małe i w związku z tym model jest dobrze dopasowany do rzeczywistych danych Licznik reprezentuje tu zmienność wielkości y obliczonej z modelu, a mianownik jest miarą zmienności empirycznych wartości yi Współczynnik R2 , przyjmujący wartości z przedziału [0,1], jest zatem miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych

45 Analiza reszt Reszta odpowiadająca i-tej obserwacji wyraża się wzorem
, gdzie i=1,2,....,n Wariancja resztowa będąca oceną wariancji składnika losowego wyraża się wzorem Pierwiastek z wariancji resztowej, czyli odchylenie standardowe reszt Se , zwane standardowym błędem estymacji jest najczęściej stosowaną miarą zgodności modelu z danymi empirycznymi.

46 Współczynnik zmienności losowej
Wielkość Se2 wskazuje na przeciętną różnicę między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi obliczonymi z prostej regresji. Współczynnik W, obliczany według wzoru informuje o tym jaką część średniej wartości zmiennej objaśnianej stanowi błąd standardowy estymacji. Po wyznaczeniu równania regresji (modelu) należy sprawdzić hipotezę o istotności otrzymanych współczynników regresji, W tym celu przeprowadzamy testy istotności t .

47 Podsumowanie Analiza zależności pomiędzy badanymi cechami polega na określeniu Siły Kierunku Postaci – modelu matematycznego Analiza stopnia dopasowania modelu matematycznego do danych empirycznych

48 Interpretacja wyników obliczeń dla regresji liniowej

49 Weryfikacja statystyczna modelu
Średnie zużycie paliwa obliczane z równania regresji różnią się od wartości empirycznych średnio biorąc o 0,64385 l Obliczone estymatory współczynników regresji odchylają się od parametru b0= 3, o wartość Sb0= 0,450851, tj.o około 12 % b1=0, o wartość Sb1= 0,000311, tj. o około 13% Można zweryfikować dopasowanie modelu na podstawie funkcji testowej t t= bi/Sbi , tb0= 8, tb1= 7, Najbardziej popularną i miarodajną oceną dopasowania modelu do danych empirycznych jest współczynnik determinacji R2 12% 13%

50 Inne wskaźniki dopasowania modelu
Współczynnik zmiennej zależnej względem zmiennej niezależnej beta Wyliczonych wartości współczynników regresji nie można porównywać ze względu na inne jednostki miary. Normalizujemy równanie regresji i otrzymujemy Jeśli  = 0,853 oznacza to, że zmiana zmiennej niezależnej o jedno odchylenie standardowe powoduje zmianę wartości zależnej zmiennej o 0,853 jej odchylenia standardowego. Zaletą tej interpretacji jest niezależność od jednostek miary Zauważmy, że  = 0, = r (współczynnikowi korelacji liniowej.

51 Inne wskaźniki dopasowania modelu
Obliczanie elastyczności Y względem X według wzoru Pokazuje o ile procent zmienia się wartość Y gdy wartość X zmieni się o 1% 0, * 1385,917/7,138 = 0,463 oznacza to, że w otoczeniu średnich zmiana pojemności silnika o 1% powoduje zmianę zużycia paliwa o około 0,5%

52 Weryfikacja hipotez Należy zbadać:
istotność współczynnika kierunkowego (nieodrzucenie hipotezy o braku wpływu x na y świadczy o wadliwości modelu) istotność współczynnika determinacji istotność liniowego związku pomiędzy analizowanymi zmiennymi

53 Regresja wieloraka

54 Regresja wieloraka W celu wykonania wykresu należy prawym przyciskiem myszy kliknąć w obrębie zmiennej x - średnia temperatura dobowa

55 Wykres rozrzutu z dopasowaną linią regresji

56

57

58

59 Obliczanie współczynników korelacji w Statistica, gdy zmienna objaśniana jest jednowymiarowa, a zmiennych niezależnych jest wiele

60

61 Zależność od wielu zmiennych. Korelacje cząstkowe
Na pewną zmienną oddziałuje więcej niż jedna zmienna, można określić macierz korelacji. Jeśli interesuje nas związek korelacyjny jedynie między dwoma zmiennymi przy wyłączeniu wpływu pozostałych, to powinniśmy wyliczyć współczynniki korelacji cząstkowej. Załóżmy, że mamy trzy zmienne X1, X2 oraz X3. Współczynniki korelacji cząstkowej oznaczamy następująco: r12.3, r13.2, r23.1 KISIM, WIMiIP, AGH

62 Korelacje cząstkowe

63 Wykluczono wpływ liczby ludności
Wykluczono wpływ liczby ludności, liczby miast i udziału ludności miejskiej

64

65 Przykład PI, WIMiIP, AGH

66 PI, WIMiIP, AGH

67 PI, WIMiIP, AGH

68 brak istotności wyrazu wolnego
zmienna zależna brak istotności wyrazu wolnego wzrost istotny statystycznie wiek – brak istotności PI, WIMiIP, AGH

69 oszacowana funkcja regresji:
Wyniki regresji model istotny statystycznie oszacowana funkcja regresji: WAGA = 6, ,05*WIEK+ 0,72*WZROST±4, (10,94) (0,94) (0,26) R2=0,78 interpretacja: jeśli np. wartość zmiennej WIEK wrośnie o 1 to wartość zmiennej WAGA wzrośnie o 2,05kg BETA: standaryzowany wskaźnik siły powiązania brak istotności wpływu wieku dodatnie oddziaływanie wieku i wzrostu na wagę R2=0,78, czyli 78% ogólnej zmienności WAGI wyjaśnione przez model PI, WIMiIP, AGH

70 Predykcja na podstawie modelu
ile będzie ważyć dziecko w wieku 13 lat, mające 65 cali wzrostu? Brak dowodu na istotność zmiennej nie jest dostatecznym powodem do usunięcia jej z modelu. Należy sprawdzić współliniowość Tolerancja (1-R2) mówi ile zmienności danej zmiennej nie zostało wyjaśnione przez pozostałe zmienne. Im mniejsza, tym bardziej nadmiarowy jest jej wkład w równanie regresji. tolerancja = 0 (lub bliska) oznacza brak możliwości obliczenia modelu. PI, WIMiIP, AGH

71 Analiza reszt 1.) Testowanie normalności reszt PI, WIMiIP, AGH

72 2.) Testowanie autokorelacji reszt
3.) homoscedastyczność – wariancja stała dla wszystkich obserwacji PI, WIMiIP, AGH

73 Wykresy reszt Wykres jednoosiowy Brak losowości Brak stacjonarności
PI, WIMiIP, AGH

74 Brak stałości wariancji
Brak stacjonarności oraz losowości Wpływ innych czynników na badane zjawisko PI, WIMiIP, AGH

75 Wybór zmiennych do modelu
W modelu powinny znaleźć się zmienne silnie skorelowane ze zmienną zależną i jak najsłabiej skorelowane między sobą. Aby wybrać optymalny model zawierający najsilniej skorelowane ze zmienną zależną zmienne niezależne stosuje się metody regresji krokowej: regresja krokowa postępująca – polega na kolejnym dołączaniu do modelu zmiennych objaśniających na podstawie statystyki F regresja krokowa wsteczna – budujemy model ze wszystkich dostępnych zmiennych, a następnie usuwamy z modelu najmniej istotne (statystyka F) Nie ma automatycznych, doskonałych metod doboru zmiennych. Obliczenia wspierane pakietem obliczeniowym należy korygować w oparciu o znajomość problemu. PI, WIMiIP, AGH

76 Regresja nieliniowa Kiedy mamy do czynienia z zależnością nieliniową sami musimy zdecydować jaką postać funkcji ma zależność. Może przyjąć jedną ze znanych postaci (np. wykładniczą, logarytmiczną czy wielomianową) wtedy stosujemy model linearyzowany lub zmieniać się w miarę wzrostu wartości zmiennej niezależnej (regresja segmentowa) Decyzję jaką zależność należy wziąć pod uwagę podejmujemy na podstawie wykresu rorzutu PI, WIMiIP, AGH

77 Linearyzacja modelu regresji
PI, WIMiIP, AGH

78 Po wybraniu właściwego modelu szacujemy jego parametry tak samo jak w modelu liniowej regresji wielorakiej PI, WIMiIP, AGH

79 Błąd addytywny i multiplikatywny
Modele, których nie można przetransformować na postać liniową, mogą być szacowane przy pomocy estymacji nieliniowej. Zależy to w znacznej mierze od składnika błędu: Błąd addytywny. Zmienność błędu jest niezależna od zmiennej objaśniającej, to znaczy, że wielkość zmienności błędu jest jednakowa dla każdej wartości zmiennej. Jeśli składnik błędu w modelu jest addytywny, nie możemy zlinearyzować modelu przez logarytmowanie obu stron. Błąd multiplikatywny. Charakteryzuje się proporcjonalnymi (do skali zjawiska) wahaniami okresowymi. Po zlogarytmowaniu obu stron równania regresji, składnik błędu resztowego stanie się czynnikiem addytywnym w równaniu liniowym, a my możemy szacować b1 przy pomocy standardowej regresji wielorakiej. PI, WIMiIP, AGH

80 Modele regresji wewnętrznie nieliniowe
Przy estymacji nieliniowej mamy do czynienia z pojęciem funkcji straty. Funkcja straty szacuje wielkość odchyleń wartości przewidywanych od wartości obserwowanych. Minimalizacja funkcji straty jest procedurą estymacji współczynników równania regresji. funkcja straty to najczęściej: suma kwadratów odchyleń ważona suma kwadratów odchyleń funkcja największej wiarygodności PI, WIMiIP, AGH

81 Szukanie minimum funkcji straty
Stosuje się różne metody poszukiwania minimum funkcji straty: Metoda quasi-Newtona – minimalizacja w kierunku największego spadku (estymacja pochodnych) Metoda sympleksów (Neldera i Meada) – pozwala uniknąć minimów lokalnych Metoda Hooke’a-Jeevesa przemieszczania układu Metoda Rosenbrocka poszukiwania układu metody łączone PI, WIMiIP, AGH

82 Yacht Hydrodynamics KISIM, WIMiIP, AGH

83 Regresja liniowa R2=0,65 KISIM, WIMiIP, AGH

84 Linearyzowana regresja nieliniowa
KISIM, WIMiIP, AGH

85 KISIM, WIMiIP, AGH

86 KISIM, WIMiIP, AGH

87 oszacowany model regresji:
Residuary resistance per unit weight of displacement = 7, ,69*Ln (Froude number) ± 0,33 (0,067) (0,048) R2=0,968 KISIM, WIMiIP, AGH

88 Estymacja nieliniowa oszacowany model regresji: y=c+exp(b0+b1*x1)
y = 0,058 + exp(-4,05+17,81x) R2=0,98 KISIM, WIMiIP, AGH

89 Nieciągłe modele regresji
Regresja kawałkami liniowa, regresja segmentowa Jeśli postać funkcji się zmienia wraz ze wzrostem wartości zmiennej PI, WIMiIP, AGH

90 Regresja segmentowa 2 1 y<10,495 y=31,72x-5,06 y>10,495 y=518,37x-183,27 1 2 R2=0,98 KISIM, WIMiIP, AGH

91 Regresja ze zmienną jakościową
Jeśli w analizie występują zmienne jakościowe (np. płeć, stanowisko pracy etc) można podzielić zbiorowość na jednorodne grupy pod względem poszczególnych wartości zmiennej a następnie porównać modele. Możemy również zastąpić zmienną jakościową sztucznymi zmiennymi binarnymi (np. płeć: kobieta = 1, mężczyzna = 0) PI, WIMiIP, AGH

92 PI, WIMiIP, AGH

93 model przybiera postać:
CSK = 105,8 + 1,05*WIEK- 17,5*PŁEƱ7, (4,5) (0,089) (2,72) R2=0,87 PŁEĆ =0, CSK = 105,8 + 1,05*WIEK PŁEĆ =1, CSK = 88,3 + 1,05*WIEK PI, WIMiIP, AGH

94 Skategoryzowane wykresy rozrzutu
PI, WIMiIP, AGH

95 Regresja logistyczna Modele dla odpowiedzi binarnych:
Na przykład pacjenci powrócą do zdrowia po urazie albo nie; kandydaci do pracy przejdą albo nie przejdą testu kwalifikacyjnego, kupony mogą zostać lub nie zostać zwrócone itd. We wszystkich tych przypadkach może nas interesować estymacja modelu, który opisuje zależność między jedną lub kilkoma ciągłymi zmiennymi niezależnymi a binarną zmienną zależną. można zastosować procedury standardowej regresji wielorakiej i obliczyć standardowe współczynniki regresji. model prowadzi do przewidywanych wartości większych niż 1 lub mniejszych niż 0. Jednakże przewidywane wartości, które są większe niż 1 lub mniejsze niż 0 nie są prawidłowe; tak więc, gdy stosuje się standardową procedurę regresji wielorakiej, ograniczenie zakresu zmiennej binarnej (np. między 0 a 1) jest ignorowane. PI, WIMiIP, AGH

96 Regresja logistyczna (logit)
W modelu regresji logistycznej (logit), przewidywane wartości zmiennej zależnej nigdy nie będą mniejsze (lub równe) od 0 ani większe (lub równe) od 1, bez względu na wartości zmiennych niezależnych. gdzie  ai i = 0,...,k - to współczynniki regresji  x1, x2,...,xk - to zmienne niezależne, które mogą być mierzalne lub jakościowe. PI, WIMiIP, AGH

97 Funkcja logistyczna przyjmuje wartości od 0 do 1.
Model może opisywać prawdopodobieństwo zachorowania lub szansę wyzdrowienia Model wprowadza pewną wartość progową, po przekroczeniu której gwałtownie wzrasta prawdopodobieństwo. Model często wykorzystywany w badaniach medycznych Szansa Iloraz szans PI, WIMiIP, AGH


Pobierz ppt "Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)"
Reklamy Google