Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Metody analizy współzależności cech (zmiennych) Wykład 6 dr Małgorzata Radziukiewicz.

Podobne prezentacje


Prezentacja na temat: "Metody analizy współzależności cech (zmiennych) Wykład 6 dr Małgorzata Radziukiewicz."— Zapis prezentacji:

1 Metody analizy współzależności cech (zmiennych) Wykład 6 dr Małgorzata Radziukiewicz

2 Poszczególne jednostki populacji mogą być badane: Poszczególne jednostki populacji mogą być badane: ze względu na jedną cechę;ze względu na jedną cechę; jednocześnie ze względu na dwie lub więcej cech.jednocześnie ze względu na dwie lub więcej cech. Przykład 1. Gospodarstwa domowe mogą być badane nie tylko ze względu na wysokość miesięcznych dochodów, lecz również ze względu na liczbę osób w gospodarstwie, wiek głowy gospodarstwa, wysokość miesięcznych wydatków, liczbę osób pracujących, czy stosowany lek (wielkość dawki) ma wpływ na stan zdrowia itp.

3 Inaczej mówiąc możemy badać populację ze względu na m cech. Wektor cech zapisujemy: Inaczej mówiąc możemy badać populację ze względu na m cech. Wektor cech zapisujemy: x = [x 1, x 2,…, x m ] Przykład 2. Studenci statystyki WSMiZ w Sochaczewie byli badani ze względu na wagę (x). Teraz mogą być badani nie tylko ze względu na wagę (x 1 ), lecz również według wzrostu (x 2 ), wieku (x 3 ), płci (x 4 ), charakteru studiów (dzienne, zaoczne) (x 5 ) itp. Studenci statystyki WSMiZ w Sochaczewie byli badani ze względu na wagę (x). Teraz mogą być badani nie tylko ze względu na wagę (x 1 ), lecz również według wzrostu (x 2 ), wieku (x 3 ), płci (x 4 ), charakteru studiów (dzienne, zaoczne) (x 5 ) itp.

4 Poszczególne cechy mogą być: Poszczególne cechy mogą być: od siebie odizolowane;od siebie odizolowane; wzajemnie ze sobą powiązane.wzajemnie ze sobą powiązane. Dział statystyki zajmujący się badaniem związków między kilkoma cechami (zmiennymi) nosi nazwę teorii współzależności. Dział statystyki zajmujący się badaniem związków między kilkoma cechami (zmiennymi) nosi nazwę teorii współzależności.

5 Wykrycie zależności między cechami nie jest łatwe, nawet jeśli ich występowanie wydaje się oczywiste. Wykrycie zależności między cechami nie jest łatwe, nawet jeśli ich występowanie wydaje się oczywiste. Przykład 3. - chociaż dany lek jest bardzo dobry, to jednak nie dla każdej osoby będzie skuteczny; - chociaż dane gospodarstwo ma wysoki dochód, to nie koniecznie musi dużo wydawać na dobra luksusowe, itp.. Występowanie zależności można wykryć tylko przez obserwację większej liczby przypadków. Występowanie zależności można wykryć tylko przez obserwację większej liczby przypadków. Przykład 4. - chorzy, którzy zażywają skuteczny lek są częściej wyleczeni, niż ci, którzy go nie przyjmują; - gospodarstwa z wysokimi dochodami wydają przeciętnie więcej na dobra luksusowe niż ubogie gospodarstwa; - określona liczba studentów poświęca tę samą ilość czasu na przygotowanie się do egzaminu, ale uzyskane wyniki są różne; - działki zasilamy tą samą dawka nawozu, ale w efekcie możemy mieć różne plony itp.. Zaprezentowane w przykładzie 3 związki cech (zmiennych) są stochastyczne. Zaprezentowane w przykładzie 3 związki cech (zmiennych) są stochastyczne.

6 Współzależność zjawisk współzależność funkcyjna – zmiana wartości jednej zmiennej (X) powoduje ściśle określoną zmianę drugiej zmiennej (Y). Oznacza to, że zmiennej X odpowiada tylko jedna wartość zmiennej Y np. pole kwadratu jest funkcją jego boku, czyli P = a 2 (wszystkie kwadraty o boku a maja takie samo pole); współzależność funkcyjna – zmiana wartości jednej zmiennej (X) powoduje ściśle określoną zmianę drugiej zmiennej (Y). Oznacza to, że zmiennej X odpowiada tylko jedna wartość zmiennej Y np. pole kwadratu jest funkcją jego boku, czyli P = a 2 (wszystkie kwadraty o boku a maja takie samo pole); współzależność stochastyczna – wraz ze zmianą jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem jest zależność korelacyjna. współzależność stochastyczna – wraz ze zmianą jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem jest zależność korelacyjna.

7 Stochastyczny związek cech można prezentować tabelarycznie. Tablicę ujmującą ten związek nazywa się tablicą korelacyjną (łac. corelatio: współzależność, wzajemny stosunek). przyjmujemy zasadę: Y – cecha zależna; X – cecha niezależna (lub odwrotnie), a więc mówiąc o związku cech, rozumiemy związek 2-óch cech. W tablicy korelacyjnej mamy s + r szeregów rozdzielczych warunkowych oraz 2 szeregi rozdzielcze główne (brzegowe). Wszystkie rozkłady są jednowymiarowe (zastosowanie mają uprzednio poznane statystyczne miary opisu dotyczące jednej cechy) Stochastyczny związek cech można prezentować tabelarycznie. Tablicę ujmującą ten związek nazywa się tablicą korelacyjną (łac. corelatio: współzależność, wzajemny stosunek). przyjmujemy zasadę: Y – cecha zależna; X – cecha niezależna (lub odwrotnie), a więc mówiąc o związku cech, rozumiemy związek 2-óch cech. W tablicy korelacyjnej mamy s + r szeregów rozdzielczych warunkowych oraz 2 szeregi rozdzielcze główne (brzegowe). Wszystkie rozkłady są jednowymiarowe (zastosowanie mają uprzednio poznane statystyczne miary opisu dotyczące jednej cechy) x i yi y1y1 y2y2 …ysys x1x2…xrx1x2…xr n 11 n 21 … n r1 n 12 n 22 … n r2 …………………… n 1s n 2s … n rs n1n2…nrn1n2…nr n1n1 n2n2 …nsns n x przyjmuje r wariantów - i = 1,2,3,4…r (odmiany cechy niezależnej) y przyjmuje s wariantów - j = 1,2,3,4,…s(odmiany cechy zależnej)

8 Przykład 5. Wydajność pracy Y (w tys. sztuk wyrobów na osobę) oraz staż pracy X (w latach) pracowników w zakładzie A przedstawia tablica 1. Tablica 1. n ij – liczba jednostek, które posiadają jednocześnie wariant x i cechy X oraz wariant y j cechy Y n ij – liczba jednostek, które posiadają jednocześnie wariant x i cechy X oraz wariant y j cechy Y I tak np. liczbę 20 (znajdująca się w dolnym prawym rogu) można interpretować jako liczbę osób o wydajności w granicach 7 – 9 tys. sztuk wyrobów i o stażu pracy od 6 do 8 lat. I tak np. liczbę 20 (znajdująca się w dolnym prawym rogu) można interpretować jako liczbę osób o wydajności w granicach 7 – 9 tys. sztuk wyrobów i o stażu pracy od 6 do 8 lat. x i y i Razem Razem

9 Tablica korelacyjna, którą budujemy zazwyczaj według uporządkowania cechy niezależnej (X), może być także czytana odwrotnie, jeśli zamiana cech ma sens z merytorycznego punktu widzenia. Tablica korelacyjna, którą budujemy zazwyczaj według uporządkowania cechy niezależnej (X), może być także czytana odwrotnie, jeśli zamiana cech ma sens z merytorycznego punktu widzenia. Przykład 6. Interesuje nas związek między liczbą osób w gospodarstwie domowym a spożyciem mleka. W tym przypadku liczba osób wpływa na spożycie mleka, ale nie na odwrót. Zatem spożycie mleka będzie zmienną zależną (Y) a liczba osób w gospodarstwie zmienną niezależną (X).

10 Poza tabelaryczną prezentacją związków stochastycznych (w postaci tablicy korelacyjnej) istnieją graficzne sposoby ich obrazowania. Poza tabelaryczną prezentacją związków stochastycznych (w postaci tablicy korelacyjnej) istnieją graficzne sposoby ich obrazowania.

11 Badanie populacji na 2 cechy Przykład 7. Przykład 7. Załóżmy, że populacja studentów (n = 15) jest opisywana za pomocą dwóch cech (x 1 ) i (x 2 ), tzn. m = 2, n = 36. Załóżmy, że populacja studentów (n = 15) jest opisywana za pomocą dwóch cech (x 1 ) i (x 2 ), tzn. m = 2, n = 36. Wtedy macierz obserwacji ma wymiary n x m (36 x 2), a i - ta obserwacja opisywana jest parą liczb x i1 oraz x i2. Wtedy macierz obserwacji ma wymiary n x m (36 x 2), a i - ta obserwacja opisywana jest parą liczb x i1 oraz x i2. W układzie współrzędnych odpowiada to punktowi p i = [x i1, x i2 ]. Mamy więc 15 punktów. W układzie współrzędnych odpowiada to punktowi p i = [x i1, x i2 ]. Mamy więc 15 punktów.

12 Tablica 2. Wartości cech odpowiadające poszczególnym obserwacjom (i) Źródło: dane fikcyjne Źródło: dane fikcyjne Numer obserwacji i Wartość cechy x Wartość cechy x

13 Rys.1. Wykres punktowy populacji badanej na 2 cechy x 1 i x 2

14 Z rys.1 widać wyraźnie, iż na ogół im większa wartość cechy (x 1 ), tym większą wartość przyjmuje cecha (x 2 ) i odwrotnie. Z rys.1 widać wyraźnie, iż na ogół im większa wartość cechy (x 1 ), tym większą wartość przyjmuje cecha (x 2 ) i odwrotnie.

15 Przykład 4. Załóżmy, że obecnie populacja studentów (n = 15) jest opisywana za pomocą dwóch innych cech (x 1 ) i (x 3 ). Wyniki próby 15-elementowej badane ze względu na te cechy prezentują się na poniższym rysunku 2: Załóżmy, że obecnie populacja studentów (n = 15) jest opisywana za pomocą dwóch innych cech (x 1 ) i (x 3 ). Wyniki próby 15-elementowej badane ze względu na te cechy prezentują się na poniższym rysunku 2: Rys.2. Rys.2.

16 Z rys.2, w odróżnieniu od rys.1, nie widać wyraźnie, aby wartości cechy x 1 i x 3 były w jakiś sposób ze sobą powiązane. Z rys.2, w odróżnieniu od rys.1, nie widać wyraźnie, aby wartości cechy x 1 i x 3 były w jakiś sposób ze sobą powiązane. Na oko można tylko stwierdzić, iż cechy x 1 i x 2 (rys.1)są zapewne ze sobą ściślej powiązane niż cechy x 1 i x 3 (rys.2). Na oko można tylko stwierdzić, iż cechy x 1 i x 2 (rys.1)są zapewne ze sobą ściślej powiązane niż cechy x 1 i x 3 (rys.2). Pytanie 1? – Jak ocenić i zmierzyć siłę związku dwóch cech? Pytanie 1? – Jak ocenić i zmierzyć siłę związku dwóch cech?

17 Metoda pozwalająca na ocenę i mierzenie siły związku cech stanowi przedmiot analizy korelacji. Metoda pozwalająca na ocenę i mierzenie siły związku cech stanowi przedmiot analizy korelacji.

18 Uwaga! Badanie związków korelacyjnych ma sens jedynie tylko wtedy, gdy między zmiennymi istnieje więź przyczynowo-skutkowa, dająca się logicznie wytłumaczyć. Badanie związków korelacyjnych ma sens jedynie tylko wtedy, gdy między zmiennymi istnieje więź przyczynowo-skutkowa, dająca się logicznie wytłumaczyć. Analiza związków między zjawiskami powinna być dwukierunkowa: jakościowa i ilościowa. Analiza związków między zjawiskami powinna być dwukierunkowa: jakościowa i ilościowa. Zawsze na podstawie analizy merytorycznej należy uzasadnić logiczne występowanie związku a dopiero potem można przystąpić do określania kierunku i siły zależności. Zawsze na podstawie analizy merytorycznej należy uzasadnić logiczne występowanie związku a dopiero potem można przystąpić do określania kierunku i siły zależności.

19 Badanie korelacji między zmiennymi (szeregami) Badanie korelacji między zmiennymi (szeregami) Zestawienie kilku szeregów=szukanie wzajemnych związków i porównanie wartości liczbowych cech w tych szeregach= wykrycie określonych prawidłowości Zestawienie kilku szeregów=szukanie wzajemnych związków i porównanie wartości liczbowych cech w tych szeregach= wykrycie określonych prawidłowości Zmienna=szereg liczbowy=wartości liczbowe cech w szeregu Zmienna=szereg liczbowy=wartości liczbowe cech w szeregu

20 Parametrem wykorzystywanym do oceny siły i kierunku zależności pomiędzy zmiennymi jest współczynnik korelacji, zwany również współczynnikiem korelacji Persona. Parametrem wykorzystywanym do oceny siły i kierunku zależności pomiędzy zmiennymi jest współczynnik korelacji, zwany również współczynnikiem korelacji Persona.

21 Współczynnik korelacji Pearsona r xy jest miernikiem związku liniowego między dwiema cechami (zmiennymi) mierzalnymi r xy jest miernikiem związku liniowego między dwiema cechami (zmiennymi) mierzalnymi jest wyznaczany poprzez standaryzację kowariancji jest wyznaczany poprzez standaryzację kowariancji kowariancja (wariancja wspólna cech x i y) jest średnią arytmetyczną iloczynu odchyleń wartości liczbowych tych cech (zmiennych) x i y od ich średnich arytmetycznych kowariancja (wariancja wspólna cech x i y) jest średnią arytmetyczną iloczynu odchyleń wartości liczbowych tych cech (zmiennych) x i y od ich średnich arytmetycznych

22 Współczynnik korelacji jest symetryczny, tzn. r xy = r yx i przyjmuje wartości z przedziału. Współczynnik korelacji jest symetryczny, tzn. r xy = r yx i przyjmuje wartości z przedziału. Równy jest zeru, gdy między cechami nie zachodzi liniowa zależność. Równy jest zeru, gdy między cechami nie zachodzi liniowa zależność. Moduł (wartość bezwzględna) współczynnika korelacji równy jest jedności, gdy pomiędzy cechami zachodzi związek funkcyjny. Moduł (wartość bezwzględna) współczynnika korelacji równy jest jedności, gdy pomiędzy cechami zachodzi związek funkcyjny. Im wartość modułu współczynnika korelacji jest bardziej zbliżona do jedności, tym zależność między badanymi cechami jest silniejsza. Im wartość modułu współczynnika korelacji jest bardziej zbliżona do jedności, tym zależność między badanymi cechami jest silniejsza. Znak współczynnika charakteryzuje kierunek zależności. Znak współczynnika charakteryzuje kierunek zależności. Jeżeli współczynnik korelacji jest dodatni, wówczas wzrost wartości jednej cechy powoduje wzrost wartości drugiej cechy (ewentualnie spadek wartości jednej cechy powoduje spadek wartości drugiej cechy). Jeżeli współczynnik korelacji jest dodatni, wówczas wzrost wartości jednej cechy powoduje wzrost wartości drugiej cechy (ewentualnie spadek wartości jednej cechy powoduje spadek wartości drugiej cechy). W przypadku ujemnej wartości współczynnika korelacji możemy stwierdzić, iż wzrost wartości jednej cechy powoduje spadek wartości drugiej cechy. W przypadku ujemnej wartości współczynnika korelacji możemy stwierdzić, iż wzrost wartości jednej cechy powoduje spadek wartości drugiej cechy.

23 Inna postać współczynnika korelacji Pearsona W analizach statystycznych przyjmuje się, że jeżeli współczynnik korelacji wynosi: W analizach statystycznych przyjmuje się, że jeżeli współczynnik korelacji wynosi: mniej niż 0,2 - brak związku liniowego między badanymi cechami; 0,2 – 0,4 zależność liniowa wyraźna, lecz niska; 0,4 – 0,7 zależność umiarkowana; 0,7 – 0,9 zależność znacząca; powyżej 0,9 zależność bardzo silna. Kwadrat współczynnika korelacji nazywamy współczynnikiem determinacji R 2. Kwadrat współczynnika korelacji nazywamy współczynnikiem determinacji R 2.

24 Współczynnik korelacji Pearsona dla danych pogrupowanych obliczamy zgodnie ze wzorem: Współczynnik korelacji Pearsona dla danych pogrupowanych obliczamy zgodnie ze wzorem: gdzie: gdzie: S(x) i S(y) są odchyleniami standardowymi rozkładów brzegowych

25 Każdy związek korelacyjny jest ze swej istoty związkiem stochastycznym (ale nie odwrotnie!). Każdy związek korelacyjny jest ze swej istoty związkiem stochastycznym (ale nie odwrotnie!). Czy poznając zależność liniową miedzy cechami, istnieje metoda umożliwiająca w pewnym przybliżeniu przewidzieć wartość jednej cechy na podstawie znajomości drugiej? Czy poznając zależność liniową miedzy cechami, istnieje metoda umożliwiająca w pewnym przybliżeniu przewidzieć wartość jednej cechy na podstawie znajomości drugiej? (gdyby badane cechy x i y były powiązane ścisłym związkiem funkcyjnym typu y = f ( x ), to znając wartość jednej z cech np. x, można by w sposób jednoznaczny przewidzieć wartość drugiej cechy y). Jeśli tak, to jak dobre jest to przybliżenie? Jeśli tak, to jak dobre jest to przybliżenie?

26 Zagadnienie opisu zależności między cechami x i y (zmiennymi X i Y) jest przedmiotem analizy regresji. Zagadnienie opisu zależności między cechami x i y (zmiennymi X i Y) jest przedmiotem analizy regresji. Zależność między cechami (zmiennymi) przedstawiona jest za pomocą funkcji regresji. Zależność między cechami (zmiennymi) przedstawiona jest za pomocą funkcji regresji. Funkcja regresji przyjmuje postać modelu regresji. Funkcja regresji przyjmuje postać modelu regresji.

27 Pojęcie funkcji regresji Przykład 8. Przykład 8. Podstawą analizy zależności będzie zbiór danych w postaci n uporządkowanych par liczb: (x 1,y 1 ), (x 2,y 2 ), …(x n,y n ) reprezentujących liczbę osób i spożycie mleka w zbiorze n gospodarstw. Wszystkie obserwacje na dwóch zmiennych odwzorowane w układzie współrzędnych w postaci n punktów tworzą wykres rozrzutu punktów empirycznych (zob. wcześniej prezentowane rys.1i 2).

28 Rysunek 4. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość gospodarstw i spożycie mleka Gospodarstwa o danej liczbie osób spożywają różne ilości mleka (różne są ich dochody, upodobania, wiek itp..). Gospodarstwa o danej liczbie osób spożywają różne ilości mleka (różne są ich dochody, upodobania, wiek itp..). Każdej ustalonej wartości x odpowiada na ogół nie jedna wartość zmiennej Y, lecz zbiór różnych wartości tworzących pewien rozkład. Każdej ustalonej wartości x odpowiada na ogół nie jedna wartość zmiennej Y, lecz zbiór różnych wartości tworzących pewien rozkład. Rozkład Y dla ustalonej wartości x nazywamy warunkowym rozkładem Y. Rozkład Y dla ustalonej wartości x nazywamy warunkowym rozkładem Y. Rozkłady warunkowe spożycia (Y) są reprezentowane na wykresie przez ułożone pionowo nad każdą wartością x punkty. Rozkłady warunkowe spożycia (Y) są reprezentowane na wykresie przez ułożone pionowo nad każdą wartością x punkty.

29 Rysunek 5. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość gospodarstw i spożycie mleka Na rys.5 widoczne jest np., że przy wzroście wartości x rozkłady warunkowe przemieszczają się w górę ku wyższym wartościom Y. Na rys.5 widoczne jest np., że przy wzroście wartości x rozkłady warunkowe przemieszczają się w górę ku wyższym wartościom Y. Najłatwiej zaobserwować różnicę miedzy rozkładami warunkowymi zmiennej Y obliczając dla każdego z nich średnią. Najłatwiej zaobserwować różnicę miedzy rozkładami warunkowymi zmiennej Y obliczając dla każdego z nich średnią. Średnie w warunkowych rozkładach spożycia zaznaczono czerwonymi kółkami. Średnie w warunkowych rozkładach spożycia zaznaczono czerwonymi kółkami. Zbiór punktów reprezentujących te średnie określa regresję Y względem X (regresję spożycia mleka względem liczby osób w gospodarstwie). Zbiór punktów reprezentujących te średnie określa regresję Y względem X (regresję spożycia mleka względem liczby osób w gospodarstwie).

30 Rysunek 6. Empiryczna linia regresji Funkcja regresji to analityczny obraz przyporządkowania średnich wartości zmiennej Y (zmiennej zależnej) konkretnym wartościom zmiennej X (zmiennej niezależnej): Funkcja regresji to analityczny obraz przyporządkowania średnich wartości zmiennej Y (zmiennej zależnej) konkretnym wartościom zmiennej X (zmiennej niezależnej): Funkcja f (x i ) średniej warunkowej zmiennej Y jest funkcją regresji I rodzaju (odnosi się do całej populacji). Funkcja f (x i ) średniej warunkowej zmiennej Y jest funkcją regresji I rodzaju (odnosi się do całej populacji). Analityczna postać funkcji f (x i ) jest zwykle nieznana. Analityczna postać funkcji f (x i ) jest zwykle nieznana. Na podstawie zaobserwowanych wyników w próbce możemy przedstawić graficznie w układzie współrzędnych jedynie empiryczną linię regresji zmiennej Y względem zmiennej X. Na podstawie zaobserwowanych wyników w próbce możemy przedstawić graficznie w układzie współrzędnych jedynie empiryczną linię regresji zmiennej Y względem zmiennej X.

31 Rysunek 7. Empiryczna linia regresji zmiennej Y względem X Empiryczna linia regresji zmiennej Y względem zmiennej X jest linią łamaną powstałą przez połączenie punktów o współrzędnych: Empiryczna linia regresji zmiennej Y względem zmiennej X jest linią łamaną powstałą przez połączenie punktów o współrzędnych:czyli: (cecha niezależna, odpowiadająca jej średnia warunkowa) Wykres empirycznej linii regresji pozwala postawić hipotezę na temat typu funkcji matematycznej Wykres empirycznej linii regresji pozwala postawić hipotezę na temat typu funkcji matematycznej

32 Rysunek 8 i 9. Wykresy rozrzutu punktów empirycznych sugerujący liniową regresję Y względem X Wykres rozrzutu punktów empirycznych sporządzony na podstawie obserwacji na zmiennych X i Y sugeruje, że regresja zmiennej Y względem Y jest liniowa. Wykres rozrzutu punktów empirycznych sporządzony na podstawie obserwacji na zmiennych X i Y sugeruje, że regresja zmiennej Y względem Y jest liniowa. Inaczej - zakładamy, że średnie w warunkowych rozkładach zmiennej Y są liniową funkcją zmiennej X, czyli funkcją o postaci: Inaczej - zakładamy, że średnie w warunkowych rozkładach zmiennej Y są liniową funkcją zmiennej X, czyli funkcją o postaci: (postać liniowa funkcji regresji I rodzaju). Składnik losowy w równaniach regresji pełni rolę błędu przypadkowego, zakłócającego funkcyjny związek między wartościami zmiennej objaśnianej a wartościami zmiennej objaśniającej. Składnik losowy w równaniach regresji pełni rolę błędu przypadkowego, zakłócającego funkcyjny związek między wartościami zmiennej objaśnianej a wartościami zmiennej objaśniającej. Składnik losowy jest w istocie pewną zmienna losową o odpowiednim rozkładzie prawdopodobieństwa

33 Rysunek 10. Wykres rozrzutu punktów empirycznych oraz prosta regresji I rodzaju Szukamy takiej prostej, by najlepiej pasowała do punktów na wykresie. Szukamy takiej prostej, by najlepiej pasowała do punktów na wykresie. Prosta określona będzie za pomocą parametrów: - współczynnika kierunkowego 1 oraz wyrazu wolnego 0. Prosta określona będzie za pomocą parametrów: - współczynnika kierunkowego 1 oraz wyrazu wolnego 0. Stopień tego dopasowania możemy oceniać na podstawie wielkości odchyleń punktów reprezentujących obserwowane wartości zmiennej Y od prostej. Stopień tego dopasowania możemy oceniać na podstawie wielkości odchyleń punktów reprezentujących obserwowane wartości zmiennej Y od prostej.

34 Rysunek 10 i 11. Ilustracja metody najmniejszych kwadratów Do poszukiwania najlepiej dopasowanej prostej stosuje się kryterium minimalizacji sumy kwadratów odchyleń. Do poszukiwania najlepiej dopasowanej prostej stosuje się kryterium minimalizacji sumy kwadratów odchyleń. Metoda wyznaczania parametrów prostej oparta na tym kryterium nosi nazwę metody najmniejszych kwadratów (MNK). Metoda wyznaczania parametrów prostej oparta na tym kryterium nosi nazwę metody najmniejszych kwadratów (MNK). Stosując MNK wyznacza się na podstawie danych (x i, y i ), i=1,2,…, n, parametry 0 i 1 prostej tak, by suma kwadratów odchyleń y i od x i była najmniejsza: Stosując MNK wyznacza się na podstawie danych (x i, y i ), i=1,2,…, n, parametry 0 i 1 prostej tak, by suma kwadratów odchyleń y i od x i była najmniejsza:

35 Wyznaczanie parametrów prostej regresji Wyrażenie S przyjmuje najmniejszą wartość dla: Wyrażenie S przyjmuje najmniejszą wartość dla:

36 Oszacowaniem funkcji regresji Y względem X w populacji generalnej jest funkcja regresji y względem x w próbie losowej (zwana aproksymantą) mająca następującą postać:


Pobierz ppt "Metody analizy współzależności cech (zmiennych) Wykład 6 dr Małgorzata Radziukiewicz."

Podobne prezentacje


Reklamy Google