Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

STATYSTYKA – kurs podstawowy wykład 11 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Podobne prezentacje


Prezentacja na temat: "STATYSTYKA – kurs podstawowy wykład 11 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii."— Zapis prezentacji:

1 STATYSTYKA – kurs podstawowy wykład 11 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

2 KLASYCZNY MODEL REGRESJI LINIOWEJ Empiryczna krzywa regresji wyznaczana na podstawie dwuwymiarowego rozkładu empirycznego (z próby) jest przybliżeniem nieznanej krzywej regresji I rodzaju Krzywa regresji I rodzaju – funkcja przypisująca wartościom zmiennej losowej niezależnej X średnie warunkowe zmiennej losowej zależnej Y Regresja II rodzaju – przybliżenie za pomocą funkcji matematycznej związku występującego między cechami statystycznymi

3 KLASYCZNY MODEL REGRESJI LINIOWEJ [0,051] [1,83] [1,533]

4 DOKŁADNOŚĆ DOPASOWANIA

5 DOKŁADNOŚĆ DOPASOWANIA PROSTEJ REGRESJI DO DANYCH EMPIRYCZNYCH Wariant II Wariant I W obu wariantach mamy te same całkowite zakresy zmienności cechy Y Ale reszty są dużo większe w wariancie I  S I (e) > S II (e)

6 DOKŁADNOŚĆ DOPASOWANIA PROSTEJ REGRESJI DO DANYCH EMPIRYCZNYCH Wariant II Wariant I Porównywanie odchyleń standardowych reszt S I (e) oraz S II (e) jest uprawnione tylko wtedy, gdy zakres zmienności cechy Y jest w obu przypadkach taki sam Zwykle tak się nie zdarza i co robić w takich przypadkach?

7 DOKŁADNOŚĆ DOPASOWANIA PROSTEJ REGRESJI DO DANYCH EMPIRYCZNYCH Odchylenie nie wyjaśnione regresją (reszta e i = ) Odchylenie wyjaśnione regresją Odchylenie całkowite Podział całkowitego odchylenia y i od średniej na dwa składniki

8 Analogiczna równość zachodzi także dla sum kwadratów odpowiednich odchyleń Całkowite odchylenie y i od średniej Część całkowitego odchylenia y i od średniej, która nie została wyjaśniona regresją Y względem X; jest to zatem reszta e i Część całkowitego odchylenia y i od średniej, która została wyjaśniona regresją Y względem X; DOKŁADNOŚĆ DOPASOWANIA PROSTEJ REGRESJI DO DANYCH EMPIRYCZNYCH

9 Całkowita suma kwadratów odchyleń zaobserwowanych wartości zmiennej Y od ich średniej = całkowite zróżnicowanie wartości zmiennej Y Suma kwadratów odchyleń nie wyjaśnionych regresją Y względem X Suma kwadratów odchyleń wyjaśnionych regresją Y względem X; DOKŁADNOŚĆ DOPASOWANIA PROSTEJ REGRESJI DO DANYCH EMPIRYCZNYCH

10 Miarą dokładności dopasowania prostej regresji do danych empirycznych jest WSPÓŁCZYNNIK DETERMINACJI R 2 Suma kwadratów odchyleń nie wyjaśnionych regresją Y względem X Suma kwadratów odchyleń wyjaśnionych regresją Y względem X DOKŁADNOŚĆ DOPASOWANIA PROSTEJ REGRESJI DO DANYCH EMPIRYCZNYCH Całkowita suma kwadratów odchyleń zaobserwowanych wartości zmiennej Y od ich średniej Informuje, jaka część obserwowanej w próbie zmienności cechy Y została wyjaśniona regresją liniową Y względem X

11 WSPÓŁCZYNNIK DETERMINACJI 1 – doskonałe dopasowanie: jeśli między zmiennymi zachodzi funkcyjna zależność liniowa i wszystkie punkty empiryczne leżą na prostej regresji = wszystkie reszty są równe 0 0 – znajomość zróżnicowania wartości cechy niezależnej X nie dostarcza żadnych informacji o wartościach cechy zależnej Y

12 DOKŁADNOŚĆ DOPASOWANIA PROSTEJ REGRESJI DO DANYCH EMPIRYCZNYCH Współczynnik indeterminacji Suma kwadratów odchyleń nie wyjaśnionych regresją Y względem X Całkowita suma kwadratów odchyleń zaobserwowanych wartości zmiennej Y od ich średniej

13 DOKŁADNOŚĆ DOPASOWANIA PROSTEJ REGRESJI DO DANYCH EMPIRYCZNYCH Pierwiastek kwadratowy ze współczynnika determinacji R 2 opatrzony znakiem + lub - jest równy współczynnikowi korelacji liniowej Pearsona r Znak pierwiastka powinien być zgodny ze znakiem obliczonego współczynnika regresji

14 PRZYKŁAD Dane na temat liczby odwiedzających punkt sprzedaży oraz realizowanych w tym punkcie dziennych obrotów zestawiono w tabeli. Wyznaczyliśmy już równanie regresji wielkości dziennych obrotów względem liczby odwiedzających oraz zinterpretowaliśmy parametry (strukturalne i stochastyczne) równania regresji. Teraz należy ocenić dokładność dopasowania równania do danych empirycznych Liczba odwiedzających Wielkość obrotów (tys. zł) 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Liczba odwiedzających – X (zmienna niezależna) Wielkość obrotów – Y (zmienna zależna) [0,051] [1,83] [1,533]

15 PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 24,46 18,88 8,68 4,60 1,09 0,13 2,12 4,22 8,15 16,44 21,66 2,851 4,430 6,641 3,167 7,589 7,905 9,800 8,853 8,537 9,484 12,643 -0,351 -1,330 -2,141 2,133 -1,189 -0,105 -0,900 0,647 1,763 2,016 -0,543 0,123 1,770 4,586 4,551 1,414 0,011 0,810 0,419 3,109 4,063 0,295

16 PRZYKŁAD Około 80,85% obserwowanego w próbie zróżnicowania wielkości obrotów (cecha Y) zostało wyjaśnione regresją liniową wielkości obrotów (cecha Y) względem liczby odwiedzających (cecha X). Pozostałe 19,15% zróżnicowania wielkości obrotów jest wynikiem oddziaływania innych, nie kontrolowanych w trakcie badania czynników. [0,051] [1,83] [1,533] R 2 = 80,85%

17 PREDYKCJA

18 Celem analizy regresji jest predykcja, czyli przewidywanie, jaką wartość przyjmie zmienna zależna przy ustalonych wartościach zmiennej uznanej za niezależną Predykcja – estymacja pojedynczej realizacji zmiennej losowej Y przy ustalonej wartości X = x Najlepszym nieobciążonym estymatorem pojedynczej realizacji zmiennej losowej Y jest: PREDYKCJA NA PODSTAWIE MODELU REGRESJI LINIOWEJ Do predykcji można przystąpić dopiero wtedy, gdy oszacowany model regresji liniowej posiada dobre własności m.in. istotne parametry i odpowiednio wysokie R 2

19 Dla każdej predykcji oblicza się standardowy błąd predykcji Standardowy błąd predykcji pozwala ocenić wielkość błędów losowych, jakie popełnialibyśmy szacując zgodnie z wyrażeniem na podstawie powtarzanych prób PREDYKCJA NA PODSTAWIE MODELU REGRESJI LINIOWEJ

20 Zamiast określenia „predykcja” stosuje się również określenie „prognoza” W klasycznym podejściu określenie „prognoza” odnosi się do przewidywania, jaką wartość przyjmie zmienna zależna przy ustalonych wartościach zmiennej uznanej za niezależną, wtedy gdy w modelu regresji uwzględnia się element czasu Przykładowo zmienna niezależna może mierzyć upływ czasu PREDYKCJA NA PODSTAWIE MODELU REGRESJI LINIOWEJ

21 PRZYKŁAD Wykorzystując zbudowany model regresji dokonaj predykcji wielkości obrotów dla liczby zwiedzających równej 55. Określ wielkość standardowego błędu tej predykcji. Predykcja: x p = 55 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 [0,051] [1,83] [1,533] R 2 = 80,85% Punktowa ocena przewidywanej wielkości obrotów przy liczbie odwiedzających równej 55 wynosi 13,91 tys. zł

22 PRZYKŁAD Standardowy błąd predykcji: xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 [0,051] [1,83] [1,533] Przyjmując, że punktowa ocena przewidywanej wielkości obrotów przy liczbie odwiedzających równej 55 wynosi 13,91 tys. zł, musimy liczyć się z tym, że przeciętnie mylimy się o 1,91 tys. zł n = 11

23 EGZAMIN Egzamin ze statystyki odbędzie się 14 czerwca 2011 o godzinie 12:30 Egzamin trwa 120 minut


Pobierz ppt "STATYSTYKA – kurs podstawowy wykład 11 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii."

Podobne prezentacje


Reklamy Google