REGRESJA I KORELACJA
1. DWUWYMIAROWE CECHY STATYSTYCZNE Dotychczas analizowaliśmy strukturę zbiorowości ze względu na jedną wybraną cechę statystyczną. Jeżeli w badaniu uwzględnimy cechy X i Y populacji i analizujemy ich współzależność, to mówimy o dwuwymiarowej cesze (X,Y). Analiza współzależności cech obejmuje dwa zagadnienia: - zagadnienie korelacji - badanie, czy istnieje zależność między cechami, jaka jest jej siła, jaki jest jej kształt (liniowy, tzn. czy wartości jednej cechy są proporcjonalne do wartości drugiej, czy krzywoliniowy), - zagadnienie regresji – wyznaczanie funkcji opisującej analitycznie związek między cechami.
Związki między cechami Związki jednostronne – występują wtedy, gdy jedna z cech wpływa na drugą ale nie zachodzi oddziaływanie w przeciwną stronę. Jedna z cech jest wówczas przyczyną a druga skutkiem (np. staż pracy – przyczyna; wysokość wynagrodzenia – skutek). Związki dwustronne – oddziaływanie cech jest wzajemne (np. poziom nauczania na uczelni, wysokość czesnego). Cechę, która w danym związku jest przyczyną nazywamy cechą niezależną, a tę, która jest skutkiem nazywamy cechą zależną. Związki pozorne – związki między cechami, które powinna wyeliminować analiza jakościowa , chociaż analiza ilościowa wskazywałaby na ich istnienie (np. liczba lekarzy w mieście i liczba zgonów w tym mieście).
Rozkład cechy dwuwymiarowej Prezentacja rozkładu cechy dwuwymiarowej Rozkładem dwuwymiarowe j cechy (X,Y) nazywamy uporządkowany zbiór par wartości cechy (xi , yj) wraz z przyporządkowanymi im liczebnościami nij , określającymi, ile razy dana para wartości wystąpiła. Prezentacja rozkładu cechy dwuwymiarowej W zależności od tego, jak duża jest liczebność zbiorowości i jak często powtarzają się te same pary wartości cechy (xi , yj) , stosujemy różne formy prezentacji rozkładu. Szereg dwuwymiarowy sporządzamy, gdy pary wartości rzadko powtarzają się w rozkładzie. L.p xi yi 1 x1 y1 2 x2 y2 . n xn yn
Prezentacja rozkładu cechy dwuwymiarowej Tablicę korelacyjną sporządzamy, gdy pary wartości wielokrotnie powtarzają się. Rozkład brzegowy cechy X cechy Y yj xxi y1 y2 . yl ni . Xx1 n11 n12 n1l n1 . Xx2 n21 n22 n2l n2 . xxk nk1 nk2 nkl nk . n. j n.1 n.2 n. l n
Graficzna prezentacja rozkładu cechy dwuwymiarowej Diagram korelacyjny
Przykład 1.1. Do badań wylosowano 6 sklepów branży konfekcyjnej w Łodzi odnotowując ich przeciętny dzienny obrót Y (w tys. zł) oraz powierzchnię X (w m2). Rozkład cechy przedstawia szereg dwuwymiarowy oraz diagram korelacyjny Z diagramu korelacyjnego widać, że między powierzchnią sklepów a ich dziennym obrotem istnieje liniowa korelacja dodatnia.
Przykład 1.2. Z populacji robotników zatrudnionych w dużym zakładzie przemysłowym wylosowano niezależnie 400 robotników i zbadano ich staż i wydajność pracy. Wyniki zostały pogrupowane w tablicę korelacyjną ( X- staż pracy w latach, Y – wydajność w liczbie sztuk wyrobu na godzinę)
Parametry rozkładów brzegowych ANALIZA KORELACJI CECH MIERZALNYCH Do pomiaru siły zależności korelacyjnej cech mierzalnych wykorzystuje się wartości średnie i wariancje rozkładów brzegowych i warunkowych oraz kowariancję (parametr łącznego rozkładu cech). Parametry rozkładów brzegowych Wartości średnie rozkładów brzegowych Wariancje rozkładów brzegowych
Parametry rozkładów warunkowych Dla uproszczenia przyjmujemy, że cechą niezależną jest cecha X dlatego podajemy tylko parametry rozkładów warunkowych dla cechy Y. Warunkowe wartości średnie cechy Y Warunkowe wariancje cechy Y
Parametr łącznego rozkładu cech – kowariancja lub
Przykład 2.1. Wyznaczymy parametry rozkładów cech X i Y oraz kowariancję cechy (X,Y) z przykładu 1.1.
Przykład 2.2. Wyznaczymy parametry rozkładów brzegowych i warunkowych cech X i Y oraz kowariancję cechy (X,Y) z przykładu 1.1.
Miary siły i liniowości związku korelacyjnego Współczynnik korelacji liniowej Pearsona - rxy Warunki stosowania: obie cechy są mierzalne może być stosowany tylko do oceny siły zależności liniowej. Własności współczynnika korelacji przyjmuje wartości z przedziału <-1;1>, dodatnia wartość współczynnika oznacza korelację dodatnią (ze wzrostem wartości cechy X rosną wartości cechy Y), ujemna wartość współczynnika oznacza korelację ujemną ( ze wzrostem wartości cechy X maleją wartości cechy Y), oznacza, że cechy nie są skorelowane liniowo (może zachodzić korelacja nieliniowa) oznacza, że wszystkie punkty rozkładu leżą na linii prostej. Przyjmujemy, że korelacja między cechami X i Y jest: słaba, jeżeli umiarkowana, jeżeli silna, jeżeli
Miary siły i liniowości związku korelacyjnego Wskaźnik (stosunek) korelacyjny – eyx gdzie Warunki stosowania: - cecha zależna Y musi być mierzalna, cecha X niekoniecznie, - może być stosowany do oceny związków liniowych i krzywoliniowych. Własności wskaźnika eyx : przyjmuje wartości z przedziału <0;1>, eyx = 0 jeżeli cechy są niezależne korelacyjnie, eyx = 1 jeżeli występuje związek funkcyjny, - Korelację uznajemy za: słabą, gdy umiarkowaną, gdy - silną, gdy
Miara krzywoliniowości Jeżeli 𝑚 𝑦𝑥 ≤0,2 , to związek korelacyjny uznajemy za liniowy i do oceny siły i kierunku korelacji wybieramy współczynnik Pearsona rxy . Jeżeli 𝑚 𝑦𝑥 >0,2 , to związek uznajemy za krzywoliniowy a do oceny siły zależności wybieramy stosunek korelacyjny eyx .
Przykład 2.3. W przykładzie 2.2. wyznaczone zostały parametry rozkładów brzegowych i warunkowych. Na ich podstawie obliczamy miary siły korelacji. Zarówno wartość współczynnika korelacji rxy jak i stosunku korelacyjnego wskazują na silną korelację badanych cech. Ponadto mała wartość miary krzywoliniowości pozwala uznać związek za liniowy. Wskazuje na to również wykres – wydajność pracowników rośnie wraz ze stażem pracy.
3. ANALIZA KORELACJI CECH NIEMIERZALNYCH Współczynnik korelacji rang Spearmana – rs . Warunki stosowania: cechy są mierzalne, ale liczebność zbiorowości jest mała, cechy mogą być niemierzalne, ale ich warianty można uporządkować według jakiegoś kryterium (logicznie ponumerować). Konstrukcja współczynnika – rs : porządkujemy wartości cech X i Y (np. od najmniejszej do największej intensywności ich występowania). 2. wartościom cech przypisujemy ich numery (Rxi oraz Ryi ), pod jakimi występują w uporządkowanym ciągu. Numery te nazywamy rangami wartości. Jeżeli w zbiorowości występują jednostki o tej samej intensywności występowania cechy ( wartości powtarzają się), to tym wszystkim jednostkom przypisujemy średnią arytmetyczną ich indywidualnych rang. obliczamy różnice rang di = Rxi – Ryi , obliczamy współczynnik rang Spearmana
Własności współczynnika rs Własności współczynnika korelacji Spearmana są takie same jak współczynnika korelacji Pearsona , dlatego przyjmiemy takie same granice zmienności przy ocenie, czy korelacja jest słaba, umiarkowana czy silna. Uwaga: Niska wartość współczynnika rs (podobnie jak rxy ) nie oznacza braku korelacji – może bowiem oznaczać, że między cechami zachodzi związek krzywoliniowy.
Przykład 3.1. Z dziennika pewnej grupy studenckiej wybrano losowo 9 dat i zanotowano dni tygodnia (cecha X) oraz liczbę nieobecnych na zajęciach w tym dniu studentów (cecha Y). Czy można na podstawie podanych niżej obserwacji wnioskować, że istnieje korelacja między dniami tygodnia a liczbą nieobecnych studentów? Rpon =1, Rwt= (2+3)/2=2,5 Rśr= (4+5+6)/3=5 Rczw= 7 Rpt=(8+9)/2=8,5 R2=1 R3= (2+3+4)/=3 R4= (5+6)/2=5,5 R5= (7+8)/2=7,5 R6=9 Między dniami tygodnia a absencją na zajęciach zachodzi umiarkowana zależność korelacyjna liniowa. Rjpot rR
Współczynnik Cramera Omówione dotychczas miary korelacji nie mogą być stosowane w przypadku, gdy obie cechy są niemierzalne, a ich wartości (wariantów) nie można logicznie uporządkować. Do badania siły zależności takich cech można wykorzystać m.in. współczynnik Cramera . gdzie: n - liczebność zbiorowości, k - liczba wierszy w tablicy korelacyjnej, l - liczba kolumn w tablicy korelacyjnej, min[(k-1);(l-1)] - mniejsza spośród liczb k-1, l-1 (czyt. chi kwadrat) to wyrażenie postaci a oznaczają liczebności teoretyczne obliczane z wzoru
Warunki stosowania współczynnika Cramera: cechy zbiorowości mogą być dowolne (mierzalne lub niemierzalne) liczebność zbiorowości musi być duża, wyniki muszą być pogrupowane w tablicy korelacyjnej i liczebności wewnątrz tablicy nie powinny być mniejsze niż 5 (nij ≥5), związek między cechami może być liniowy lub krzywoliniowy. Własności wpółczynnika Cramera: wartości współczynnika zawarte są w przedziale <0;1>, im wartośc jest bliższa 1, tym zależność jest silniejsza, jeżeli tablica korelacyjna jest kwadratowa, to maksymalna wartość współczynnika wynosi 1, dla tablicy prostokątnej maksymalna wartość wspóczynnika może być nieco niższa niż 1.
Przykład 3.2. W ankiecie przeprowadzonej wśród pracowników pewnego resortu pytano, czy chcieliby zmienić obecne miejsce pracy. Odpowiedzi w poszczególnych grupach zarobkowych przedstawia tablica korelacyjna. Zbadać korelację między wysokością zarobków a chęcią zmiany pracy. Obliczenia przeprowadzimy w tablicy roboczej.
W tablicy kolorem zielonym zaznaczono liczebności teoretyczne , kolorem różowym wartości wyrażeń . Stąd Brak korelacji między wysokością zarobków a chęcią zmiany pracy.
Funkcję taką nazywamy funkcją regresji, a jej wykres linią regresji. 4. ANALIZA REGRESJI Analiza korelacji cech mówiła o sile zależności korelacyjnej badanych cech zbiorowości. Interesujące byłoby badanie, jak bardzo zmiana wartości cechy niezależnej X wpłynie na zmianę wartości cechy zależnej Y. Do tego należałoby znaleźć matematyczny opis (wzór) zależności między cechami, czyli określić funkcję opisującą tę zależność. Funkcję taką nazywamy funkcją regresji, a jej wykres linią regresji. ,Linia ta może mieć różny kształt a układ punktów na diagramie korelacyjnym może zasugerować, z jakim typem funkcji regresji mamy do czynienia. . Liniowa Wykładnicza Logarytmiczna funkcja regresji funkcja regresji funkcja regresji
Liniowa funkcja regresji. Jeżeli mamy podstawy sądzić, że cechy są skorelowane liniowo, to najlepiej dopasowaną do danych empirycznych funkcję y=ax+b nazywamy liniową funkcją regresji. Współczynniki a i b w tym równaniu wyznaczamy z wzorów: - kowariancja cech X i Y
Przykład 4.1 Do badań wylosowano 6 sklepów branży konfekcyjnej w Łodzi odnotowując ich przeciętny dzienny obrót Y (w tys. zł) oraz powierzchnię X (w m2). Rozkład cechy przedstawia szereg dwuwymiarowy: Z diagramu korelacyjnego sporządzonego w przykładzie 1.1. wnioskujemy, że między dziennym obrotem a powierzchnią sklepu zachodzi dodatnia korelacja liniowa. Współczynniki funkcji regresji są następujące: a wzór funkcji regresji: Na jego podstawie można obliczyć, że dla sklepu o powierzchni 120m2 spodziewany dzienny obrót wynosiłby 30 540 zł. .