Statystyka i Demografia wykład 9 …rozkłady, kowariancja, korelacja, regresja, estymacja i weryfikacja hipotez… Statystyka i Demografia wykład 9 w tym wykładzie, (podobnie jak w poprzednich i następnych), wykorzystano doskonały podręcznik: Francuz P., Mackiewicz R., Liczby nie wiedzą, skąd pochodzą. Przewodnik po metodologii i statystyce nie tylko dla psychologów, Redakcja Wydawnictw Katolickiego Uniwersytetu Lubelskiego, 2007.
Podstawowe cele analizy zbiorów danych Wprowadzenie Podstawowe cele analizy zbiorów danych Opis ich struktury Estymacja i estymatory Odkrywanie i badanie zależności występujących pomiędzy danymi
KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Temat: Wstępna analiza danych
Na czym polega Wstępna analiza danych: Ile danych: ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki) ile przypadków (1255) Jakie typy dane jakościowe (płeć, wykształcenie) dane ilościowe (staż pracy, płaca) Ile braków, jakie, jak je zastąpić
Udział kobiet?
Jakie jest wykształcenie pracowników
Jaki jest stan wykształcenia kobiet i mężczyzn
Histogram zmiennej płaca brutto - zmiana liczby klas
Zmiana dolnej wartości pierwszej klasy Od zera Od minimum
Wykresy skategoryzowane; ramkowe
Wykresy skategoryzowane; ramkowe
Wykresy skategoryzowane; interakcji
Statystyki opisowe
Cechy statystyczne i ich rodzaje Cechy, którymi wyróżniają się jednostki wchodzące w skład zbiorowości, nazywa się cechami statystycznymi. Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie cechy, które stanowią istotną własność badanego zjawiska Typy cech cechy jakościowe – niemierzalne (np. kolor, sprawny- niesprawny, ale jakościowymi mogą być też liczby np. nr piętra, ) cechy ilościowe – mierzalne to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali ( np. wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest: ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura) dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba zatrudnionych w zawodzie).
Wnioskowanie statystyczne: Estymacja i estymatory. Weryfikacja hipotez statystycznych. Analiza zmiennych wielowymiarowych, odkrywanie związków pomiędzy danymi,
STATISTICA – umożliwia analizę zbiorów danych reprezentujących cechy ilościowe i jakościowe
Empiryczny rozkład cechy Budowa szeregu rozdzielczego – trzy etapy Ustalam liczbę klas (optymalna 7-15) szerokość przedziału klasowego Określam granice przedziałów klasowych Dla każdej klasy zliczam liczę elementów analizowanego zbioru danych, których wartości mieszczą się w granicach określonej klasy
Szereg rozdzielczy – uwagi praktyczne Każdy przedział klasowy ma dolną i górną granicę Różnice pomiędzy tymi granicami nazywa się rozpiętością (szerokością) przedziału klasowego Przy równej rozpiętości przedziałów, liczebności są porównywalne. Częstość jest to iloraz liczby elementów zbioru zakwalifikowanych do danej klasy przez liczbę wszystkich elementów zbioru Uwaga: Ostatecznie badacz podejmuje decyzje o wartościach granic, szerokości przedziałów klasowych i ich liczbie, kierując się wiedzą merytoryczną o badanym zjawisku, Przykład: W kartotekach pacjentów notowana jest data urodzenia, ta informacja pozwala zbadać cechę jaką jest ich wiek.
Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów Numer klasy Granice przedziałów klasowych Środek przedziału Liczność klasy Częstość dolna górna LP a b xi ni ni/n 1 3 9 6 0,03 2 15 12 0,11 21 18 16 0,15 4 27 24 0,17 5 33 30 26 0,25 39 36 17 0,16 7 45 42 8 0,08 51 48 0,04 57 54 0,01 Suma 105
Wykresy
Histogram Histogram to jeden z graficznych sposobów przedstawiania rozkładu cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są wyznaczone przez przedziały klasowe wartości cechy; szerokość przedziału; krok natomiast ich wysokość jest określona przez liczebności lub częstości elementów należących do określonego przedziału klasowego.
Szereg rozdzielczy skumulowany b xi ni liczebność skumulowana dystrybuanta empiryczna 3 9 6 0,029 15 12 0,143 21 18 16 31 0,295 27 24 49 0,467 37 33 35 26 75 0,714 39 36 17 92 0,876 45 42 8 100 0,952 51 48 4 104 0,990 57 54 1 105 1,000
Statystyka Opisowa Parametrami statystycznymi (statystykami) nazywamy liczby umożliwiające sumaryczny opis zbiorowości. Parametry te tak dokładnie charakteryzują zbiorowość, że mogą być wykorzystane do porównywania różnych zbiorowości. Wyróżnia się następujące grupy parametrów statystycznych: Miary położenia (klasyczne i pozycyjne) Miary zmienności Miary asymetrii i koncentracji Graficzna interpretacja statystyk
Charakterystyki położenia KISIM, WIMiIP, AGH
Miary położenia Średnia Moda (dominanta): najczęściej występująca wartość cechy Kwantyle: Kwartyle, decyle, percentyle mediana (kwartyl drugi) - taką wartość cechy, że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me. Czyli dystrybuanta empiryczna Fn(Me) ½
Błąd w obliczaniu średniej Na targu: właściciel straganu przejął stragan sąsiada… Każdy stragan sprzedawał wcześniej po 60kg ziemniaków dziennie. Wcześniej właściciel sprzedawał ziemniaki po 1zł/2kg , sąsiad po 1zł/3kg (te mniejsze…). Po fuzji, zmieszane ziemniaki postanowił sprzedawać zgodnie ze stosunkiem ceny do jakości… 2zł/5kg (40gr/kg). ― czy zachował poprzedni dochód przy tej samej wielkości sprzedaży? KISIM, WIMiIP, AGH
Błąd w obliczaniu średniej dochód przed fuzją: 50zł stragan A: 60(1zł/2kg)=30zł stragan B: 60(1zł/3kg)=20zł dochód po fuzji: 120(3zł/5kg)= 48zł ― dlaczego? ― właściciel potraktował równorzędnie wartość sprzedaży obu straganów, a należało obliczyć jednostkową cenę za kg (30zł+20zł)/120kg = 41,67gr KISIM, WIMiIP, AGH
Graficzne wyznaczanie mody
Miary rozproszenia KISIM, WIMiIP, AGH
Miary zmienności Miary zmienności dzielą się na miary klasyczne i pozycyjne. miary pozycyjne: rozstęp, odchylenie ćwiartkowe, współczynnik zmienności miary klasyczne: wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności
Odchylenie ćwiartkowe Kwartyle są wykorzystywane do określenia pozycyjnej miary zróżnicowania, nazywanej odchyleniem ćwiartkowym, którym jest wielkość Q, określona wzorem
Miary zmienności Rozstęp - najprostsza miara zmienności R=xmax – xmin Odchylenie ćwiartkowe Odchylenie przeciętne Współczynnik zmienności
Klasyczne miary zmienności Wariancja nadwyżka średniej kwadratów nad kwadratem średniej Odchylenie standardowe Współczynnik zmienności - klasyczny
Miary zmienności – interpretacja graficzna Na rysunku pokazano dwa diagramy częstości (1) i (2). Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości. Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1). Diagram jest smuklejszy i wyższy. Większe rozproszenie wokół średniej występuje w zbiorowości (2). Diagram jest bardziej rozłożysty i niższy. Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2) s1 s2
Praktyczne wykorzystanie miar zmienności Przedział TYPOWYCH wartości cechy Przedział taki ma tą własność, że około70% jednostek badanej zbiorowości charakteryzuje się wartością cechy należącą do tego przedziału.
Reguła trzy sigma Jeżeli zmienna losowa ma rozkład normalny N(μ,σ) to: 68,27% populacji mieści się w przedziale ( - σ; + σ) 95,45% populacji mieści się w przedziale ( - 2σ; + 2σ) 99,73% populacji mieści się w przedziale ( - 3σ; + 3σ)
Charakterystyczne cechy rozkładów: punkty skupienia, asymetria, rozrzut symetryczne asymetryczne siodłowy bimodalny
Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)
Parametry dwuwymiarowych zmiennych losowych Kowariancja Kowariancja – liczba określająca zależność liniową między zmiennymi losowymi X i Y. Kowariancją zmiennej losowej dwuwymiarowej (X,Y) nazywamy wyrażenie: cov ( X , Y )= E(XY) - E(X)×E(Y)
Cechy kowariancji Jeśli zmienne X i Y są niezależne to cov (X,Y) =0 Znak kowariancji wskazuje kierunek zmian Wadą kowariancji jest to, że jej wartość zależy od jednostek pomiaru cech Można udowodnić, że -sx sy cov (X,Y) sx sy po podzieleniu kowariancji przez iloczyn odchyleń standardowych zmiennych X i Y otrzymuje się bezwymiarową miarę intensywności powiązania pomiędzy zmiennymi X i Y , jest to: współczynnik korelacji liniowej Pearsona – oznaczany przez literę , a jego estymator literę r KISIM, WIMiIP, AGH
Wykrywanie korelacji Obserwacja szeregów statystycznych zawierających informacje o cechach pozwala wykrywać zależności korelacyjne. Jeśli naszym celem jest analiza zachowania pewnej wielkości losowej Y, zbieramy również informacje towarzyszące, które mogą mieć znaczenie w analizie interesującej nas wielkości. Badana wartość, choć losowa, w istotny sposób zależy od innych zmiennych i zrozumienie charakteru tej zależności może być pożyteczne w wielu zadaniach np. przewidywania przyszłych wartości interesującej nas zmiennej. KISIM, WIMiIP, AGH
pasmo przewidywania / przedział ufności KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Parametry dwuwymiarowych zmiennych losowych Współczynnik korelacji liniowej Współczynnik korelacji (wsp. korelacji liniowej Pearsona) – jest miernikiem siły związku prostoliniowego między dwiema cechami mierzalnymi. Jest wyznaczony przez standaryzację kowariancji.
Współczynnik korelacji liniowej Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (r). Przyjmuje on wartości z przedziału domkniętego <-1; 1>. Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej Wielkość współczynnika podlega wpływom wartości skrajnych – to jego wada
Przykłady układów punktów przy różnych wartościach współczynnika korelacji liniowej Najważniejsza jest statystyczna istotność korelacji. Wartość współczynnika bliska 0 oznacza jedynie brak zależności liniowej.
Współczynnik korelacji r – współczynnik korelacji r=0 zmienne nie są skorelowane 0,0 ≤ r < 0,1 korelacja nikła 0,1 ≤ r < 0,3 korelacja słaba 0,3 ≤ r < 0,5 korelacja przeciętna 0,5 ≤ r < 0,7 korelacja wysoka 0,7 ≤ r < 0,9 korelacja bardzo wysoka 0,9 ≤ r < 1 korelacja prawie pełna KISIM, WIMiIP, AGH
Badanie istotności współczynnika korelacji liniowej Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: porównujemy jej wartość z odpowiednią wartością krytyczną t ,n-2 i podejmujemy odpowiednią decyzję co do prawdziwości H0. … albo używamy komputera i obliczamy p jeśli p<0,05, współczynnik jest istotny statystycznie
Postaci zależności Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. Chodzi o to, aby wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa Może się bowiem okazać, że wyliczona wartość współczynnika korelacji jest zbliżona do zera, a mimo to pomiędzy korelowanymi zmiennymi występuje współzależność, tyle że nieliniowa KISIM, WIMiIP, AGH
Cechy zbiorów identyczne: Kwartet Anscombe'a Cechy zbiorów identyczne: Średnia = 9 Wariancja = 11 Korelacja = 0.81 Regresja: y=0,5x + 3 KISIM, WIMiIP, AGH
Wprowadzenie do analizy zależności pomiędzy danymi statystycznymi Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich: siła (współczynnik determinacji , współczynnik korelacji) postać ( dopasowanie funkcji reprezentujących zależność - aproksymacja) kierunek (monotoniczność) Współzależność między zmiennymi może być dwojakiego rodzaju: funkcyjna stochastyczna (probabilistyczna).
Rodzaje zależności pomiędzy danymi - zależność funkcyjna Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. W przypadku zależności funkcyjnej: y = f (x), każdej wartości zmiennej (X) odpowiada jedna i tylko jedna wartość zmiennej (Y). Symbolem X oznaczamy zmienną objaśniającą (niezależną), natomiast symbolem Y - zmienną objaśnianą (zależną ).
Macierz korelacji KISIM, WIMiIP, AGH
Dobór i eliminacja zmiennych KISIM, WIMiIP, AGH
Ważność predyktorów KISIM, WIMiIP, AGH
Macierz korelacji KISIM, WIMiIP, AGH
Badanie istotności współczynnika korelacji liniowej Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: zmienna t ma rozkład Studenta z n-2 stopniami swobody; u ma rozkład normalny. Hipotezę H0 odrzucamy ilekroć wartość obliczona funkcji testowej znajdzie się w obszarze krytycznym (zdefiniowanym przez hipotezę H1 z wartością krytyczną t ,n-2 ). gdy n<100 gdy n>100
Niejednoznaczność informacji przekazywanej przez współczynnik korelacji - przykład Interpretacja: przez analogię do filmu Seksmisja: jeśli bociany to miejsce wybrały musi to być „zdrowy” region – pomyśleli młodzi i postanowili się tu osiedlić … a może bociany lubią (jeść) dzieci?
regresja jest prosta KISIM, WIMiIP, AGH
Wybrane zagadnienia analizy regresji prostej Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Pojęcie funkcji w zastosowaniu do badań empirycznych nie może być zazwyczaj stosowane bez pewnych zastrzeżeń. Z definicji funkcji wynika, że jednej wartości zmiennej niezależnej (objaśniającej, predyktora) może być przyporządkowana dokładnie jedna wartość zmiennej zależnej (objaśnianej). KISIM, WIMiIP, AGH
Wybrane zagadnienia analizy regresji prostej Badacz w praktyce ma zazwyczaj do czynienia z sytuacją, w której przy kilku powtórzeniach doświadczenia, zachowując za każdym razem te same wartości zmiennej niezależnej, otrzymuje inne wartości mierzonej zmiennej zależnej. Wartości te zwykle leżą blisko siebie, ale nie są na ogół identyczne dla celów użytkowych należało pojęcie funkcji uczynić bardziej elastycznym, a terminy zmienna niezależna i zmienna zależna dostosować odpowiednio do nowych potrzeb. Do tego celu w statystyce matematycznej wprowadzono pojęcie regresji oznaczające obliczenia wykorzystywane do ilościowego opisu zależności jednej zmiennej od drugiej KISIM, WIMiIP, AGH
Model probabilistyczny W wielu wypadkach występują jednak zjawiska niezdeterminowane, odpowiadające zjawiskom losowym, których nie można opisać ścisłymi zależnościami. Zależność stochastyczna – występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się – średnio biorąc – wartość zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X. KISIM, WIMiIP, AGH
Model probabilistyczny Jeśli mamy do czynienia z czynnikiem losowym, który może obejmować również nie znane nam zmienne wpływające na wartość zmiennej zależnej. Dane = Model + Błąd Model probabilistyczny jest zawsze uproszczeniem. Jeśli zmienna zależna ma charakter ilościowy, model nazywamy modelem regresyjnym. KISIM, WIMiIP, AGH
Predykcja Jeśli atrybut decyzyjny jest ciągły (numeryczny), mówimy o problemie predykcji / regresji. Predykcja jest bardzo podobna do klasyfikacji. Jednakże celem predykcji jest zamodelowanie funkcji ciągłej, która by odwzorowywała wartości atrybutu decyzyjnego (regresja) klasyfikacja: przewidywanie wartości klasy na podstawie opisu (wartości innych zmiennych) predykcja (regresja): przewidywanie wartości ciągłej, modelowanie funkcji ciągłych KISIM, WIMiIP, AGH
Badanie zależności pomiędzy danymi statystycznymi Zwykle badane jednostki statystyczne charakteryzuje się za pomocą wielu zmiennych (cech) i wtedy ważnym jest ustalenie: – czy analizowane grupy danych, reprezentujące określone zmienne, można uznać za niezależne – jeśli hipoteza o niezależności zostaje odrzucona, należy przyjąć, że pomiędzy analizowanymi zmiennymi występuje zależność i szukamy odpowiedzi na pytanie: jaka jest jej: • siła • postać • kierunek Zależność między zmiennymi może być dwojakiego rodzaju: • funkcyjna • stochastyczna (probabilistyczna). KISIM, WIMiIP, AGH
Regresja prosta (regresja liniowa) Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Model regresji liniowej prostej przyjmuje postać: Y = β 0+ β1 x + ε gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy, a ε błąd. Zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. Źródłem błędu są wpływy innych nie uwzględnionych w modelu zmiennych, takich jak np. błędy pomiarowe. Zakłada się przy tym, że błędy mają średnią wartość równą zero i nieznaną wariancję oraz, że błędy nie są nawzajem skorelowane. Współczynniki regresji β0 oraz β1 można wyznaczyć korzystając z metody najmniejszych kwadratów (MNK).
Regresja liniowa Założenia: błędy pomiarów są niezależne i mają ten sam rozkład, przy czym Eεi=0 oraz Varεi=σ2<∞, i=1, 2, ..., n. nieznana funkcja regresji ma postać f(x)=ax+b, (występuje tylko jeden predyktor), gdzie a, b są liczbami rzeczywistymi W wyniku eksperymentu obserwujemy zatem zmienne losowe Yi = axi + b + εi, i=1, ..., n inaczej: Y = β0+ β1x + ε, gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy a ε błąd KISIM, WIMiIP, AGH
Istota metody najmniejszych kwadratów - MNK Wprowadzona przez Legendre'a i Gaussa, jest najczęściej stosowaną w praktyce metodą statystyczną Jej istota jest następująca: Wynik kolejnego pomiaru yi można przedstawić jako sumę (nieznanej) wielkości mierzonej y oraz błędu pomiarowego i , Od wielkości oczekujemy, aby suma kwadratów była jak najmniejsza:
Ocena stopnia dopasowania modelu do danych rzeczywistych Zasadniczy cel analizy regresji polega na ocenie nieznanych parametrów modelu regresji. Ocena ta jest dokonywana za pomocą metody najmniejszych kwadratów (MNK). MNK sprowadza się do minimalizacji sum kwadratów odchyleń wartości teoretycznych od wartości rzeczywistych (czyli tzw. reszt modelu). Dopasowany model regresji prostej, który daje punktową ocenę średniej wartości y dla określonej wartości x przyjmuje postać: gdzie f(x) oznacza teoretyczną wartość zmiennej zależnej, b0 i b1 to odpowiednio oceny wyrazu wolnego i współczynnika kierunkowego, uzyskane na podstawie wyników z próby.
KISIM, WIMiIP, AGH
Typowanie postaci zależności STATISTICA / wykresy/ wykresy rozrzutu 2W
Wykres ilustrujący zależność pomiędzy średnią temperaturą a zużyciem gazu MODEL REGRESJI:
Współczynnik determinacji r2 (R2) – współczynnik determinacji (wielkość ta oznacza kwadrat współczynnika korelacji) przyjmuje wartości z przedziału [0,1] jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Jeśli wartość R2 jest duża, to oznacza to, że błędy dla tego modelu są stosunkowo małe i w związku z tym model jest dobrze dopasowany do rzeczywistych danych. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych KISIM, WIMiIP, AGH
Dobroć dopasowania (1) KISIM, WIMiIP, AGH
Dobroć dopasowania (2) współczynnik determinacji to kwadrat współczynnika korelacji KISIM, WIMiIP, AGH
Regresja wieloraka KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
brak istotności wyrazu wolnego zmienna zależna brak istotności wyrazu wolnego wzrost istotny statystycznie wiek – brak istotności KISIM, WIMiIP, AGH
oszacowana funkcja regresji: Wyniki regresji model istotny statystycznie oszacowana funkcja regresji: WAGA = 6,55 + 2,05*WIEK+ 0,72*WZROST±4,66 (10,94) (0,94) (0,26) R2=0,78 interpretacja: jeśli wartość zmiennej WIEK wrośnie o 1 to wartość zmiennej WAGA wzrośnie o 0,43kg BETA: standaryzowany wskaźnik siły powiązania brak istotności wpływu wieku dodatnie oddziaływanie wieku i wzrostu na wagę R2=0,78, czyli 78% ogólnej zmienności WAGI wyjaśnione przez model KISIM, WIMiIP, AGH
Przykład: zużycie gazu
Wykres rozrzutu z dopasowaną linią regresji
Regresja wieloraka
Przykład: samochody
Zależność od wielu zmiennych. Korelacje cząstkowe Na pewną zmienną oddziałuje więcej niż jedna zmienna, można określić macierz korelacji. Jeśli interesuje nas związek korelacyjny jedynie między dwoma zmiennymi przy wyłączeniu wpływu pozostałych, to powinniśmy wyliczyć współczynniki korelacji cząstkowej. Załóżmy, że mamy trzy zmienne X1, X2 oraz X3. Współczynniki korelacji cząstkowej oznaczamy następująco: r12.3, r13.2, r23.1 KISIM, WIMiIP, AGH
Korelacje cząstkowe
Wykluczono wpływ liczby ludności Wykluczono wpływ liczby ludności, liczby miast i udziału ludności miejskiej
Regresja ze zmienną jakościową Jeśli w analizie występują zmienne jakościowe (np. płeć, stanowisko pracy etc) można podzielić zbiorowość na jednorodne grupy pod względem poszczególnych wartości zmiennej a następnie porównać modele. Możemy również zastąpić zmienną jakościową sztucznymi zmiennymi binarnymi (np. płeć: kobieta = 1, mężczyzna = 0) KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
model przybiera postać: CSK = 105,8 + 1,05*WIEK - 17,5*PŁEĆ ± 7,37 (4,5) (0,089) (2,72) R2=0,87 PŁEĆ =0, CSK = 105,8 + 1,05*WIEK PŁEĆ =1, CSK = 88,3 + 1,05*WIEK KISIM, WIMiIP, AGH
Skategoryzowane wykresy rozrzutu KISIM, WIMiIP, AGH
koniec