Statystyka i Demografia wykład 9

Statystyka i Demografia wykład 9
…rozkłady, kowariancja, korelacja, regresja, estymacja i weryfikacja hipotez… Statystyka i Demografia wykład 9 w tym wykładzie, (podobnie jak w poprzednich i następnych), wykorzystano doskonały podręcznik: Francuz P., Mackiewicz R., Liczby nie wiedzą, skąd pochodzą. Przewodnik po metodologii i statystyce nie tylko dla psychologów, Redakcja Wydawnictw Katolickiego Uniwersytetu Lubelskiego, 2007.

Podstawowe cele analizy zbiorów danych
Wprowadzenie Podstawowe cele analizy zbiorów danych Opis ich struktury Estymacja i estymatory Odkrywanie i badanie zależności występujących pomiędzy danymi

KISIM, WIMiIP, AGH

Temat: Wstępna analiza danych

Na czym polega Wstępna analiza danych:
Ile danych: ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki) ile przypadków (1255) Jakie typy dane jakościowe (płeć, wykształcenie) dane ilościowe (staż pracy, płaca) Ile braków, jakie, jak je zastąpić

Udział kobiet?

Jakie jest wykształcenie pracowników

Jaki jest stan wykształcenia kobiet i mężczyzn

Histogram zmiennej płaca brutto - zmiana liczby klas

Zmiana dolnej wartości pierwszej klasy
Od zera Od minimum

Wykresy skategoryzowane; ramkowe

Wykresy skategoryzowane; interakcji

Statystyki opisowe

Cechy statystyczne i ich rodzaje
Cechy, którymi wyróżniają się jednostki wchodzące w skład zbiorowości, nazywa się cechami statystycznymi. Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie cechy, które stanowią istotną własność badanego zjawiska Typy cech cechy jakościowe – niemierzalne (np. kolor, sprawny- niesprawny, ale jakościowymi mogą być też liczby np. nr piętra, ) cechy ilościowe – mierzalne to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali ( np. wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest: ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura) dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba zatrudnionych w zawodzie).

Wnioskowanie statystyczne:
Estymacja i estymatory. Weryfikacja hipotez statystycznych. Analiza zmiennych wielowymiarowych, odkrywanie związków pomiędzy danymi,

STATISTICA – umożliwia analizę zbiorów danych reprezentujących cechy ilościowe i jakościowe

Empiryczny rozkład cechy
Budowa szeregu rozdzielczego – trzy etapy Ustalam liczbę klas (optymalna 7-15) szerokość przedziału klasowego Określam granice przedziałów klasowych Dla każdej klasy zliczam liczę elementów analizowanego zbioru danych, których wartości mieszczą się w granicach określonej klasy

Szereg rozdzielczy – uwagi praktyczne
Każdy przedział klasowy ma dolną i górną granicę Różnice pomiędzy tymi granicami nazywa się rozpiętością (szerokością) przedziału klasowego Przy równej rozpiętości przedziałów, liczebności są porównywalne. Częstość jest to iloraz liczby elementów zbioru zakwalifikowanych do danej klasy przez liczbę wszystkich elementów zbioru Uwaga: Ostatecznie badacz podejmuje decyzje o wartościach granic, szerokości przedziałów klasowych i ich liczbie, kierując się wiedzą merytoryczną o badanym zjawisku, Przykład: W kartotekach pacjentów notowana jest data urodzenia, ta informacja pozwala zbadać cechę jaką jest ich wiek.

Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów
Numer klasy Granice przedziałów klasowych Środek przedziału Liczność klasy Częstość dolna górna LP a b xi ni ni/n 1 3 9 6 0,03 2 15 12 0,11 21 18 16 0,15 4 27 24 0,17 5 33 30 26 0,25 39 36 17 0,16 7 45 42 8 0,08 51 48 0,04 57 54 0,01 Suma 105

Wykresy

Histogram Histogram to jeden z graficznych sposobów przedstawiania rozkładu cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są wyznaczone przez przedziały klasowe wartości cechy; szerokość przedziału; krok natomiast ich wysokość jest określona przez liczebności lub częstości elementów należących do określonego przedziału klasowego.

Szereg rozdzielczy skumulowany
b xi ni liczebność skumulowana dystrybuanta empiryczna 3 9 6 0,029 15 12 0,143 21 18 16 31 0,295 27 24 49 0,467 37 33 35 26 75 0,714 39 36 17 92 0,876 45 42 8 100 0,952 51 48 4 104 0,990 57 54 1 105 1,000

Statystyka Opisowa Parametrami statystycznymi (statystykami) nazywamy liczby umożliwiające sumaryczny opis zbiorowości. Parametry te tak dokładnie charakteryzują zbiorowość, że mogą być wykorzystane do porównywania różnych zbiorowości. Wyróżnia się następujące grupy parametrów statystycznych: Miary położenia (klasyczne i pozycyjne) Miary zmienności Miary asymetrii i koncentracji Graficzna interpretacja statystyk

Charakterystyki położenia
KISIM, WIMiIP, AGH

Miary położenia Średnia
Moda (dominanta): najczęściej występująca wartość cechy Kwantyle: Kwartyle, decyle, percentyle mediana (kwartyl drugi) - taką wartość cechy, że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me. Czyli dystrybuanta empiryczna Fn(Me)  ½

Błąd w obliczaniu średniej
Na targu: właściciel straganu przejął stragan sąsiada… Każdy stragan sprzedawał wcześniej po 60kg ziemniaków dziennie. Wcześniej właściciel sprzedawał ziemniaki po 1zł/2kg , sąsiad po 1zł/3kg (te mniejsze…). Po fuzji, zmieszane ziemniaki postanowił sprzedawać zgodnie ze stosunkiem ceny do jakości… 2zł/5kg (40gr/kg). ― czy zachował poprzedni dochód przy tej samej wielkości sprzedaży? KISIM, WIMiIP, AGH

Błąd w obliczaniu średniej
dochód przed fuzją: 50zł stragan A: 60(1zł/2kg)=30zł stragan B: 60(1zł/3kg)=20zł dochód po fuzji: 120(3zł/5kg)= 48zł ― dlaczego? ― właściciel potraktował równorzędnie wartość sprzedaży obu straganów, a należało obliczyć jednostkową cenę za kg (30zł+20zł)/120kg = 41,67gr KISIM, WIMiIP, AGH

Graficzne wyznaczanie mody

Miary rozproszenia KISIM, WIMiIP, AGH

Miary zmienności Miary zmienności dzielą się na miary klasyczne i pozycyjne. miary pozycyjne: rozstęp, odchylenie ćwiartkowe, współczynnik zmienności miary klasyczne: wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności

Odchylenie ćwiartkowe
Kwartyle są wykorzystywane do określenia pozycyjnej miary zróżnicowania, nazywanej odchyleniem ćwiartkowym, którym jest wielkość Q, określona wzorem

Miary zmienności Rozstęp - najprostsza miara zmienności R=xmax – xmin
Odchylenie ćwiartkowe Odchylenie przeciętne Współczynnik zmienności

Klasyczne miary zmienności
Wariancja nadwyżka średniej kwadratów nad kwadratem średniej Odchylenie standardowe Współczynnik zmienności - klasyczny

Miary zmienności – interpretacja graficzna
Na rysunku pokazano dwa diagramy częstości (1) i (2). Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości. Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1). Diagram jest smuklejszy i wyższy. Większe rozproszenie wokół średniej występuje w zbiorowości (2). Diagram jest bardziej rozłożysty i niższy. Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2) s1  s2

Praktyczne wykorzystanie miar zmienności
Przedział TYPOWYCH wartości cechy Przedział taki ma tą własność, że około70% jednostek badanej zbiorowości charakteryzuje się wartością cechy należącą do tego przedziału.

Reguła trzy sigma Jeżeli zmienna losowa ma rozkład normalny N(μ,σ) to:
68,27% populacji mieści się w przedziale ( - σ;  + σ) 95,45% populacji mieści się w przedziale ( - 2σ;  + 2σ) 99,73% populacji mieści się w przedziale ( - 3σ;  + 3σ)

Charakterystyczne cechy rozkładów: punkty skupienia, asymetria, rozrzut
symetryczne asymetryczne siodłowy bimodalny

Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)

Parametry dwuwymiarowych zmiennych losowych Kowariancja
Kowariancja – liczba określająca zależność liniową między zmiennymi losowymi X i Y. Kowariancją zmiennej losowej dwuwymiarowej (X,Y) nazywamy wyrażenie: cov ( X , Y )= E(XY) - E(X)×E(Y)

Cechy kowariancji Jeśli zmienne X i Y są niezależne to cov (X,Y) =0
Znak kowariancji wskazuje kierunek zmian Wadą kowariancji jest to, że jej wartość zależy od jednostek pomiaru cech Można udowodnić, że -sx sy  cov (X,Y)  sx sy po podzieleniu kowariancji przez iloczyn odchyleń standardowych zmiennych X i Y otrzymuje się bezwymiarową miarę intensywności powiązania pomiędzy zmiennymi X i Y , jest to: współczynnik korelacji liniowej Pearsona – oznaczany przez literę , a jego estymator literę r KISIM, WIMiIP, AGH

Wykrywanie korelacji Obserwacja szeregów statystycznych zawierających informacje o cechach pozwala wykrywać zależności korelacyjne. Jeśli naszym celem jest analiza zachowania pewnej wielkości losowej Y, zbieramy również informacje towarzyszące, które mogą mieć znaczenie w analizie interesującej nas wielkości. Badana wartość, choć losowa, w istotny sposób zależy od innych zmiennych i zrozumienie charakteru tej zależności może być pożyteczne w wielu zadaniach np. przewidywania przyszłych wartości interesującej nas zmiennej. KISIM, WIMiIP, AGH

pasmo przewidywania / przedział ufności
KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Parametry dwuwymiarowych zmiennych losowych Współczynnik korelacji liniowej
Współczynnik korelacji (wsp. korelacji liniowej Pearsona) – jest miernikiem siły związku prostoliniowego między dwiema cechami mierzalnymi. Jest wyznaczony przez standaryzację kowariancji.

Współczynnik korelacji liniowej
Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (r). Przyjmuje on wartości z przedziału domkniętego <-1; 1>. Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej Wielkość współczynnika podlega wpływom wartości skrajnych – to jego wada

Przykłady układów punktów przy różnych wartościach współczynnika korelacji liniowej
Najważniejsza jest statystyczna istotność korelacji. Wartość współczynnika bliska 0 oznacza jedynie brak zależności liniowej.

Współczynnik korelacji
r – współczynnik korelacji r=0 zmienne nie są skorelowane 0,0 ≤ r < 0,1 korelacja nikła 0,1 ≤ r < 0,3 korelacja słaba 0,3 ≤ r < 0,5 korelacja przeciętna 0,5 ≤ r < 0,7 korelacja wysoka 0,7 ≤ r < 0,9 korelacja bardzo wysoka 0,9 ≤ r < 1 korelacja prawie pełna KISIM, WIMiIP, AGH

Badanie istotności współczynnika korelacji liniowej
Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: porównujemy jej wartość z odpowiednią wartością krytyczną t ,n-2 i podejmujemy odpowiednią decyzję co do prawdziwości H0. … albo używamy komputera i obliczamy p jeśli p<0,05, współczynnik jest istotny statystycznie

Postaci zależności Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. Chodzi o to, aby wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa Może się bowiem okazać, że wyliczona wartość współczynnika korelacji jest zbliżona do zera, a mimo to pomiędzy korelowanymi zmiennymi występuje współzależność, tyle że nieliniowa KISIM, WIMiIP, AGH

Cechy zbiorów identyczne:
Kwartet Anscombe'a Cechy zbiorów identyczne: Średnia = 9 Wariancja = 11 Korelacja = 0.81 Regresja: y=0,5x + 3 KISIM, WIMiIP, AGH

Wprowadzenie do analizy zależności pomiędzy danymi statystycznymi
Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich: siła (współczynnik determinacji , współczynnik korelacji) postać ( dopasowanie funkcji reprezentujących zależność - aproksymacja) kierunek (monotoniczność) Współzależność między zmiennymi może być dwojakiego rodzaju: funkcyjna stochastyczna (probabilistyczna).

Rodzaje zależności pomiędzy danymi - zależność funkcyjna
Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. W przypadku zależności funkcyjnej: y = f (x), każdej wartości zmiennej (X) odpowiada jedna i tylko jedna wartość zmiennej (Y). Symbolem X oznaczamy zmienną objaśniającą (niezależną), natomiast symbolem Y - zmienną objaśnianą (zależną ).

Macierz korelacji KISIM, WIMiIP, AGH

Dobór i eliminacja zmiennych
KISIM, WIMiIP, AGH

Ważność predyktorów KISIM, WIMiIP, AGH

Macierz korelacji KISIM, WIMiIP, AGH

Badanie istotności współczynnika korelacji liniowej
Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: zmienna t ma rozkład Studenta z n-2 stopniami swobody; u ma rozkład normalny. Hipotezę H0 odrzucamy ilekroć wartość obliczona funkcji testowej znajdzie się w obszarze krytycznym (zdefiniowanym przez hipotezę H1 z wartością krytyczną t ,n-2 ). gdy n<100 gdy n>100

Niejednoznaczność informacji przekazywanej przez współczynnik korelacji - przykład
Interpretacja: przez analogię do filmu Seksmisja: jeśli bociany to miejsce wybrały musi to być „zdrowy” region – pomyśleli młodzi i postanowili się tu osiedlić … a może bociany lubią (jeść) dzieci?

regresja jest prosta KISIM, WIMiIP, AGH

Wybrane zagadnienia analizy regresji prostej
Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Pojęcie funkcji w zastosowaniu do badań empirycznych nie może być zazwyczaj stosowane bez pewnych zastrzeżeń. Z definicji funkcji wynika, że jednej wartości zmiennej niezależnej (objaśniającej, predyktora) może być przyporządkowana dokładnie jedna wartość zmiennej zależnej (objaśnianej). KISIM, WIMiIP, AGH

Wybrane zagadnienia analizy regresji prostej
Badacz w praktyce ma zazwyczaj do czynienia z sytuacją, w której przy kilku powtórzeniach doświadczenia, zachowując za każdym razem te same wartości zmiennej niezależnej, otrzymuje inne wartości mierzonej zmiennej zależnej. Wartości te zwykle leżą blisko siebie, ale nie są na ogół identyczne dla celów użytkowych należało pojęcie funkcji uczynić bardziej elastycznym, a terminy zmienna niezależna i zmienna zależna dostosować odpowiednio do nowych potrzeb. Do tego celu w statystyce matematycznej wprowadzono pojęcie regresji oznaczające obliczenia wykorzystywane do ilościowego opisu zależności jednej zmiennej od drugiej KISIM, WIMiIP, AGH

Model probabilistyczny
W wielu wypadkach występują jednak zjawiska niezdeterminowane, odpowiadające zjawiskom losowym, których nie można opisać ścisłymi zależnościami. Zależność stochastyczna – występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się – średnio biorąc – wartość zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X. KISIM, WIMiIP, AGH

Model probabilistyczny
Jeśli mamy do czynienia z czynnikiem losowym, który może obejmować również nie znane nam zmienne wpływające na wartość zmiennej zależnej. Dane = Model + Błąd Model probabilistyczny jest zawsze uproszczeniem. Jeśli zmienna zależna ma charakter ilościowy, model nazywamy modelem regresyjnym. KISIM, WIMiIP, AGH

Predykcja Jeśli atrybut decyzyjny jest ciągły (numeryczny), mówimy o problemie predykcji / regresji. Predykcja jest bardzo podobna do klasyfikacji. Jednakże celem predykcji jest zamodelowanie funkcji ciągłej, która by odwzorowywała wartości atrybutu decyzyjnego (regresja) klasyfikacja: przewidywanie wartości klasy na podstawie opisu (wartości innych zmiennych) predykcja (regresja): przewidywanie wartości ciągłej, modelowanie funkcji ciągłych KISIM, WIMiIP, AGH

Badanie zależności pomiędzy danymi statystycznymi
Zwykle badane jednostki statystyczne charakteryzuje się za pomocą wielu zmiennych (cech) i wtedy ważnym jest ustalenie: – czy analizowane grupy danych, reprezentujące określone zmienne, można uznać za niezależne – jeśli hipoteza o niezależności zostaje odrzucona, należy przyjąć, że pomiędzy analizowanymi zmiennymi występuje zależność i szukamy odpowiedzi na pytanie: jaka jest jej: • siła • postać • kierunek Zależność między zmiennymi może być dwojakiego rodzaju: • funkcyjna • stochastyczna (probabilistyczna). KISIM, WIMiIP, AGH

Regresja prosta (regresja liniowa)
Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Model regresji liniowej prostej przyjmuje postać: Y = β 0+ β1 x + ε gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy, a ε błąd. Zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. Źródłem błędu są wpływy innych nie uwzględnionych w modelu zmiennych, takich jak np. błędy pomiarowe. Zakłada się przy tym, że błędy mają średnią wartość równą zero i nieznaną wariancję oraz, że błędy nie są nawzajem skorelowane. Współczynniki regresji β0 oraz β1 można wyznaczyć korzystając z metody najmniejszych kwadratów (MNK).

Regresja liniowa Założenia:
błędy pomiarów są niezależne i mają ten sam rozkład, przy czym Eεi=0 oraz Varεi=σ2<∞, i=1, 2, ..., n. nieznana funkcja regresji ma postać f(x)=ax+b, (występuje tylko jeden predyktor), gdzie a, b są liczbami rzeczywistymi W wyniku eksperymentu obserwujemy zatem zmienne losowe Yi = axi + b + εi, i=1, ..., n inaczej: Y = β0+ β1x + ε, gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy a ε błąd KISIM, WIMiIP, AGH

Istota metody najmniejszych kwadratów - MNK
Wprowadzona przez Legendre'a i Gaussa, jest najczęściej stosowaną w praktyce metodą statystyczną Jej istota jest następująca: Wynik kolejnego pomiaru yi można przedstawić jako sumę (nieznanej) wielkości mierzonej y oraz błędu pomiarowego i , Od wielkości oczekujemy, aby suma kwadratów była jak najmniejsza:

Ocena stopnia dopasowania modelu do danych rzeczywistych
Zasadniczy cel analizy regresji polega na ocenie nieznanych parametrów modelu regresji. Ocena ta jest dokonywana za pomocą metody najmniejszych kwadratów (MNK). MNK sprowadza się do minimalizacji sum kwadratów odchyleń wartości teoretycznych od wartości rzeczywistych (czyli tzw. reszt modelu). Dopasowany model regresji prostej, który daje punktową ocenę średniej wartości y dla określonej wartości x przyjmuje postać: gdzie f(x) oznacza teoretyczną wartość zmiennej zależnej, b0 i b1 to odpowiednio oceny wyrazu wolnego i współczynnika kierunkowego, uzyskane na podstawie wyników z próby.

KISIM, WIMiIP, AGH

Typowanie postaci zależności STATISTICA / wykresy/ wykresy rozrzutu 2W

Wykres ilustrujący zależność pomiędzy średnią temperaturą a zużyciem gazu
MODEL REGRESJI:

Współczynnik determinacji
r2 (R2) – współczynnik determinacji (wielkość ta oznacza kwadrat współczynnika korelacji) przyjmuje wartości z przedziału [0,1] jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Jeśli wartość R2 jest duża, to oznacza to, że błędy dla tego modelu są stosunkowo małe i w związku z tym model jest dobrze dopasowany do rzeczywistych danych. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych KISIM, WIMiIP, AGH

Dobroć dopasowania (1) KISIM, WIMiIP, AGH

Dobroć dopasowania (2) współczynnik determinacji to kwadrat współczynnika korelacji KISIM, WIMiIP, AGH

Regresja wieloraka KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

brak istotności wyrazu wolnego
zmienna zależna brak istotności wyrazu wolnego wzrost istotny statystycznie wiek – brak istotności KISIM, WIMiIP, AGH

oszacowana funkcja regresji:
Wyniki regresji model istotny statystycznie oszacowana funkcja regresji: WAGA = 6, ,05*WIEK+ 0,72*WZROST±4, (10,94) (0,94) (0,26) R2=0,78 interpretacja: jeśli wartość zmiennej WIEK wrośnie o 1 to wartość zmiennej WAGA wzrośnie o 0,43kg BETA: standaryzowany wskaźnik siły powiązania brak istotności wpływu wieku dodatnie oddziaływanie wieku i wzrostu na wagę R2=0,78, czyli 78% ogólnej zmienności WAGI wyjaśnione przez model KISIM, WIMiIP, AGH

Przykład: zużycie gazu

Wykres rozrzutu z dopasowaną linią regresji

Regresja wieloraka

Przykład: samochody

Zależność od wielu zmiennych. Korelacje cząstkowe
Na pewną zmienną oddziałuje więcej niż jedna zmienna, można określić macierz korelacji. Jeśli interesuje nas związek korelacyjny jedynie między dwoma zmiennymi przy wyłączeniu wpływu pozostałych, to powinniśmy wyliczyć współczynniki korelacji cząstkowej. Załóżmy, że mamy trzy zmienne X1, X2 oraz X3. Współczynniki korelacji cząstkowej oznaczamy następująco: r12.3, r13.2, r23.1 KISIM, WIMiIP, AGH

Korelacje cząstkowe

Wykluczono wpływ liczby ludności
Wykluczono wpływ liczby ludności, liczby miast i udziału ludności miejskiej

Regresja ze zmienną jakościową
Jeśli w analizie występują zmienne jakościowe (np. płeć, stanowisko pracy etc) można podzielić zbiorowość na jednorodne grupy pod względem poszczególnych wartości zmiennej a następnie porównać modele. Możemy również zastąpić zmienną jakościową sztucznymi zmiennymi binarnymi (np. płeć: kobieta = 1, mężczyzna = 0) KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

model przybiera postać:
CSK = 105,8 + 1,05*WIEK - 17,5*PŁEĆ ± 7, (4,5) (0,089) (2,72) R2=0,87 PŁEĆ =0, CSK = 105,8 + 1,05*WIEK PŁEĆ =1, CSK = 88,3 + 1,05*WIEK KISIM, WIMiIP, AGH

Skategoryzowane wykresy rozrzutu
KISIM, WIMiIP, AGH

koniec

Statystyka i Demografia wykład 9

Podobne prezentacje

Prezentacja na temat: "Statystyka i Demografia wykład 9"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Statystyka i Demografia wykład 9

Podobne prezentacje

Prezentacja na temat: "Statystyka i Demografia wykład 9"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres