Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Statystyka i Demografia wykład 9
…rozkłady, kowariancja, korelacja, regresja, estymacja i weryfikacja hipotez… Statystyka i Demografia wykład 9 w tym wykładzie, (podobnie jak w poprzednich i następnych), wykorzystano doskonały podręcznik: Francuz P., Mackiewicz R., Liczby nie wiedzą, skąd pochodzą. Przewodnik po metodologii i statystyce nie tylko dla psychologów, Redakcja Wydawnictw Katolickiego Uniwersytetu Lubelskiego, 2007.
2
Podstawowe cele analizy zbiorów danych
Wprowadzenie Podstawowe cele analizy zbiorów danych Opis ich struktury Estymacja i estymatory Odkrywanie i badanie zależności występujących pomiędzy danymi
3
KISIM, WIMiIP, AGH
4
KISIM, WIMiIP, AGH
5
KISIM, WIMiIP, AGH
6
KISIM, WIMiIP, AGH
7
Temat: Wstępna analiza danych
8
Na czym polega Wstępna analiza danych:
Ile danych: ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki) ile przypadków (1255) Jakie typy dane jakościowe (płeć, wykształcenie) dane ilościowe (staż pracy, płaca) Ile braków, jakie, jak je zastąpić
9
Udział kobiet?
10
Jakie jest wykształcenie pracowników
11
Jaki jest stan wykształcenia kobiet i mężczyzn
12
Histogram zmiennej płaca brutto - zmiana liczby klas
13
Zmiana dolnej wartości pierwszej klasy
Od zera Od minimum
14
Wykresy skategoryzowane; ramkowe
15
Wykresy skategoryzowane; ramkowe
16
Wykresy skategoryzowane; interakcji
17
Statystyki opisowe
18
Cechy statystyczne i ich rodzaje
Cechy, którymi wyróżniają się jednostki wchodzące w skład zbiorowości, nazywa się cechami statystycznymi. Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie cechy, które stanowią istotną własność badanego zjawiska Typy cech cechy jakościowe – niemierzalne (np. kolor, sprawny- niesprawny, ale jakościowymi mogą być też liczby np. nr piętra, ) cechy ilościowe – mierzalne to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali ( np. wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest: ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura) dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba zatrudnionych w zawodzie).
19
Wnioskowanie statystyczne:
Estymacja i estymatory. Weryfikacja hipotez statystycznych. Analiza zmiennych wielowymiarowych, odkrywanie związków pomiędzy danymi,
20
STATISTICA – umożliwia analizę zbiorów danych reprezentujących cechy ilościowe i jakościowe
21
Empiryczny rozkład cechy
Budowa szeregu rozdzielczego – trzy etapy Ustalam liczbę klas (optymalna 7-15) szerokość przedziału klasowego Określam granice przedziałów klasowych Dla każdej klasy zliczam liczę elementów analizowanego zbioru danych, których wartości mieszczą się w granicach określonej klasy
22
Szereg rozdzielczy – uwagi praktyczne
Każdy przedział klasowy ma dolną i górną granicę Różnice pomiędzy tymi granicami nazywa się rozpiętością (szerokością) przedziału klasowego Przy równej rozpiętości przedziałów, liczebności są porównywalne. Częstość jest to iloraz liczby elementów zbioru zakwalifikowanych do danej klasy przez liczbę wszystkich elementów zbioru Uwaga: Ostatecznie badacz podejmuje decyzje o wartościach granic, szerokości przedziałów klasowych i ich liczbie, kierując się wiedzą merytoryczną o badanym zjawisku, Przykład: W kartotekach pacjentów notowana jest data urodzenia, ta informacja pozwala zbadać cechę jaką jest ich wiek.
23
Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów
Numer klasy Granice przedziałów klasowych Środek przedziału Liczność klasy Częstość dolna górna LP a b xi ni ni/n 1 3 9 6 0,03 2 15 12 0,11 21 18 16 0,15 4 27 24 0,17 5 33 30 26 0,25 39 36 17 0,16 7 45 42 8 0,08 51 48 0,04 57 54 0,01 Suma 105
24
Wykresy
25
Histogram Histogram to jeden z graficznych sposobów przedstawiania rozkładu cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są wyznaczone przez przedziały klasowe wartości cechy; szerokość przedziału; krok natomiast ich wysokość jest określona przez liczebności lub częstości elementów należących do określonego przedziału klasowego.
26
Szereg rozdzielczy skumulowany
b xi ni liczebność skumulowana dystrybuanta empiryczna 3 9 6 0,029 15 12 0,143 21 18 16 31 0,295 27 24 49 0,467 37 33 35 26 75 0,714 39 36 17 92 0,876 45 42 8 100 0,952 51 48 4 104 0,990 57 54 1 105 1,000
27
Statystyka Opisowa Parametrami statystycznymi (statystykami) nazywamy liczby umożliwiające sumaryczny opis zbiorowości. Parametry te tak dokładnie charakteryzują zbiorowość, że mogą być wykorzystane do porównywania różnych zbiorowości. Wyróżnia się następujące grupy parametrów statystycznych: Miary położenia (klasyczne i pozycyjne) Miary zmienności Miary asymetrii i koncentracji Graficzna interpretacja statystyk
28
Charakterystyki położenia
KISIM, WIMiIP, AGH
29
Miary położenia Średnia
Moda (dominanta): najczęściej występująca wartość cechy Kwantyle: Kwartyle, decyle, percentyle mediana (kwartyl drugi) - taką wartość cechy, że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me. Czyli dystrybuanta empiryczna Fn(Me) ½
30
Błąd w obliczaniu średniej
Na targu: właściciel straganu przejął stragan sąsiada… Każdy stragan sprzedawał wcześniej po 60kg ziemniaków dziennie. Wcześniej właściciel sprzedawał ziemniaki po 1zł/2kg , sąsiad po 1zł/3kg (te mniejsze…). Po fuzji, zmieszane ziemniaki postanowił sprzedawać zgodnie ze stosunkiem ceny do jakości… 2zł/5kg (40gr/kg). ― czy zachował poprzedni dochód przy tej samej wielkości sprzedaży? KISIM, WIMiIP, AGH
31
Błąd w obliczaniu średniej
dochód przed fuzją: 50zł stragan A: 60(1zł/2kg)=30zł stragan B: 60(1zł/3kg)=20zł dochód po fuzji: 120(3zł/5kg)= 48zł ― dlaczego? ― właściciel potraktował równorzędnie wartość sprzedaży obu straganów, a należało obliczyć jednostkową cenę za kg (30zł+20zł)/120kg = 41,67gr KISIM, WIMiIP, AGH
32
Graficzne wyznaczanie mody
33
Miary rozproszenia KISIM, WIMiIP, AGH
34
Miary zmienności Miary zmienności dzielą się na miary klasyczne i pozycyjne. miary pozycyjne: rozstęp, odchylenie ćwiartkowe, współczynnik zmienności miary klasyczne: wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności
35
Odchylenie ćwiartkowe
Kwartyle są wykorzystywane do określenia pozycyjnej miary zróżnicowania, nazywanej odchyleniem ćwiartkowym, którym jest wielkość Q, określona wzorem
36
Miary zmienności Rozstęp - najprostsza miara zmienności R=xmax – xmin
Odchylenie ćwiartkowe Odchylenie przeciętne Współczynnik zmienności
37
Klasyczne miary zmienności
Wariancja nadwyżka średniej kwadratów nad kwadratem średniej Odchylenie standardowe Współczynnik zmienności - klasyczny
38
Miary zmienności – interpretacja graficzna
Na rysunku pokazano dwa diagramy częstości (1) i (2). Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości. Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1). Diagram jest smuklejszy i wyższy. Większe rozproszenie wokół średniej występuje w zbiorowości (2). Diagram jest bardziej rozłożysty i niższy. Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2) s1 s2
39
Praktyczne wykorzystanie miar zmienności
Przedział TYPOWYCH wartości cechy Przedział taki ma tą własność, że około70% jednostek badanej zbiorowości charakteryzuje się wartością cechy należącą do tego przedziału.
40
Reguła trzy sigma Jeżeli zmienna losowa ma rozkład normalny N(μ,σ) to:
68,27% populacji mieści się w przedziale ( - σ; + σ) 95,45% populacji mieści się w przedziale ( - 2σ; + 2σ) 99,73% populacji mieści się w przedziale ( - 3σ; + 3σ)
41
Charakterystyczne cechy rozkładów: punkty skupienia, asymetria, rozrzut
symetryczne asymetryczne siodłowy bimodalny
42
Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)
43
Parametry dwuwymiarowych zmiennych losowych Kowariancja
Kowariancja – liczba określająca zależność liniową między zmiennymi losowymi X i Y. Kowariancją zmiennej losowej dwuwymiarowej (X,Y) nazywamy wyrażenie: cov ( X , Y )= E(XY) - E(X)×E(Y)
44
Cechy kowariancji Jeśli zmienne X i Y są niezależne to cov (X,Y) =0
Znak kowariancji wskazuje kierunek zmian Wadą kowariancji jest to, że jej wartość zależy od jednostek pomiaru cech Można udowodnić, że -sx sy cov (X,Y) sx sy po podzieleniu kowariancji przez iloczyn odchyleń standardowych zmiennych X i Y otrzymuje się bezwymiarową miarę intensywności powiązania pomiędzy zmiennymi X i Y , jest to: współczynnik korelacji liniowej Pearsona – oznaczany przez literę , a jego estymator literę r KISIM, WIMiIP, AGH
45
Wykrywanie korelacji Obserwacja szeregów statystycznych zawierających informacje o cechach pozwala wykrywać zależności korelacyjne. Jeśli naszym celem jest analiza zachowania pewnej wielkości losowej Y, zbieramy również informacje towarzyszące, które mogą mieć znaczenie w analizie interesującej nas wielkości. Badana wartość, choć losowa, w istotny sposób zależy od innych zmiennych i zrozumienie charakteru tej zależności może być pożyteczne w wielu zadaniach np. przewidywania przyszłych wartości interesującej nas zmiennej. KISIM, WIMiIP, AGH
46
pasmo przewidywania / przedział ufności
KISIM, WIMiIP, AGH
47
KISIM, WIMiIP, AGH
48
KISIM, WIMiIP, AGH
49
Parametry dwuwymiarowych zmiennych losowych Współczynnik korelacji liniowej
Współczynnik korelacji (wsp. korelacji liniowej Pearsona) – jest miernikiem siły związku prostoliniowego między dwiema cechami mierzalnymi. Jest wyznaczony przez standaryzację kowariancji.
50
Współczynnik korelacji liniowej
Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (r). Przyjmuje on wartości z przedziału domkniętego <-1; 1>. Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej Wielkość współczynnika podlega wpływom wartości skrajnych – to jego wada
51
Przykłady układów punktów przy różnych wartościach współczynnika korelacji liniowej
Najważniejsza jest statystyczna istotność korelacji. Wartość współczynnika bliska 0 oznacza jedynie brak zależności liniowej.
52
Współczynnik korelacji
r – współczynnik korelacji r=0 zmienne nie są skorelowane 0,0 ≤ r < 0,1 korelacja nikła 0,1 ≤ r < 0,3 korelacja słaba 0,3 ≤ r < 0,5 korelacja przeciętna 0,5 ≤ r < 0,7 korelacja wysoka 0,7 ≤ r < 0,9 korelacja bardzo wysoka 0,9 ≤ r < 1 korelacja prawie pełna KISIM, WIMiIP, AGH
53
Badanie istotności współczynnika korelacji liniowej
Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: porównujemy jej wartość z odpowiednią wartością krytyczną t ,n-2 i podejmujemy odpowiednią decyzję co do prawdziwości H0. … albo używamy komputera i obliczamy p jeśli p<0,05, współczynnik jest istotny statystycznie
54
Postaci zależności Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. Chodzi o to, aby wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa Może się bowiem okazać, że wyliczona wartość współczynnika korelacji jest zbliżona do zera, a mimo to pomiędzy korelowanymi zmiennymi występuje współzależność, tyle że nieliniowa KISIM, WIMiIP, AGH
55
Cechy zbiorów identyczne:
Kwartet Anscombe'a Cechy zbiorów identyczne: Średnia = 9 Wariancja = 11 Korelacja = 0.81 Regresja: y=0,5x + 3 KISIM, WIMiIP, AGH
56
Wprowadzenie do analizy zależności pomiędzy danymi statystycznymi
Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich: siła (współczynnik determinacji , współczynnik korelacji) postać ( dopasowanie funkcji reprezentujących zależność - aproksymacja) kierunek (monotoniczność) Współzależność między zmiennymi może być dwojakiego rodzaju: funkcyjna stochastyczna (probabilistyczna).
57
Rodzaje zależności pomiędzy danymi - zależność funkcyjna
Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. W przypadku zależności funkcyjnej: y = f (x), każdej wartości zmiennej (X) odpowiada jedna i tylko jedna wartość zmiennej (Y). Symbolem X oznaczamy zmienną objaśniającą (niezależną), natomiast symbolem Y - zmienną objaśnianą (zależną ).
58
Macierz korelacji KISIM, WIMiIP, AGH
59
Dobór i eliminacja zmiennych
KISIM, WIMiIP, AGH
60
Ważność predyktorów KISIM, WIMiIP, AGH
61
Macierz korelacji KISIM, WIMiIP, AGH
62
Badanie istotności współczynnika korelacji liniowej
Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: zmienna t ma rozkład Studenta z n-2 stopniami swobody; u ma rozkład normalny. Hipotezę H0 odrzucamy ilekroć wartość obliczona funkcji testowej znajdzie się w obszarze krytycznym (zdefiniowanym przez hipotezę H1 z wartością krytyczną t ,n-2 ). gdy n<100 gdy n>100
63
Niejednoznaczność informacji przekazywanej przez współczynnik korelacji - przykład
Interpretacja: przez analogię do filmu Seksmisja: jeśli bociany to miejsce wybrały musi to być „zdrowy” region – pomyśleli młodzi i postanowili się tu osiedlić … a może bociany lubią (jeść) dzieci?
64
regresja jest prosta KISIM, WIMiIP, AGH
65
Wybrane zagadnienia analizy regresji prostej
Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Pojęcie funkcji w zastosowaniu do badań empirycznych nie może być zazwyczaj stosowane bez pewnych zastrzeżeń. Z definicji funkcji wynika, że jednej wartości zmiennej niezależnej (objaśniającej, predyktora) może być przyporządkowana dokładnie jedna wartość zmiennej zależnej (objaśnianej). KISIM, WIMiIP, AGH
66
Wybrane zagadnienia analizy regresji prostej
Badacz w praktyce ma zazwyczaj do czynienia z sytuacją, w której przy kilku powtórzeniach doświadczenia, zachowując za każdym razem te same wartości zmiennej niezależnej, otrzymuje inne wartości mierzonej zmiennej zależnej. Wartości te zwykle leżą blisko siebie, ale nie są na ogół identyczne dla celów użytkowych należało pojęcie funkcji uczynić bardziej elastycznym, a terminy zmienna niezależna i zmienna zależna dostosować odpowiednio do nowych potrzeb. Do tego celu w statystyce matematycznej wprowadzono pojęcie regresji oznaczające obliczenia wykorzystywane do ilościowego opisu zależności jednej zmiennej od drugiej KISIM, WIMiIP, AGH
67
Model probabilistyczny
W wielu wypadkach występują jednak zjawiska niezdeterminowane, odpowiadające zjawiskom losowym, których nie można opisać ścisłymi zależnościami. Zależność stochastyczna – występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się – średnio biorąc – wartość zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X. KISIM, WIMiIP, AGH
68
Model probabilistyczny
Jeśli mamy do czynienia z czynnikiem losowym, który może obejmować również nie znane nam zmienne wpływające na wartość zmiennej zależnej. Dane = Model + Błąd Model probabilistyczny jest zawsze uproszczeniem. Jeśli zmienna zależna ma charakter ilościowy, model nazywamy modelem regresyjnym. KISIM, WIMiIP, AGH
69
Predykcja Jeśli atrybut decyzyjny jest ciągły (numeryczny), mówimy o problemie predykcji / regresji. Predykcja jest bardzo podobna do klasyfikacji. Jednakże celem predykcji jest zamodelowanie funkcji ciągłej, która by odwzorowywała wartości atrybutu decyzyjnego (regresja) klasyfikacja: przewidywanie wartości klasy na podstawie opisu (wartości innych zmiennych) predykcja (regresja): przewidywanie wartości ciągłej, modelowanie funkcji ciągłych KISIM, WIMiIP, AGH
70
Badanie zależności pomiędzy danymi statystycznymi
Zwykle badane jednostki statystyczne charakteryzuje się za pomocą wielu zmiennych (cech) i wtedy ważnym jest ustalenie: – czy analizowane grupy danych, reprezentujące określone zmienne, można uznać za niezależne – jeśli hipoteza o niezależności zostaje odrzucona, należy przyjąć, że pomiędzy analizowanymi zmiennymi występuje zależność i szukamy odpowiedzi na pytanie: jaka jest jej: • siła • postać • kierunek Zależność między zmiennymi może być dwojakiego rodzaju: • funkcyjna • stochastyczna (probabilistyczna). KISIM, WIMiIP, AGH
71
Regresja prosta (regresja liniowa)
Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Model regresji liniowej prostej przyjmuje postać: Y = β 0+ β1 x + ε gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy, a ε błąd. Zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. Źródłem błędu są wpływy innych nie uwzględnionych w modelu zmiennych, takich jak np. błędy pomiarowe. Zakłada się przy tym, że błędy mają średnią wartość równą zero i nieznaną wariancję oraz, że błędy nie są nawzajem skorelowane. Współczynniki regresji β0 oraz β1 można wyznaczyć korzystając z metody najmniejszych kwadratów (MNK).
72
Regresja liniowa Założenia:
błędy pomiarów są niezależne i mają ten sam rozkład, przy czym Eεi=0 oraz Varεi=σ2<∞, i=1, 2, ..., n. nieznana funkcja regresji ma postać f(x)=ax+b, (występuje tylko jeden predyktor), gdzie a, b są liczbami rzeczywistymi W wyniku eksperymentu obserwujemy zatem zmienne losowe Yi = axi + b + εi, i=1, ..., n inaczej: Y = β0+ β1x + ε, gdzie β0 oznacza wyraz wolny, β1 współczynnik kierunkowy a ε błąd KISIM, WIMiIP, AGH
73
Istota metody najmniejszych kwadratów - MNK
Wprowadzona przez Legendre'a i Gaussa, jest najczęściej stosowaną w praktyce metodą statystyczną Jej istota jest następująca: Wynik kolejnego pomiaru yi można przedstawić jako sumę (nieznanej) wielkości mierzonej y oraz błędu pomiarowego i , Od wielkości oczekujemy, aby suma kwadratów była jak najmniejsza:
74
Ocena stopnia dopasowania modelu do danych rzeczywistych
Zasadniczy cel analizy regresji polega na ocenie nieznanych parametrów modelu regresji. Ocena ta jest dokonywana za pomocą metody najmniejszych kwadratów (MNK). MNK sprowadza się do minimalizacji sum kwadratów odchyleń wartości teoretycznych od wartości rzeczywistych (czyli tzw. reszt modelu). Dopasowany model regresji prostej, który daje punktową ocenę średniej wartości y dla określonej wartości x przyjmuje postać: gdzie f(x) oznacza teoretyczną wartość zmiennej zależnej, b0 i b1 to odpowiednio oceny wyrazu wolnego i współczynnika kierunkowego, uzyskane na podstawie wyników z próby.
75
KISIM, WIMiIP, AGH
76
Typowanie postaci zależności STATISTICA / wykresy/ wykresy rozrzutu 2W
77
Wykres ilustrujący zależność pomiędzy średnią temperaturą a zużyciem gazu
MODEL REGRESJI:
78
Współczynnik determinacji
r2 (R2) – współczynnik determinacji (wielkość ta oznacza kwadrat współczynnika korelacji) przyjmuje wartości z przedziału [0,1] jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Jeśli wartość R2 jest duża, to oznacza to, że błędy dla tego modelu są stosunkowo małe i w związku z tym model jest dobrze dopasowany do rzeczywistych danych. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych KISIM, WIMiIP, AGH
79
Dobroć dopasowania (1) KISIM, WIMiIP, AGH
80
Dobroć dopasowania (2) współczynnik determinacji to kwadrat współczynnika korelacji KISIM, WIMiIP, AGH
81
Regresja wieloraka KISIM, WIMiIP, AGH
82
KISIM, WIMiIP, AGH
83
KISIM, WIMiIP, AGH
84
brak istotności wyrazu wolnego
zmienna zależna brak istotności wyrazu wolnego wzrost istotny statystycznie wiek – brak istotności KISIM, WIMiIP, AGH
85
oszacowana funkcja regresji:
Wyniki regresji model istotny statystycznie oszacowana funkcja regresji: WAGA = 6, ,05*WIEK+ 0,72*WZROST±4, (10,94) (0,94) (0,26) R2=0,78 interpretacja: jeśli wartość zmiennej WIEK wrośnie o 1 to wartość zmiennej WAGA wzrośnie o 0,43kg BETA: standaryzowany wskaźnik siły powiązania brak istotności wpływu wieku dodatnie oddziaływanie wieku i wzrostu na wagę R2=0,78, czyli 78% ogólnej zmienności WAGI wyjaśnione przez model KISIM, WIMiIP, AGH
86
Przykład: zużycie gazu
88
Wykres rozrzutu z dopasowaną linią regresji
90
Regresja wieloraka
92
Przykład: samochody
94
Zależność od wielu zmiennych. Korelacje cząstkowe
Na pewną zmienną oddziałuje więcej niż jedna zmienna, można określić macierz korelacji. Jeśli interesuje nas związek korelacyjny jedynie między dwoma zmiennymi przy wyłączeniu wpływu pozostałych, to powinniśmy wyliczyć współczynniki korelacji cząstkowej. Załóżmy, że mamy trzy zmienne X1, X2 oraz X3. Współczynniki korelacji cząstkowej oznaczamy następująco: r12.3, r13.2, r23.1 KISIM, WIMiIP, AGH
95
Korelacje cząstkowe
96
Wykluczono wpływ liczby ludności
Wykluczono wpływ liczby ludności, liczby miast i udziału ludności miejskiej
97
Regresja ze zmienną jakościową
Jeśli w analizie występują zmienne jakościowe (np. płeć, stanowisko pracy etc) można podzielić zbiorowość na jednorodne grupy pod względem poszczególnych wartości zmiennej a następnie porównać modele. Możemy również zastąpić zmienną jakościową sztucznymi zmiennymi binarnymi (np. płeć: kobieta = 1, mężczyzna = 0) KISIM, WIMiIP, AGH
98
KISIM, WIMiIP, AGH
99
model przybiera postać:
CSK = 105,8 + 1,05*WIEK - 17,5*PŁEĆ ± 7, (4,5) (0,089) (2,72) R2=0,87 PŁEĆ =0, CSK = 105,8 + 1,05*WIEK PŁEĆ =1, CSK = 88,3 + 1,05*WIEK KISIM, WIMiIP, AGH
100
Skategoryzowane wykresy rozrzutu
KISIM, WIMiIP, AGH
101
koniec
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.