STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
Test zgodności c2.
BADANIE KORELACJI ZMIENNYCH
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Rangowy test zgodności rozkładów
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
BUDOWA MODELU EKONOMETRYCZNEGO
Elementy Modelowania Matematycznego
Test zgodności Joanna Tomanek i Piotr Nowak.
Analiza współzależności
Analiza współzależności
Wnioskowanie statystyczne CZEŚĆ III
Statystyka w doświadczalnictwie
Analiza korelacji.
Wykład 11 Analiza wariancji (ANOVA)
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Analiza współzależności dwóch zjawisk
Wykład 4. Rozkłady teoretyczne
Średnie i miary zmienności
Rozkład t.
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Dlaczego obserwujemy??? istotny wpływ, istotną różnicę, istotną zależność.
Analiza współzależności cech statystycznych
Testy nieparametryczne
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Statystyka – zadania 4 Janusz Górczyński.
Hipotezy statystyczne
Kilka wybranych uzupelnień
Podstawy statystyki, cz. II
Planowanie badań i analiza wyników
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Wnioskowanie statystyczne
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Testowanie hipotez Jacek Szanduła.
Statystyczna analiza danych
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
STATYSTYKA – kurs podstawowy wykład 6 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 13 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Człowiek – najlepsza inwestycja
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
Testy nieparametryczne
Statystyka matematyczna
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Analiza współzależności zjawisk
MIARY STATYSTYCZNE Warunki egzaminu.
Korelacja i regresja liniowa
Zapis prezentacji:

STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

CECHA STATYSTYCZNA WIELOWYMIAROWA

Dane indywidualne Każdy student wchodzący w skład badanej zbiorowości jest opisany jednocześnie przez 3 cechy; jest „trójwymiarowy”; Liczba opisujących studenta cech decyduje o wymiarze cechy wielowymiarowej  u nas mamy cechę trójwymiarową; Cecha jednowymiarowa to osobno: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię Cecha trójwymiarowa to jednocześnie: - kolor oczu - liczba rodzeństwa - czas dotarcia na uczelnię

Dla cechy wielowymiarowej klasyfikacja na: 1.cechy mierzalne i niemierzalne 2.cechy skokowe i ciągłe jest analogiczna jak dla cechy jednowymiarowej

Wśród charakterystyk każdego ze studentów wyróżnimy łącznie jedynie dwie cechy. Będziemy je oznaczać przez X i Y Możemy „łączyć” ze sobą zarówno cechy mierzalne i niemierzalne oraz cechy skokowe i ciągłe w różnych kombinacjach W rezultacie otrzymujemy zbiór par postaci (x i, y j ), gdzie x i jest zaobserwowaną u badanego studenta i-tą kategorią cechy X oraz y j jest zaobserwowaną u tego samego studenta j-tą kategorią cechy Y CECHA DWUWYMIAROWA

Otrzymane informacje (pary liczb) można analizować: 1.w układzie indywidualnym  oddzielne rozkłady każdej z cech (rozkłady jednowymiarowe), 2.w układzie łącznym, czyli w formie danych pogrupowanych w rozkład (rozkład dwuwymiarowy) CECHA DWUWYMIAROWA

CECHY JEDNOWYMIAROWE x i - kolor oczunini wiwi niebieski10 0,417 zielony5 0,208 brązowy5 0,208 szary4 0,167 suma241 z i – liczba rodzeństwanini wiwi 06 0, , , ,042 suma241 (y 0i - y 1i > – czasnini wiwi , , , , , ∞3 0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów

CECHA DWUWYMIAROWA Kolor oczu Liczba rodzeństwa razem 0123 brązowy13105 niebieski szary03104 zielony12115 razem Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem razem

ANALIZA WSPÓŁZALEŻNOŚCI CECH STATYSTYCZNYCH

Analiza współzależności cech statystycznych polega na: 1.Ustaleniu, czy między badanymi cechami statystycznymi występuje związek typu stochastycznego, czyli czy przyjmowanie przez jedną cechę statystyczną określonych wartości ma wpływ na rozkład drugiej cechy statystycznej 2.Określeniu, czy związek występujący między cechami statystycznymi ma charakter korelacyjny 3.Zbadaniu, jaka funkcja matematyczna może najlepiej przedstawić związek korelacyjny dwóch cech statystycznych

Jeżeli dysponujemy informacjami o całej populacji, to ze względu na zbieżność pojęć: cecha statystyczna i zmienna losowa, możemy analizować współzależność cech statystycznych jako współzależność zmiennych losowych Jeżeli nie dysponujemy informacjami o całej populacji, ale mamy do dyspozycji dane z próby losowej pobranej z tej populacji, to korzystamy z metod wnioskowania statystycznego o współzależności cech czyli tak, jak na ostatnim wykładzie i ćwiczeniach czyli sprawdzamy jak współzależność kształtuje się w próbie i za pomocą odpowiednich testów i hipotez statystycznych sprawdzamy, czy wnioski dotyczące naszej próby możemy uogólnić na całą populację

Wnioskowanie o współzależności cech statystycznych sprowadza się do: 1.Wnioskowania o zależności typu stochastycznego i estymacji jego siły 2.Estymacji siły związku korelacyjnego i wnioskowania o jego istotności statystycznej (sprawdzenie, czy związek korelacyjny występuje również w całej populacji) 3.Wnioskowania o regresji cech statystycznych Ad. 1 - test niezależności chi-kwadrat i współczynnik V-Cramera Ad. 2 - współczynnik korelacji liniowej Pearsona i test istotności współczynnika korelacji liniowej Pearsona

ZALEŻNOŚĆ STOCHASTYCZNA CECH STATYSTYCZNYCH

Weryfikacja hipotezy o niezależności stochastycznej cech statystycznych Hipoteza zerowa: H 0 : p ij = p i. p.j – cechy statystyczne są niezależne stochastycznie Hipoteza alternatywna: H 1 : p ij ≠ p i. p.j – cechy statystyczne są zależne stochastycznie Statystyka testująca: ma rozkład chi-kwadrat v=(k – 1)(l – 1) k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) ZWIĄZEK STOCHASTYCZNY

Statystyka testująca: k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) Liczebności teoretyczne – czyli takie liczebności, jakie obserwowalibyśmy w dwuwymiarowych rozkładzie empirycznym, gdyby badane cechy były niezależne stochastycznie Jeśli cechy cechy są niezależne stochastycznie to dla każdej pary (i,j) powinien zachodzić warunek, gdzie ZWIĄZEK STOCHASTYCZNY Liczebności brzegowe

Statystyka testująca: Statystyka testująca pozwala ocenić rozbieżności między liczebnościami empirycznymi a teoretycznymi Im będą one większe, tym większe będą różnice między rozkładem empirycznym a teoretycznym i większe będą podstawy, aby odrzucać hipotezę zerową o niezależności stochastycznej cech ZWIĄZEK STOCHASTYCZNY

Statystyka testująca: Do oceny, jakie wartości statystyki testującej można uznać za wystarczająco duże do odrzucenia hipotezy zerowej, wykorzystuje się wartości rozkładu chi-kwadrat Obszar odrzucenia wyznaczany jest przez wartość odczytaną z tablic wartości krytycznych rozkładu chi-kwadrat. Obszar odrzucenia jest zawsze prawostronny: <, + ∞) ZWIĄZEK STOCHASTYCZNY

Siłę stwierdzonego związku stochastycznego ocenia się za pomocą współczynnika zbieżności V-Cramera gdzie: n – liczebność próby; g = min{k, l} V = 0 – stochastyczna niezależność zmiennych V = 1 – cechy łączy związek deterministyczny, opisywany przez funkcję matematyczną SIŁA ZWIĄZKU STOCHASTYCZNEGO

Odrzucenie hipotezy o niezależności stochastycznej cech statystycznych skłania do szukania odpowiedzi na pytanie: czy stwierdzona zależność może przybierać bardziej konkretne formy (np. związek korelacyjny) i czy można ją modelować (regresja). SIŁA ZWIĄZKU STOCHASTYCZNEGO

Na zlecenie jednego z operatorów sieci telefonii komórkowej agencja badania rynku „PENETRATOR” wykonała duże badanie konsumenckie, w którym zebrano informacje na temat rynku telefonii komórkowej oraz zwyczajów i nawyków związanych z korzystaniem z komórek. Badanie zostało zrealizowane na reprezentatywnej próbie 1000 gospodarstw domowych, w których znajduje się, co najmniej jeden telefon komórkowy z abonamentem. Poniższa tabela zawiera rozkład łączny (liczebności) wydatków na rachunki telefoniczne względem miejsca zamieszkania. PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN powyżej razem Czy między miejscem zamieszkania a wielkością wydatków na rachunki występuje zależność strochastyczna?

Hipoteza zerowa: H 0 : p ij = p i. p.j – wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są niezależne stochastycznie Hipoteza alternatywna: H 1 : p ij ≠ p i. p.j – wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są zależne stochastycznie Statystyka testująca: v=(k – 1)(l – 1) k- liczba kolumnn ij – liczebność empiryczna w komórce (i,j) l – liczba wierszy – liczebność teoretyczna w komórce (i,j) PRZYKŁAD

n = 1000 PRZYKŁAD wieśmałe miastaduże miasta razem mniej niż 100 PLN powyżej razem Liczebności empiryczne n ij Liczebności brzegowe

n = 1000 PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN powyżej razem wieśmałe miastaduże miasta razem mniej niż 100 PLN130,5134,85169, ,5128,65161,85415 powyżej ,558,5150 razem Liczebności teoretyczne Liczebności empiryczne n ij

n = 1000 PRZYKŁAD wieśmałe miastaduże miastarazem mniej niż 100 PLN powyżej razem wieśmałe miastaduże miasta razem mniej niż 100 PLN130,5134,85169, ,5128,65161,85415 powyżej ,558,5150 razem k- liczba kolumn k = 3 l – liczba wierszy l = 3

PRZYKŁAD v=(k – 1)(l – 1) = (3 – 1) (3 – 1) = 4 k- liczba kolumn l – liczba wierszy χ 2 obl > 9,488  na poziomie istotności 0,05 odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną; wielkość miejsca zamieszkania i wysokość wydatków telefonicznych są zależne stochastycznie. Ale jaka jest siła tej zależności? n – liczebność próby; g = min{k, l} Otrzymany wynik wskazuje na niezbyt silną zależność stochastyczną między wielkością miejsca zamieszkania i wysokością wydatków telefonicznych

ZWIĄZEK KORELACYJNY

Korelacja cech statystycznych polega na przyporządkowaniu wartościom jednej cechy średnich wartości cechy drugiej. Średnie te są charakterystykami kolejnych rozkładów warunkowych cechy uznanej za zależną ZWIĄZEK KORELACYJNY Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem razem Sprawdźmy, jak czas dotarcia zależy od liczby rodzeństwa Czas dotarcia – zmienna zależna Liczba rodzeństwa – zmienna niezależna

Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i >Liczba rodzeństwa suma razem (y 0i - y 1i >n i1 w i / / / / / /6 razem 61 Dla liczby rodzeństwa = 0 Dla 6 studentów nie posiadających rodzeństwa średni czas dotarcia na uczelnię wynosi 33,33 min z odchyleniem standardowym 22,28 min

Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i > Liczba rodzeństwa sum a razem (y 0i - y 1i >n i1 w i / / / / / /6 razem 61 Dla liczby rodzeństwa = 0Dla liczby rodzeństwa = 1 (y 0i - y 1i >n i2 w i / / / / / /13 razem 131 Dla 6 studentów nie posiadających rodzeństwa średni czas dotarcia na uczelnię wynosi 33,33 min z odchyleniem standardowym 22,28 min Dla 13 studentów posiadających 1 rodzeństwo średni czas dotarcia na uczelnię wynosi 28,08 min z odchyleniem standardowym 18,43 min

Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i >Liczba rodzeństwa suma razem Dla liczby rodzeństwa = 0Dla liczby rodzeństwa = 1Dla liczby rodzeństwa = 2 Dla liczby rodzeństwa = 3 Korelacja czasu dotarcia względem liczby rodzeństwa

Miarą związku korelacyjnego jest współczynnik korelacji liniowej r przyjmuje wartości Wartości ujemne oznaczają, że korelacja jest ujemna, czyli wraz ze wzrostem wartości jednej cechy obserwuje się spadek wartości średnich warunkowych drugiej cechy Wartości dodatnie oznaczają, że korelacja jest dodatnia, czyli wraz ze wzrostem wartości jednej cechy obserwuje się wzrost wartości średnich warunkowych drugiej cechy Wartość 0 oznacza, że korelacja między cechami nie występuje ZWIĄZEK KORELACYJNY

1.Zależność ujemna  Korelacja ujemna r = -1 2.Zależność dodatnia  Korelacja dodatnia r = 1 3.Zależność krzywoliniowa lub brak zależności  r = 0 ZWIĄZEK KORELACYJNY a zależność stochastyczna

Miarą związku korelacyjnego jest współczynnik korelacji liniowej r Dla danych pogrupowanych: Dla danych indywidualnych: ZWIĄZEK KORELACYJNY

ZWIĄZEK KORELACYJNY – przykład (y 0i - y 1i >Liczba rodzeństwa Suma suma

ZWIĄZEK KORELACYJNY – przykład (y 0i - y 1i >Liczba rodzeństwa Suma suma Otrzymany wynik wskazuje na ujemną i słabą korelację liniową między czasem dotarcia na uczelnię a liczbą rodzeństwa w grupie 24 badanych studentów. Oznacza to, że wraz ze wzrostem liczby rodzeństwa maleje średni czas dotarcia na uczelnię. Ale czy można wniosek o korelacji liniowej między czasem dotarcia na uczelnię a liczbą rodzeństwa uogólnić na całą populację studentów?

Przetestuj hipotezę o istotności współczynnika korelacji liniowej Pearsona

Badanie istotności współczynnika korelacji liniowej Pearsona Hipoteza zerowa: H 0 : ρ = 0 – współczynnik korelacji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ ≠ 0 – współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : ρ > 0 – współczynnik korelacji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : ρ < 0 – współczynnik korelacji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)

Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny

Badanie istotności współczynnika korelacji liniowej Pearsona - przykład n = 1000 Hipoteza zerowa: H 0 : ρ = 0 – współczynnik korelacji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ ≠ 0 – współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) -2,704 < t obl < 2,704  na poziomie istotności 0,05 brak podstaw do odrzucenia hipotezy zerowej; współczynnik korelacji liniowej jest nieistotny statystycznie, czyli dla wszystkich studentów korelacja liniowa między liczbą rodzeństwa a czasem dotarcia na uczelnię nie występuje;

WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA zawsze dla dwóch cech porangowanych

Miara związku korelacyjnego dla danych występujących w postaci rang (np. dla dwóch cech niemierzalnych, których wartości zostały ułożone w ranking) Szukamy prawidłowości w kolejności rang d i – różnica między rangami nadanymi obu cechom dla i-tej jednostki obserwacji n – liczba jednostek poddawanych obserwacji (liczebność próby) kolejne liczby rankingu określa się mianem rang

r S = 0 – nie występuje związek korelacyjny między dwoma cechami (w porządku rang dla obu cech nie ma żadnych prawidłowości) r S > 0 – występuje dodatni związek korelacyjny między dwoma cechami (wraz ze wzrostem rang dla jednej cechy wzrastają też rangi dla cechy drugiej) r S < 0 – występuje ujemny związek korelacyjny między dwoma cechami (wraz ze wzrostem rang dla jednej cechy maleją rangi dla cechy drugiej)

Badanie istotności współczynnika korelacji rang Spearmana Hipoteza zerowa: H 0 : ρ S = 0 – współczynnik korelacji rang jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ S ≠ 0 – współczynnik korelacji rang jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : ρ S > 0 – współczynnik korelacji rang jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : ρ S < 0 – współczynnik korelacji rang jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)

Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny

Przykład (na podstawie Przystępny kurs ze statystyki, A. Stanisz, StatSoft, Kraków 2006) Chcemy ustalić związek między opiniami wydanymi przez dwóch lekarzy o zdrowiu 10 pacjentów. Opinie zostały przedstawione w punktach: Uporządkujmy rosnąco lub malejąco liczby punktów i nadajmy im rangi pacjenciABCDEFGHIJ I lekarz II lekarz pacjenciABCDEFGHIJ I lekarz II lekarz6, ,54 pacjenciABCDEFGHIJ Różnice d i 0, ,51

Przykład (na podstawie Przystępny kurs ze statystyki, A. Stanisz, StatSoft, Kraków 2006) n = 10 Otrzymany wynik wskazuje na silną dodatnią współzależność opinii dwóch lekarzy o stanie zdrowia 10 badanych pacjentów Ale czy można wniosek o występowaniu współzależności opinii tych dwóch lekarzy uogólnić na całą populację pacjentów? pacjenciABCDEFGHIJ Różnice d i 0, ,51 Przetestuj hipotezę o istotności współczynnika korelacji rang Spearmana

Badanie istotności współczynnika korelacji rang Spearmana Hipoteza zerowa: H 0 : ρ S = 0 – współczynnik korelacji rang jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : ρ S ≠ 0 – współczynnik korelacji rang jest istotny statystycznie (w populacji różni się istotnie od 0) t obl > 2,306  na poziomie istotności 0,05 odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną; współczynnik korelacji rang jest istotny statystycznie, czyli można mówić, że również dla wszystkich pacjentów występowałaby współzależności opinii obu lekarzy; Podejmując taką decyzję musimy liczyć się z tym, że z prawdopodobieństwem 0,05 możemy się pomylić (błąd I rodzaju) ;