Analiza danych ankietowych

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

CAŁA POLSKA CZYTA DZIECIOM – raport Przygotowany dla Fundacji ABC XXI 30 października 2006.
Analiza współzależności zjawisk
dr Jarosław Poteralski
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Analiza wariancji jednoczynnikowa
Rozdział V - Wycena obligacji
Liczby pierwsze.
Domy Na Wodzie - metoda na wlasne M
BUDOWA MODELU EKONOMETRYCZNEGO
Analiza współzależności
Dane INFORMACYJNE (do uzupełnienia)
Typy zachowań firmy w procesie internacjonalizacji (projekt badawczy)
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Analiza wyników ankiety
Korelacje, regresja liniowa
Wzory ułatwiające obliczenia
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Zapis informacji Dr Anna Kwiatkowska.
E-learning czy kontakt bezpośredni w szkoleniu nowych użytkowników bibliotek uczelni niepaństwowych? EFEKTYWNOŚĆ OBU FORM SZKOLENIA BIBLIOTECZNEGO W ŚWIETLE.
Średnie i miary zmienności
Analiza wariancji.
Test nieparametryczny
Rozkład t.
Hipotezy statystyczne
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Paweł Wójcik, IQS and QUANT Group
Konstrukcja, estymacja parametrów
Analiza współzależności cech statystycznych
MODUŁ SZKOLENIOWY CZĘŚĆ 4. OBLICZANIE WYNIKÓW SRP I ICH INTERPRETACJA Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Rozkłady wywodzące się z rozkładu normalnego standardowego
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
SPOTKANIE Z RODZICAMI OGÓLNE INFORMACJE O SPRAWDZIANIE Data sprawdzianu – 8 kwietnia 2008 roku Czas pracy – 60 minut Liczba punktów do uzyskania.
WYNIKI ANKIETY PRZEPROWADZONEJ WŚRÓD DZIENNIKARZY OCENIAJĄCYCH PRACĘ DZIAŁÓW PR SPÓŁEK GRUPY PKP OPRACOWANIE: BIURO MARKETINGU I KOMUNIKACJI SPOŁECZNEJ.
Hipotezy statystyczne
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
OBLICZANIE WYNIKÓW SRP
Podstawy statystyki, cz. II
Spływ należności w Branży Elektrycznej
Rada Statystyki Warszawa 19 maj Agenda Cel badania: Poznanie opinii właścicieli przedsiębiorstw i kluczowych menedżerów na temat statystyki publicznej,
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Komenda Powiatowa Policji
Regresja wieloraka.
Testogranie TESTOGRANIE Bogdana Berezy.
KINDERMAT 2014 „Matematyka to uniwersalny język, za pomocą którego opisany jest świat”
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
© GfK 2014 | GfK Health | Leki homeopatzcyne widziane okiem lekarzy 1 LEKI HOMEOPATYCZNE WIDZIANE OKIEM LEKARZY Czerwiec 2014.
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Wnioskowanie statystyczne
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Wspomaganie Decyzji IV
ANKIETA ZOSTAŁA PRZEPROWADZONA WŚRÓD UCZNIÓW GIMNAZJUM ZPO W BORONOWIE.
Elementy geometryczne i relacje
Strategia pomiaru.
D. Ciołek EKONOMETRIA – wykład 4
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Szanowna Pani ! Zwracam się do Pani z uprzejmą prośbą o wypełnienie ankiety dotyczącej zakupów w Galerii X. Umożliwi nam ona lepsze dostosowanie się do.
Postawy studentów wychowania fizycznego Uniwersytetu Rzeszowskiego wobec zdrowia Dr Jaromir Grymanowski Uniwersytet Rzeszowski Wydział Wychowania Fizycznego.
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Analiza współzależności zjawisk
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Zapis prezentacji:

Analiza danych ankietowych Dzięki uprzejmości dr inż. Agnieszki KUJAWIŃSKIEJ

Każdy proces badawczy składa się z etapów układających się w zamknięty cykl. Analiza danych jest jednym z elementów tak pojętego cyklu badawczego. Miejsce analizy danych w procesie badawczym przedstawia rysunek obok

Zastosowanie metod statystycznych.. …wymaga odpowiedniego przygotowania danych surowych Dane surowe mogą mieć postać: wypełnionych kwestionariuszy, dzienników obserwacji, dzienników panelowych, zapisanych testów, lub zapisów z pomiaru… Dane należy skontrolować i odpowiednio zakodować

Kontrola danych i kodowanie danych to etapy poprzedzające analizę danych

Kontrola danych dotyczy przede wszystkim… czytelności i dokładności. mimo bieżącej kontroli pomiaru zdarzają się pytania bez odpowiedzi niektóre pytania, a nawet całe strony, mogą być pominięte przez prowadzącego wywiad lub — w przypadku pomiarów ankietowych — przez respondenta niekiedy respondenci świadomie odmawiają odpowiedzi na niektóre pytania lub w ogóle nie poddają się pomiarowi zapisy na kartach kwestionariusza są czasami mało czytelne.

kilka powszechnie spotykanych błędów i braków: 1. Pomiary fikcyjne Są to oszustwa świadomie dokonane przez osoby prowadzące pomiar. Błędne dane Mimo że większość błędów jest niewidoczna, błędy dotyczące faktów można zwykle zidentyfikować. Poprawki można robić wówczas, gdy inne dane w kwestionariuszu są prawdziwe. 3. Sprzeczności i niezgodności Przykładem może być odpowiedź, z której wynika, że respondent nigdy nie słyszał o danym produkcie, podczas gdy w odpowiedzi na inne pytanie twierdzi, że używa tego produktu. O tym, która odpowiedź jest prawdziwa, można niekiedy wnioskować z innych odpowiedzi, ale wnioski te mogą być ryzykowne. 4. Odpowiedzi niekompletne lub niejednoznaczne Niektóre odpowiedzi są niekompletne, nieczytelne lub niejasne i wieloznaczne. Niekompletną odpowiedź można w przybliżeniu określić i uzupełnić. Natomiast odpowiedzi niejednoznaczne lub nieokreślone są trudne do interpretacji i ewentualnej poprawy.

Odpowiedzi nieadekwatne Respondenci dają czasami odpowiedzi nie związane z tematem pytania. 6. Brak odpowiedzi na jedno lub kilka pytań albo brak zgody respondenta na przeprowadzenie pomiaru Tego typu błędy i braki zdarzają się najczęściej, zwłaszcza w pomiarach ankietowych.

Kodowanie W czasach współczesnych kodowanie odpowiedzi w kwestionariuszach ma na celu przeniesienie danych z instrumentu pomiarowego (np. kwestionariusza ankiety) do pamięci komputera (arkusza kalkulacyjnego, bazy danych etc.). W tym kontekście kodowanie określić można jako przyporządkowanie symboli (liczb/kodów) danym zawartym w instrumentach pomiarowych

Etapy kodowania: Instrukcja kodowania powinna zawierać

Sposób kodowania w istotnym stopniu zależy od rodzaju pytania i odpowiadających pytaniu odpowiedzi. W naukach społecznych wyróżnić można przynajmniej kilka rodzajów pytań. Ich typologię zawiera poniższy rysunek: Pytania ankiety Otwarte: swoboda wyboru Zamknięte: Z góry przewidziano odpowiedzi Dychotomiczne Kafeteria zamknięta Dysjunktywna Koniunktywna Kafeteria półotwarta Pytania skale Metryczkowe: dane demograficzne i społeczne Filtrujące: eliminacja osób, których pytanie nie dotyczy

Pytania zamknięte – pytaniami samokodującymi Kodowanie pytań zamkniętych polega na przeniesieniu odpowiadającego danej odpowiedzi kodu (liczby) do bazy danych. Przykładowo dla pytań zamkniętych z jedną opcją wyboru: Czy jest Pani zadowolona z dezodorantu Nivea?: Zdecydowanie tak 1 Raczej tak 2 Raczej nie 3 Zdecydowanie nie 4 Jeszcze nie mam wyrobionej opinii 5

Więcej opcji do wyboru – Kodowanie geometryczne Kod geometryczny to ciąg o wyrazie pierwszym równym 1 i o ilorazie równym 2. Są to następujące liczby (każda kolejna dwukrtonie większa od następnej): 1, 2, 4, 8, 16, 32, 64, …itd. Jakie papierosy kupował Pan w ostatnim miesiącu? Ares Caro Fajrant Jan III Sobieski Marlboro Prince inne…… 1 2 4 2 + 8 = 10 8 16 Jakakolwiek suma dowolnych liczb z takiego kodu daje niepowtarzalną kombinację 32 64

Więcej opcji do wyboru – Kodowanie binarne Kod geometryczny jest kłopotliwy, jeżeli jest dużo wariantów odpowiedzi Kodowanie binarne polega na wprowadzeniu do arkusza danych tylu zmiennych (kolumn), ile było wariantów odpowiedzi w danym pytaniu W kolumnach pojawiają się wówczas dwie wartości: 0 – nie zaznaczenie odpowiedzi 1 – wybranie odpowiedzi

Pytania otwarte W kodowaniu pytań tego typu badacz tworzy schemat kodowania nie przed podjęciem badań, lecz w ich trakcie, na podstawie reprezentatywnej próbki odpowiedzi na dane pytanie. Stąd, kodowanie tego rodzaju określić można jako indukcyjne. Tworzenie grup, kategorii i wskaźników kategorii

Po etapie kodowania Następuje etap przygotowania do analiz statystycznych poprzez przygotowanie tablic wynikowych: Jednodzielcze Dwudzielcze Wielodzielcze

tablice jednodzielcze (służące do określenia prostych rozkładów częstotliwości występowania określonej [jednej] zmiennej), tablice dwudzielcze (ukazujące rozkłady dwóch zmiennych jednocześnie), tablice wielodzielcze (ukazujące rozkłady trzech [i więcej] zmiennych jednocześnie

Tablica jednodzielcza Tablice jednodzielcze ukazują nam częstotliwości z jakimi wystąpiły zawarte w kafeterii (w przypadku pytań zamkniętych) lub pokategoryzowane w trakcie kodowania w przypadku pytań otwartych) odpowiedzi na odpowiednie pytania kwestionariusza Proszę powiedzieć, w jakim stopniu uważasz następujące sprawy za ważne w Twoim życiu: nauka Liczebność % bardzo ważne 223 44,2% raczej ważne 271 53,8% niezbyt ważne 6 1,2% w ogóle nieważne 2 0,4% trudno powiedzieć Ogółem 504 100,0%

Tabele dwudzielcze Tabele dwudzielcze prezentują liczebności (lub procenty) osób poklasyfikowanych według dwóch zmiennych jednocześnie Płeć Wykształcenie Podstawowe Średnie Wyższe Razem Kobiety Mężczyźni mężczyźni z podstawowym wykształceniem kobiety z podstawowym wykształceniem mężczyźni ze średnim wykształceniem kobiety ze średnim wykształceniem mężczyźni z wyższym wykształceniem kobiety z wyższym wykształceniem

Procentowanie Płeć Wykształcenie Średnie Wyższe Razem Kobiety Podstawowe Średnie Wyższe Razem Kobiety Mężczyźni 100 Płeć Wykształcenie Podstawowe Średnie Wyższe Razem Kobiety 100 Mężczyźni Płeć Wykształcenie Podstawowe Średnie Wyższe Razem Kobiety Mężczyźni 100

Generalnie stwierdzić możemy, że: Jeżeli z dwóch zmiennych A i B jedna z nich jest zmienną niezależną w danym momencie analizy (jest przyczyną, jest zmienną wyjaśniającą, jest zmienną prognostyczną itp.), zaś druga jest zmienną zależną (skutkiem, zjawiskiem, wyjaśnianym, oczekiwanym efektem prognozy), to za podstawę do obliczeń procentowych (tj. za 100%) bierzemy liczebności podgrup poszczególnych wartości zmiennej niezależnej. Generalnie stwierdzić możemy, że: procentujemy zawsze w kierunku zmiennej niezależnej, procenty czytamy zaś (porównujemy) zawsze w kierunku zmiennej zależnej

Jeżeli interesuje nas wpływ płci (zmienna niezależna) na stosunek do wiary (zmienna zależna) to zawsze będziemy procentowali w kierunku płci, porównywali zaś będziemy w kierunku stosunku do wiary Przykład Kobiety częściej niż mężczyźni określały się jako osoby głęboko wierzące (13,1% w stosunku do 5,0%) oraz wierzące (73,0% do 66,9%). Związek z wiarą (głęboką wiarę oraz wiarę) zdecydowanie częściej deklarowały więc kobiety niż mężczyźni (odpowiednio: 86,6% do 71,9%). Mężczyźni z kolei częściej deklarowali swoje niezdecydowanie w prawach wiary (21,9% do 10,8%), obojętność w stosunku do wiary (3,1% do 0,9%) oraz brak wiary (odpowiednio: 3,1% do 1,7%). Sumując: kobiety generalnie deklarują wyższy poziom wiary niż mężczyźni.

Osoby starsze (tj. studiujące na roku czwartym) częściej niż młodsze (tj. studiujące na roku pierwszym) deklarują swoją wiarę (odpowiednio: 73,3% do 70,5%) oraz głęboką wiarę (14,8% do 7,8%). Wynika z tego, iż procent osób związanych z wiarą (wierzących lub głęboko wierzących) jest większy wśród starszych, mniejszy zaś wśród młodszych studentów (odpowiednio: 87,8% do 78,2%). Z kolei osoby studiujące na roku pierwszym częściej niż studiujące na roku czwartym określają się jako niezdecydowane, ale przywiązane do tradycji religijnej (stosunek 16,9% do 10,2%), niewierzące (3,2% do 0,5%) oraz obojętne w stosunku do wiary (1,6% do 1,5%). Na podstawie zaprezentowanych danych stwierdzić więc można, że wraz z przejściem od pierwszego do czwartego roku rośnie poziom deklarowanej wiary.

Przykładowo Wartości Lib. Kons. VAN Nie 137 102 Tak 27 33 24

299 Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 102 239 Tak 27 33 60 Zmienne niezależne Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 102 239 Tak 27 33 60 Kolumna 164 135 299 Zmienne zależne W tym przypadku przypuszczamy, że wartości społeczne mają wpływ na posiadanie określonego typu samochodu 25

Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 57,32% 102 42,68% Obliczamy procenty w wierszach Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 57,32% 102 42,68% 239 100% Tak 27 33,33% 33 66,67% 60 100% Kolumna 164 135 299 (137/239)*100% 26

Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 83,54% 102 75,55% 239 Tak Obliczamy procenty w kolumnach (137/164)*100% Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 83,54% 102 75,55% 239 Tak 27 16,46% 33 24,45% 60 Kolumna 164 100% 135 299 27

Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 45,82% 102 34,11% 239 Tak Obliczamy procenty z całości (137/299)*100% Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 45,82% 102 34,11% 239 Tak 27 9,03% 33 11,04% 60 Kolumna 164 135 299 100% 28

Czy zaobserwowane różnice są istotne statystycznie? Przy prowadzeniu analizy danych za pomocą tabel kontyngencji mamy 2 problemy do rozpatrzenia: Czy zaobserwowane różnice są istotne statystycznie? Jaka jest siła związku pomiędzy zmiennymi? Czy relacje są pozorne czy rzeczywiste?

Problem 1: test c2 Wyznaczyć wartości oczekiwane Wyznaczyć różnicę pomiędzy tym co oczekiwane a tym co zaobserwowane Wniosek

c02=2,69 a=0,05 df=(w-1)(k-1)=1 ca2=3,84 (164*239)/299 Wartości Lib. Kons. Wiersz RAZEM VAN Nie 137 131,09 102 107 239 Tak 27 32,90 33 27,09 60 Kolumna 164 135 299 c02=2,69 a=0,05 df=(w-1)(k-1)=1 ca2=3,84 Nie ma podstaw do odrzucenia H0. Brak jest związku miedzy wartościami a typem kupowanego auta

Zmiana poziomu istotności n. z 0,05 na 0,1 Sterowanie testem Zmiana poziomu istotności n. z 0,05 na 0,1 w przykładzie odrzucimy H0 Zmiana liczby stopni swobody, np. wzrost liczby kolumn lub wierszy)

Współczynnik kontyngencji C Pearsona: Siła związku Współczynnik kontyngencji C Pearsona: Jeżeli C = 0 to brak zależności Górna granica zależy od liczby wierszy w tabeli i jest równa: W przykładzie C=0,099, co wskazuje na stosunkowo słaby związek pomiędzy zmiennymi

Współczynnik V Cramera Niedogodność braku wartości maksymalnej dla współczynnika C Pearsona można pominąć stosując współczynnik V Cramera: gdzie k – mniejsza z liczb kolumn lub wierszy Współczynnik przyjmuje wartości z przedziału <0, 1>

Polecam: Analiza korespondencji Wieloraka analiza korespondencji Analiza skupień

Dziękuję za uwagę