Sondaż w mediach Warsztat dla dziennikarzy programów informacyjnych TVP Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej.

Sondaż w mediach Warsztat dla dziennikarzy programów informacyjnych TVP
Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej

Sondaż – badanie statystyczne
Po co się robi sondaże Sondaż – badanie statystyczne Kwestionariusz – próba – realizacja – analiza danych Losowy vs. nielosowy dobór respondentów Reprezentatywność prób Sondaż – NieSondaż - NibySondaż Dobry sondaż – Jakość sondażu Dokładność oszacowań Koszt jakości Trafność, wiarygodność, precyzja Pułapki interpretacji wyników sondażu Publikacja wyników sondaży

Schemat logiczny wnioskowania w sondażu
Dobór próby (1) Populacja n-elementowa próba losowa z populacji Probabilistyczny schemat doboru, opisany w kategoriach rachunku prawdopodobieństwa Statystyka opisowa: wyznaczenie parametrów w próbie Parametry próby (2) Parametry populacyjne (3) Wnioskowanie statystyczne Statystyka inferencyjna – zastosowanie rachunku prawdopodobieństwa do uzasadnienia reguł wnioskowania (1) & (2) (3) Przesłanki wniosek Kwestionariusz – Próba – Realizacja – Analiza danych

Schemat wnioskowania w badaniu sondażowym
(1) Dobrano losowo 1600-osobową próbę wyborców (2) W wylosowanej próbie 400 respondentów, to jest 25% badanych, deklarowało chęć głosowania na partię X wobec tego (3) W populacji wyborców odsetek deklarujących zamiar głosowania na partię X wynosi 25% +/- 2,5%, to jest między 22,5% a 27,5%. (1) & (2) (3) Kwestionariusz – Próba – Realizacja – Analiza danych

Sondaż jest badaniem statystycznym
Przedmiot populacja Cel zestaw pytań na temat populacji zestaw zmiennych służących do wyznaczenia odpowiedzi na pytania Zakres Metoda badanie próby pobieranej z badanej populacji według schematu opisywanego w kategoriach probabilistycznych Wynik odpowiedzi na pytania na temat populacji na podstawie analizy łącznego rozkładu zmiennych wyznaczonych w próbie dobranej losowo wedle schematu opisywanego w kategoriach probabilistycznych; wynik to oszacowania parametrów populacji + dokładność oszacowań

Specyfika badania statystycznego
Wynik badania jest parametrem statystycznym Wynik badania jest oszacowaniem parametru Oszacowanie obciążone jest niepewnością Dokładność oszacowania można*) wyliczyć znając: Własności operatu Schemat doboru próby Poziom non-response Poziom braków odpowiedzi Jakość realizacji (false records) *) przyjmując poziom ryzyka popełnienia błędu estymacji oraz założenia na temat wariancji zmiennych w populacji

Jaka jest proporcja głosujacych (zielonych) ( w populacji )
pytanie Jaka jest proporcja głosujacych (zielonych) ( w populacji ) Znana własność próby skład próby: k osób „zielonych” losowanie obliczenia ze zwracaniem Estymacja p odpowiedź wniosek Czym jest sondaż zawsze dokładność Populacja Schemat doboru próby Metoda wnioskowania

Dlatego dokładność jest prawie zawsze gorsza niż
Wynik sondażu jes zawsze niedokładny – ma postać przedziału Populacja Field-work Próba zbadana 1600 3 Non- response (400) Próba wylosowana 4 No answer (30%) 2000 5 False responses (5%) Operat 1 Dziurawa, stara 2 lista obiektów populacji Źródła dodatkowego błędu oszacowań Złożony wielstopniowy Schemat doboru próby Dlatego dokładność jest prawie zawsze gorsza niż

Odpowiada na pytania, które zamawiający postawił:
Sondaż dobrej jakości Odpowiada na pytania, które zamawiający postawił: trafnie (odpowiedzi mają związek ze stanem faktycznym) wiarygodnie (sposób zbierania danych nie budzi wątpliwości) wystarczająco dokładnie (dokładność odpowiedzi jest znana i warta swojej ceny)

Dobry sondaż Dobry kwestionariusz: dobra teoria, trafne wskaźniki, dobre modele pomiarowe Dobra próba losowa – optymalne warstwowanie, optymalna alokacja, małe wariancje estymatorów Dobra realizacja – wysoki response rate, równomierność realizacji, niski poziom braków danych, niska stopa oszustw, brak efektu ankieterskiego Poprawna interpretacja wyników – uwzględnia osiągniętą dokładność oszacowań, istotność różnic

Kwestionariusz Kwestionariusz – Próba – Realizacja – Analiza danych

Inteligentne wskaźniki
Szacowanie frekwencji wyborczej w wyborach parlamentarnych Jak Pan(i) sądzi, jaka będzie frekwencja w wyborach w najbliższą niedzielę? Czy zamierza Pan(i) wziąć udział w wyborach w najbliższą niedzielę? 1. Tak 2. Nie 3. Nie wiem |___| % Średnia odsetków podawanych przez respondentów % odpowiedzi TAK

Próba Kwestionariusz – Próba – Realizacja – Analiza danych

Ile razy trzeba rzucać monetą aby sprawdzić, czy jest rzetelna?
Kwestionariusz – Próba – Realizacja – Analiza danych

Losowanie próby w badaniu sondażowym to jak rzucanie monetą
lub lub lub 3 2 1 P=0,064 P=0,288 P=0,432 P=0,216

Probabilistyczny sposób doboru próby
Próba dobrana jest w sposób losowy, gdy prawdopodobieństwo dostania się do próby jest znane (nie musi być dla wszystkich identyczne) dla każdego elementu populacji. W konsekwencji: wiadomo jak szacować parametry populacji (co jest ich estymatorem) wiadomo jaka jest dokładność tego oszacowania (szerokość przedziału) przy założonym dopuszczalnym ryzyku popełnienia błędu (poziomie ufności) daje się wyznaczyć minimalną liczebność próby niezbędnej do osiągnięcia założonej dokładności oszacowań daje się sprawdzić, które z różnic lub zależności stwierdzonych w próbie są statystycznie nieistotne

Probabilistyczny dobór próby – konsekwencja
100 10% 400 5% 1000 3,2% 1600 2,5% 2500 2% 10000 1% Uproszczona zależność dla najprostszego schematu losowania

SMS-y wysyłane podczas trwania programu TV
Nie–Sondaże Przedsięwzięcia, w których osoby ankietowane nie są losowane, nie są sondażami: ankieta uliczna SMS-y wysyłane podczas trwania programu TV sondaż internetowy bez weryfikowania tożsamości respondenta ogólnopolski sondaż telefoniczny w Polsce*) ankieta drukowana w czasopiśmie jako sondaż jej czytelników

Losować – z czego?

Operat = lista wszystkich obiektów badanej populacji
Operat losowania Operat = lista wszystkich obiektów badanej populacji Powinien być: Może być kompletny dziurawy, nie obejmuje populacji, ignoruje istone i duze kategorie obiektów; (np. lista abonentów TPSA nie jest operatem dla populacji dorosłych Polaków) skrzywiony; dziurawy systematycznie - zawiera dane o wielu obiektach pewnego rodzaju a niewiele o innych; (np. Lista prenumeratorów pisma jest złym operatem dla populacji jego czytelników), bezbłędny niedokładny; ma wysoką stopę błędów w danych (zdarza się często, gdy lista jest tworzona przez obiekty populacji) aktualny nieaktualny (migracje ludzi, likwidacja lub zmiany profilu firm, zmiany struktury zatrudnienia) Kwestionariusz – Próba – Realizacja – Analiza danych

Dostępne operaty dla prób ogólnopolskich
PESEL Centralny system ewidencji meldunkowej Zawiera informację o zameldowaniu a nie o faktycznym zamieszkiwaniu Stopa błędnych danych adresowych nie przekracza 5% Pozwala dokładnie kontrolować ankieterów Pozwala dokładnie wyznaczać response rate Konieczne złożone schematy doboru próby celem uniknięcia nadmiernych kosztów realizacji (dojazdy) NOBC (GUS) rejestr mieszkań Prawie 100%-owa aktualność (mieszkania nie migrują) Konieczne losowanie osoby z wylosowanego mieszkania – ankieter decyduje o tym, kto zostaje respondentem Utrudniona kontrola pracy ankieterów REGON, itp. rejestry i bazy danych Szybko się starzeja, Duża stopa błędów Niepełne pokrycie populacji Kwestionariusz – Próba – Realizacja – Analiza danych

Dobór nielosowy Cechy doboru celowego: o składzie badanej próby decydują badacz (określa kryteria doboru) i ankieter - wybiera spośród obiektów spełniających kryteria, do określenia kryteriów doboru dla każdego respondenta potrzebna jest wiedza o łącznych rozkładach cech w interesującej badacza zbiorowości - należy ją zdobyć zwykle za pomocą badań na próbach losowych . Dobór losowo-kwotowy: losowa alokacja terytorialna (miasto-wieś, regiony, województwa, gminy wiejskie, miejskie) a następnie celowy dobór respondentów Dobrze skonstruowana próba kwotowa (dobierana celowo) daje niekiedy dokładniejsze oszacowania niż mało liczna próba losowa. Pożądane własności nielosowych metod doboru: uzyskanie “dobrego przedstawicielstwa” populacji ze względu na ważne dla nas cechy, czyli reprezentatywności grupy zbadanej w przedmiotowym sensie. Przykład - arkusz Kwestionariusz – Próba – Realizacja – Analiza danych

Kiedy próba dobrze reprezentuje propulację? Gdy jest reprezentatywna!
Pojedyncza, konkretna, zrealizowana próba jest reprezentatywna dla pewnej populacji Każda próba pobrana w sposób losowy - dający sie opisać w kategoriach rachunku prawdopodobieństwa Między tymi dwiema reprezentatywnościami zachodzi relacja wynikania*)

Reprezentatywność – zgodność z populacją
Próba zrealizowana ma strukturę zgodną ze strukturą badanej populacji Stopień reprezentatywności konkretnej próby można sprawdzić tylko ze względu na te cechy, których populacyjne rozkłady sa znane Zgodność ta jest stopniowalna Zgodność zachodzi zawsze ze względu na skończony zestaw cech. Ta sama próba może zatem być wysoce reprezentatywna ze względu na płeć i wiek badanych a jednocześnie wysoce niereprezentatywna ze względu na poziom ich wykształcenia Nie da się sprawdzić czy zrealizowana próba ma strukturę zgodną z populacyjną ze względu na te cechy jednostek, których Narodowy Spis Powszechny nie rejestruje: preferencji wyborczych, poglądów, wartości i tak dalej O ile nie jest losowana, zrealizowana w jednym badaniu próba może być dla badanej populacji wystarczająco reprezentatywna a w następnym badaniu już nie

Reprezentatywność – dobór losowy
Próba jest reprezentatywna – została dobrana w sposób losowy. Prawdopodobieństwo dostania się do próby jest znane (nie musi być dla wszystkich identyczne) dla każdego elementu populacji, z której jest losowana wiadomo, w jaki sposób na podstawie próby najlepiej oszacować rozkłady cech w populacji wiadomo (daje się wyliczyć) jaka jest tych dokładność oszacowań każda wylosowana w ten sam sposób próba jest w takim samym stopniu zgodna z populacją ze względu na wszystkie określone w niej zmienne. Stopień jej reprezentatywności i dokładność oszacowań oznaczają de facto to samo

Realizacja Kwestionariusz – Próba – Realizacja – Analiza danych

Response rate a dokładność oszacowań
Niedostępni, n2 Populacja próba = n -elementowa próba wylosowana z populacji Zbadani, n1 Response rate =

Response rate a dokładność oszacowań
Populacja dostępnych Populacja nie-dostępnych n1 = 1600 n2 = 400 Quasi-przedział ufności dla frakcji populacyjnej

Granica dokładności wyznaczona dla poziomu ufności 0,95
Dokładność oszacowań frakcji populacyjnej a wielkość prostej próby losowanej w sposób prosty ze zwracaniem Granica dokładności wyznaczona dla poziomu ufności 0,95

Response rate a graniczna dokładność oszacowań populacyjnej frakcji
resp rate 95% 90% 85% 80% 75% 70% wielkość próby dokładność przy 100%-owej realizacji próby optym pesym 100 10,0 12,0 12,2 12,6 14,5 13,1 16,7 13,4 18,9 13,7 21,2 13,8 23,4 400 5,0 6,0 7,4 6,3 9,7 6,5 12,1 6,7 6,8 16,8 6,9 19,2 900 3,3 4,0 5,7 4,2 8,2 4,4 10,6 4,5 13,0 4,6 15,4 17,8 1600 2,5 3,0 4,9 3,2 9,8 3,4 14,7 3,5 17,1

Koszt jakości

Kryteria oceny jakości sondażu
DoKŁADNOŚĆ oszacowań: (% non-response, równomierność realizacji, % missing-data, % “sufitów”) Czas realizacji (od zamówienia do wyników) Koszt realizacji (koszt 1 rekordu) JAKOŚĆ KOSZTUJE Nie istnieją sondaże szybkie, tanie i dobrze zrealizowane

Składniki „statystyczne” Składniki „praktyczne”
Koszt i jakość sondażu Składniki „statystyczne” Składniki „praktyczne” Operat: Pozyskanie operatu dobrej jakości – czas, koszt Błąd pokrycia operatu błąd estymacji Długość kwestionariusza  czas wywiadu, czas = koszt Schemat doboru próby efektywność oszacowań (alokacja + wiązkowanie) koszt realizacji (dojazdy !!) Metoda kontaktu z respondentem PAPI, CAPI: dojazdy=koszt! CATI, WAPI - ukrywana tożsamość respondenta  błędy oszacowań Liczebność próby: dokładność oszacowań jest funkcją liczebnosci próby - koszt Jakość realizacji: non-response,  błędy oszacowań braki odpowiedzi, fałszerstwa ankieterskie Koszt kontroli ankieterów – 5% kosztów badania

Jakość realizacji badania
Budżet badania Koszt realizacji w terenie Dokładność oszacowań Koszt dojazdów Wielkość próby Koszt jakości Schemat doboru próby Jakość realizacji badania Fieldwork Koszt kontroli jakości realizacji Zewnętrzna kontrola ankieterów wykonawcy Operat Koszt operatu Response-rate Missing values False records Projekt Kwestionariusz Pominięte pytanie Odmowa odpowiedzi Raport Czas trwania - koszt 1 wywiadu Koszt projektowania

Czy można sprawdzić jakość sondażu?
Nigdy nie można sprawdzić, czy wynik sondażu jest zgodny z rzeczywistością – wymagałoby to zbadania całej populacji Jeśli wykonawca nie dostarczy szczegółowych informacji o tym, jak sondaż wykonał, zazwyczaj nie można sprawdzić, jaka jest trafność, wiarygodność i precyzja oszacowań dokonywanych na podstawie jego wyników Czasami jednak można ocenić jakość sondażu pośrednio: Gdy decyzje biznesowe podejmowane na podstawie badań ( na przykład marketingowych) okazują się tak nietrafne, że nie da się tego wytłumaczyć naturalnym losowym składnikiem wyniku sondażowego Gdy wynik wyborów weryfikuje trafność oszacowań wykonanych na podstawie sondażu Jedynym sposobem oceny jakości sondażu jest kontrola poprawności procedury jego przeprowadzenia, którą wykonawca powinien klientowi dostarczyć zawsze

Publikowanie wyników

Pułapki interpretacji wyników
Nieporównywalna treść pytań Nieporównywalne schematy doboru prób (prosty - złożony, indywidualny-zespołowy) Operat poprawny-wadliwy Nieporównywalne sposoby kontaktu z respondentem (CATI- CAPI, WAPI – CAPI) Różnice i trendy statystycznie nieistotne

Nieporównywalna treść pytań
Gdyby wybory parlamentarne odbywały się w najbliższą niedzielę, czy wzięła(-ął) by Pan(i) udział w głosowaniu (1000): 1. Tak (650) 2. Nie (250) Jeśli tak, to wie Pan(i), na którą partię odda Pan(i) swój głos? 1. Tak (500) 2. Nie (150) Jeśli TAK, to na którą? Wariant 0: brak listy partii – pytanie otwarte wariant 1 Nazwa parii bez logo - lista wariant 2 Nazwa parii + logo partii - lista wariant 3 Nazwa partii + nazwisko lidera partii - lista wariant 4 Nazwa partii + logo partii + nazwiko lidera partii - lista Odpowiedzi: numer z listy + trudno powiedzieć (100)

Badania nieporónywalne
„Próba” kwotowa(?) CATI Próba losowa z operatu PESEL - CAPI Próba internautów (ważona ?) WAPI

Różnice statystycznie nieistotne
(Przykład fikcyjny) Liczebności prób Styczeń: n=81, Luty: n=121, Marzec: n=64, Kwiecień: n=121, Maj: n=225 Które zmiany proporcji są statystycznie znaczące? Kwestionariusz – Próba – Realizacja – Analiza danych

Różnice statystycznie nieistotne
1200 osób – metodą wywiadów telefonicznych CATI (800 wywiadów) oraz metodą wywiadów ankieterskich w miejscach publicznych (400 wywiadów) Czy: PO ma poparcie (istotnie) różne od PiS? Polska Razem (istotnie) przekracza próg 5%?

Kiedy wynik sondażu nie zasługuje na publikację
Kiedy w dokumentacji dostarczonej przez wykonawcę badania brakuje co najmniej jednego z poniższych elementów: Definicja badanej populacji Treść zadanego pytania Sposób rekrutacji respondentów (próba losowa, losowo-kwotowa, dobór nielosowy) Liczebność próby Sposób zbierania odpowiedzi: PAPI, CAPI – CATI - CAWI Termin badania Kto płacił za sondaż Kto wykonał sondaż

Przykłady niepełnych informacji o badaniu

Kiedy wynik sondażu zasługuje na publikację
Gdy wykonawca badania podaje: dokładność populacyjnych oszacowań i sposób jej wyliczenia *) stopień realizacji próby (response-rate) opis zastosowanego schemat doboru próby opis operatu, z którego próba była losowana sposób wyznaczania wag analitycznych stopień zgodności próby zrealizowanej z danymi GUS ze względu na: Miejsce zamieszkania (wieś, małe miasta, średnie miasta, duże miasta – co najmniej 4 kategorie) Płeć, wiek (co najmniej 5-6 kategorii) i poziom wykształcenia (co najmniej 5 kategorii) Źródło utrzymania (aktywność ekonomiczną: pracujący, bezrobotni, uczniowie, emeryci-renciści, niepracujący) Dla prób losowo-kwotowych - stopień zgodności próby zrealizowanej z danymi GUS ze względu na zmienne, które nie były kryteriami rekrutacji respondentów

Jak przedstawiać wynik sondażu w telewizyjnym programie informacyjnym
Przedstawić podstawowe informacje o sondażu na planszy z wykresami reprezentującymi wyniki: Szczegóły kwalifikujace sondaż do publikacji oraz Dokładność oszacowań 2. Przed publikacją, interpretacją lub dyskusją Ustalić, jak była treść pytań zadawanych respondentom, czy były stosowane „filtry”. Ustalić podstawę procentowania dla każdego publikowanego odsetka (co stanowi 100% - wszyscy, czy ci którzy mają zdanie, zamierzają głosować, wiedzą na kogo będą głosować itd.) Ustalić, które różnice są statystycznie istotne Ustalić, czy w porównaniu z poprzednim sondażem nastąpiła zmiana statystycznie istotna Ustalić, czy w kolejnych porównywalnych sondażach mamy do czynienia z trendem [patrz p. c)-d) powyżej]

Czego unikać przedstawiając wyniki sondaży
Sugerowania się liczbą ankietowanych jako wskaźnikiem wiarygodności sondażu Porównywania odsetków odpowiedzi na pytania zadane w różny sposób Porównywania wyników sondaży przeprowadzanych różnymi metodami Komentowania różnic statystycznie nieistotnych, także zmian Porównywania wyników sondaży z rezultatami przedsięwzięć sondażo-podobnych

Obowiązki agencji badawczej wobec klienta według AAPOR
Report Immediately Who sponsored, conducted & funded the research Kto płaci za sondaż, kto wykonuje badanie Exact question wording Dokładne brzmienie pytań Definition of the population Definicja populacji Geographic location Zasięg terytorialny badania Sample frame description Opis operatu, z którego pobierano próbę Sample design Schemat doboru próby Sample size & error Liczebność próby i dokładność oszacowań Weighting & cluster adjustments Wagi analityczne wynikające ze schematu doboru próby Results based on parts of sample only Czy wynik wyznaczono na podstawie całej próby czy też jej części Method(s) and dates of data collection Czas i sposób zbierania danych AAPOR’s Transparency Initiative, RC-33 Eighth International Conference on Social Science Methodology Timothy P. Johnson and Paul J. Lavrakas

Błędne przeświadczenia na temat sondażu
Tak zwany „błąd statystyczny” (dokładność oszacowań) w sondażu wynosi zawsze +/- 3% Wiele odpowiedzi – dobre oszacowanie Jeśli zebrano odpowiedzi od bardzo wielu osób (jak na przykład w badaniu internetowym), to mamy do czynienia z próba reprezentatywną, a wynik jest trafnym, wiarygodnym i precyzyjnym oszacowaniem stanu populacji Wagi porealizacyjne jeśli próba zrealizowana nie jest zgodna z populacją ze względu na kluczowe cechy (płeć, wiek, wykształcenie), można jej strukturę „poprawić” za pomocą wag porealizacyjnych i traktować jako próbę reprezentatywną” bez szkody dla dokładności oszacowań na przykład: jeśli w próbie jest za mało kobiet w średnim wieku z wyższym wykształceniem, to można ten niedobór wyrównać za pomocą wag (mnożników) wyliczonych tak, aby po przemnożeniu rozkład w próbie był całkowicie zgodny z danymi GUS. Niby-sondaż Jeśli pewien wynik uzyskany w jednym badaniu niesondażowym okazał się zgodny ze stanem faktycznym (na przykład wynikiem wyborów), to będzie również zgodny następnym razem Sondaż tani, szybki i wiarygodny Można wykonać tani i dobry ogólnopolski sondaż telefoniczny w 8 godzin Zamawiając sondaż płacimy za liczbę zebranych ankiet

Sondaż w mediach Warsztat dla dziennikarzy programów informacyjnych TVP Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej.

Podobne prezentacje

Prezentacja na temat: "Sondaż w mediach Warsztat dla dziennikarzy programów informacyjnych TVP Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej."— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Sondaż w mediach Warsztat dla dziennikarzy programów informacyjnych TVP Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej.

Podobne prezentacje

Prezentacja na temat: "Sondaż w mediach Warsztat dla dziennikarzy programów informacyjnych TVP Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej."— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres