Statystyka Alfred Stach WYKŁAD rok akademicki 2013/2014

Slides:



Advertisements
Podobne prezentacje
Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Advertisements

Statystyka w doświadczalnictwie
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Metody losowania próby
Statystyka Wojciech Jawień
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Analiza współzależności zjawisk
Zmienne losowe i ich rozkłady
Przygotowała Sylwia Zych
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Powinien być określony w sposób zwięzły i precyzyjny, np
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
Metody badawcze w socjologii
Metody badawcze w socjologii – ciąg dalszy
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Program przedmiotu “Metody statystyczne w chemii”
Ćwiczenia ze statystyki II rok Geoinformacji rok akademicki 2007/2008 WSTĘP.
Ćwiczenia ze statystyki II rok Geoinformacji rok akademicki 2009/2010 WSTĘP.
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
BADANIA STATYSTYCZNE opracował: Bąk Damian.
Średnie i miary zmienności
SKALE POMIAROWE.
Elementy statystyki dla lekarzy Planowanie badań i zbieranie danych
Hipotezy statystyczne
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Magdalena Nowosielska
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Podstawy statystyki, cz. II
Planowanie badań i analiza wyników
Henryk Rusinowski, Marcin Plis
Seminarium licencjackie Beata Kapuścińska
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Wnioskowanie statystyczne
Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne.
STATYSTYKA Pochodzenie nazwy:
Statystyka medyczna Piotr Kozłowski
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
JAKOŚĆ TECHNICZNA WĘGLA
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Europejska Akademia Pacjentów w obszarze innowacyjnych terapii Zaślepienie w badaniach klinicznych.
Statystyczna analiza danych
Statystyczna analiza danych
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Człowiek – najlepsza inwestycja
Projektowanie kwestionariusza
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Statystyka matematyczna
Co do tej pory robiliśmy:
Jednorównaniowy model regresji liniowej
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Analiza współzależności zjawisk
statystyka podstawowe pojęcia
Zapis prezentacji:

Statystyka Alfred Stach WYKŁAD rok akademicki 2013/2014 Instytut Geoekologii i Geoinformacji WNGiG e-mail: frdstach@amu.edu.pl, tel. +4861-829-6179 dyżur w semestrze letnim RA 2013/2014: poniedziałek: 10:00 – 12:00; śróda: 11:00 – 12:00

Program wykładu Historia statystyki Definicja statystyki; opinie o statystyce Główne funkcje statystyki Zakres tematyczny wykładów w semestrze I roku akademickiego 2013/2014 Forma i termin zaliczenia przedmiotu Źródła wiedzy: podręczniki i Internet Wykład 1: podstawowe pojęcia statystyki

Historia statystyki „Statystyka ma długą prehistorię, ale krótką historię” (C. Radhakrishna Rao) Najdawniejszy zapis statystyczny: karby na kościach, kamieniu i innych materiałach służące do prowadzenia rachunku swego bydła i innego dobytku Pierwsze spisy ludności przeprowadzano w Chinach ok. 2000 lat p.n.e Za czasów dynastii Czou (1122 – 256 p.n.e.) ustanowiono oficjalne stanowisko odpowiedzialnego za prace statystyczne zwane „szih-su” (księgowy)

Historia statystyki Termin statystyka ma źródło w łacińskim słowie „status”, co oznacza „państwo”. Został on użyty po raz pierwszy w połowie XVIII przez Niemca Gottfrieda Achenwalla dla określenia „gromadzenia, przetwarzania i wykorzystywania danych przez państwo” W 1800 roku Francja jako pierwsze państwo na świecie tworzy Centralny Urząd Statystyczny W 1834 roku powstało w Londynie Królewskie Towarzystwo Statystyczne (Royal Statistical Society). Wtedy statystykę uważano za „fakty odnoszące się do ludzi, możliwe do przedstawienia w postaci liczb, w wystarczająco zwielokrotnionej ilości, sygnalizujące prawa ogólne”

Historia statystyki I Międzynarodowy Kongres Statystyczny w 1854 roku w Brukseli – prezesem został belgijski matematyk Adolphe Quetlet (1796-1874) W 1885 powstało międzynarodowe stowarzyszenie statystyków pod nazwą Międzynarodowego Instytutu Statystycznego (International Statistical Institute). Siedzibą ISI jest Haga w Holandii W Polsce niepodległej w 1918 powołano Główny Urząd Statystycznych (GUS). GUS powstał z inicjatywy Ludwika Krzywickiego, jednego z najwybitniejszych socjologów swoich czasów. Działalność GUS była zawieszona w okresie drugiej wojny światowej, i wznowiona w 1945 roku.

Definicja - Wikipedia Statystyka – nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska, w tym masowe. Duża część nauki zajmuje się obserwacją otaczającego nas świata lub też posługuje się eksperymentem dla potwierdzenia swoich teorii. Takie badanie przebiega zazwyczaj według schematu: zebranie dużej ilości danych, ich analiza i interpretacja. Badaczowi potrzebny jest wtedy zestaw narzędzi - sprawdzonych metod, które umożliwią mu operowanie na dużych zbiorach danych. Tworzeniem i rozwijaniem takich użytecznych narzędzi zajmuje się właśnie statystyka.

Główne funkcje statystyki Opisywanie/podsumowywanie/ tabelaryzowanie danych, Testowanie hipotez (przewidywań) na temat danych Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupień

Opisywanie/podsumowywanie/ tabelaryzowanie danych Podsumowanie/rysowanie kształt rozkładu zmiennych ciągłych, Tabelaryzowanie/ilustrowanie graficzne danych jakościowych (takich jak płeć, zawód) oraz wyznaczanie liczności, procentów itp., Przeprowadzanie eksploracji/ podsumowywanie szeregów czasowych

Testowanie hipotez (przewidywań) na temat danych Kształtu (lub dopasowania) rozkładu, Różnic pomiędzy grupami/próbami, Różnic pomiędzy zmiennymi, Zależności (relacji) między zmiennymi, Różnic w relacjach pomiędzy zmiennymi w różnych grupach

Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupień Czynników lub wymiarów wśród wielu zmiennych ciągłych, Skupień lub naturalnych grup zmiennych lub przypadków, Wzorców lub trendów zachodzących w czasie, Związków w tablicach wielodzielczych. Związków pomiędzy zmiennymi niezależnymi (objaśniającymi) a zmiennymi zależnymi, określającymi przynależność do grup (kategorii).

Zakres tematyczny zajęć Wprowadzenie. Podstawowe pojęcia. Porządkowanie i wizualizacja danych. Statystyki opisowe. Podstawy teorii prawdopodobieństwa. Własności i zastosowanie rozkładów dwumianowego, Poissona, geometrycznego i hipergeometrycznego (urnowego). Krzywa normalna i rozkłady próbkowe. Estymacja statystyczna. Testowanie hipotez. Korelacja i regresja. Test Chi-kwadrat i rozkład F. Statystyki nieparametryczne. Twierdzenie Bayesa. Zagadnienia specjalistyczne 1 i 2.

Wzór zakresu tematycznego i formy wykładów

Statystyka jest łatwa ?

Podręczniki

Podręczniki

Podręczniki

Encyklopedie i słowniki

Forma i termin zaliczenia przedmiotu Obowiązują zarówno treści przekazane w trakcie wykładu, jak i znajdujące się w obowiązkowych lekturach Zaliczenie jest pisemne i trwa 45 minut Składać się będzie z 8 pytań testowych (wybór z 4 odpowiedzi) i 2 pytań otwartych Proponowane terminy zaliczenia i poprawki: 6 i 13 VI 2014

Podręczniki dla Was!

Internetowy podręcznik statystyki: http://www. statsoft

Statystyczna wizualizacja http://vis.supstat.com/

Statystyka – strona domowa wykładów i ćwiczeń: http://geoinfo.amu.edu.pl/staff/astach/Stat_geoinfo_2013.htm

Temat 1: Wprowadzenie. Podstawowe pojęcia. populacja, próba statystyczna, zmienne ilościowe i jakościowe, parametr populacji, statystyka próby, skale pomiarowe, statystyka opisowa, wnioskowanie statystyczne, próbkowanie losowe, inne schematy próbkowania, błąd próby, obserwacja, eksperyment, efekt placebo, grupa kontrolna, randmizowany eksperyment kontrolowany, randomizowany eksperyment blokowy, replikacja, podwójna ślepa próba.

Badania statystyczne

PODSTAWOWE POJĘCIA STATYSTYKI Zbiorowość statystyczna, nazywana też populacją statystyczną, - zbiór elementów (osób, przedmiotów, zdarzeń) podobnych, lecz nie identycznych pod względem określonej cechy, poddanych badaniom statystycznym. Element zbiorowości statystycznej (populacji statystycznej) jest nazywany jednostką statystyczną. Liczba jednostek statystycznych, czyli elementów zbiorowości, jest nazywana liczebnością zbiorowości. Cecha statystyczna (nazywana też zmienną) to właściwość elementów zbiorowości statystycznej będąca przedmiotem badania statystycznego.

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Skończona Ma skończoną liczbę jednostek; np. 50 firm farmaceutycznych Nieskończona Ma nieskończona lub niemożliwą do ustalenia liczbę jednostek statystycznych; Np. zbiorowość mikroorganizmów, klienci odwiedzający centrum handlowe

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Jednowymiarowa badana ze względu na jedną cechę np. firmy farmaceutyczne badane ze względu na wielkość obrotów Wielowymiarowa badana jednocześnie ze względu na kilka cech np. firmy farm. W których badamy zależność wielkości obrotów od liczby przedstawicieli handlowych

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Względnie jednorodna Jej podzbiorowości mało różnią się własnościami np. zbiorowość gospodarstw 2 – osobowych badana ze względu na tygodniowe wydatki na żywność Niejednorodna Jej podzbiorowości wyraźnie różnią się własnościami np. zbiorowość gospodarstw o różnej wielkości badana ze względu na tygodniowe wydatki na żywność

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Statyczna Wszystkie jednostki statystyczne pochodzą z tego samego okresu np. firmy farm. zarejestrowane we wrześniu 2006 r., spółki na giełdzie notowane 15.06.2007r. Dynamiczna Jednostki statystyczne pochodzą z różnych okresów np. kolejne sesje giełdowe w październiku 2006r.

Cecha Badana własność elementów populacji statystycznej, która różnicuje tę populację Cechy mierzalne (ilościowe): możliwe do opisania za pomocą liczb ciągłe: przyjmujące dowolne wartości w danym przedziale skokowe: przyjmująca określone wartości w danym przedziale, Cechy niemierzalne (jakościowe): można je jedynie opisać słownie lub za pomocą odpowiednich skal

Klasyfikacja cech statystycznych Cecha statystyczna ilościowa (mierzalna) wyrażone za pomocą liczb jakościowa (niemierzalna) wyrażona w sposób opisowy. skokowa przyjmuje skończoną lub przeliczalną liczbę wartości; w pewnym przedziale zmienności może przyjąć tylko niektóre wartości. ciągła - może przyjąć każdą wartość z określonego przedziału liczbowego

PRZYKŁAD 1 Badamy wysokość kredytów wśród klientów indywidualnych PKO BP w dniu 30.06.2007r. Zbiorowość statystyczna: indywidualni kredytobiorcy PKO BP Jednostka statystyczna: jeden klient – obiekt materialny (kto – klient PKO BP, kiedy – 30.06.2007r., gdzie – Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: wysokość kredytu (tys. zł) Typ cechy statystycznej: mierzalna, ciągła

PRZYKŁAD 2 Badamy opinię pracowników, dotyczącą decyzji zarządu jednej z warszawskich firm o połączeniu z jedną firmą. Zbiorowość statystyczna: pracownicy firmy Jednostka statystyczna: jeden pracownik – obiekt materialny (kto – pracownik firmy, kiedy – np. 31.05.2007r., gdzie – Warszawa, Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: opinia (kategoria cechy: popieram, nie popieram, nie wiem) Typ cechy statystycznej: niemierzalna

PODSTAWOWE POJĘCIA STATYSTYKI Dane populacji zawierają informacje o wszystkich obiektach będących w sferze zainteresowań. Dane próby zawierają informacje jedynie o niektórych obiektach będących w sferze zainteresowań.  Parametr populacji to numeryczna miara charakteryzująca całą populację Statystyka próby to numeryczna charakterystyka próby. Statystyka opisowa dotyczy metod porządkowania, wizualizacji i podsumowywania danych pochodzących z prób lub całej populacji Statystyka dedukcyjna dotyczy metod służących do wyciągania wniosków na temat całej populacji przy wykorzystaniu informacji pozyskanych z próby.

Skale pomiarowe Zmienne jakościowe Zmienne ilościowe Uzależnione są od rodzaju opisywanych zmiennych Determinują, co można zrobić z daną zmienną Zmienne jakościowe Skala nominalna Skala porządkowa (rangowa) Zmienne ilościowe Skala przedziałowe (interwałowa) Skala ilorazowa (stosunkowa)

Skala nominalna Pozwala rozpoznawać obiekty jednakowe i różne, bez wypowiadania się o relacjach między nimi, np. gatunek, rodzaj drewna, rodzaj zakładu pracy, płeć, itp. Często pomiar na skali nominalnej jest liczbowym etykietowaniem badanych obiektów, np. kody w niektórych bazach danych Bardzo słaba skala pomiarowa Graficzna prezentacja, dominanta

Skala porządkowa Dodatkowo wprowadza relację porządku w zbiorze zmiennych jakościowych, np. drewno suche, wilgotne; uszkodzenie słabe, średnie, silne; ... Jest skalą mocniejszą niż nominalna Powoduje najwięcej problemów i nieporozumień, przedmiot powszechnie popełnianych błędów

Skala porządkowa Przykład: skala ocen (ndst, dst, db, bdb) Wszelkiego rodzaju obliczenia są tutaj nadużyciem: nieznana jest odległość między poszczególnymi ocenami (różnica w między różnymi stopniami jest różna; często mieszane kategorie) Możliwe jest jedynie określenie, że np. silny stopień uszkodzenia jest mocniejszy, niż słaby

Skala przedziałowa Zachowuje własności skali porządkowej, ale dodatkowo wyposażona jest w stałą jednostkę miary i umowne zero Możliwy jest pomiar odległości między uporządkowanymi zmiennymi Jest skalą mocniejszą od porządkowej

Skala przedziałowa Przykład: skala Celsjusza dla temperatury, skala czasu, itp. Możliwe jest określenie o ile stopni dana temperatura różni się od innej Ale nie można opisać sensownie stosunku dwóch wartości zmiennych Np. średnia temperatura lipca w centralnej Polsce (17°C) różni się od średniej rocznej temperatury tego obszaru (7°C) o 10 stopni, ale nie oznacza to, że w lipcu jest prawie 2,5 raza cieplej, niż średnio w roku

Skala ilorazowa różni się od skali przedziałowej tym, że posiada zero absolutne, a nie umowne Możliwe jest określenie ile razy dana cecha jest większa od innej Jest to najsilniejsza skala pomiarowa

Skala ilorazowa Przykład: skala Kelwina temperatury, kapitał (liczba pieniędzy), upływ czasu, itp. Gleba o temperaturze 50°C (323°K) jest 1.1 raza (czyli o 10%) cieplejsza od gleby o temperaturze 20°C (293 K) Przykład: liczba kandydatów na studia Na WB (300) było 5 razy mniej kandydatów na studia, niż na WNGiG (1500) – zerem absolutnym jest tu brak kandydatów na dany kierunek studiów

Typy próbkowania Jeśli każdy obiekt należący do populacji ma jednakową szansę żeby zostać wyselekcjonowany do badań to wtedy mówimy o próbkowaniu losowym. W badaniach statystycznych wnioski opieramy nie na podstawie charakterystyki pojedynczego obiektu wybranego z populacji, ale podzbioru składającego się z n takich obiektów. Nie wystarczy zatem, aby każdy obiekt miał jednakową szansę żeby zostać wybrany. Musi być też zachowana zasada, że każda próba składająca z n obiektów, ma równą szansę na pobór – wtedy dysponujemy prostą próbą losową.

Podstawa statystyki – próba losowa

Tablica liczb losowych - fragment

Próbkowanie losowe Użyj tablicy liczb losowych do wyselekcjonowania próby 30 samochodów przeznaczonych do jazd testowych z 500 które zostały wyprodukowane w tym tygodniu 99281 59640 15221 96079 09961 05371 992 815 964 015 221 960 790 996 105 371

Typy próbkowania Kiedy wylosowany obiekt nie zostaje usunięty z badanej populacji, to wtedy stosujemy próbkowanie ze zwracaniem. Oznacza to możliwość, wylosowania tego samego obiektu więcej niż jeden raz.  Próbkowanie stratyfikowane jest dwustopniowe. Najpierw badaną populacje dzielimy na grupy bądź klasy o których wiemy, że mają wpływ na badaną charakterystykę. Ich udział w próbie musi być identyczny jak w populacji. Następnie w obrębie każdej grupy losowo dobieramy obiekty do badań.  Kiedy jednostki populacji są uporządkowane w jakiś naturalny sposób, stosujemy często próbkowanie systematyczne. Polega ono na losowym wyborze pierwszego obiektu, a następnie dobieraniu k-tych kolejnych, na przykład co 5 osoba w kolejce do kina.

Typy próbkowania W badaniach społecznych często stosuje się próbkowanie grupowe. Najpierw populację dzieli się na obszary albo grupy, a następnie z nich wybiera się losowo jakąś część. W badaniach uwzględnia się wszystkie jednostki (obiekty) należące do wybranych grup. Jeśli chcemy na przykład przeprowadzić badania uczniów szkół podstawowych w dużej aglomeracji miejskiej, możemy na przykład losowo wybrać 5 szkół i uwzględnić wszystkich uczęszczających do nich uczniów. Często badana populacja jest bardzo duża lub geograficznie rozproszona. Wówczas często stosuje się do jej badań schemat próbkowania wielostopniowego. Przykładowo do jakiś celów konieczne jest przeprowadzenie ankiet w 10 000 gospodarstw domowych w Polsce. Zaczynamy od losowego wybrania z każdego województwa trzech powiatów. W tych powiatach dzielimy gminy na wiejskie i miejskie i/lub ze względu na ilość mieszkańców lub powierzchnię. Następnie dokonujemy stratyfikowanego próbkowania gmin ze względu na przyjęte kryterium. Na końcu losujemy pojedyncze miejscowości/dzielnice miast/kwartały ulic i wewnątrz nich przeprowadzamy ankietowanie każdego gospodarstwa domowego.

Typy próbkowania Próbkowanie przypadkowe stosują często media zasięgając opinii publicznej w aktualnych sprawach. Najczęściej wygląda to tak, że dziennikarz staje na ulicy i odpytuje przypadkowych przechodniów. Wynik takiej sondy jest oczywiście bardzo mało miarodajny. Zależy on dziesiątków czynników, takich jak miejsce przeprowadzenia sondy, pora dnia, sposób zadawania pytań itp.

Badania populacji Lista (zestawienie) obiektów z których wybierana jest próba określana jest jako rama próbkowania. Idealnie jest wówczas gdy rama obejmuje całą populację. Jednakże często, ze względów praktycznych nie są dostępne wszystkie obiekty należące do populacji. Używając na przykład spisu telefonicznego jako ramy próbkowania nie uwzględniamy osób, które zastrzegły swój numer i dane osobowe.  Próba nigdy nie jest idealnym odzwierciedleniem populacji. Różnica pomiędzy wartościami tej samej charakterystyki pozyskanej z populacji i z próby stanowi tak zwany błąd próbkowania.

Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku Pismo Literary Digest przeprowadziło, tak w przypadku kilku poprzednich wyborów, szerokie badania opinii publicznej. W rzeczywistości było to najbardziej liczne badania ankietowe jakie do tej pory przeprowadzono!!! Ankiety, w postaci kartek pocztowych, rozesłano do 10 milionów osób. Otrzymano około 2,3 mln. odpowiedzi.

Na podstawie ankiety Literary Digest przewidywał, że wybory prezydenckie w 1936 roku wygra Landon otrzymując 57,1% głosów w wyborach powszechnych, i 370 do 161 w proporcjach głosów elektorskich Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku Tabela obok przedstawia wyniki sondażu opublikowanego przez The Literary Digest 31 października 1936, na krótko przed wyborami prezydenckimi w 1936 roku W tabeli wyniki są podane w odniesieniu do poszczególnych stanów (w 1936 roku było ich 48). Zmienna „Electoral Vote” odnosi się do liczby głosów elektorów w poszczególnych stanach – w USA wybory są dwustopniowe. W wyborach powszechnych obywatele posiadający czynne prawo wyborcze decydują o tym, który z kandydatów otrzyma głosy elektorskie przypisane do poszczególnych stanów. Z każdego stanu pochodzi tylu elektorów, ilu ma on przedstawicieli w Kongresie. Wybór elektora zgadza się z preferencjami wyborców, ponieważ ma on obowiązek respektować ich zdanie. Kolegium elektorów liczy aktualnie 538 członków.

Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku Wyniki ankiety Literary Digest zakwestionował jedynie George H. Gallup, amerykański profesor i badacz, socjolog, statystyk i publicysta. W tym czasie był dyrektorem badawczym agencji reklamowej Young & Rubicam. Od 1933 r. do 1937 r. był profesorem dziennikarstwa na Columbia University, lecz zrezygnował ze stanowiska krótko po utworzeniu w 1935 r. własnego ośrodka badania opinii publicznej American Institute of Public Opinion (Instytut Gallupa). Gallup przeprowadził własne badania na próbie 50 tys. respondentów. Jego wyniki były całkowicie odmienne od Literary Digest. Prognozował zwycięstwo Roosevelta z 56% głosów w wyborach ogólnokrajowych (w rzeczywistości Roosevelt zdobył 61%). Zwycięstwo Roosevelta było miażdżące. Ostatecznie Landon wygrał tylko w dwóch stanach: Maine i Vermont, co dało mu tylko 8 głosów elektorskich. Był to najgorszy wynik, uzyskany przez przedstawiciele jednej z dwóch głównych partii w kolegium w historii.

Największy w historii błąd badań ankietowych: wybory prezydenckie w USA w 1936 roku Z perspektywy czasu, przyczyna porażki Literary Digest jest jasna. Mimo że ankietowano dziesięć milionów osób (z czego około 2,3 mln odpowiedziało) co jest astronomiczną liczbą dla każdego sondażu, wykorzystana próba była zła. Pismo ankiety wysłało przede wszystkim do własnych czytelników (abonentów). W czasie trwania Wielkiego Kryzysu było jasne, że jest to grupa z dochodami znacznie powyżej średniej krajowej. Skorzystano także z dwóch innych łatwo dostępnych list: zarejestrowanych właścicieli samochodów i użytkowników telefonów. Spowodowało to wyselekcjonowanie z populacji wyborców ludzi zamożnych – tradycyjnych zwolenników partii republikańskiej. Magazyn Literary Digest został całkowicie zdyskredytowany i po dwóch latach zamknięty. Ta klęska doprowadziła do znacznego udoskonalenia technik badania opinii publicznej, a później zaczęto ją uważać za początek doby nowoczesnych naukowych badań opinii publicznej

Badania populacji Kiedy wykorzystujemy pomiary lub obserwacje pochodzące z całej populacji wówczas mamy do czynienia z danymi spisu (powszechnego) Kiedy dysponujemy pomiarami lub obserwacjami pochodzącymi jedynie z części populacji oznacza to że mamy do czynienia z próbą.  W badaniach obserwacyjnych pomiary i obserwacje wykonywane są na jednostkach wchodzących w skład populacji w taki sposób, że nie zmienia to charakterystyk badanej zmiennej. Wykonując eksperyment wprowadzamy zmiany wpływające na jednostki wchodzące w skład populacji tak, aby zmierzyć/zaobserwować ich reakcję w zakresie badanej zmiennej.

Eksperyment - testowanie hipotezy

Testowanie hipotez na podstawie próby nie jest takie proste ocena niepewności wniosków

Badania eksperymentalne Kiedy badany obiekt (osoba) nie jest poddany w trakcie eksperymentu oddziaływaniu, lecz sądzi że jest inaczej i reaguje zgodnie z tym przekonaniem mamy do czynienia z tak zwanym efektem placebo Żeby uniknąć efektu placebo obiekty poddane eksperymentom dzieli się na dwie grupy: kontrolną i poddaną działaniu czynnika Najczęstszym sposobem podziału na grupy jest wykorzystanie całkowicie przypadkowego losowania czyli tak zwany randmizowany eksperyment kontrolowany

Badania eksperymentalne - przykład Czy ból w klatce piersiowej może być zmniejszony poprzez wiercenie otworów w sercu? Przez ponad dekadę, chirurdzy używali sprzętu laserowego by wiercić dziury w mięśniu sercowym. Wielu pacjentów po takiej terapii stwierdzało trwały i silny spadek objawów dławicy piersiowej (ból w klatce piersiowej). Czy jest rzeczywisty skutek terapii, czy też jest to efekt placebo? Kwestię tą miał rozstrzygnąć eksperyment przeprowadzony w Lenox Hill Hospital w Nowym Jorku. Terapia laserowa była przeprowadzana poprzez zastosowanie procedury mniej inwazyjnej (cewnik laserowy). 298 ochotników z ciężkimi, nieuleczalnymi, bólami w klatce piersiowej losowo przypisano do dwóch grup: leczonych laserem i nie leczonych. Pacjenci otrzymywali leki znieczulające, ale zabieg był wykonywany na jawie. Mogli słyszeć jak lekarze omawiają szczegóły zabiegu. Każdy pacjent niezależnie od płci był przekonany że jest rzeczywiście leczony. Schemat eksperymentu wyglądał następująco:

Badania eksperymentalne - przykład Pacjenci poddani terapii laserowej czuli się lepiej. Zaskakującym wynikiem eksperymentu było jednakże to, że grupa placebo wykazała większą poprawę stanu. Trudno jest kontrolować wszystkie zmienne, które mogą wpływać na reakcję na leczenie. Jednym ze sposobów kontrolowania niektórych zmiennych jest przeprowadzanie dodatkowego „blokowania” obiektów. Blok jest grupa osób/obiektów mające pewne cechy wspólne, które mogą mieć wpływ na wynik eksperymentu (skuteczność leczenia). W randomizowanym eksperymencie blokowym, jednostki są najpierw podzielone na bloki, a następnie za pomocą losowania określa się jaką metodą ma być leczona każda osoba w bloku. W opisanym eksperymencie czynnikiem, który nie uwzględniono, a który mógł mieć wpływ na wynik leczenia, była płeć pacjenta. Plan randomizowanego eksperymentu blokowego umożliwiającego zbadanie wpływu płci byłby następujący:

Badania eksperymentalne - przykład Tworzy się zawsze grupę kontrolną. Ta grupa otrzymuje leczenie obojętne, umożliwiając naukowcom ocenę efektu placebo. Ogólnie rzecz biorąc, grupa kontrolna umożliwia uwzględnienie wpływu innych znanych lub nieznanych zmiennych, które mogą być przyczyną zmiany odpowiedzi w grupie eksperymentalnej. Takie zmienne są nazywane „ukrytymi” lub „zakłócającymi”. Randomizacja dotyczy losowego sposobu selekcji do składu w obu grupach. Zasad ta pomaga zapobiec stronniczości przy wyborze członków dla każdej grupy. Powtarzanie (replikacja) eksperymentu na wielu pacjentach zmniejsza możliwość, że obserwowane różnice między grupami są efektem jedynie przypadku. Wiele eksperymentów jest wykonywanych zgodnie z zasadą podwójnie ślepej próby. Oznacza to, że ani osoby poddane terapii, ani bezpośrednio wykonujący badanie nie wiedzą jakie leczenie otrzymują pacjenci. Eksperymenty tego typu pozwalają uniknąć subtelnych oddziaływań jakie lekarz może, nawet nieświadomie, wywierać na pacjenta.

Ogólny plan badań wykorzystujących statystyczne metody analizy danych Określenie osób czy też obiektów poddanych badaniom. Określenie cech (zmiennych), którymi owe obiekty będą opisywane. Ustalenie, czy badanie dotyczyć będzie całej populacji. Jeśli nie, to określenie odpowiedniej metody pobierania próbek Ustalenie planu gromadzenia danych, uwzględniającego, jeśli jest taka konieczność, prywatność i poufność, oraz wymogi etyczne Zebranie danych. Analiza danych przy użyciu odpowiednich metod statystycznych. Identyfikacja wszelkich zastrzeżeń dotyczących danych i określenie zaleceń do dalszych badań