STATYSTYKA – kurs podstawowy wykład 1 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii
Informacje organizacyjne Konsultacje: czwartki 15:30 – 16:30 po kontakcie mailowym Kontakt: Materiały: Literatura podstawowa: M. Rószkiewicz: Statystyka. Kurs podstawowy, EFEKT, Warszawa 2005 J. Jóźwiak, J. Podgórski: Statystyka od podstaw. Wyd. VI zmienione, PWE, Warszawa 2006 J. Podgórski: Statystyka dla studiów licencjackich, Wyd. III zmienione, PWE, Warszawa 2010 A.D. Aczel: Statystyka w zarządzaniu. PWN, W-wa Tablice statystyczne
Zasady zaliczenia przedmiotu Egzamin: -Jest standardowy i ma formę pisemną -Obejmuje zagadnienia z całości materiału przedmiotu -Składa się z dwóch części: zadaniowej oraz testowej W czasie pisania egzaminu można korzystać tylko z nieopisanych wzorów, tablic statystycznych oraz kalkulatorów. Elementy oceny końcowejOgółem – 100%Ogółem – 45 punktów Egzamin - zadania70%31,5 Egzamin - test20%9 Ocena z ćwiczeń10%4,5
Zasady zaliczenia przedmiotu Ćwiczenia: obecność na zajęciach jest obowiązkowa za aktywne uczestnictwo w ćwiczeniach można będzie uzyskać 4,5 pkt Ocena końcowa ocena: 2 – poniżej 54% ogólnej liczby punktów ocena: 3 – <54% – 62%) ocena: 3,5 – <62% – 70%) ocena: 4 – <70% – 78%) ocena: 4,5 – <78% – 86%) ocena: 5 – <86% – 94%) ocena: 5,5 –
Informacje organizacyjne
PRZYKŁADOWE OBSZARY ZASTOSOWANIA STATYSTYKI EKONOMIA ocena wzrostu gospodarczego (1,5% PKB), ocena poziomu inflacji (8,9%) INDEKSY PROSTE I ZŁOŻONE POLTYKA SPOŁECZNA ocena poziomu ubóstwa, ocena poziomu i zmian dochodów INDEKSY PROSTE I ZŁOŻONE MARKETING badania marketingowe i badania rynku, analiza lojalności klientów BADANIA ANKIETOWE, INDEKSY ZARZĄDZANIE ocena zadowolenia i satysfakcji z pracy BADANIA ANKIETOWE RACHUNKOWOŚĆ analiza zależności kosztów od wielkości produkcji oraz przychodów od wielkości sprzedaży ANALIZA REGRESJI SOCJOLOGIA sondaże i badania ankietowe BANKOWOŚĆ modele ratingowe do oceny ryzyka kredytowego ANALIZA REGRESJI
„Instytucje tworzone przez polityków nie mają dużego wpływu na życie – uważają Polacy. Wśród podmiotów wybieranych przez ankietowanych rząd znalazł się na piątym miejscu (31 proc. wskazań), Sejm na siódmym (24 proc.), prezydent na ósmym (21 proc.), a Senat na dziesiątym (14 proc.).” Źródło: http:// Przykład sondażu
STATYSTYKA Sztuka zbierania informacji o prawidłowościach w kształtowaniu się zjawisk i procesów (Statystyka. Kurs podstawowy, Rószkiewicz) Zbiór metod służących: 1.pozyskiwaniu, 2.prezentacji 3.analizie danych (Statystyka od podstaw, Jóźwiak, Podgórski) Nauka o metodach badań poświęconych liczbowo wyrażalnym właściwościom zbiorowości; Nauka badająca prawidłowości zjawisk masowych, wyrażając je za pomocą liczb; (Statystyka dla ekonomistów, Pułaska-Turyna)
STATYSTYKA Cele Wykorzystywana w naukach ekonomicznych, społecznych i zarządzaniu do interpretowania rzeczywistości tak, aby tworzyć dobre podstawy do podejmowania decyzji Zadania 1.Zbieranie informacji 2.Przetwarzanie i organizacja danych (tworzenie wykresów, tabel zbiorczych) 3.Analiza i interpretacja informacji
W podejmowaniu decyzji wykorzystuje się dwa główne źródła danych: Dane wtórne powstały w wyniku uporządkowania i przetworzenia danych pierwotnych w tzw. szeregi rozdzielcze są dostępne w postaci publikacji (dane zawarte w rocznikach statystycznych, biuletynach statystycznych, informacjach prasowych, zasobach internetowych) Dane pierwotne (źródłowe) uzyskiwane drogą bezpośredniej obserwacji (wywiad telefoniczny CATI, wywiad bezpośredni, gdy z komputerem – CAPI, inna forma sondażu, obserwacja eksperyment)
Skąd wziąć dane pierwotne? z badania statystycznego, które obejmuje obserwację statystyczną (pomiar lub zliczanie) – może to być ankieta
3 płaszczyzny analizy danych Populacja (populacja generalna, zbiorowość generalna) wszystkie jednostki tworzące zbiorowość statystyczną i będące przedmiotem badania statystycznego sposób określenia populacji zależy od celu badania populacja skończona – zbiór samochodów wyprodukowanych w minionym roku populacja nieskończona – zbiorowość respondentów odwiedzających centrum handlowe danego dnia badanie pełne (przykład: spis powszechny) charakterystyki liczbowe wyrażające właściwości populacji określane są mianem parametrów
3 płaszczyzny analizy danych Próba jednostki wybrane w określony sposób z populacji; wybór może być losowy lub inny badanie częściowe (częściej wykorzystywane w praktyce) Wnioskowanie statystyczne przewidywanie, szacowanie, wyciąganie wniosków dotyczących populacji na podstawie danych z próby podstawą wnioskowania jest fragmentaryczna informacja o populacji (próba to tylko wycinek populacji) metody wnioskowania statystycznego nie dostarczają informacji z całkowitą pewnością, ale pozwalają określić precyzję (błąd) informacji
Co zrobić, aby wnioski z próby były wiarygodne? Odpowiedni sposób dobrania (wylosowania) próby Aby możliwa była ocena błędów (losowych) badania dobór powinien być losowy: 1. każda jednostka populacji musi mieć znane prawdopodobieństwo znalezienia się w próbie 2. istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji
Procedura losowania Zbiór wszystkich jednostek tworzących populację operat losowania (np. baza numerów PESEL, baza numerów REGON, lista studentów I roku) Sposób wyboru jednostek (sposób losowania) schemat losowania Podstawowy schemat losowania – losowanie proste każda jednostka populacji ma takie samo prawdopodobieństwo znalezienia się w próbie i prawdopodobieństwo to nie zmienia się w trakcie losowania – losowanie ze zwracaniem
Przykład badania Chciałabym się uzyskać następujące informacje o studentach uczęszczających na mój wykład: 1. jaki mają kolor oczu 2. ile mają rodzeństwa 3. ile minut zajmuje im dotarcie na uczelnię A.Mogę zapytać każdego ze studentów – badanie pełne, ale to zajmie dużo czasu, nie wszyscy mogą być obecni, gdy będę przeprowadzać badanie B.Mogę wybrać grupę studentów i zapytać tylko ich – badanie częściowe, ale muszę najpierw odpowiedzieć na pytanie, w jaki sposób i ilu ich wybrać, aby ta grupa dobrze reprezentowała wszystkich studentów uczęszczających na wykład
Ad B. -wybrana grupa studentów stanowi próbę studentów (wszyscy studenci uczęszczający na wykład stanowią populację studentów) -jeśli wyboru dokonam w sposób losowy i prosty (czyli każdy student będzie miał takie samo prawdopodobieństwo dostania się do próby), to będzie to prosta próba losowa - jeśli próba będzie dobrze reprezentować (będzie odzwierciedlać) populację, będzie to próba reprezentatywna -operatem losowania będzie lista studentów z Dziekanatu Studium Licencjackiego (populacja skończona); studenci są ponumerowani -liczbę studentów ustalę za pomocą odpowiedniego wzoru (ale o tym będziemy się uczyć na piątym wykładzie) -wylosuję 24 studentów za pomocą tablicy liczb losowych lub generatora liczb losowych z Excela
Jak zapytam studentów? za pomocą kwestionariusza ankietowego wypełnianego samodzielnie
Wyniki Cechy statystyczne: Kolor oczu – cecha niemierzalna Liczba rodzeństwa – cecha mierzalna, skokowa (bo przyjmuje wartości przeliczalne) Czas – cecha mierzalna, ciągła (bo przyjmuje wartości nieprzeliczalne) Jednostką obserwacji jest student Dane indywidualne (źródłowe)
Uporządkujmy te dane zbudujmy szeregi rozdzielcze = rozkłady empiryczne cechy statystycznej
x i - kolor oczuliczba osób - n i niebieski10 zielony5 brązowy5 szary4 suma24 x i – liczba rodzeństwaliczba osób - n i suma24
(x 0i - x 1i > – czasliczba osób - n i suma24 <x 0i - x 1i ) – czasliczba osób - n i suma24 (x 0i - x 1i > – czasliczba osób - n i ∞3 suma24
Dane pogrupowane x i - kolor oczuliczba osób - n i niebieski10 zielony5 brązowy5 szary4 suma24 x i – liczba rodzeństwaliczba osób - n i suma24 (x 0i - x 1i > – czasliczba osób - n i ∞3 suma24 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Liczba przedziałów - ??? Rozpiętość i-tego przedziału h = x 1i – x 0i Środek przedziału x i Rozkład empiryczny – tabela, w której w pierwszej kolumnie (wierszu) umieszczamy wartości przyjmowane przez mierzoną cechę (x i ), a w drugiej kolumnie (wierszu) wpisujemy liczebności (n i ), z jakimi wartości tej cechy wystąpiły w badaniu
Dane pogrupowane x i - kolor oczunini wiwi niebieski10 10/24 =0,417 zielony5 5/24=0,208 brązowy5 5/24=0,208 szary4 4/24 =0,167 suma241 x i – liczba rodzeństwanini wiwi 06 6/24=0, /24=0, /24=0, /24=0,042 suma241 (x 0i - x 1i > – czasnini wiwi /24=0, /24=0, /24=0, /24=0, /24=0, ∞3 3/24=0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Rozkład empiryczny można również przedstawić za pomocą częstości względnych w i = n i /N, gdzie: n i to liczba jednostek w i-tej klasie, N – liczebność całej zbiorowości
Dane pogrupowane x i - kolor oczunini wiwi niebieski10 10/24 =0,417 zielony5 5/24=0,208 brązowy5 5/24=0,208 szary4 4/24 =0,167 suma241 x i – liczba rodzeństwanini wiwi 06 6/24=0, /24=0, /24=0, /24=0,042 suma241 (x 0i - x 1i > – czasnini wiwi /24=0, /24=0, /24=0, /24=0, /24=0, ∞3 3/24=0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Rozkłady liczebności informują o liczbie jednostek Rozkłady częstości względnych informują o strukturze, czyli o tym, jaką część zbiorowości stanowią jednostki przydzielone do określonych klas wartości
Dane pogrupowane x i - kolor oczunini wiwi niebieski10 10/24 =0,417 zielony5 5/24=0,208 brązowy5 5/24=0,208 szary4 4/24 =0,167 suma241 x i – liczba rodzeństwanini wiwi 06 6/24=0, /24=0, /24=0, /24=0,042 suma241 (x 0i - x 1i > – czasnini wiwi /24=0, /24=0, /24=0, /24=0, /24=0, ∞3 3/24=0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów W badanej grupie studentów: 5 studentów ma oczy koloru zielonego 20,8% studentów ma oczy koloru zielonego W badanej grupie studentów: 4 studentów ma dwoje rodzeństwa 16,7% studentów ma dwoje rodzeństwa W badanej grupie studentów: 7 studentów (29,2% studentów) dociera na uczelnię w czasie od 0 do 10 minut
Prezentacja graficzna rozkładu
x i - kolor oczunini wiwi niebieski10 0,417 zielony5 0,208 brązowy5 0,208 szary4 0,167 suma241 Rozkład koloru oczu w wybranej grupie studentów W przypadku cechy niemierzalnej, jaką jest kolor oczu, często stosowana formą prezentacji graficznej jest wykres kołowy
Prezentacja graficzna rozkładu x i – liczba rodzeństwanini wiwi 06 0, , , ,042 suma241 Rozkład liczby rodzeństwa w wybranej grupie studentów W przypadku cechy mierzalnej skokowej, jaką jest liczba rodzeństwa, do prezentacji graficznej rozkładu stosuje się wykres słupkowy
Prezentacja graficzna rozkładu (x 0i - x 1i > – czasnini wiwi , , , , , ,125 suma241 Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Liczba osób n i Odsetek osób w i W przypadku cechy mierzalnej ciągłej, jaką jest czas dotarcia na uczelnię, do prezentacji graficznej rozkładu stosuje się: 1.Histogram 2.Wielobok liczebności 3.Krzywą liczebności HISTOGRAM
Prezentacja graficzna rozkładu (x 0i - x 1i > – czasnini wiwi x , , , , , ,12555 suma Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Liczba osób n i Odsetek osób w i WIELOBOK LICZEBNOŚCI
Prezentacja graficzna rozkładu Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Liczba osób n i Odsetek osób w i (x 0i - x 1i > – czasnini wiwi x , , , , , ,12555 suma KRZYWA LICZEBNOŚCI
Częstości względne w i przydatne są do konstrukcji dystrybuanty empirycznej, czyli szeregu skumulowanych częstości względnych F n (x) i = 1, 2, …, k-1
Rozkłady wyrażone za pomocą dystrybuanty empirycznej x i – liczba rodzeństwa wiwi F n (x) 0 6/24=0,2500, /24=0,5420,250+0,542=0, /24=0,1670,250+0,542+0,167=0, /24=0,0420,250+0,542+0,167+0,042=1 suma1--- Rozkład liczby rodzeństwa w wybranej grupie studentów W badanej grupie studentów 95,8% studentów ma co najwyżej dwoje rodzeństwa F n (2) = 0,958 dla x < 0 dla 0 ≤ x <1 dla 1 ≤ x < 2 dla 2 ≤ x < 3 dla x ≥ 3
Rozkłady wyrażone za pomocą dystrybuanty empirycznej (x 0i - x 1i > – czas wiwi F n (x 1i ) , ,1250,292+0,125=0, ,1250,292+0,125+0,125=0, ,1250,292+0,125+0,125+0,125=0, ,2080,292+0,125+0,125+0,125+0,208=0, ∞ 0,1250,292+0,125+0,125+0,125+0,208+0,125=1 suma24--- Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów W badanej grupie studentów 66,7% studentów dociera na uczelnię w ciągu co najwyżej 40 minut F n (40) = 0,667 dla x < 0 dla 0 ≤ x <10 dla 10 ≤ x < 20 dla 20 ≤ x < 30 dla 30 ≤ x < 40 dla 40 ≤ x < 50 dla x ≥ 50
UWAGA W przypadku cechy niemierzalnej, jaką jest kolor oczu, nie występuje gradacja kolorów oczu, dlatego nie można wyznaczyć dystrybuanty empirycznej tego rozkładu
Graficzna prezentacja dystrybuanty empirycznej
x i – liczba rodzeństwa F n (x) 0 0, , , suma--- Rozkład liczby rodzeństwa w wybranej grupie studentów dla x < 0 dla 0 ≤ x <1 dla 1 ≤ x < 2 dla 2 ≤ x < 3 dla x ≥ 3 Graficzna prezentacja dystrybuanty empirycznej CECHA SKOKOWA – liczba rodzeństwa 0,792 0,958 Funkcja przedziałami stała lewostronnie ciągła
Graficzna prezentacja dystrybuanty empirycznej CECHA CIĄGŁA – czas dotarcia na uczelnię 0,292 0,875 Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów (x 0i - x 1i > – czas F n (x 1i ) , , , , , ∞ 1 suma--- dla x < 0 dla 0 ≤ x <10 dla 10 ≤ x < 20 dla 20 ≤ x < 30 dla 30 ≤ x < 40 dla 40 ≤ x < 50 dla x ≥ 50 0,417 0,667 0,542 Funkcja ciągła
Dane indywidualne x i – liczba rodzeństwaliczba osób - n i suma24 Dane pogrupowane W praktyce zamiast przedstawiać całe rozkłady cechy wykorzystuje się ich liczbowe (zwięzłe) charakterystyki
Własności rozkładów cechy statystycznej grupuje się w cztery kategorie zagadnień: 1.Położenie 2.Zróżnicowanie 3.Asymetria 4.Koncentracja Statystyczny opis rozkładu cechy
MIARY POŁOŻENIA Miary klasyczne Średnia arytmetyczna Miary pozycyjne Dominanta Kwantyle (kwartyle, mediana)
MIARY ZRÓŻNICOWANIA Miary klasyczne Wariancja Odchylenie standardowe Współczynnik zmienności Miary pozycyjne Rozstęp Rozstęp ćwiartkowy Odchylenia ćwiartkowe Pozycyjny współczynnik zmienności
MIARY ASYMETRII Miary klasyczne Klasyczny współczynnik asymetrii Miary pozycyjne ……. Rozkład asymetryczny prawostronnie, dodatnio Rozkład asymetryczny lewostronnie, ujemnie Rozkład symetryczny