Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałHalina Czerwińska Został zmieniony 8 lat temu
1
STATYSTYKA – kurs podstawowy wykład 1 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii
2
Informacje organizacyjne Konsultacje: czwartki 15:30 – 16:30 po kontakcie mailowym Kontakt: dorota.bialowolska@gmail.comdorota.bialowolska@gmail.com Materiały: www.e-sgh.pl/bialowolska/statystykawww.e-sgh.pl/bialowolska/statystyka Literatura podstawowa: M. Rószkiewicz: Statystyka. Kurs podstawowy, EFEKT, Warszawa 2005 J. Jóźwiak, J. Podgórski: Statystyka od podstaw. Wyd. VI zmienione, PWE, Warszawa 2006 J. Podgórski: Statystyka dla studiów licencjackich, Wyd. III zmienione, PWE, Warszawa 2010 A.D. Aczel: Statystyka w zarządzaniu. PWN, W-wa 2006. Tablice statystyczne
3
Zasady zaliczenia przedmiotu Egzamin: -Jest standardowy i ma formę pisemną -Obejmuje zagadnienia z całości materiału przedmiotu -Składa się z dwóch części: zadaniowej oraz testowej W czasie pisania egzaminu można korzystać tylko z nieopisanych wzorów, tablic statystycznych oraz kalkulatorów. Elementy oceny końcowejOgółem – 100%Ogółem – 45 punktów Egzamin - zadania70%31,5 Egzamin - test20%9 Ocena z ćwiczeń10%4,5
4
Zasady zaliczenia przedmiotu Ćwiczenia: obecność na zajęciach jest obowiązkowa za aktywne uczestnictwo w ćwiczeniach można będzie uzyskać 4,5 pkt Ocena końcowa ocena: 2 – poniżej 54% ogólnej liczby punktów ocena: 3 – <54% – 62%) ocena: 3,5 – <62% – 70%) ocena: 4 – <70% – 78%) ocena: 4,5 – <78% – 86%) ocena: 5 – <86% – 94%) ocena: 5,5 –
5
Informacje organizacyjne www.e-sgh.pl/bialowolska/statystyka
6
PRZYKŁADOWE OBSZARY ZASTOSOWANIA STATYSTYKI EKONOMIA ocena wzrostu gospodarczego (1,5% PKB), ocena poziomu inflacji (8,9%) INDEKSY PROSTE I ZŁOŻONE POLTYKA SPOŁECZNA ocena poziomu ubóstwa, ocena poziomu i zmian dochodów INDEKSY PROSTE I ZŁOŻONE MARKETING badania marketingowe i badania rynku, analiza lojalności klientów BADANIA ANKIETOWE, INDEKSY ZARZĄDZANIE ocena zadowolenia i satysfakcji z pracy BADANIA ANKIETOWE RACHUNKOWOŚĆ analiza zależności kosztów od wielkości produkcji oraz przychodów od wielkości sprzedaży ANALIZA REGRESJI SOCJOLOGIA sondaże i badania ankietowe BANKOWOŚĆ modele ratingowe do oceny ryzyka kredytowego ANALIZA REGRESJI
7
„Instytucje tworzone przez polityków nie mają dużego wpływu na życie – uważają Polacy. Wśród podmiotów wybieranych przez ankietowanych rząd znalazł się na piątym miejscu (31 proc. wskazań), Sejm na siódmym (24 proc.), prezydent na ósmym (21 proc.), a Senat na dziesiątym (14 proc.).” Źródło: http://www.rp.pl/artykul/99645,432786_Politycy_sie_nie_licza.html, 14.02.2010http://www.rp.pl/artykul/99645,432786_Politycy_sie_nie_licza.html Przykład sondażu
8
STATYSTYKA Sztuka zbierania informacji o prawidłowościach w kształtowaniu się zjawisk i procesów (Statystyka. Kurs podstawowy, Rószkiewicz) Zbiór metod służących: 1.pozyskiwaniu, 2.prezentacji 3.analizie danych (Statystyka od podstaw, Jóźwiak, Podgórski) Nauka o metodach badań poświęconych liczbowo wyrażalnym właściwościom zbiorowości; Nauka badająca prawidłowości zjawisk masowych, wyrażając je za pomocą liczb; (Statystyka dla ekonomistów, Pułaska-Turyna)
9
STATYSTYKA Cele Wykorzystywana w naukach ekonomicznych, społecznych i zarządzaniu do interpretowania rzeczywistości tak, aby tworzyć dobre podstawy do podejmowania decyzji Zadania 1.Zbieranie informacji 2.Przetwarzanie i organizacja danych (tworzenie wykresów, tabel zbiorczych) 3.Analiza i interpretacja informacji
10
W podejmowaniu decyzji wykorzystuje się dwa główne źródła danych: Dane wtórne powstały w wyniku uporządkowania i przetworzenia danych pierwotnych w tzw. szeregi rozdzielcze są dostępne w postaci publikacji (dane zawarte w rocznikach statystycznych, biuletynach statystycznych, informacjach prasowych, zasobach internetowych) Dane pierwotne (źródłowe) uzyskiwane drogą bezpośredniej obserwacji (wywiad telefoniczny CATI, wywiad bezpośredni, gdy z komputerem – CAPI, inna forma sondażu, obserwacja eksperyment)
11
Skąd wziąć dane pierwotne? z badania statystycznego, które obejmuje obserwację statystyczną (pomiar lub zliczanie) – może to być ankieta
12
3 płaszczyzny analizy danych Populacja (populacja generalna, zbiorowość generalna) wszystkie jednostki tworzące zbiorowość statystyczną i będące przedmiotem badania statystycznego sposób określenia populacji zależy od celu badania populacja skończona – zbiór samochodów wyprodukowanych w minionym roku populacja nieskończona – zbiorowość respondentów odwiedzających centrum handlowe danego dnia badanie pełne (przykład: spis powszechny) charakterystyki liczbowe wyrażające właściwości populacji określane są mianem parametrów
13
3 płaszczyzny analizy danych Próba jednostki wybrane w określony sposób z populacji; wybór może być losowy lub inny badanie częściowe (częściej wykorzystywane w praktyce) Wnioskowanie statystyczne przewidywanie, szacowanie, wyciąganie wniosków dotyczących populacji na podstawie danych z próby podstawą wnioskowania jest fragmentaryczna informacja o populacji (próba to tylko wycinek populacji) metody wnioskowania statystycznego nie dostarczają informacji z całkowitą pewnością, ale pozwalają określić precyzję (błąd) informacji
14
Co zrobić, aby wnioski z próby były wiarygodne? Odpowiedni sposób dobrania (wylosowania) próby Aby możliwa była ocena błędów (losowych) badania dobór powinien być losowy: 1. każda jednostka populacji musi mieć znane prawdopodobieństwo znalezienia się w próbie 2. istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji
15
Procedura losowania Zbiór wszystkich jednostek tworzących populację operat losowania (np. baza numerów PESEL, baza numerów REGON, lista studentów I roku) Sposób wyboru jednostek (sposób losowania) schemat losowania Podstawowy schemat losowania – losowanie proste każda jednostka populacji ma takie samo prawdopodobieństwo znalezienia się w próbie i prawdopodobieństwo to nie zmienia się w trakcie losowania – losowanie ze zwracaniem
16
Przykład badania Chciałabym się uzyskać następujące informacje o studentach uczęszczających na mój wykład: 1. jaki mają kolor oczu 2. ile mają rodzeństwa 3. ile minut zajmuje im dotarcie na uczelnię A.Mogę zapytać każdego ze studentów – badanie pełne, ale to zajmie dużo czasu, nie wszyscy mogą być obecni, gdy będę przeprowadzać badanie B.Mogę wybrać grupę studentów i zapytać tylko ich – badanie częściowe, ale muszę najpierw odpowiedzieć na pytanie, w jaki sposób i ilu ich wybrać, aby ta grupa dobrze reprezentowała wszystkich studentów uczęszczających na wykład
17
Ad B. -wybrana grupa studentów stanowi próbę studentów (wszyscy studenci uczęszczający na wykład stanowią populację studentów) -jeśli wyboru dokonam w sposób losowy i prosty (czyli każdy student będzie miał takie samo prawdopodobieństwo dostania się do próby), to będzie to prosta próba losowa - jeśli próba będzie dobrze reprezentować (będzie odzwierciedlać) populację, będzie to próba reprezentatywna -operatem losowania będzie lista studentów z Dziekanatu Studium Licencjackiego (populacja skończona); studenci są ponumerowani -liczbę studentów ustalę za pomocą odpowiedniego wzoru (ale o tym będziemy się uczyć na piątym wykładzie) -wylosuję 24 studentów za pomocą tablicy liczb losowych lub generatora liczb losowych z Excela
18
Jak zapytam studentów? za pomocą kwestionariusza ankietowego wypełnianego samodzielnie
19
Wyniki Cechy statystyczne: Kolor oczu – cecha niemierzalna Liczba rodzeństwa – cecha mierzalna, skokowa (bo przyjmuje wartości przeliczalne) Czas – cecha mierzalna, ciągła (bo przyjmuje wartości nieprzeliczalne) Jednostką obserwacji jest student Dane indywidualne (źródłowe)
20
Uporządkujmy te dane zbudujmy szeregi rozdzielcze = rozkłady empiryczne cechy statystycznej
21
x i - kolor oczuliczba osób - n i niebieski10 zielony5 brązowy5 szary4 suma24 x i – liczba rodzeństwaliczba osób - n i 06 113 24 31 suma24
22
(x 0i - x 1i > – czasliczba osób - n i 0-1510 15-303 30-456 45-605 suma24 <x 0i - x 1i ) – czasliczba osób - n i 0-157 15-304 30-455 45-608 suma24 (x 0i - x 1i > – czasliczba osób - n i 0-107 10-203 20-303 30-403 40-505 50 +∞3 suma24
23
Dane pogrupowane x i - kolor oczuliczba osób - n i niebieski10 zielony5 brązowy5 szary4 suma24 x i – liczba rodzeństwaliczba osób - n i 06 113 24 31 suma24 (x 0i - x 1i > – czasliczba osób - n i 0-107 10-203 20-303 30-403 40-505 50 +∞3 suma24 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Liczba przedziałów - ??? Rozpiętość i-tego przedziału h = x 1i – x 0i Środek przedziału x i Rozkład empiryczny – tabela, w której w pierwszej kolumnie (wierszu) umieszczamy wartości przyjmowane przez mierzoną cechę (x i ), a w drugiej kolumnie (wierszu) wpisujemy liczebności (n i ), z jakimi wartości tej cechy wystąpiły w badaniu
24
Dane pogrupowane x i - kolor oczunini wiwi niebieski10 10/24 =0,417 zielony5 5/24=0,208 brązowy5 5/24=0,208 szary4 4/24 =0,167 suma241 x i – liczba rodzeństwanini wiwi 06 6/24=0,250 113 13/24=0,542 24 4/24=0,167 31 1/24=0,042 suma241 (x 0i - x 1i > – czasnini wiwi 0-107 7/24=0,292 10-203 3/24=0,125 20-303 3/24=0,125 30-403 3/24=0,125 40-505 5/24=0,208 50 +∞3 3/24=0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Rozkład empiryczny można również przedstawić za pomocą częstości względnych w i = n i /N, gdzie: n i to liczba jednostek w i-tej klasie, N – liczebność całej zbiorowości
25
Dane pogrupowane x i - kolor oczunini wiwi niebieski10 10/24 =0,417 zielony5 5/24=0,208 brązowy5 5/24=0,208 szary4 4/24 =0,167 suma241 x i – liczba rodzeństwanini wiwi 06 6/24=0,250 113 13/24=0,542 24 4/24=0,167 31 1/24=0,042 suma241 (x 0i - x 1i > – czasnini wiwi 0-107 7/24=0,292 10-203 3/24=0,125 20-303 3/24=0,125 30-403 3/24=0,125 40-505 5/24=0,208 50 +∞3 3/24=0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Rozkłady liczebności informują o liczbie jednostek Rozkłady częstości względnych informują o strukturze, czyli o tym, jaką część zbiorowości stanowią jednostki przydzielone do określonych klas wartości
26
Dane pogrupowane x i - kolor oczunini wiwi niebieski10 10/24 =0,417 zielony5 5/24=0,208 brązowy5 5/24=0,208 szary4 4/24 =0,167 suma241 x i – liczba rodzeństwanini wiwi 06 6/24=0,250 113 13/24=0,542 24 4/24=0,167 31 1/24=0,042 suma241 (x 0i - x 1i > – czasnini wiwi 0-107 7/24=0,292 10-203 3/24=0,125 20-303 3/24=0,125 30-403 3/24=0,125 40-505 5/24=0,208 50 +∞3 3/24=0,125 suma241 Rozkład koloru oczu w wybranej grupie studentów Rozkład liczby rodzeństwa w wybranej grupie studentów Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów W badanej grupie studentów: 5 studentów ma oczy koloru zielonego 20,8% studentów ma oczy koloru zielonego W badanej grupie studentów: 4 studentów ma dwoje rodzeństwa 16,7% studentów ma dwoje rodzeństwa W badanej grupie studentów: 7 studentów (29,2% studentów) dociera na uczelnię w czasie od 0 do 10 minut
27
Prezentacja graficzna rozkładu
28
x i - kolor oczunini wiwi niebieski10 0,417 zielony5 0,208 brązowy5 0,208 szary4 0,167 suma241 Rozkład koloru oczu w wybranej grupie studentów W przypadku cechy niemierzalnej, jaką jest kolor oczu, często stosowana formą prezentacji graficznej jest wykres kołowy
29
Prezentacja graficzna rozkładu x i – liczba rodzeństwanini wiwi 06 0,250 113 0,542 24 0,167 31 0,042 suma241 Rozkład liczby rodzeństwa w wybranej grupie studentów W przypadku cechy mierzalnej skokowej, jaką jest liczba rodzeństwa, do prezentacji graficznej rozkładu stosuje się wykres słupkowy
30
Prezentacja graficzna rozkładu (x 0i - x 1i > – czasnini wiwi 0-107 0,292 10-203 0,125 20-303 0,125 30-403 0,125 40-505 0,208 50-603 0,125 suma241 Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Liczba osób n i Odsetek osób w i W przypadku cechy mierzalnej ciągłej, jaką jest czas dotarcia na uczelnię, do prezentacji graficznej rozkładu stosuje się: 1.Histogram 2.Wielobok liczebności 3.Krzywą liczebności HISTOGRAM
31
Prezentacja graficzna rozkładu (x 0i - x 1i > – czasnini wiwi x 0-107 0,2925 10-203 0,12515 20-303 0,12525 30-403 0,12535 40-505 0,20845 50-603 0,12555 suma241--- Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Liczba osób n i Odsetek osób w i WIELOBOK LICZEBNOŚCI
32
Prezentacja graficzna rozkładu Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów Liczba osób n i Odsetek osób w i (x 0i - x 1i > – czasnini wiwi x 0-107 0,2925 10-203 0,12515 20-303 0,12525 30-403 0,12535 40-505 0,20845 50-603 0,12555 suma241--- KRZYWA LICZEBNOŚCI
33
Częstości względne w i przydatne są do konstrukcji dystrybuanty empirycznej, czyli szeregu skumulowanych częstości względnych F n (x) i = 1, 2, …, k-1
34
Rozkłady wyrażone za pomocą dystrybuanty empirycznej x i – liczba rodzeństwa wiwi F n (x) 0 6/24=0,2500,250 1 13/24=0,5420,250+0,542=0,792 2 4/24=0,1670,250+0,542+0,167=0,958 3 1/24=0,0420,250+0,542+0,167+0,042=1 suma1--- Rozkład liczby rodzeństwa w wybranej grupie studentów W badanej grupie studentów 95,8% studentów ma co najwyżej dwoje rodzeństwa F n (2) = 0,958 dla x < 0 dla 0 ≤ x <1 dla 1 ≤ x < 2 dla 2 ≤ x < 3 dla x ≥ 3
35
Rozkłady wyrażone za pomocą dystrybuanty empirycznej (x 0i - x 1i > – czas wiwi F n (x 1i ) 0-10 0,292 10-20 0,1250,292+0,125=0,417 20-30 0,1250,292+0,125+0,125=0,542 30-40 0,1250,292+0,125+0,125+0,125=0,667 40-50 0,2080,292+0,125+0,125+0,125+0,208=0,875 50 +∞ 0,1250,292+0,125+0,125+0,125+0,208+0,125=1 suma24--- Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów W badanej grupie studentów 66,7% studentów dociera na uczelnię w ciągu co najwyżej 40 minut F n (40) = 0,667 dla x < 0 dla 0 ≤ x <10 dla 10 ≤ x < 20 dla 20 ≤ x < 30 dla 30 ≤ x < 40 dla 40 ≤ x < 50 dla x ≥ 50
36
UWAGA W przypadku cechy niemierzalnej, jaką jest kolor oczu, nie występuje gradacja kolorów oczu, dlatego nie można wyznaczyć dystrybuanty empirycznej tego rozkładu
37
Graficzna prezentacja dystrybuanty empirycznej
38
x i – liczba rodzeństwa F n (x) 0 0,250 1 0,792 2 0,958 3 1 suma--- Rozkład liczby rodzeństwa w wybranej grupie studentów dla x < 0 dla 0 ≤ x <1 dla 1 ≤ x < 2 dla 2 ≤ x < 3 dla x ≥ 3 Graficzna prezentacja dystrybuanty empirycznej CECHA SKOKOWA – liczba rodzeństwa 0,792 0,958 Funkcja przedziałami stała lewostronnie ciągła
39
Graficzna prezentacja dystrybuanty empirycznej CECHA CIĄGŁA – czas dotarcia na uczelnię 0,292 0,875 Rozkład czasu dotarcia na uczelnię w wybranej grupie studentów (x 0i - x 1i > – czas F n (x 1i ) 0-10 0,292 10-20 0,417 20-30 0,542 30-40 0,667 40-50 0,875 50 +∞ 1 suma--- dla x < 0 dla 0 ≤ x <10 dla 10 ≤ x < 20 dla 20 ≤ x < 30 dla 30 ≤ x < 40 dla 40 ≤ x < 50 dla x ≥ 50 0,417 0,667 0,542 Funkcja ciągła
41
Dane indywidualne x i – liczba rodzeństwaliczba osób - n i 06 113 24 31 suma24 Dane pogrupowane W praktyce zamiast przedstawiać całe rozkłady cechy wykorzystuje się ich liczbowe (zwięzłe) charakterystyki
42
Własności rozkładów cechy statystycznej grupuje się w cztery kategorie zagadnień: 1.Położenie 2.Zróżnicowanie 3.Asymetria 4.Koncentracja Statystyczny opis rozkładu cechy
43
MIARY POŁOŻENIA Miary klasyczne Średnia arytmetyczna Miary pozycyjne Dominanta Kwantyle (kwartyle, mediana)
44
MIARY ZRÓŻNICOWANIA Miary klasyczne Wariancja Odchylenie standardowe Współczynnik zmienności Miary pozycyjne Rozstęp Rozstęp ćwiartkowy Odchylenia ćwiartkowe Pozycyjny współczynnik zmienności
45
MIARY ASYMETRII Miary klasyczne Klasyczny współczynnik asymetrii Miary pozycyjne ……. Rozkład asymetryczny prawostronnie, dodatnio Rozkład asymetryczny lewostronnie, ujemnie Rozkład symetryczny
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.