Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Krzysztof Jurek Statystyka Spotkanie 2 Opis i prezentacja materiału statystycznego.

Podobne prezentacje


Prezentacja na temat: "Krzysztof Jurek Statystyka Spotkanie 2 Opis i prezentacja materiału statystycznego."— Zapis prezentacji:

1 Krzysztof Jurek Statystyka Spotkanie 2 Opis i prezentacja materiału statystycznego

2 Podstawowe definicje Szeregi statystyczne Analiza struktury Graficzne przedstawianie wyników Zadanie Dodatkowo na zajęciach będziemy ćwiczyli przykłady w SPSS

3 Aby w sposób czytelny przedstawić wyniki dokonanych badań, bardzo często posługujemy się charakterystykami opisującymi cały zbiór za pomocą kilku kategorii. Opieramy się wówczas na elementarnej umiejętności jaką jest grupowanie czy klasyfikacja danych. Badacz dokonuje w wielu sytuacjach klasyfikacji jeszcze przed badaniem np. zmienna płeć przyjmuje w kwestionariuszu dwie odmiany mężczyzna i kobieta

4 Z racji tego że nie zawsze możemy przewidzieć wszystkie odpowiedzi w kwestionariuszach często pojawia się odpowiedź inne Ze względu na brak wiedzy przed badaniem, klasyfikacji i grupowania dokonujemy po badaniu i zebraniu danych.

5 Prezentacja danych statystycznych to nic innego jak prezentacja wyników badań. Istnieje różnica miedzy opracowaniem a analizą danych. OPRACOWANIE DANYCH to uporządkowanie materiału. Opracowany materiał statystyczny musi być właściwie zaprezentowany. Służą temu: szeregi statystyczne, tablice statystyczne, wykresy statystyczne.

6 Szeregi statystyczne to ciąg wielkości statystycznych (wariantów cechy) uporządkowanych wzrastająco lub malejąco, pogrupowany wg. określonych kryteriów. Możemy wyróżnić trzy podstawowe rodzaje szeregów statystycznych: szczegółowy, rozdzielczy i czasowy (omówione będą 2 pierwsze rodzaje).

7 N - liczebność próby ogólna xi - wariant cechy statystycznej (i = 1, 2,..., n), Dla szeregów rozdzielczych: ni - liczba jednostek o i-tym wariancie cechy, k - liczba klas (wariantów cechy) – dla szeregu rozdzielczego przedziałowego Podstawowe oznaczenia

8 Szereg szczegółowy inaczej wyliczający jest uporządkowanym rosnąco lub malejąco ciągiem wartości badanej cechy i ma postać: x1, x2, x3, x Xn gdzie: x1x2x3x xn lub: x1 x2 x3 x xn

9 Szereg szczegółowy stosujemy właściwie gdy przedmiotem obserwacji jest niewielka liczba jednostek. Przykład wiek: 16, 20, 15, 21, 21, 81, 45 Szereg statystyczny: x1=15, x2=16, x3=20, x4=21, x5=21, x6=45, x7=81 N=7

10 Szereg rozdzielczy otrzymamy gdy zbiorowość statystyczną podzielimy na klasy według określonej cechy mierzalnej lub niemierzalnej i podamy liczebność każdej z tej klas. Jeśli liczba wariantów cechy jest stosunkowa niewielka np. w przypadku cech skokowych wówczas budujemy szereg rozdzielczy punktowy. Jeśli liczba wariantów jest duża lub nieskończona wówczas budujemy szereg rozdzielczy przedziałowy. Rozkład cechy w postaci szeregu rozdzielczego przedstawiamy głownie za pomocą tabel.

11 Załóżmy, że uczniowie 30 osobowej klasy uzyskali następujące wyniki na egzaminie: 21, 12, 19, 19, 25, 11, 14, 29, 20, 18, 20, 10, 16, 28, 12, 21, 23, 18, 17, 26, 14, 20, 15, 21, 19, 22, 16, 20, 17, 20

12 xini N=30

13 W szeregu przedziałowym musimy: - ustalić liczby przedziałów – liczba przedziałów nie może być zbyt mała, bo wtedy traci się zbyt dużo ważnych informacji; nie może być także zbyt duża – bo wtedy trudno robić uogólnienia - interwał – wielkość przedziału – w miarę możliwości wielkość wszystkich przedziałów powinna być równa, ale nie zawsze jest to możliwe, lub potrzebne

14 LICZBA PRZEDZIAŁÓW, KLAS (k) k=R/i R- rozstęp i – interwał k=N WAŻNE – Ustalenie liczby klas w szeregu uzależnione jest od obszaru zmienności danej cechy (różnicy między x max a x min) od liczebności zbiorowości oraz celu badania. Im większy obszar zmienności tym więcej powinno być przedziałów. Wzory pomagają nam, są wskazówkami ale nie należy traktować ich ostatecznie i ściśle się ich trzymać.

15 ROZSTĘP (R) różnica pomiędzy wartością maksymalną, a minimalną cechy - jest miarą charakteryzującą empiryczny obszar zmienności badanej cechy, nie daje on jednak informacji o zróżnicowaniu poszczególnych wartości cechy w zbiorowości R=xmax-xmin xmax – największa wartość cechy xmin – najmniejsza wartość cechy

16 Granice przedziałów: Zazwyczaj mamy do czynienia z dwoma wariantami: lub W pierwszym wariancie górna granica przedziału niższego jest jednocześnie dolna granicą przedziału następnego. Stosując taki zapis należy wyjaśnić do której klasy wliczone są jednostki przyjmujące wartości graniczne. W takim przypadku należy określić: np. od 300 do poniżej 500. W drugim przypadku nie ma wątpliwości do którego przedziału klasowego należy zaobserwowany wynik.

17 10-14, , ,9 25 – 29,9 <10-15) <15-20) <20-25) <25-30)

18 N=30 sqrt(30) = 5 (w przybliżeniu) Proponowane przedziały: xini N30

19 Problemów z domykaniem przedziałów nie ma gdy mamy zmienna skokową Gdy jest zmienna ciągła wyraźnie zaznaczyć do którego przedziału należy np. nawiasami (), (>, (przedział otwarty/zamknięty) Rozwartość przedziałów musi być jednakowa Wszystkie przedziału muszą być domknięte

20 TABLICE STATYSTCZNE => tabele - tablice proste, - tablice złożone, - tablice robocze, - tablice wynikowe. Aby tablica była użyteczna powinna spełniać warunki formalne (budowa)i merytoryczne (spoistość wewnętrzna) 1. TYTUŁ TABELA ŹRÓŁO DANYCH

21 ZASADY: 1.Tablice statystyczne znajdujące się w jednym opracowaniu powinny być numerowane w sposób ciągły od 1. 2.Tytuł tabeli powinien w sposób jasny i zwięzły wskazywać na treść tablicy: określać zbiorowość pod względem rzeczowym, czasowym lub przestrzennym 3.W tabeli obowiązuje zasada bezwzględnego wypełnienia wszystkich wierszy i kolumn. Jeśli z jakichś powodów nie można wypełnić poszczególnych komórek tabeli, stosuje się odpowiednie znaki umowne (-) – zjawisko nie występuje (0) – zjawisko występuje, ale w ilościach mniejszych od liczb, które mogły być wyrażane (.) – zupełny brak informacji lub brak wiarygodnych informacji (x)- wypełnienie pozycji jest niemożliwe lub niecelowe

22 Tytuł tablicy złożonej powinien być tak sformułowany, aby odzwierciedlał zawartość tablicy oraz odnosił się do badanego problemu. Niezbędne jest tutaj wyraźne odróżnienie zmiennej niezależnej (zmiennych niezależnych) i zależnej (zależnych). Na przykład w tablicy, która zawierającej dane dotyczące rozkładu dwóch cech: płci i opinii o funkcjonowaniu władz lokalnych zmienną niezależną jest płeć, a zależną - opinie o władzach. Tytuł tablicy może zostać sformułowany na dwa sposoby: Płeć a opinie o władzach lokalnych lub Opinie o władzach lokalnych a płeć. W pierwszym przypadku bardziej interesuje nas rozkład płci względem opinii (jak opinie warunkują bycie mężczyzną lub kobietą), co jest stwierdzeniem nonsensownym. W drugim natomiast chodzi o rozkład opinii względem płci (jak płeć warunkuje opinie), co może być rzeczywistym przedmiotem badania. A zatem tytuły tablic złożonych formułujemy tak, aby w pierwszej części tytułu znalazła się informacja o zmiennej zależnej (opinie, postawy, poglądy), w drugiej natomiast informacja o zmiennej niezależnej (najczęściej tzw. zmienne metryczkowe).

23 Niekiedy zmienne, których rozkłady prezentujemy w tablicach statystycznych nie dają się łatwo określić zmienną niezależną, bądź zmienną zależną, np. tablica zawiera wyłącznie dane o opiniach osób badanych na dwa różne tematy - niełatwo rozstrzygnąć, która opinia stanowi warunkującą, a która warunkowaną. Badacz wtedy odwołuje się najczęściej do wcześniej sformułowanej hipotezy badawczej lub arbitralnie decyduje o tym, którą uzna za zmienną niezależną, a którą za zależną. Przyjmuje się, że tytuł tablicy formułujemy w ten sposób, aby w jego pierwszej części zawrzeć informacje o zmiennej, która nas bardziej interesuje i której rozkładowi będziemy się dokładniej przyglądać, w kontekście warunkującego wpływu drugiej zmiennej.

24 Typ środowiskaLiczba źródeł utrzymania rodziny Razem Zamieszkaniajednodwatrzy i więcej Wieś % w kolumnie53,2%45,0%59,4% % w wierszu28,5%47,2%24,3% % całości14,3%23,7%12,2%50,2% Miasto % w kolumnie46,8%55,0%40,6% % w wierszu25,3%58,0%16,8% % całości12,6%28,9%8,3%49,8% Razem % całości26,9%52,6%20,6%100,00% Sporządzając tablice statystyczne złożone pamiętać należy przede wszystkim o odpowiednim sposobie procentowania. Wybór tego sposobu decyduje o tym, w jaki sposób będziemy formułować wnioski. Wykorzystując programy komputerowe do analizy statystycznej zazwyczaj otrzymujemy tabele, w których obliczenia procentów wykonano w różny sposób. Oto przykład: Tabela 1. Liczba źródeł utrzymania rodziny a typ środowiska zamieszkania respondentów.

25 Szczegółowe pytanie badawcze, jakie możemy postawić analizując te dwie zmienne brzmi: Jakie są źródła utrzymania mieszkańców wsi i miast? Bardziej interesuje nas zatem rozkład zmiennej liczba źródeł utrzymania ze względu na typ środowiska zamieszkania. Chcielibyśmy więc porównać mieszkańców wsi i miast pod względem liczby źródeł utrzymania. Przyjrzyjmy się zatem możliwym do sformułowania wnioskom na przykładzie pierwszej komórki tabeli dla liczebności 115. Procent obliczony w kolumnie oznacza, że 53,2% badanych mieszkańców wsi posiada jedno źródło utrzymania. Procent obliczony w wierszu oznacza, że 28,5% badanych utrzymujących się z jednego źródła mieszka na wsi. Procent obliczony z całości oznacza, że 14,3% badanych to jednocześnie osoby zamieszkałe na wsi i utrzymujące się z jednego źródła. Ostatni wiersz i ostatnia kolumna zawierają tzw. rozkłady brzegowe, czyli rozkłady zmiennych bez względu na to, jakie wartości przyjmuje druga zmienna.

26 WYKRESY Wykresy powstają na podstawie tabel statystycznych, ale ponieważ w sposób syntetyczny ujmują pewne zjawiska, zawierają mniej danych niż tabela. Dlatego wykres powinien być traktowany jako uzupełnienie tabeli TYTUŁ WYKRES ŹRÓDŁO DANYCH OBJAŚNIENIA (ewentualnie) Istnieje bardzo wiele rodzajów wykresów, każdy z rodzajów ma określone zastosowanie np.: - histogramem - wielobokiem liczebności - diagramem - diagramem skumulowanym

27 HISTOGRAM Liczebność przedstawiona jest w postaci słupków. Podręcznikowa definicja mówi, że histogram jest to zespół przylegających do siebie prostokątów, których podstawy wyznaczone są przez wielkości przedziałów klasowych, a wysokości przez odpowiadające tym przedziałom liczebności. W praktyce -> nie zawsze są to prostokąty -> nie zawsze przylegają do siebie Inny będzie histogram dla szeregu Przedziałowego – środek górnej podstawy przechodzi przez punkt, który wyznaczyliśmy a inny dla punktowego

28 WIELOBOK LICZBNOŚCI Natomiast diagram (wielobok) liczebności powstaje przez połączenie punktów o współrzędnych: środek przedziału klasowego, liczebność przedziału klasowego. Wieloboki stosujemy do zmiennych ilościowych ciągłych, rzadziej skokowych. Szczególna postacią wieloboku liczebności jest diagram skumulowany, w którym dodajemy do siebie liczebności poszczególnych przedziałów. Niezmiernie ważną kwestią jest umiejętne zastosowanie wykresu do określonego rodzaju analizowanej zmiennej! Np. wieloboku liczebności nie stosujemy do zmiennych na skali nominalnej.

29 WYKRESY KOŁOWE Pokazują zwykle udziały lub strukturę danego zjawiska, dające w sumie 100%. Nie nadaje się do ilustrowania zmian współzależności w czasie lub relacji wśród kilku zmiennych. Ze względów praktycznych zaleca się nie dzielić wykresu kołowego na więcej niż 8 części, chyba, że tak:

30 ZASADY SPORZĄDZANIA WYKRESÓW 1.Na osi poziomej przedstawia się wyniki, a na osi pionowej liczebności 2.Na wykresie powinna być zachowana kolejność od lewej do prawej 3.Odległość jednostkowa na obu osiach jest dowolna i nie ma wpływu na postać wykresu, ale niektórzy twierdza, że jednostki powinny być dobrane tak, by stosunek wysokości do długości wynosił około 3:5. Ma to pewne zalety estetyczne 4.Tam gdzie jest to możliwe oś pionowa powinna być tak dobrana, by punkt zerowy wypadał w miejscu przecięcia się osi 5.Zarówno oś poziomą jak i pionowa należy odpowiednio nazwać. Każdy wykres powinien mieć tytuł precyzyjnie określający co przedstawia.

31 Analiza struktury jest podstawowym działem w badaniach statystycznych. Przez strukturę należy rozumieć budowę skład zbiorowości z punktu widzenia wyróżnionych cech jednostek należących do tej zbiorowości np. strukturę studentów ze względu na oceny, płeć itd.

32 Wskaźniki struktury są szczególnie przydatne, wówczas gdy liczebność w grupach porównawczych jest różna zatem trudno o wnioskowanie o tym co się dzieje w całej populacji lub po porostu wtedy gdy chcemy przyjrzeć się lepiej rozkładowi empirycznemu określonego zjawiska. Stosujemy je oczywiście tylko w sytuacji gdy liczba jednostek obserwacji jest wystarczająca czyli n>50

33 Do analizy struktury służą tzw. wskaźniki struktury p (frakcje, proporcje, częstości względne, wskaźniki względne), które są ilorazem części zbiorowości n do całej zbiorowości N. Pozwalają uchwycić proporcje między wariantami badanego zjawiska.

34 pi = n/N pi - frakcja=> proporcja n – liczba elementów w danym przedziale N- liczba wszystkich elementów Odsetek pi = n/N(x 100%) pi - frakcja=> proporcja n – liczba elementów w danym przedziale N- liczba wszystkich elementów

35 Ile jednostek zbirowości przypada na jednostkę wartości w każdej klasie g=n/i

36 Stwierdzić, czy następujące zmienne są typu ilościowego, czy jakościowego oraz czy są to zmienne skokowe, czy ciągłe: a) waga dziecka w okresie pierwszego roku życia; b) liczba nakładów inwestycyjnych na środki trwałe; c) kursy walut obcych wyrażone w nowych złotych polskich; d) gatunki zbiorów ziemiopłodów; e) sprzedaż wybranych towarów konsumpcyjnych; f) liczba gmin w województwie; g) kolor włosów; h) siła uczuć dzieci i ich matki.

37 Zatrudnienie przy produkcji drewna i wyrobów z drewna w pewnym zakładzie od lutego 1989 roku do października 1995 roku kształtowało się następująco (dane na koniec poszczególnych miesięcy w tys. osób): 2,62; 2,62; 2,78; 3,08; 2,86; 3,43; 3,27; 3,46;3,66; 3,37; 3,32; 2,72; 2,68; 2,53; 2,47; 2,47; 2,36; 2,35; 2,83; 3,43; 3,58; 2,66; 2,61; 2,78; 3,67; 4,38; 4,43; 4,38; 4,88; 3,84; 3,98; 3,89; 3,79; 3,74; 4,08; 4,11; 3,74; 3,69; 3,71; 4,02;3,41; 3,72; 3,79; 3,74; 3,75; 4,05; 4,46; 4,44; 4,65; 4,81; 5,19; 5,16; 5,01; 4,63; 4,90; 4,23;4,51; 4,28; 4,49; 3,97; 3,90; 3,90; 3,92; 4,01; 4,80; 3,73; 3,90; 4,84; 3,98; 3,91; 3,93; 4,86;4,96; 5,32; 4,93; 4,59; 4,78; 5,53; 5,59; 5,40; 5,43. Na podstawie powyższych danych określić zbiorowość i jednostkę statystyczną oraz rodzaj cechy statystycznej. Ułóź szereg rozdzielczy.

38 Właściciel stacji benzynowej zanotował w ciągu 30 dni kwietnia ilość sprzedanego paliwa (etylina 94). Otrzymał następujące wielkości (w litrach): 3200; 1870; 2420; 3100; 3860; 4000; 2510; 3470; 1714; 1720; 2068; 2935; 2753; 2174; 3020; 3308;2010; 4500; 2325; 2870; 2890; 3440; 2880; 4700; 1500; 3010; 2800; 2350; 4010; Zbudować szereg rozdzielczy z przedziałami klasowymi.Wyznacz ilość klas, granice przedziałów i rozstęp.

39 Zadanie paliwo 1500 – RAZEM 30 R (rozstęp) = 3200 k (liczba klas) = 6 i (rozpiętość klasy) = 535

40 1. a) ilościowa ciągła; b) b) ilościowa skokowa; c) ilościowa ciągła; d) jakościowa; e) gdy sprzedaż wyrażona jest w jednostkach wagi, wówczas ilościowa ciągła,gdy w sztukach ilościowa skokowa; f) ilościowa skokowa; g) jakościowa; h) quasi – ilościowa. 2. zbiorowość generalna – wszyscy zatrudnieni w danym zakładzie, jednostka – poszczególny pracownik tego zakładu, cecha – liczba zatrudnionych.


Pobierz ppt "Krzysztof Jurek Statystyka Spotkanie 2 Opis i prezentacja materiału statystycznego."

Podobne prezentacje


Reklamy Google