Prezentacja danych liczbowych Wykład 2 dr Małgorzata Radziukiewicz

Slides:



Advertisements
Podobne prezentacje
CAŁA POLSKA CZYTA DZIECIOM – raport Przygotowany dla Fundacji ABC XXI 30 października 2006.
Advertisements

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Metody losowania próby
Szereg rozdzielczy Szereg rozdzielczy jest zestawieniem, w którym wartości badanej cechy statystycznej rozdzielone są na określone grupy (klasy), a każdej.
W dalszej części zajęć wyróżniać będziemy następujące
Analiza współzależności zjawisk
Programowanie sieciowe
Przygotowała Sylwia Zych
Podsumowanie wykładu 1. Najpełniejszą charakterystyką wybranej zmiennej jest jej rozkład.
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
Metody numeryczne wykład no 2.
Charakterystyki opisowe rozkładu jednej cechy
Jak mierzyć asymetrię zjawiska?
Graficzna prezentacja danych Wykład 2 dr Małgorzata Radziukiewicz
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
Właściwości średniej arytmetycznej
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Statystyka w doświadczalnictwie
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
Algorytm Rochio’a.
Dane informacyjne: Gimnazjum im. Marii Skłodowskiej-Curie
Metoda simpleks opracowanie na podstawie „Metody wspomagające podejmowanie decyzji w zarządzaniu” D. Witkowska, Menadżer Łódź Simpleks jest uniwersalną.
Płace w przedsiębiorstwie
Wzory ułatwiające obliczenia
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Średnie i miary zmienności
Hipotezy statystyczne
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kurs specjalistyczny dla pielęgniarek, mgr Adam Dudek, PWSZ Nysa 2007
Sytuacja na Rynku Pracy na terenach wiejskich powiatu brodnickiego. Brodnica, 29 wrzesień 2010 roku.
Testy nieparametryczne
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
„Człowiek - najlepsza inwestycja”
dla klas gimnazjalnych
Hipotezy statystyczne
LUDNOŚĆ I PROCESY DEMOGRAFICZNE W BADANIACH STATYSTYCZNYCH
Statystyka ©M.
Podstawy statystyki, cz. II
Koncentracja wartości cechy
Rachunek różniczkowy funkcji jednej i wielu zmiennych
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Komenda Powiatowa Policji
Seminarium licencjackie Beata Kapuścińska
1 Analiza wyników sprawdzianu ‘2014 Zespół Szkolno-Przedszkolny w Krowiarkach – XI 2014 – XI 2014 Opracował: J. Pierzchała.
Co to jest dystrybuanta?
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
Statystyczna analiza danych
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
ze statystyki opisowej
SKALA CIĄGŁA I SKOKOWA.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Grupowanie danych statystycznych „ Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Halina Klimczak Katedra Geodezji i Fotogrametrii Akademia Rolnicza we Wrocławiu WYKŁAD 2 ZMIENNE GRAFICZNE SKALA CIĄGŁA I SKOKOWA.
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
Małgorzata Podogrodzka, SGH ISiD
Radosław Hołówko Konsultant: Agnieszka Pożyczka
Statystyka matematyczna
Analiza współzależności zjawisk
Zapis prezentacji:

Prezentacja danych liczbowych Wykład 2 dr Małgorzata Radziukiewicz

Prezentacja danych liczbowych Materiał liczbowy zebrany w trakcie badania statystycznego może być przedstawiony na trzy sposoby: 1. tabelarycznie 2. graficznie 3. parametrycznie

Podstawowym narzędziem opisu badanej populacji jest tzw Podstawowym narzędziem opisu badanej populacji jest tzw. szereg statystyczny (szereg liczbowy, szereg empiryczny) Szczególną rolę wśród szeregów statystycznych odgrywa szereg rozdzielczy - Szereg rozdzielczy rozdziela całą populację na grupy według wariantów badanej cechy - Zazwyczaj szeregi rozdzielcze przedstawiamy w formie tablic

Zestawienie danych w tablicę statystyczną Tablica statystyczna składa się z 2-óch kolumn - 1-a kolumna – podajemy warianty badanej cechy w formie uporządkowanej, tzn. od najmniejszej do największej lub odwrotnie - 2-ga kolumna – podajemy liczbę jednostek posiadających dany wariant cechy Tablica 1. Schemat tablicy wynikowej Poziomy cechy - x Liczba jednostek x1 n1 … xk nk Razem n

Przykład 1. populacja – ludność Polski w 2000 roku wg. stanu na 31. 06 Przykład 1. populacja – ludność Polski w 2000 roku wg. stanu na 31.06.2000 r. (38646 tys.) badana cecha – płeć warianty cechy – mężczyźni, kobiety Płeć W tysiącach osób Mężczyzna 18777 Kobieta 19869

xi x1 n1 w1 … xk nk wk Razem n 1,00 lub 100% Niekiedy zamiast liczebności przyporządkowanych poszczególnym wariantom cechy posługujemy się częstościami Częstości to udziały liczebności poszczególnych grup w ogólnej liczebności całej populacji Tablica 2. Schemat tablicy wynikowej Poziomy cechy xi Liczebności ni Częstości (odsetek ogółu) wi x1 n1 w1 … xk nk wk Razem n 1,00 lub 100%

Liczebności (w tys. osób) Przykład 2. populacja – ludność Polski w 2000 roku wg. stanu na 31.06.2000 r. (38646 tys.) badana cecha – miejsce zamieszkania warianty cechy – miasto (M), wieś (W) Miejsce zamieszkania Liczebności (w tys. osób) Częstości Miasto 23897 0,618 lub 61,8% Wieś 14749 0,382 lub 38,2% Razem 38646 1,000 lub 100%

Dwa podstawowe kanony szeregowania zbioru musi być ono rozłączne, tzn. poszczególne warianty cechy (grupy) nie mogą wzajemnie zachodzić na siebie (w przykładzie 1 osoba może być albo kobietą albo mężczyzną, w przykładzie 2 jedna i ta sama osoba może być mieszkańcem miasta albo wsi) musi być ono zupełne, tzn. warianty cechy muszą wyczerpać wszystkie jednostki wchodzące w skład populacji. ( z ogólnej liczebności 38646 tys. mieszkańców Polski przyporządkowano je w całości poszczególnym odmianom cechy)

populacja –studenci statystyki WSMiZ w Sochaczewie Przykład 3 populacja –studenci statystyki WSMiZ w Sochaczewie badana cecha – waga (w kg) ilość wariantów cechy bardzo duża -68,63,67,65,69,72,62,64,66,68,66,62,60,70,71,63,67,63,66,65,69,67,72,68,74,65,66,61,64,61,62,64,65,65,71,64. Komentarz: Przyglądając się powyższym liczbom bardzo trudno określić jakieś wzory czy relacje między studentami.

Najmniejsza waga studenta to 60 kg, największa to 74 kg. Aby odkryć pewne relacje należy uporządkować liczby w następującej kolejności: 60,61,61,62,62,62,63,63,63,64,64,64,64,65,65,65,65,65,66,66,66,66,67,67,68,68,68,68,69,69,70,71,71,72,72,74. Wartości te porządkujemy tak, aby xmin = x1 < x2 < … < xk = xmax , gdzie xmin oraz xmax oznaczają kolejno najmniejszą i największą wartość cechy zaobserwowanej w badanej zbiorowości. Komentarz: Najmniejsza waga studenta to 60 kg, największa to 74 kg.

Różnica powyższa jest znana w statystyce jako rozstęp. Różnica między maksymalną a minimalną wagą wynosi 14 kg. Różnica powyższa jest znana w statystyce jako rozstęp. Rozstęp = największa wartość cechy - najmniejsza wartość cechy Komentarz: Studentów z najniższą wagą - 60 i 61 kg - jest niewielu, również niewielu jest studentów z wagą powyżej 70 kg. Najwięcej studentów ma wagę od 62 do 68 kg. Pytanie? Jak często dana miara występuje? Ilu studentów ma tę samą wagę?

Liczebność = liczba wystąpień pomiaru Pokażemy liczbę występowania każdej z wag w tablicy 1. Tablica 1. waga liczebność 60 61 62 63 64 65 66 67 1 2 3 4 5 68 69 70 71 72 73 74

Wadą tablicy 1 jest to, iż liczba poszczególnych miar wagowych jest duża, zaś częstość ich wystąpień niewielka. Np. waga równa 73 kg w ogóle nie występuje. W tej sytuacji lepiej połączyć dane dotyczące wagi studentów w grupy lub klasy. Np. możemy pogrupować je w następujące klasy: 60-62, 63-65, 66-68, 69-71, 72-74. Powyższe liczby pokazują początek (x0i) i koniec każdej klasy (x1i) i znane są jako przedziały klasowe ( x0i - x1i ) dla i=1,2,…k gdzie k – liczba klas

Przedziały klasowe są najmniejszymi i największymi wartościami danych dla klasy Obecnie możemy skonstruować tablicę 2, która powie nam ile zdarzeń jest w każdej klasie Tablica 2. Klasa i Przedziały klasowe x0i – x1i Liczebność ni 1 60 – 62 6 2 63 – 65 12 3 66 – 68 10 4 69 – 71 5 72 - 74

Tablica 2 pokazuje nam jak miary wagowe są rozłożone i jaką mają rozpiętość. Tablicę 2 nazywamy tablicą rozkładu liczebności lub prościej rozkładem liczebności. Uwaga!!! Rozkład liczebności (częstości absolutnych) możemy skonstruować dla każdego zbioru danych wcześniej porządkowanego rosnąco lub malejąco.

Przy konstrukcji tablicy rozkładu liczebności należy uwzględnić: rozkład liczebności powinien zawierać minimum 5 klas i nie przekraczać 20. Dane o niewielkiej liczebności powinny zawierać od 5 do 10 klas. Dla dużych zbiorów danych przyjmuje się liczbę klas nie większą niż 20. każda miara może trafić tylko do jednej klasy. największa wartość w klasie powinna być o 1 mniejsza od najmniejszej wartości w następnej klasie. Jeśli w danej klasie nie występują żadne wartości (zerowa liczebność), wtedy klasa ma zerową częstość. poszczególne klasy powinny mieć tę samą rozpiętość. Rozpiętość przedziału klasowego możemy obliczyć następująco: rozpiętość klasy = (max – min) / liczba klas

Przy konstrukcji tablicy rozkładu liczebności należy uwzględnić: jeżeli z obliczeń nie otrzymamy liczby całkowitej, zwykle zaokrąglamy do kolejnej liczby całkowitej (w naszym przypadku (74-60) / 5 = 2,8  3 ) czasami pożądane jest aby przedział pierwszy miał tylko górną granicę, a przedział ostatni tylko dolną granicę ( np. „poniżej 60” i „powyżej 74” ) czasami pożądana jest znajomość częstości względnych (stosunkowych) tj. udziału części do całości zbiorowości. W naszym przypadku w pierwszym przedziale klasowym znalazło się 6 studentów na ogólną ich liczbę 36 ( wagę od 60 do 62 kg miało 6-iu spośród 36 studentów). Obliczamy to następująco: 6 / 36 = 0,167 = 16,7%  17%. Wartość 0,167 lub 16,7% jest częstością względną dla pierwszej klasy.

Częstość względna klasy = liczebność klasy / liczebność ogółu zbiorowości Tablica 3 Klasa i Przedziały klasowe x0i – x1i Liczebność ni Częstości względne wi (wskaźnik struktury) 1 60 – 62 6 6/36 = 0,167 2 63 – 65 12 12/36 = 0,333 3 66 – 68 10 10/36 = 0,278 4 69 – 71 5 5/36 = 0,139 72 - 74 3/36 = 0,083

Częstości względne wi mogą być podane w % Tablica 4. Klasa i Przedziały klasowe x0i – x1i Liczebność ni Częstości względne wi (struktura w %) 1 60 – 62 6 16,7% 2 63 – 65 12 33,3% 3 66 – 68 10 27,8% 4 69 – 71 5 13,9% 72 - 74 8,3%

Skumulowane liczebności ● tablica rozkładu liczebności może zawierać również kolumnę pokazującą skumulowane liczebności dla wszystkich klas ● końcowa wartość skumulowanych liczebności jest dokładnie równa całkowitej liczebności badanej zbiorowości Tablica 5 Klasa i Przedziały klasowe x0i – x1i Liczebność ni Skumulowane liczebności 1 60 – 62 6 2 63 – 65 12 18 3 66 – 68 10 28 4 69 – 71 5 33 72 - 74 36

Skumulowane częstości względne ● tablica rozkładu liczebności może zawierać również kolumnę pokazującą skumulowane częstości dla wszystkich klas ● suma względnych częstości nie jest zawsze dokładnie równa 1 (100%). Dlatego powinniśmy oczekiwać przybliżonych wartości dla częstości względnych Tablica 6 Klasa i Przedziały klasowe x0i – x1i Częstości względne wi Skumulowane częstości względne 1 60 – 62 0,167 2 63 – 65 0,333 0,500 3 66 – 68 0,278 0,778 4 69 – 71 0,139 0,917 5 72 - 74 0,083 1,000

Wybór co do liczby klas jest zawsze subiektywny. Brak jest zasad dotyczących stosowanych granic przedziałów klasowych, ale zawsze pożądana jest ta sama rozpiętość przedziałów klasowych. Jeśli rozpatrzymy tę samą zbiorowość danych i uporządkujemy je według innych granic przedziałów klasowych to rezultaty będą zupełnie inne. Przykład 3 c.d. populacja – studenci statystyki WSMiZ w Sochaczewie (36 studentów) badana cecha – waga (w kg) ilość wariantów cechy bardzo duża -68,63,67,65,69,72,62,64,66,68,66,62,60,70,71,63,67,63,66,65,69,67,72,68,74,65,66,61,64,61,62,64,65,65,71,64. Dla powyższego zestawu danych zbudować rozkład częstości dla k=8 klas.

Tablica 7. rozpiętość przedziałów klasowych - (74-60)/8= 1,75 ≈ 2 Klasa i Przedziały klasowe x0i – x1i Liczebność ni 1 60-61 3 2 62-63 6 64-65 9 4 66-67 7 5 68-69 70-71 72-73 8 74-75