Tabelaryczne i graficzne metody opisu danych Patrycja Jędrzejewska.

Slides:



Advertisements
Podobne prezentacje
Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Advertisements

Excel Narzędzia do analizy regresji
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Analiza współzależności zjawisk
Praca kontrolna Oprogramowania biurowego z Analiza danych z list i tabel. Analiza danych jest to wyodrębnianie najistotniejszych danych z, przeważnie.
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Kwerendy, formularze, relacje, raporty i makra
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
Arkusz kalkulacyjny Excel część 2 © Jacek Śmietański, Kraków
Dane informacyjne: Gimnazjum im. Marii Skłodowskiej-Curie
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Opracowała: Joanna Wasiak
ARKUSZ KALKULACYJNY JUŻ PROŚCIEJ SIĘ NIE DA Wersja OFFICE 2010
Testy nieparametryczne
Menu Tabela program Microsoft Word
Konstrukcja, estymacja parametrów
Arkusze kalkulacyjne, część 3
Instrukcja USOSweb Wersja: Opracował: Sebastian Sieńko Moduł sprawdzianów.
dr hab. Ryszard Walkowiak prof. nadzw.
Word Tabela.
dla klas gimnazjalnych
Prezentacja danych w postaci wykresu
Formatowanie tabel. Formatowanie warunkowe. Wstawianie funkcji.
Tabele przestawne w Excelu
DOŚWIADCZENIA LOSOWE.
Statystyka ©M.
Arkusz kalkulacyjny MS Excel
Podstawy statystyki, cz. II
Temat 12: Formularze.
PROCENTY %.
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Excel Wykresy – różne typy, wykresy funkcji.
Excel Filtrowanie Funkcje bazodanowe
STATYSTYKA Pochodzenie nazwy:
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
PRZYKŁAD OBLICZENIOWY PRĘT
PRZYKŁAD ROZWIĄZANIA KRATOWNICY
Dowiązania (linki) twarde i symboliczne
Raport badawczy. Badani najczęściej odpowiadali, że podjęli pracę za granicą, chociaż mieli pracę w Polsce, jednak zarobki były zbyt niskie. Pracownicy.
Podstawowe pojęcia i terminy stosowane w statystyce
1. Adres względny 2. Adres bezwzględny 3. Adres mieszany.
Wstawianie funkcji i formatowanie tabel w Excelu FORMATOWANIE TABEL, ORAZ FORMATOWANIE WARUNKOWE.
Wykresy – różne typy oraz wykresy funkcji
Czym s ą i do czego słu żą ? Narzędzie analityczne arkusza kalkulacyjnego pozwalające filtrować, wybierać, przestawiać kolumny i wiersze z danymi w arkuszu.
T ABELE PRZESTAWNE Daniel Galion. C O TO SĄ TABELE PRZESTAWNE I W JAKIM CELU SIĘ ICH UŻYWA ? Normalna tabela często zbyt mało czytelna ciężej znaleźć.
Tabele Przestawne Adam Wójcik Tomasz Kowalski.  Czym Tabele Przestawne są?  Jak je używać?  Zadania.
Formatowanie tabel w Excelu w tym formatowanie warunkowe Prezentację przygotował: Cieplucha Maciej.
„Filtry i funkcje bazodanowe w EXCELU”
Statystyczna analiza danych w praktyce
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
Statystyczna analiza danych
Statystyczna analiza danych
Wykresy i wykresy funkcji Adam Wesołowski Daniel Teterwak.
Excel 2007 dla średniozaawansowanych Zajęcia z Prowadzący: Artur Kołos.
URZĄD STATYSTYCZNY WE WROCŁAWIU. Tablica nr 1. Minimalny zakres wiadomości i umiejętności statystycznych absolwenta szkoły podstawowej, pożądanych z punktu.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
ze statystyki opisowej
Temat: Tworzenie bazy danych
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
STATYSTYKA – kurs podstawowy wykład 11
Rozpatrzmy następujące zadanie programowania liniowego:
Przykładowe zadanie egzaminacyjne.
Analiza współzależności zjawisk
MIARY STATYSTYCZNE Warunki egzaminu.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Ankieta statystyki.
Zapis prezentacji:

Tabelaryczne i graficzne metody opisu danych Patrycja Jędrzejewska

 TABELA CZĘSTOŚCI – pozwala w szybki i nieskomplikowany sposób uzyskać wiele wartościowych informacji  plik1.sav  Interesuje nas sprawdzenie trzech kwestii: wykształcenia badanych (wykształcenie), informacji o posiadanym przez nich zwierzęciu (zwierzę) oraz liczby kobiet i mężczyzn w badanej próbie (płeć)  Analizy te chcemy wykonać dla całej próby, bez podziału na grupy wiekowe  Program PSPP pozwala nam wykonać jednocześnie kilka tabel częstości, tak więc możemy od razu obejrzeć tabele dla trzech zmiennych  Analiza->Opis statystyczny->Częstości…

 Braki danych wystąpiły w przypadku zmiennej wykształcenie (badani mogli nam nie podać swojego poziomu wykształcenia lub też dane te zostały w jakiś sposób utracone)  W kolejnych tabelach mamy szczegółowe informacje o: poziomie wykształcenia osób badanych, posiadanym przez nich zwierzęciu oraz liczbie kobiet i mężczyzn w naszej próbie

 Przyglądając się bliżej tabeli dot. zmiennej wykształcenie, widzimy, że w kolumnie CZĘSTOŚCI mamy informację o liczbie osób z określonym rodzajem wykształcenia (np. jest 27 osób z wykształceniem wyższym), widzimy też, że w pliku są 3 braki danych  Kolumna PROCENT pokazuje nam, jaką część całej grupy (razem z brakami danych) stanowią badani z poszczególnych kategorii  Np. 27 osób z wyższym wykształceniem stanowi 30% z całej próby, a 3,33% grupy stanowią braki danych  Kolejna kolumna, PROCENT WAŻNYCH, pokazuje nam również procentowy udział w próbie, z tą ważną różnicą, że pod uwagę nie są brane braki danych - > a zatem w tym przypadku 100% to nie 90, a 87 osób, dlatego też 27 osób z wyższym wykształceniem stanowi teraz 31%  W ostatniej kolumnie PROCENT SKUMULOWANY widzimy zsumowane po kolei procentowe udziały poszczególnych kategorii (tu również braki danych są ignorowane), np. 69% badanych ma wykształcenie średnie lub podstawowe

Funkcja PODZIEL NA PODZBIORY  Wiemy, ile w całej grupie jest mężczyzn i kobiet. Ale co z naszymi kategoriami wiekowymi? Chcieliśmy, żeby było tam po 15 kobiet i 15 mężczyzn. Żeby sprawdzić, czy rzeczywiście tak jest…  Dane->Podziel dane na podzbiory…

Wykresy  Celem wykresu jest klarowna i jak najprostsza prezentacja danych.  Tutaj skupimy się na trzech prostych i użytecznych rodzajach wykresów: wykres słupkowy, wykres kołowy, histogram

Wykres słupkowy  Analiza->Opis statystyczny->Częstości  Wybieramy zmienną wykształcenie  Wykresy->Draw bar charts

Wykres kołowy  Analiza->Opis statystyczny->Częstości  Wybieramy zmienną wykształcenie  Wykresy->Rysuj wykresy kołowe

Histogram  Graphs-> Histogram  Wybieramy zmienną operacyjna

 Prezentowane wyżej wykresy były wykonywane dla całej próby  Wykorzystajmy funkcję PODZIEL NA PODZBIORY  Może być ona przydatna przy opracowywaniu wykresów (np. kiedy chcemy zobaczyć osobno dla trzech kategorii wiekowych, jakie zwierzęta posiadają badani- wtedy zmienna grupa_wiekowa ląduje w podziale na zbiory)  Wykres słupkowy wykonujemy zaś poprzez CZĘSTOŚCI dla zmiennej zwierzę  Otrzymamy 3 wykresy słupkowe, po jednym dla każdej kategorii wiekowej

Obliczanie miar tendencji centralnej i miar rozproszenia  Analiza->Opis statystyczny->Częstości…  Zmienna prospektywna

 Analiza->Opis statystyczny->Eksploracja  Zmienna prospektywna

 Otrzymany raport składa się z 3 tabel  Pierwsza z nich pokazuje nam informacje o ilości obserwacji  Druga prezentuje już percentyle  Trzecia pokazuje obliczone miary tendencji centralnej i miary rozproszenia, jak również inne statystyki (w tym skośność i kurtozę)

 W oknie eksploracji wprowadźmy na LISTĘ CZYNNIKÓW zmienną płeć  Otrzymamy obliczenia wykonane osobno dla kobiet i mężczyzn (w przypadku CZĘSTOŚCI trzeba by użyć omawianej funkcji PODZIEL NA PODZBIORY )

Sortowanie obserwacji w zbiorze danych  Sortowanie ułatwia nam poruszanie się w zbiorze danych.  Opcję te znajdziemy w meny Dane-> Sortuj zmienne (zmienna wiek)  Sortowanie może być rosnące lub malejące według wskazanej przez nas zmiennej.  Wprowadzenie wielu zmiennych spowoduje, że sortowanie będzie się odbywać według kolejności wprowadzanych zmiennych.

Funkcje zmiennych  Pakiet PSPP pozwala tworzyć funkcje od zmiennych zawartych w arkuszu.  Wybierz z menu: Przekształcenia -> Oblicz....  Dostaniesz w wyniku okno, pozwalające definiować Ci nowe zmienne, które powstają z przekształcenia starych. Ćwiczenie Otwórz plik work.sav.work.sav Utwórz zmienną rok_urodz, która będzie określała rok urodzenia respondenta.

Ćwiczenie Otwórz plik catalog.sav. Utwórz zmienne:  rok, która będzie zawierać rok przeprowadzenia obserwacji,  suma, będącą łączną wartością sprzedaży odzieży męskiej, damskiej i biżuterii,  mail_tys, która będzie podawała liczbę rozesłanych katalogów z zaokrągleniem do pełnych tysięcy.

Rekodowanie wartości zmiennych  Dzięki rekodowaniu badacz może przekodować wartości zmiennych lub te wartości pogrupować (agregacja zmiennej).  Umiejętność ta jest często wykorzystywana na etapie analizy (np. przy liczeniu chi-kwadrat niezależności). W procesie rekodowania powstaje nowa zmienna wynikowa, która tworzona jest za zmienną źródłową lub jako zmienna dodatkowa (opcje Rekoduj na te same zmienne, Rekoduj na inne zmienne).

 Plik GSS93subset.sav  Wykorzystując plik GSS93 spróbujmy przeprowadzić rekodowania. W tym celu wykorzystamy zmienną wiek. Zmienna ta jest ilościowa. My zrekodujemy ją na zmienną nominalną i wprowadzimy trzy kategorie respondentów: młodzi (do 35 lat), w średnim wieku (36-55 lat) i starsi (powyżej 55 lat). Zachowamy pierwotną zmienną.  Klikamy Przekształcenia –> Rekoduj na inne zmienne.  W polu Zmienna źródłowa->wynikowa umieszczamy zmienną, którą będziemy rekodować. Następnie określamy nazwę i etykietę z zmiennej wynikowej i klikamy Zmiana.

 Kolejny krok to określenie wartości źródłowych i wynikowych.  W naszym przykładzie mamy podane zakresy: on najmniejszego wieku do 35 lat, od 35 lat do 55 lat i od 55 lat do wartości największej. Zatem zakresy te przyjmą nowe wartości, kolejno 1, 2, 3.

 Klikamy Dalej i OK.W ten sposób utworzyliśmy nową zmienną, a jej wartościom nadajemy etykiety.

Zliczanie wystąpień wartości  Jak sama nazwa wskazuje opcja ta służy do zliczania wystąpień określonych wartości w wybranym zestawie zmiennych. Tworzona jest nowa zmienna, która zawiera wartości mieszczące się w przedziale od 0 do wartości równej liczbie zadanych zmiennych.  Sprawdźmy (GSS93.sav) ile gatunków muzyki lubią respondenci spośród zestawu: klasyczna, jazz, blues, rap. Odpowiedź lubię została zakodowana jako 1, a więc ta wartość będzie zliczana. Skoro mamy cztery gatunki zakres zliczeń będzie wynosił 0-4, gdzie 0 oznacza, że respondent nie lubi żadnego z tych gatunków muzyki a 4, że lubi wszystkie.  W menu Przekształcenia klikamy Zlicz wystąpienia. Wprowadzamy nazwę i etykietę nowej zmiennej. Wprowadzamy również zestaw zmiennych.

 W menu Definiuj wartości wpisujemy wartość (lub wartości), które mają być zliczane, podobnie jak w opcji rekodowania). U nas jest to 1. Po kliknięciu dalej i OK na końcu zbioru danych pojawi się nasza zmienna. Ćwiczenie Plik uni_town.sav zawiera informacje dotyczące domów wystawionych na sprzedaż w pewnym mieście uniwersyteckim. Ostatnio najbardziej poszukiwane są domy w pobliżu uniwersytetu, posiadające basen i kominek. Utwórz zmienną, która będzie informowała ile z pożądanych cech posiadają domy w tej ofercie.uni_town.sav

Ćwiczenie Otwórz plik work.sav. Na podstawie zmiennej wks_work utwórz zmienną o nazwie wks_group przyjmującą wartości:work.sav  0, jeśli wks_work jest równa 0,  1, jeśli wks_work jest większa od 0 i mniejsza lub równa 25,  2, jeśli wks_work jest większa od 25 i mniejsza lub równa 50,  3, jeśli wks_work jest większa od 50 i mniejsza lub równa 75,  4, jeśli wks_work jest większa od 75 i mniejsza lub równa 100,  5, jeśli wks_work jest większa od 100.

Ćwiczenie Średnie kursy EUR Narodowego Banku Polskiego w dniach roboczych od do wynosiły: 4,50 4,54 4,52 4,55 4,54 4,50 4,55 4,55 4,52 4,51 4,49 4,47 Oblicz podstawowe statystyki opisowe dla tej próby, najpierw rachunkowo (z pomocą Excela), a potem z użyciem programu PSPP.

Ćwiczenie Dla danych zawartych w pliku Dane o zatrudnieniu.sav wykonaj następujące czynności:Dane o zatrudnieniu.sav  dokonaj analizy częstości grup pracowniczych w postaci tabeli i graficznie (wykres słupkowy),  dla stażu pracy wylicz wartość minimalną i maksymalną, średnią i odchylenie standardowe,  oblicz podstawowe statystyki dla bieżącego wynagrodzenia, wykonaj podstawowe wykresy (histogram),  ile wynosi wynagrodzenie, poniżej którego znajdują się zarobki 25% pracowników, a ile takie, powyżej którego znajdują się zarobki tylko 10% pracowników?

Ćwiczenie Wczytaj plik Dane o zatrudnieniu.sav. Przeprowadź analizę danych w podgrupach wydzielonych ze względu na wartości zmiennej stanowis. Dokonaj analizy początkowego wynagrodzenia wykonując histogramy i odpowiadając na pytania:Dane o zatrudnieniu.sav  Jaka jest najczęstsza wysokość zarobków w każdej z grup?  Poniżej jakiej kwoty zarabiała połowa pracowników z każdej grupy?  Poniżej jakiej kwoty zarabiała jedna czwarta pracowników każdej grupy, a poniżej jakiej trzy czwarte?  Jakie były średnie zarobki każdej grupy pracowniczej?

Ćwiczenie Plik handel.sav zawiera wysokość obrotów towarowych (w mld zł.) 20 największych firm handlowych w Polsce w 1998 r. Dane są wyrażone w jednostkach waluty krajowej. Posortuj obserwacje malejąco ze względu na wysokość obrotów. Wykonaj podstawową analizę statystyczną wysokości obrotów. Sporządź raport.handel.sav

Ćwiczenie Dla danych z pliku catalog.sav wykonaj analizę statystyczną wartości sprzedaży odzieży damskiej i odzieży męskiej. Zilustruj rozkłady tych zmiennych na histogramach Ćwiczenie W pliku stores.sav znajdują się dane dotyczące obrotów dwóch sieci handlowych. Wykonaj podstawową analizę statystyczną danych. Rozkład zilustruj na histogramach.stores.sav

Ćwiczenie Wczytaj plik Dane o zatrudnieniu.sav. Narysuj wykresy słupkowe prezentujące:Dane o zatrudnieniu.sav  procent kobiet i mężczyzn w badanej grupie respondentów,  liczebność kobiet i mężczyzn z uwzględnieniem podziału na zajmowane stanowisko  średnie zarobki kobiet i mężczyzn.

Ćwiczenie Wczytaj plik Dane o zatrudnieniu.sav.Dane o zatrudnieniu.sav  Narysuj wykres kołowy przedstawiający procentowy udział kobiet i mężczyzn w próbie.  Narysuj histogramy prezentujące rozkład wynagrodzeń: początkowego i bieżącego.  Wykonując wykres rozrzutu, zbadaj zależność wynagrodzenia bieżącego od płacy początkowej.

Ćwiczenie W pliku virus.sav znajdują się dane dotyczące rozwoju wirusa komputerowego od chwili jego wykrycia na serwerze testowym do czasu przygotowania programu antywirusowego. Na wykresie liniowym przedstaw jak zmieniała się proporcja zainfekowanych wiadomości pocztowych w tym czasie.

Ćwiczenie Korzystając z danych zawartych w pliku 1991 U.S. General Social Survey.sav, wykonaj wykresy kołowe prezentujące udział procentowy osób oceniających swoje życie jako pasjonujące, zwyczajne i nudne1991 U.S. General Social Survey.sav

Ćwiczenie Korzystając z danych zawartych w pliku 1991 U.S. General Social Survey.sav, wykonaj wykresy kołowe prezentujące udział procentowy osób oceniających swoje życie jako pasjonujące, zwyczajne i nudne w podziale na grupy wyróżnione przez zmienne sex i region.1991 U.S. General Social Survey.sav

Ćwiczenie Otwórzmy dane ‘PGSS_2002_pr’ (niektóre zmienne z Polskiego Generalnego Sondażu Społecznego z roku 2002). Baza danych PGSS (w oryginale grubo ponad tysiąc zmiennych) bada nastroje, opinie i jakość życia Polaków. Potrzebna nam jest zmienna, która będzie wskazywała, że respondent mieszka sam lub że nie mieszka sam. Informacja ta mogłaby być zawarta w zmiennej Przeglądając bazę danych, widzimy, że jest w niej zmienna ‘hompop’, która mówi ile osób liczy gospodarstwo domowe respondenta. Rekodując tę zmienną, możemy uzyskać interesującą nas zmienną ‘miesz_sam’.

Ćwiczenie

Plik testmarket_1month.sav zawiera dane dotyczące marketów 10 różnych sieci handlowych. Zmienna marketid odpowiada nazwom sieci, a zmienna locid identyfikuje różne markety.  Na wykresie słupkowym porównaj łączną liczbę promocji zorganizowanych w marketach różnych sieci. Która sieć przoduje w organizacji promocji, a która ma najgorsze wyniki?  Na wykresie kołowym przedstaw procentowy udział marketów małych, średnich i dużych w badanej grupie.  Wykonaj wykres słupkowy, na którym zaprezentujesz liczbę marketów kolejno małych, średnich i dużych.

Ćwiczenie Na podstawie analizy 50 ofert turystycznych, w których proponowano wczasy w basenie Morza Śródziemnego w maju 2005 roku, uzyskano następujące dane dotyczące długości proponowanego wypoczynku (w dniach): Podaj tabelę częstości. Oceń przeciętny czas trwania oferowanych wczasów. Oblicz odchylenie standardowe. Wyznacz dominantę, medianę, kwartyle. Narysuj histogram.

Tabele krzyżowe  Tabele kontyngencji (inaczej krzyżowe) to jedna z najpopularniejszych, a zarazem najprostszych form prezentowania zależności między zmiennymi dyskretnymi. Pokazują one jak kategorie jednej zmiennej rozkładają się w kategoriach innej.  Analiza->Opis statystyczny->Tabele krzyżowe  Plik PGSS_2002_pr.sav  Powiedzmy, że chcemy zobaczyć jak rozkładały się odpowiedzi na pytanie „Czy rządzenie krajem należy zostawić mężczyznom (zmienna „q6”) w zależności od wielkości miejscowości, w której respondent mieszkał (zmienna „size”). Kategorie jednej ze zmiennych wstawiamy więc do wiersza, a kategorie drugiej do kolumny (wybór wiersza i kolumny może być przypadkowy).  W wyniku dostajemy tabelę krzyżową, z której widać, ilu było respondentów dla każdego pola tabeli.

Ilu było bardzo szczęśliwych (‘q95’) bezrobotnych (‘q18st’)? Ile procent bezrobotnych jest bardzo szczęśliwych?