Statystyczna analiza danych

Slides:



Advertisements
Podobne prezentacje
Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Advertisements

w szkole średniej Wykonały: Alicja Makowska i Beata Karwowska
Szereg rozdzielczy Szereg rozdzielczy jest zestawieniem, w którym wartości badanej cechy statystycznej rozdzielone są na określone grupy (klasy), a każdej.
W dalszej części zajęć wyróżniać będziemy następujące
Analiza współzależności zjawisk
Biostatystyka inż. Jacek Jamiołkowski Wykład 2 Statystyka opisowa.
Badania marketingowe na rynkach produktów sektora wysokich technologii Wybrane metody analizy danych.
Podsumowanie wykładu 1. Najpełniejszą charakterystyką wybranej zmiennej jest jej rozkład.
Skale pomiarowe – BARDZO WAŻNE
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
Materiały pochodzą z Platformy Edukacyjnej Portalu Wszelkie treści i zasoby edukacyjne publikowane na łamach Portalu
Charakterystyki opisowe rozkładu jednej cechy
Jak mierzyć asymetrię zjawiska?
Jak mierzyć zróżnicowanie zjawiska? Wykład 4. Miary jednej cechy Miary poziomu Miary dyspersji (zmienności, zróżnicowania, rozproszenia) Miary asymetrii.
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
Właściwości średniej arytmetycznej
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Miary położenia Miary położenia opisują umiejscowienie typowych wartości cechy statystycznej na osi liczbowej.
MIARY ZMIENNOŚCI Główne (wywołujące zmienność systematyczną)
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Statystyka w doświadczalnictwie
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
BIOSTATYSTYKA I METODY DOKUMENTACJI
Dane informacyjne: Gimnazjum im. Marii Skłodowskiej-Curie
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Konstrukcja, estymacja parametrów
Kurs specjalistyczny dla pielęgniarek, mgr Adam Dudek, PWSZ Nysa 2007
dr Dariusz Chojecki, Instytut Historii i Stosunków Międzynarodowych US
„Człowiek - najlepsza inwestycja”
Elementy Rachunku Prawdopodobieństwa i Statystyki
dla klas gimnazjalnych
Dane INFORMACYJNE Nazwa szkoły: Zespół Szkół nr 5 w Szczecinku i Zespół Szkół w Opalenicy ID grupy: 97/41_mf_g2 i 97/71_mf_g1 Kompetencja:
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Statystyka ©M.
Podstawy statystyki, cz. II
Statystyka i opracowanie wyników badań
1 Analiza wyników sprawdzianu ‘2014 Zespół Szkolno-Przedszkolny w Krowiarkach – XI 2014 – XI 2014 Opracował: J. Pierzchała.
Analiza struktury na podstawie parametrów klasycznych i pozycyjnych
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Statystyka medyczna Piotr Kozłowski
Statystyczna analiza danych
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
Statystyczna analiza danych
Statystyczna analiza danych
Statystyczna analiza danych
Średnia arytmetyczna, mediana i dominanta
ze statystyki opisowej
Grupowanie danych statystycznych „ Człowiek – najlepsza inwestycja”
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Wprowadzenie do inwestycji. Inwestycja Inwestycja – zaangażowanie określonej kwoty kapitału na pewien okres czasu w celu osiągnięcia w przyszłości przychodu.
Halina Klimczak Katedra Geodezji i Fotogrametrii Akademia Rolnicza we Wrocławiu WYKŁAD 2 ZMIENNE GRAFICZNE SKALA CIĄGŁA I SKOKOWA.
STATYSTYKA – kurs podstawowy wykład 2 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013
Jak mierzyć zróżnicowanie zjawiska?
Wprowadzenie do inwestycji
Małgorzata Podogrodzka, SGH ISiD
Statystyka matematyczna
Radosław Hołówko Konsultant: Agnieszka Pożyczka
Statystyka Alfred Stach WYKŁAD rok akademicki 2013/2014
Estymacja i estymatory
MIARY STATYSTYCZNE Warunki egzaminu.
Ankieta statystyki.
statystyka podstawowe pojęcia
Zapis prezentacji:

Statystyczna analiza danych Wykład 2

Opis statystyczny danych Miary statystyczne (parametry statystyczne, wskaźniki sumaryczne) to liczby służące do syntetycznego opisu struktury populacji (zbiorowości statystycznej), bądź próby. Klasyfikacje miar statystycznych: Ze względu na reprezentowaną właściwość zbiorowości miary położenia, miary rozproszenia (zmienności, zróżnicowania, dyspersji), miary asymetrii, miary koncentracji (skupienia), Ze względu na liczbę uwzględnianych danych miary klasyczne (wyznaczane z wykorzystaniem wszystkich badanych jednostek), miary pozycyjne (oparte na wartościach wybranych jednostek).

Opis statystyczny danych

Klasyfikacja ze względu na badaną cechę populacji

Miary położenia

Średnia arytmetyczna Średnią arytmetyczną wyznacza się przez podzielenie sumy obserwowanych wartości cechy mierzalnej przez ich liczebność Średnia z próby Średnia z populacji n = liczebność próby N = liczebność populacji

Średnia arytmetyczna Średnia arytmetyczna Średnia = 3 Średnia = 4 Najczęściej wykorzystywana miara tendencji centralnej. Dokładną wartość można wyznaczyć jedynie dla szeregów wyliczających i rozdzielczych punktowych. Wrażliwa na wartości skrajne (odstające). Nieodpowiednia, gdy rozkład wyników jest skośny. 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Średnia = 3 Średnia = 4

Średnia arytmetyczna Dla szeregów rozdzielczych punktowych wyznacza się średnią ważoną według wzoru gdzie k – oznacza liczbę klas, zaś ni – liczebność i-tej klasy. Dla szeregów rozdzielczych przedziałowych wyznacza się średnią ważoną według wzoru gdzie – oznacza środek i-tego przedziału klasowego

Średnia arytmetyczna Średnia arytmetyczna jest miarą prawidłową jedynie w odniesieniu do zbiorowości jednorodnych, o niewielkim zróżnicowaniu wartości zmiennej. Średniej tej nie należy stosować w przypadku rozkładów skrajnie asymetrycznych i wielomodalnych. Nie oblicza się jej również w przypadkach, gdy w zbiorowości występują wartości skrajne. Ponadto, średniej arytmetycznej nie należy stosować dla szeregu o otwartych przedziałach, jeżeli przedziały te charakteryzują się dużą liczebnością.

Średnia geometryczna Średnia geometryczna jest pierwiastkiem n-tego stopnia z iloczynu n zmiennych: Średnią geometryczną stosuje się w przypadkach, gdy wartości zmiennej tworzą postęp geometryczny, lub w przypadku rozkładu skrajnie asymetrycznego. Średnia ta ma zastosowanie przy badaniu średniego tempa zmian. Średniej geometrycznej nie należy stosować, jeżeli którakolwiek z wartości zmiennej jest ujemna, lub równa zeru!!!

Średnia harmoniczna Średnia harmoniczna jest odwrotnością średniej arytmetycznej z odwrotności wartości zmiennych. W przypadku szeregów wyliczających (szczegółowych) średnią harmoniczną liczy się ze wzoru:

Średnia harmoniczna Dla szeregów rozdzielczych punktowych średnią harmoniczną liczy się z uwzględnieniem wag, tzn:

Dla szeregów rozdzielczych przedziałowych średnią harmoniczną liczy się następująco: Średnią harmoniczną stosuje się wówczas, gdy wartości zmiennej podane są w jednostkach względnych.

Kwantyle Kwantyle to wartości cechy mierzalnej, które dzielą uporządkowany rosnąco zbiór wartości na określone części pod względem liczby jednostek. Mediana (wartość środkowa) (Me) dzieli zbiór obserwacji na dwie części. Połowa jednostek ma wartości mniejsze, lub równe medianie, a połowa ma wartości równe, lub od niej większe. Zazwyczaj stosuje się tę miarę dla opisu rozkładów silnie asymetrycznych (skośnych). Inne kwantyle, to: Kwartyle Decyle Percentyle

Mediana Jest niewrażliwa na wartości ekstremalne Dla uporządkowanej niemalejąco próbki,mediana jest wartością “środkową” Jeśli n lub N is nieparzyste, mediana jest środkową obserwacją jeśli n lub N jest parzyste, mediana jest średnią z dwu obserwacji środkowych 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Mediana = 3 Mediana = 3

Wyznaczanie mediany szereg szczegółowy: szereg rozdzielczy: gdzie - dolna granica przedziału z medianą, n-liczebność próby, - suma liczebności klas poprzedzających klasę z medianą, - liczebność klasy z medianą, h - długość przedziału.

Graficzna metoda wyznaczania mediany i kwartyli Q1 Me Q3

Która miara położenia jest najlepsza? Średnia jest ogólnie stosowana o ile nie ma obserwacji odstających (outliers) Mediana jest stosowana, ponewaz nie jest wrażliwa na obserwacje ekstremalne. Przykład: Mediana cen mieszkań w regionie lub dochodu miesięcznego w grupie zawodowej lepsza od średniej

Kwartyle 25% 25% 25% 25% Q1 Q2 Q3 Przykład: Pierwszy kwartyl Kwartyle dzielą uporządkowane dane na 4 równe pod względem liczebności grupy 25% 25% 25% 25% Q1 Q2 Q3 Przykład: Pierwszy kwartyl Uporządkowana próbka: 11 12 13 16 16 17 18 21 22 (n = 9) Mediana = 16 Q1 = 25th percentyl, znajdź medianę z „mniejszej” połowy próbki więc Q1 = 12.5

Inne miary położenia Inne miary położenia Percentyle Kwartyle p - ty percentyl próbkowy : p% obserwacji w próbce jest mniejszych bądź równych jemu (100 – p)% jest większych bądź równych (gdzie 0 ≤ p ≤ 100) 1st kwartyl = 25ty percentyl 2nd kwartyl = 50ty percentyl = mediana 3rd kwartyl= 75ty percentyl

Percentiles p - ty percentyl uporządkowanej rosnąco próbki n wartości jest wartościa na i tej pozycji, gdzie Przykład: 60 ty percentyl dla próbki 19 tu wartości jest 12-tą co do wielkości wartością:

Moda Moda (Modalna, Dominanta) to wartość cechy, której w zbiorze danych odpowiada największa liczebność (częstość). W przypadku danych pomiarowych niepogrupowanych, moda jest tym pomiarem, który występuje najczęściej. Zazwyczaj pełni rolę pomocniczej oceny tendencji centralnej. Wykorzystywana do określenia typowego wyniku pomiarowego. Rozkłady wyników mogą być bez modalnej, jednomodalne, wielomodalne. Jest jedyną miarą tendencji centralnej jaką można wyznaczyć dla danych jakościowych.

Moda Miara położenia Wartość występująca najczęściej Nie wrażliwa na obserwacje ekstremalne Zarówno dla danych ilościowych jak i jakościowych Może nie istnieć albo wiele wartości mód 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 brak mody Moda = 5

Moda W przypadku danych przedstawionych za pomocą szeregu rozdzielczego przedziałowgo przybliżoną wartość mody wyznacza się z wzoru gdzie - dolna granica przedziału z modą, - liczebność klasy z modą, - liczebność poprzedzającą klasę z modą, liczebność klasy występującej po klasie z modą, h - długość przedziału.

Graficzna metoda wyznaczania mody

Dziękuję za uwagę