Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.

Slides:



Advertisements
Podobne prezentacje
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
Advertisements

Statystyka ©M.
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Zasada i organizacja statystyki publicznej „Cz ł owiek – najlepsza inwestycja”
Plan Czym się zajmiemy: 1.Bilans przepływów międzygałęziowych 2.Model Leontiefa.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
Podstawy Przedsiębiorczości Wykład 4h + Ćwiczenia 4h Rafał Paśko PWSW Przemyśl.
STATYSTYKA – kurs podstawowy wykład 1 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Waga pokazuje ile waży Chen. Ile waży Chen? Alfie zebrał informacje o zwierzętach domowych które mają dzieci w jego klasie. Oto jego wyniki. Zwierzę.
Rozliczanie kosztów działalności pomocniczej
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania 1 Metody optymalizacji - Energetyka 2015/2016 Metody programowania liniowego.
Podstawy analizy portfelowej. Teoria portfela Podstawa podejmowania decyzji inwestycyjnych w warunkach niepewności. Decyzje podejmowane są ze względu.
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
ze statystyki opisowej
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Wyrażenia Algebraiczne Bibliografia Znak 1Znak 2 Znak 3 Znak 4 Znak 5 Znak 6 Znak 7 Znak 8 Znak 9 Znak 10 Znak 11.
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
PROGAM LOJALNOŚCIOWY FAMILO Społeczność Konsumencka Familo umożliwia uczestnikom programu oszczędzanie na zakupach dokonywanych w sklepie na stronie
Badania elastooptyczne Politechnika Rzeszowska Katedra Samolotów i Silników Lotniczych Ćwiczenia Laboratoryjne z Wytrzymałości Materiałów Temat ćwiczenia:
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Podział wartości dodanej Michał Lewandowski, Szkoła Główna Handlowa, Główny Urząd Statystyczny Maciej Banaś, Ministerstwo Rodziny, Pracy i Polityki Społecznej.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Coaching w poradnictwie zawodowym i edukacji. PLAN Definicja, proces - zmiana Możliwość wykorzystania coachingu w poradnictwie zawodowym i edukacji Model.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ANALIZA DANYCH DO OPRACOWANIA MAP TEMATYCZNYCH HALINA KLIMCZAK INSTYTUT GEODEZJI I GEOINFORMATYKI UNIWERSYTET PRZYRODNICZY WE WROCŁAWIU.
Porównywarki cen leków w Polsce i na świecie. Porównywarki w Polsce.
Zależności wprost proporcjonalne Radosław Hołówko Konsultant: Agnieszka Pożyczka.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Metoda kartogramów. Definicja Metoda służy do przedstawiania średniej intensywności zjawiska w granicach określonych pól odniesienia. Wartości obliczane.
Opakowanie – wytwór o określonej konstrukcji, którego zadaniem jest zabezpieczenie towaru lub otoczenia w trakcie transportu i przechowywania. Pełni on.
Badanie dynamiki zjawisk dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Podstawy analizy portfelowej
RAPORT Z BADAŃ opartych na analizie wyników testów kompetencyjnych przeprowadzonych wśród uczestników szkoleń w związku z realizacją.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Skuteczności i koszty windykacji polubownej Wyniki badań zrealizowanych w ramach grantu Narodowego Centrum Nauki „Ocena poziomu rzeczywistej.
WYKŁAD 6 Regionalizacja 1. Regionalizm a regionalizacja 2 Proces wyodrębniania regionów nazywany jest regionalizacją, w odróżnieniu od regionalizmu, który.
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Działanie 321 „Podstawowe usługi dla gospodarki i ludności wiejskiej” TARGOWISKA STAŁE Europejski Fundusz Rolny na rzecz Rozwoju Obszarów Wiejskich Europejski.
Budżet rodzinny Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
I Liceum Ogólnokształcące im. Ziemi Kujawskiej we Włocławku.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
# Analiza cech taksacyjnych drzewostanów przy wykorzystaniu technologii LIDAR 1 15 Sep 2010 Analiza cech taksacyjnych drzewostanów przy wykorzystaniu technologii.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
1 Definiowanie i planowanie zadań budżetowych typu B.
STATYSTYKA OPISOWA WYKŁADY.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
terminologia, skale pomiarowe, przykłady
Małgorzata Podogrodzka, SGH ISiD
Pojedyńczy element, mała grupa
Opracowała: Monika Grudzińska - Czerniecka
Analiza rozkładu empirycznego
Wnioskowanie statystyczne. Estymacja i estymatory.
Weryfikacja hipotez statystycznych
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
WYBRANE ZAGADNIENIA PROBABILISTYKI
Zapis prezentacji:

Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie

Plan wykładu 1.Podstawowe definicje i ich znaczenie (m.in. populacja, próba, losowanie próby, cecha) 2.Rodzaje badań (pełne, częściowe) 3.Dane indywidualne 4.Dane pogrupowane 5.Dystrybuanta empiryczna 6.Graficzna prezentacja rozkładu (m.in. histogram, wielobok liczebności i częstości) 7.Miary (klasyczne, pozycyjne)

STATYSTYKA – teoria łac. statisticus, „polityczny, dotyczący polityki”, od status, „państwo, stan” zbiór danych liczbowych charakteryzujących określone zjawisko. Nauka o metodach badania zjawisk masowych, tzn. o: gromadzeniu, prezentacji, analizie danych statystycznych (opis statystyczny) i uogólnianiu ich (wnioskowanie statystyczne).

Statystyka w praktyce Prasa, media Nauka: – artykuły naukowe – badania medyczne – biotechnologia Biznes: – Giełda – Marketing – Bankowość i finanse – Produkcja i sprzedaż – Dystrybucja i logistyka Społeczeństwo: – Demografia – Socjologia Urzędy Statystyczne (regionalne i GUS), Eurostat

Populacja a próba Populacja generalna to zbiorowość statystyczna, podlegająca badaniu. Przykłady: – populacja mieszkańców Polski – populacja studentów SGH, – populacja samochodów marki Toyota, – populacja lekarzy internistów w Polsce, – populacja gospodarstw domowych (g.d.) w Polsce itp. Elementy populacji generalnej (studenci, samochody, g.d., itp.) różnią się wartościami (realizacjami) badanej cechy statystycznej (np. oceną z egzaminu, zużyciem paliwa, wydatkami na produkty żywnościowe lub napoje alkoholowe). Gdy nie mamy możliwości zbadania całej populacji (np. zbyt liczna, wysoki koszt), do badania wykorzystujemy próbę.

Próba losowa Próba  „miniatura” populacji generalnej, która powinna być wybrana w sposób losowy. Co to oznacza? Każda jednostka populacji generalnej ma znane prawdopodobieństwo znalezienia się w próbie; (inaczej:) Każda możliwa próba złożona z n-elementów ma taką samą szansę, że zostanie wybrana. Jest to tzw. próba losowa prosta.

Metody wyboru losowego dobór losowy prosty – polega na losowaniu jednostek bezpośrednio z populacji generalnej (metodę tę stosuje się wtedy, gdy populacja generalna jest niewielka liczebnie, a jej struktura nieznana) dobór losowy warstwowy – stosowany przy znanej strukturze populacji, którą dzieli się na warstwy jak najmniej zróżnicowane wewnętrznie i jak najbardziej zróżnicowane pomiędzy sobą pod względem danych kryteriów (do próby wybiera się losowo jednostki z każdej warstwy)

Badanie pełne czy częściowe?  Wyniki egzaminu ze statystyki studentów wykładu danego wykładowcy.  Test nowego leku na nadciśnienie. Zamiast wszystkich pacjentów badaniu poddaje się losowo wybraną próbę.  Sondaż popularności partii politycznych. Wnioski dotyczące szans wyborczych określa się po przeprowadzeniu sondażu na próbie losowej.  Ankieta dotycząca usług bankowości mobilnej banku.  Analiza czytelników czasopisma. Informacje dla działu marketingu – sprawdzenie czy reklama produktu w tym czasopiśmie może być/jest skuteczna.  Analiza spalania paliwa marki pewnego samochodu. Czy nowy model samochodu będzie bardziej konkurencyjny od konkurencyjnego?

Rodzaje cech

właściwość (charakterystyka) badanego zjawiska Przykłady: – Kolor oczu – Liczba pracowników – Wydatki gospodarstw domowych (g.d.) – Dochody g.d. – Wzrost dzieci w przedszkolu – Waga produktu w opakowaniu

Rodzaje cech Cecha X mierzalna (ilościowa) skokowa (in. dyskretna) np. liczba pracowników w firmie, liczba gospodarstw domowych, liczba błędów przy przepisywaniu tekstu ciągła np. wzrost, waga, wynagrodzenie, wydatki g.d, dochody g.d. niemierzalna (jakościowa) np. kolor, płeć, smakowitość, grupa wiekowa

Dane indywidualne

Dane indywidualne – przykłady Przykład 1.: Dwudziestu studentów otrzymało następujące wyniki z egzaminu: 5, 5, 4, 3, 3, 4, 2, 4, 4, 3, 3, 3, 5, 2, 4, 4, 3, 3, 5, 4. Przykład 2.: Skoczek w dal uzyskał następujące wyniki (długość skoku podano w metrach): 125, 145, 138, 122, 160, 175, 134, 138, 142, 164. Przykład 3.: W tabeli zaprezentowano wyniki dot. liczby wizyt oraz dochodu osób odwiedzających sieć sklepów spożywczych „SKLEP”. L. p. Grupa wieku* Liczba wizyt x i Dochód y i 1S468 2S185 3M264 4D376 Legenda:* M – młody, D – dojrzały, S – senior

Szereg rozdzielczy (in. rozkład empiryczny) Cecha mierzalna ciągła Cecha niemierzalna Cecha mierzalna skokowa Rodzaje cech – dane indywidualne L. p. Grupa wieku* Liczba wizyt x i Dochód y i 1S468 2S185 3M264 4D376 5S468 6D280 7S370 8M * M – młody, D – dojrzały, S – senior

Na podstawie danych indywidualnych można zbudować szeregi rozdzielcze (rozkłady empiryczne). Dane statystyczne w szeregach rozdzielczych mają charakter danych pogrupowanych.

Dane pogrupowane

Rozkład empiryczny - oznaczenia Cecha skokowa Cecha ciągła x i i=1,2,...,n wartość cechy x 0i, x 1i – odp. dolna i górna granica i-tego przedziału klas. n liczebność badanej zbiorowości n i liczba jedn. zbiorowości, liczba jedn.zbiorowości, dla których dla których cecha przyjmuje cecha przyjmuje wartości z i-tego wartość x i przedziału klasowego w i udział jedn. o wartości x i udział jedn. o wartościach z i- tego w ogólnej liczebności zbioro- przedziału klas. w ogólnej liczebn. wości (częstość względna) zbiorowości (częstość względna) i=1……k

Dane pogrupowane Cecha skokowa

Rozkład empiryczny Szereg rozdzielczy dla cechy skokowej Wartości cechy x i Liczebności n i Częstości względne w i x1x2x3...xkx1x2x3...xk n1n2n3...nkn1n2n3...nk w1w2w3...wkw1w2w3...wk Ogółemn1 Częstość względna = odsetek = frakcja =

Rozkład empiryczny Szereg rozdzielczy dla cechy skokowej Wartości cechy x i Liczebności n i Częstości względne w i ,075 0,2 0,25 0,3 0,175 Ogółem401

Graficzna prezentacja cechy skokowej. Rozkład częstości w i (częstość) x i (wartość cechy)

Graficzna prezentacja cechy skokowej – wykres słupkowy w i (częstość) x i (wartość cechy) Wielobok częstości

Dystrybuanta empiryczna - skumulowana częstość względna 0 dla x < x 1 F n (x) = dla x i ≤ x < x i+1 i = 1,2,…k-1 1 dla x ≥ x k Dystrybuanta empiryczna jest funkcją niemalejącą oraz spełnia założenie: 0 ≤ F n (x) ≤ 1

Rozkład empiryczny Szereg rozdzielczy dla cechy skokowej Wartości cechy x i Liczebności n i Częstości w i Dystrybuanta empiryczna F n (x i ) x1x2x3...xkx1x2x3...xk n1n2n3...nkn1n2n3...nk w1w2w3...wkw1w2w3...wk w 1 w 1 +w 2 w 1 +w 2 +w 3. w 1 +w 2 +…w k =1 Ogółemn1

Rozkład empiryczny Szereg rozdzielczy dla cechy skokowej Wartości cechy x i Liczebności n i Częstości w i Dystrybuanta empiryczna F n (x i ) ,075 0,2 0,25 0,3 0,175 0,075 0,075+0,2=0,275 0,075+0,2+0,25=0,525 0,075+0,2+0,25+0,3= 0,825 0,075+0,2+0,25+0,3+0,175=1 Ogółem401

Dystrybuanta empiryczna cecha skokowa 0,075 0,275 0,525 0,825 x F(x)

Dane pogrupowane Cecha ciągła

Rozkład empiryczny Szereg rozdzielczy dla cechy ciągłej (x 0i – x 1i > Liczebności n i Częstości w i F n (x 1i ) x 01 – x 11 x 02 – x 12 x 03 – x 13. x 0k – x 1k n1n2n3...nkn1n2n3...nk w1w2w3...wkw1w2w3...wk w 1 w 1 +w 2 w 1 +w 2 +w 3. w 1 +w 2 +…w k =1 Ogółemn1

Graficzna prezentacja cechy ciągłej Histogram x w i (częstości)

Graficzna prezentacja cechy ciągłej Wielobok częstości w i (częstości) x

Dystrybuanta empiryczna cecha ciągła xixi F(n)

Miary statystyczne

Prezentację rozkładu cechy można uzupełnić podając jego liczbowe charakterystyki tzw. miary statystyczne.

A. Miary klasyczneB. Miary pozycyjne I. Położenie (tendencja centralna) Średnia arytmetycznaKwantyle (mediana, kwartyle) Dominanta (in. moda, modalna) II. Dyspersja, zróżnicowanie Wariancja Odchylenie standardowe Współczynnik zmienności Rozstęp ćwiartkowy Odchylenie ćwiartkowe Współczynnik zmienności (pozycyjny) III. Asymetria Klasyczny współczynnik asymetrii Współczynnik skośności Pozycyjny współczynnik asymetrii

Myśleli, że jestem przeciętnym piłkarzem. Teraz pokażę, że to ja dominuję na boisku.

I Miary położenia Czym różnią się wykresy? Odp. Wykresy różnią się wartością przeciętną (średnią). n x

I. Miary tendencji centralnej A.Miary klasyczne Średnia arytmetyczna 1.Dane indywidualne (formuła nieważona) 2.Dane pogrupowane (formuła ważona) a. cecha skokowa: b. cecha ciągła:

Średnia arytmetyczna - dane indywidualne L.p.Grupa wieku Liczba wizyt x i Dochód y i 1S468 2S185 3M264 4D376 5S468 6D280 7S D184 X̄= ⅟ 40 ( ……+1)= ⅟ 40 ∙92 = 2,3 Ȳ= ⅟ 40 ( ……+84) = ⅟ 40 ∙2960 = 74

Średnia arytmetyczna Dane pogrupowane - cecha skokowa Wartości cechy x i Liczebności n i Częstości w i ,075 0,2 0,25 0,3 0,175 Ogółem401 X̄ = ⅟ 40 (0∙3 + 1∙8 + 2∙10 + 3∙12 + 4∙7) = 2,3 lub X̄ = 0∙0, ∙0,2 + 2∙0,25 +3∙0,3 + 4∙0,175 = 2,3

Średnia arytmetyczna Dane pogrupowane - cecha ciągła (y i0 -y i1 >nini wiwi ẙ i ,125 0,2 0,225 0,3 0,15 62,5 67,5 72,5 77,5 82,5 Ogółem401 Ȳ = ⅟ 40 (62,5∙5 + 67,5∙8 + 72,5∙9 + 77,5∙ ,5∙6) = ⅟ 40 ∙2930 = 73,25 lub Ȳ = 62,5∙0, ,5∙0,2 + 72,5∙0, ,5∙0,3 + 82,5∙0,15 = 73,25

B. Miary pozycyjne 1. Mediana

Mediana Dane pogrupowane, cecha ciągła x 0m - dolna granica przedziału mediany n(x 0m ), F n (x 0m ) liczebność i częstość skumulowana dla dolnej granicy przedziału mediany h m,n m,w m rozpiętość, liczebność i częstość przedziału mediany

Graficzne wyznaczanie mediany dla cechy ciągłej na wykresie dystrybuanty empirycznej Me 0,5 F(n) xixi

2. Kwartyle Kwartyl pierwszy Q 1 - dane pogrupowane, cecha ciągła x 0Q1 - dolna granica przedziału kwartyla pierwszego n(x 0Q1 ), F n (x 0Q1 ) liczebność i częstość skumulowana dla dolnej granicy przedziału kwartyla pierwszego h Q1,n Q1,w Q1 rozpiętość, liczebność i częstość przedziału kwartyla pierwszego Kwartyl trzeci Q 3

Graficzne wyznaczanie kwartyli dla cechy ciągłej na wykresie dystrybuanty empirycznej me 0,25 Q1Q1 0,75 Q3Q3 F(n) xixi

*3. Dominanta (moda) Dane pogrupowane, cecha ciągła: x 0d – dolna granica przedziału dominanty h d – rozpiętość przedziału dominanty n d,w d,n d-1,w d-1,n d+1,w d+1 – odpowiednio liczebność i częstość przedziału dominanty oraz poprzedniego i następnego

A. Miary klasyczneB. Miary pozycyjne I. Położenie (tendencja centralna) Średnia arytmetycznaKwantyle ( mediana, kwartyle) Dominanta II. Dyspersja, zróżnicowanie Wariancja Odchylenie standardowe Współczynnik zmienności Rozstęp ćwiartkowy Odchylenie ćwiartkowe Współczynnik zmienności (pozycyjny) III. Asymetria Klasyczny współczynnik asymetrii

II Miary zróżnicowania Wykresy różnią się rozproszeniem (zróżnicowaniem) wyników. n x

II. Miary zróżnicowania A. Miary klasyczne Wariancja - dane indywidualne Jest to wariancja nieobciążona. Jeśli sumę kwadratów odchyleń od średniej podzieli się przez n to otrzymamy wariancję obciążoną.

Wariancja – dane pogrupowane Odchylenie standardowe Współczynnik zmienności

B. Miary pozycyjne Rozstęp: x max – x min Rozstęp ćwiartkowy: Q 3 – Q 1 Odchylenie ćwiartkowe: Współczynnik zmienności (pozycyjny):

A. Miary klasyczneB. Miary pozycyjne I. Położenie (tendencja centralna) Średnia arytmetycznaKwantyle ( mediana, kwartyle) Dominanta II. Dyspersja, zróżnicowanie Wariancja Odchylenie standardowe Współczynnik zmienności Rozstęp ćwiartkowy Odchylenie ćwiartkowe Współczynnik zmienności (pozycyjny) III. Asymetria Klasyczny współczynnik asymetrii Współczynnik skośności Pozycyjny współczynnik asymetrii

III Asymetria Asymetria prawostronna (dodatnia)Asymetria lewostronna (ujemna) Do < Me < x̄ x ̄ < Me < Do Do=Me=X̄ Rozkład symetryczny

III. Miary asymetrii Współczynnik asymetrii (klasyczny): gdzie: - trzeci moment centralny dla danych indywid. dla danych pogrupow. (cecha skokowa) dla danych pogrupow. (cecha ciągła)

Inne miary asymetrii Współczynnik skośności Współczynnik asymetrii (pozycyjny):

Wykres pudełkowy (pudełko z „wąsami”) x min Q 1 me Q 3 x max

Standaryzacja cechy cz. 1 Cechę statystyczną standaryzujemy za pomocą następującego przekształcenia: Dzięki temu przekształceniu otrzymujemy informację:  o ile odchyleń standardowych wartości cechy różnią się od średniej arytmetycznej. Uwaga: Wartości u mogą wskazywać na obserwacje nietypowe w zbiorze danych zwane wartościami izolowanymi, czyli wartości różniące się od średniej o więcej niż trzy odchylenia standardowe.

Standaryzacja cechy cz. 2

Dziękuję dr Marta Marszałek