Analiza rozkładu empirycznego

Slides:



Advertisements
Podobne prezentacje
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Advertisements

Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 1 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Rozliczanie kosztów działalności pomocniczej
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
ze statystyki opisowej
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Podział wartości dodanej Michał Lewandowski, Szkoła Główna Handlowa, Główny Urząd Statystyczny Maciej Banaś, Ministerstwo Rodziny, Pracy i Polityki Społecznej.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ANALIZA DANYCH DO OPRACOWANIA MAP TEMATYCZNYCH HALINA KLIMCZAK INSTYTUT GEODEZJI I GEOINFORMATYKI UNIWERSYTET PRZYRODNICZY WE WROCŁAWIU.
Zależności wprost proporcjonalne Radosław Hołówko Konsultant: Agnieszka Pożyczka.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Metoda kartogramów. Definicja Metoda służy do przedstawiania średniej intensywności zjawiska w granicach określonych pól odniesienia. Wartości obliczane.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
Jak tworzymy katalog alfabetyczny? Oprac.Regina Lewańska.
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Estymacja parametrów statystycznych – podstawowe pojęcia
Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013
STATYSTYKA OPISOWA WYKŁADY.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Funkcje jednej zmiennej
mutacyjnego algorytmu ewolucyjnego
Katedra Międzynarodowych Studiów Porównawczych
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
Małgorzata Podogrodzka, SGH ISiD
Przywiązanie partnerów a ich kompetencje społeczne
WAE Jarosław Arabas Algorytm ewolucyjny
Rachunek prawdopodobieństwa i statystyka
Małgorzata Podogrodzka, SGH ISiD
Modele SEM założenia formalne
Odczytywanie diagramów
Funkcja – definicja i przykłady
Wstęp do Informatyki - Wykład 3
Pojedyńczy element, mała grupa
Opracowała: Monika Grudzińska - Czerniecka
Graficzne metody analizy danych
Małgorzata Podogrodzka, SGH ISiD
Analiza wyników egzaminów zewnętrznych
Wnioskowanie statystyczne. Estymacja i estymatory.
Eksploracja Danych ____________________ Repetytorium ze statystyki
Weryfikacja hipotez statystycznych
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Wnioskowanie statystyczne. Estymacja i estymatory.
REGRESJA WIELORAKA.
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
TESTY NIEPARAMETRYCZNE
Probabilistyczne modele danych
ANKIETA DOTYCZĄCA POZIOMU SZCZĘŚCIA UCZNIÓW I NAUCZYCIELI V LO
Program na dziś Wprowadzenie Logika prezentacji i artykułu
WYBRANE ZAGADNIENIA PROBABILISTYKI
Wiesław Niebudek 7 grudnia 2017r.
Podstawowe definicje i twierdzenia Rachunku Prawdopodobieństwa
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Analiza rozkładu empirycznego Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie Analiza rozkładu empirycznego dr Marta Marszałek e-mail: marta.marszalek@sgh.waw.pl

Plan wykładu Podstawowe definicje i ich znaczenie (m.in. populacja, próba, losowanie próby, cecha) Rodzaje badań (pełne, częściowe) Rodzaje cech statystycznych (dane indywidualne; dane pogrupowane) Dystrybuanta empiryczna Graficzna prezentacja rozkładu (m.in. histogram, wielobok liczebności i częstości) Miary (klasyczne, pozycyjne)

STATYSTYKA – teoria łac. statisticus, „polityczny, dotyczący polityki”, od status, „państwo, stan” zbiór danych liczbowych charakteryzujących określone zjawisko. Nauka o metodach badania zjawisk masowych, tzn. o: gromadzeniu, prezentacji, analizie danych statystycznych (opis statystyczny) i uogólnianiu ich (wnioskowanie statystyczne).

Statystyka w praktyce Prasa, media Nauka: Biznes: Społeczeństwo: artykuły naukowe badania medyczne biotechnologia Biznes: Giełda Marketing Bankowość i finanse Produkcja i sprzedaż Dystrybucja i logistyka Społeczeństwo: Demografia Socjologia Urzędy Statystyczne (regionalne i GUS), Eurostat

Populacja a próba Populacja generalna to zbiorowość statystyczna, podlegająca badaniu. Przykłady: populacja mieszkańców Polski populacja studentów SGH, populacja samochodów marki Toyota, populacja lekarzy internistów w Polsce, populacja gospodarstw domowych (g.d.) w Polsce itp. Elementy populacji generalnej (studenci, samochody, g.d., itp.) różnią się wartościami (realizacjami) badanej cechy statystycznej (np. oceną z egzaminu, zużyciem paliwa, wydatkami na produkty żywnościowe lub napoje alkoholowe). Gdy nie mamy możliwości zbadania całej populacji (np. zbyt liczna, wysoki koszt), do badania wykorzystujemy próbę.

Próba losowa Próba  „miniatura” populacji generalnej, która powinna być wybrana w sposób losowy. Co to oznacza? Każda jednostka populacji generalnej ma znane prawdopodobieństwo znalezienia się w próbie; (inaczej:) Każda możliwa próba złożona z n-elementów ma taką samą szansę, że zostanie wybrana. Jest to tzw. próba losowa prosta.

Metody wyboru losowego dobór losowy prosty – polega na losowaniu jednostek bezpośrednio z populacji generalnej (metodę tę stosuje się wtedy, gdy populacja generalna jest niewielka liczebnie, a jej struktura nieznana) dobór losowy warstwowy – stosowany przy znanej strukturze populacji, którą dzieli się na warstwy jak najmniej zróżnicowane wewnętrznie i jak najbardziej zróżnicowane pomiędzy sobą pod względem danych kryteriów (do próby wybiera się losowo jednostki z każdej warstwy)

Badanie pełne czy częściowe? Wyniki egzaminu ze statystyki studentów wykładu danego wykładowcy. Test nowego leku na nadciśnienie. Zamiast wszystkich pacjentów badaniu poddaje się losowo wybraną próbę. Sondaż popularności partii politycznych. Wnioski dotyczące szans wyborczych określa się po przeprowadzeniu sondażu na próbie losowej. Ankieta dotycząca usług bankowości mobilnej banku. Analiza czytelników czasopisma. Informacje dla działu marketingu – sprawdzenie czy reklama produktu w tym czasopiśmie może być/jest skuteczna. Analiza spalania paliwa marki pewnego samochodu. Czy nowy model samochodu będzie bardziej konkurencyjny od konkurencyjnego?

Rodzaje cech

Cecha statystyczna 𝑋 właściwość (charakterystyka) badanego zjawiska Przykłady: kolor oczu liczba pracowników wydatki gospodarstw domowych (g.d.) dochody g.d. oszczędności g.d. wzrost dzieci w przedszkolu liczba chorych, u których wartość cholesterolu spadła po podaniu leków waga produktu w opakowaniu wielkość opakowania

Rodzaje cech Cecha X skokowa (in. dyskretna) ciągła mierzalna (ilościowa) skokowa (in. dyskretna) np. liczba pracowników w firmie, liczba gospodarstw domowych, liczba błędów przy przepisywaniu tekstu ciągła np. wzrost, waga, wynagrodzenie, wydatki g.d, dochody g.d. niemierzalna (jakościowa) np. kolor, płeć, smakowitość, grupa wiekowa

Cecha statystyczna 𝑋 - mierzalna przyjmuje wartości np. cecha skokowa 𝑋( 𝑥 1 , 𝑥 2 , 𝑥 3 ,..., 𝑥 𝑘 ), gdzie 𝑥 𝑘 = 𝑥 𝑚𝑎𝑥 , 1<𝑘<𝑛 𝑌( 𝑦 1 , 𝑦 2 , 𝑦 3 ,..., 𝑦 𝑘 ) cecha ciągła (przyjmuje wartości z przedziału) (𝑥 0𝑖 − 𝑥 1𝑖 ], (𝑦 0𝑖 − 𝑦 1𝑖 ], (𝑧 0𝑖 − 𝑧 1𝑖 ], gdzie 𝑖=1,…,𝑘)

Dane indywidualne

Dane indywidualne – przykłady Dwudziestu studentów otrzymało następujące wyniki z egzaminu: 5, 5, 4, 3, 3, 4, 2, 4, 4, 3, 3, 3, 5, 2, 4, 4, 3, 3, 5, 4. Przykład 2.: Skoczek w dal uzyskał następujące wyniki (długość skoku podano w metrach): 125, 145, 138, 122, 160, 175, 134, 138, 142, 164. Przykład 3.: W tabeli zaprezentowano wyniki dot. liczby wizyt oraz dochodu osób odwiedzających sieć sklepów spożywczych „SKLEP”. L. p. Grupa wieku* Liczba wizyt xi Dochód yi 1 S 4 68 2 85 3 M 64 D 76 Legenda:* M – młody, D – dojrzały, S – senior

Rodzaje cech – dane indywidualne Szereg rozdzielczy (in. rozkład empiryczny) L. p. Grupa wieku* Liczba wizyt xi Dochód yi 1 S 4 68 2 85 3 M 64 D 76 5 6 80 7 70 8 63 9 . 10 Cecha mierzalna ciągła Cecha mierzalna skokowa Cecha niemierzalna * M – młody, D – dojrzały, S – senior

Na podstawie danych indywidualnych można zbudować szeregi rozdzielcze (rozkłady empiryczne). Dane statystyczne w szeregach rozdzielczych mają charakter danych pogrupowanych.

Dane pogrupowane

Rozkład empiryczny – oznaczenia Cecha skokowa Cecha ciągła xi i=1,2,...,n wartość cechy x0i , x1i – odp. dolna i górna granica i-tego przedziału klas. n liczebność badanej zbiorowości  ni liczba jedn. zbiorowości, liczba jedn. zbiorowości, dla których dla których cecha przyjmuje cecha przyjmuje wartości z i-tego   wartość xi przedziału klasowego wi udział jedn. o wartości xi udział jedn. o wartościach z i- tego w ogólnej liczebności zbioro- przedziału klas. w ogólnej liczebności wości (częstość względna) zbiorowości (częstość względna) i=1……k  

Dane pogrupowane Cecha skokowa

Rozkład empiryczny Szereg rozdzielczy dla cechy skokowej Wartości cechy xi Liczebności ni Częstości względne wi x1 x2 x3 . xk n1 n2 n3 nk w1 w2 w3 wk Ogółem n 1 Częstość względna = odsetek = frakcja =

Rozkład empiryczny Szereg rozdzielczy dla cechy skokowej Wartości cechy xi Liczebności ni Częstości względne wi 1 2 3 4 8 10 12 7 0,075 0,2 0,25 0,3 0,175 Ogółem 40

Graficzna prezentacja cechy skokowej. Rozkład częstości wi (częstość) xi (wartość cechy)

Graficzna prezentacja cechy skokowej – wykres słupkowy i wielobok Wielobok częstości wi (częstość) xi (wartość cechy)

Dystrybuanta empiryczna - skumulowana częstość względna 0 dla x < x1 Fn(x) = dla xi ≤ x < xi+1 i = 1,2,…k-1 1 dla x ≥ xk Dystrybuanta empiryczna jest funkcją niemalejącą oraz spełnia założenie: 0 ≤ Fn(x) ≤ 1

Rozkład empiryczny Szereg rozdzielczy dla cechy skokowej Wartości cechy xi Liczebności ni Częstości wi Dystrybuanta empiryczna Fn(xi) x1 x2 x3 . xk n1 n2 n3 nk w1 w2 w3 wk w1+w2 w1+w2+w3 w1+w2+…wk=1 Ogółem n 1

Rozkład empiryczny Szereg rozdzielczy dla cechy skokowej Wartości cechy xi Liczebności ni Częstości wi Dystrybuanta empiryczna Fn(xi) 1 2 3 4 8 10 12 7 0,075 0,2 0,25 0,3 0,175 0,075+0,2=0,275 0,075+0,2+0,25=0,525 0,075+0,2+0,25+0,3= 0,825 0,075+0,2+0,25+0,3+0,175=1 Ogółem 40

Dystrybuanta empiryczna cecha skokowa F(x) 0,825 0,525 0,275 0,075 x

Dane pogrupowane Cecha ciągła

Rozkład empiryczny Szereg rozdzielczy dla cechy ciągłej (x0i – x1i> Liczebności ni Częstości wi Fn(x1i) x01 – x11 x02 – x12 x03 – x13 . x0k – x1k n1 n2 n3 nk w1 w2 w3 wk w1+w2 w1+w2+w3 w1+w2+…wk=1 Ogółem n 1

Graficzna prezentacja cechy ciągłej Histogram wi (częstości) x

Graficzna prezentacja cechy ciągłej Wielobok częstości wi (częstości) x

Dystrybuanta empiryczna cecha ciągła F(n) xi

Miary statystyczne

Prezentację rozkładu cechy można uzupełnić podając jego liczbowe charakterystyki tzw. miary statystyczne. 𝑥 𝑆 𝑥 2 𝑀 𝑒

A. Miary klasyczne B. Miary pozycyjne I. Położenie (tendencja centralna) Średnia arytmetyczna Kwantyle (mediana, kwartyle) Dominanta (in. moda, modalna) II. Dyspersja, zróżnicowanie Wariancja Odchylenie standardowe Współczynnik zmienności Rozstęp ćwiartkowy Odchylenie ćwiartkowe Współczynnik zmienności (pozycyjny) III. Asymetria Klasyczny współczynnik asymetrii Współczynnik skośności Pozycyjny współczynnik asymetrii

Myśleli, że jestem przeciętnym piłkarzem Myśleli, że jestem przeciętnym piłkarzem. Zaraz udowodnię, że to ja dominuję na boisku. 

I Miary położenia n x Czym różnią się wykresy? Odp. Wykresy różnią się wartością przeciętną (średnią).

I. Miary tendencji centralnej Miary klasyczne Średnia arytmetyczna Dane indywidualne (formuła nieważona) Dane pogrupowane (formuła ważona) a. cecha skokowa: b. cecha ciągła:

Średnia arytmetyczna - dane indywidualne L.p. Grupa wieku Liczba wizyt xi Dochód yi 1 S 4 68 2 85 3 M 64 D 76 5 6 80 7 70 . 40 84 ∑ = 40 92 2960 X̄= ⅟40 ( 4+1+2+……+1)= ⅟40 ∙92 = 2,3 Ȳ= ⅟40 ( 68+85+64+……+84) = ⅟40∙2960 = 74

Średnia arytmetyczna Dane pogrupowane - cecha skokowa Wartości cechy xi Liczebności ni Częstości wi 1 2 3 4 8 10 12 7 0,075 0,2 0,25 0,3 0,175 Ogółem 40 X̄ = ⅟40 (0∙3 + 1∙8 + 2∙10 + 3∙12 + 4∙7) = 2,3 lub X̄ = 0∙0,075 + 1∙0,2 + 2∙0,25 +3∙0,3 + 4∙0,175 = 2,3

Średnia arytmetyczna Dane pogrupowane - cecha ciągła (yi0-yi1> ni wi ẙi 60-65 65-70 70-75 75-80 80-85 5 8 9 12 6 0,125 0,2 0,225 0,3 0,15 62,5 67,5 72,5 77,5 82,5 Ogółem 40 1 Ȳ = ⅟40 (62,5∙5 + 67,5∙8 + 72,5∙9 + 77,5∙12 + 82,5∙6) = ⅟40∙2930 = 73,25 lub Ȳ = 62,5∙0,125 + 67,5∙0,2 + 72,5∙0,225 + 77,5∙0,3 + 82,5∙0,15 = 73,25

B. Miary pozycyjne 1. Mediana Taka wartość cechy, że co najmniej połowa jednostek ma wartość nie większą niż mediana i równocześnie co najmniej połowa jednostek ma wartość cechy nie mniejszą od tej wartości. Dane indywidualne (uporządkowane): wartość cechy jednostki środkowej 𝑀 𝑒 =

Mediana Dane pogrupowane, cecha ciągła x0m - dolna granica przedziału mediany n(x0m), Fn(x0m) liczebność i częstość skumulowana dla dolnej granicy przedziału mediany hm,nm,wm rozpiętość, liczebność i częstość przedziału mediany

Graficzne wyznaczanie mediany dla cechy ciągłej na wykresie dystrybuanty empirycznej. F(n) 0,5 xi Me

2. Kwartyle Kwartyl pierwszy Q1 - dane pogrupowane, cecha ciągła x0Q1 - dolna granica przedziału kwartyla pierwszego n(x0Q1), Fn(x0Q1) liczebność i częstość skumulowana dla dolnej granicy przedziału kwartyla pierwszego hQ1,nQ1,wQ1 rozpiętość, liczebność i częstość przedziału kwartyla pierwszego Kwartyl trzeci Q3

Graficzne wyznaczanie kwartyli dla cechy ciągłej na wykresie dystrybuanty empirycznej. F(n) 0,75 0,25 xi me Q1 Q3

*3. Dominanta (moda) Dane pogrupowane, cecha ciągła: x0d – dolna granica przedziału dominanty hd – rozpiętość przedziału dominanty nd ,wd ,nd-1 ,wd-1 ,nd+1 ,wd+1 – odpowiednio liczebność i częstość przedziału dominanty poprzedniego i następnego

A. Miary klasyczne B. Miary pozycyjne I. Położenie (tendencja centralna) Średnia arytmetyczna Kwantyle ( mediana, kwartyle) Dominanta II. Dyspersja, zróżnicowanie Wariancja Odchylenie standardowe Współczynnik zmienności Rozstęp ćwiartkowy Odchylenie ćwiartkowe Współczynnik zmienności (pozycyjny) III. Asymetria Klasyczny współczynnik asymetrii

II Miary zróżnicowania x Wykresy różnią się rozproszeniem (zróżnicowaniem) wyników.

II. Miary zróżnicowania A. Miary klasyczne Wariancja - dane indywidualne Jest to wariancja nieobciążona. Jeśli sumę kwadratów odchyleń od średniej podzieli się przez n to otrzymamy wariancję obciążoną.

Wariancja – dane pogrupowane Odchylenie standardowe Współczynnik zmienności

B. Miary pozycyjne Rozstęp: xmax – xmin Rozstęp ćwiartkowy: Q3 – Q1 Odchylenie ćwiartkowe: Współczynnik zmienności (pozycyjny):

A. Miary klasyczne B. Miary pozycyjne I. Położenie (tendencja centralna) Średnia arytmetyczna Kwantyle ( mediana, kwartyle) Dominanta II. Dyspersja, zróżnicowanie Wariancja Odchylenie standardowe Współczynnik zmienności Rozstęp ćwiartkowy Odchylenie ćwiartkowe Współczynnik zmienności (pozycyjny) III. Asymetria Klasyczny współczynnik asymetrii Współczynnik skośności Pozycyjny współczynnik asymetrii

III Asymetria Do < Me < x̄ x ̄ < Me < Do Asymetria prawostronna (dodatnia) Asymetria lewostronna (ujemna) Do=Me=X̄ Rozkład symetryczny

III. Miary asymetrii Współczynnik asymetrii (klasyczny): gdzie: - trzeci moment centralny dla danych indywid. dla danych pogrupow. (cecha skokowa) (cecha ciągła)

Inne miary asymetrii Współczynnik skośności Współczynnik asymetrii (pozycyjny):

Wykres pudełkowy (pudełko z „wąsami”) xmin Q1 me Q3 xmax

Standaryzacja cechy – wstęp Cechę statystyczną standaryzujemy za pomocą następującego przekształcenia: Dzięki temu przekształceniu otrzymujemy informację:  o ile odchyleń standardowych wartości cechy różnią się od średniej arytmetycznej. Uwaga: Wartości u mogą wskazywać na obserwacje nietypowe w zbiorze danych zwane wartościami izolowanymi, czyli wartości różniące się od średniej o więcej niż trzy odchylenia standardowe.

Standaryzacja cechy – wstęp Standaryzacja – rodzaj normalizacji zmiennej losowej, w wyniku której zmienna uzyskuje średnią wartość oczekiwaną zero i wariancję jeden Z~N(0,1). 𝒛= 𝒙−𝝁 𝝈 gdzie: x - zmienna niestandaryzowana μ - średnia z populacji σ - odchylenie standardowe populacji Normalizacja – procedura wstępnej obróbki danych w celu umożliwienia ich wzajemnego porównywania i dalszej analizy.

Dziękuję dr Marta Marszałek e-mail: marta.marszalek@sgh.waw.pl