Statystyka i Demografia

Slides:



Advertisements
Podobne prezentacje
Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Advertisements

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Metody losowania próby
Statystyka Wojciech Jawień
Analiza współzależności zjawisk
Podsumowanie wykładu 1. Najpełniejszą charakterystyką wybranej zmiennej jest jej rozkład.
Skale pomiarowe – BARDZO WAŻNE
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
BUDOWA MODELU EKONOMETRYCZNEGO
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
Metody badawcze w socjologii
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Analiza współzależności dwóch zjawisk
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Hipotezy statystyczne
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Magdalena Nowosielska
Elementy Rachunku Prawdopodobieństwa i Statystyki
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Podstawy statystyki, cz. II
Statystyka i opracowanie wyników badań
Planowanie badań i analiza wyników
Seminarium licencjackie Beata Kapuścińska
Co to jest dystrybuanta?
Wnioskowanie statystyczne
Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne.
STATYSTYKA Pochodzenie nazwy:
Statystyka medyczna Piotr Kozłowski
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Repetytorium z probabilistyki i statystyki
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
Statystyczna analiza danych
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
ze statystyki opisowej
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Grupowanie danych statystycznych „ Człowiek – najlepsza inwestycja”
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Człowiek – najlepsza inwestycja
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Halina Klimczak Katedra Geodezji i Fotogrametrii Akademia Rolnicza we Wrocławiu WYKŁAD 2 ZMIENNE GRAFICZNE SKALA CIĄGŁA I SKOKOWA.
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Testy nieparametryczne
Statystyka matematyczna
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
Repetytorium z probabilistyki i statystyki
Estymacja i estymatory
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Analiza współzależności zjawisk
Korelacja i regresja liniowa
statystyka podstawowe pojęcia
Zapis prezentacji:

Statystyka i Demografia Wprowadzenie do badań statystycznych Podstawowe definicje i twierdzenia Rachunku Prawdopodobieństwa www.metal.agh.edu.pl/~regulski Krzysztof Regulski, WIMiIP, KISiM, regulski@agh.edu.pl B5, pok. 408

Plan Znaczenie i rola statystyki matematycznej we współczesnych badaniach naukowych. Podstawowe pojęcia w statystyce Wprowadzenie do rachunku prawdopodobieństwa: Zdarzenia, przestrzeń zdarzeń. KISIM, WIMiIP, AGH

Treści Badania statystyczne; Podstawowe pojęcia. Statystyka opisowa miary położenia, miary zmienności, asymetrii i koncentracji, reprezentacja graficzna danych. Szeregi. Elementy rachunku prawdopodobieństwa: interpretacja zdarzeń, prawdopodobieństwo – podstawowe twierdzenia. Zmienne losowe, ich rozkłady i parametry rozkładu. Techniki wnioskowania statystycznego: estymacja i estymatory, weryfikacja hipotez statystycznych, testy statystyczne parametryczne i nieparametryczne. Analiza struktury zbiorów danych. Dopasowanie rozkładu empirycznego do teoretycznego. Analiza wariancji. Szukanie i badanie zależności. Podstawy korelacji i regresji: pojęcia podstawowe, korelacje cząstkowe, korelacje nieparametryczne, funkcje regresji. Ocena dopasowania funkcji do danych. Podstawowa wiedza o procesach stochastycznych.

Znaczenie i rola statystyki matematycznej Statystyka pozwala wydobyć wiedzę z chaosu (z danych szczegółowych) Stale posługujemy się statystyką, np. uogólniając sądy Zarabiamy mniej niż w innych krajach UE Dłużej żyjemy Częściej chorujemy Stosujemy pojęcia statystyczne w języku potocznym: Przeciętny konsument Podwyżka energii pociąga za sobą wzrost cen żywności KISIM, WIMiIP, AGH

„kłamstwo, łgarstwo, statystyka” Skąd wynika zła opinia o statystyce ? Hermetyczna i trudna terminologia, Brak wiedzy na temat metod statystycznej analizy, które chronią przed skutkami niepewności wynikającej z przypadkowości, ze współdziałania wielu czynników i umożliwiają podejmowanie najlepszych decyzji w warunkach niepewności Niepoprawne (świadome) stosowanie statystyki dla osiągania ściśle określonych celów np. politycznych – czarne praktyki, manipulacja KISIM, WIMiIP, AGH

Londyn, 1710r. John Arbuthnot: od 82 lat w Londynie rodzi się więcej chłopców, niż dziewczynek… przypadek, czy tendencja? Sformułowanie hipotezy zerowej H0 : w Londynie rodzi się tyle samo kobiet co mężczyzn; pCH = pDZ = ½ Gdyby tak było, prawdopodobieństwo tego, że przez 82 lata rodziliby się głównie chłopcy wynosiłoby: czyli zero, a po przecinku 23 zera, a potem czwórka… KISIM, WIMiIP, AGH

Karl Pearson, 1857-1936; Ronald Fisher, 1890-1962; Test statystyczny możemy zdefiniować jako procedurę pozwalającą na obliczenie prawdopodobieństwa otrzymania danego wyniku w eksperymencie, przy założeniu że prawdziwa jest hipoteza zerowa. Zajmował się ilościowym podejściem do problemów m.in. biologicznych. Twórca współczynnika korelacji liniowej Pearsona Fisher był jednym z twórców nowoczesnej statystyki matematycznej, zajmował się metodami weryfikacji hipotez. Stworzył statystyczną metodę największej wiarygodności, analizę wariancji (ANOVA) oraz liniową analizę dyskryminacyjną. KISIM, WIMiIP, AGH

Kanon jedynej różnicy schematy wnioskowania indukcyjnego: kanony Milla (1843r.) pozwalają ustalić związki przyczynowe między występowaniem zjawisk różnego rodzaju „jeżeli dane zjawisko ma miejsce tylko w jednej z dwóch sytuacji, a sytuacje te różnią się tylko jedną z cech, to zjawisko to jest skutkiem lub przyczyną wystąpienia tej cechy” KISIM, WIMiIP, AGH

„jeśli fakty nie potwierdzają teorii, tym gorzej dla faktów” Falsyfikacja idealizm ontologiczny; co jest rozumne, jest rzeczywiste, a co jest rzeczywiste, jest rozumne „jeśli fakty nie potwierdzają teorii, tym gorzej dla faktów” Nawet jeśli będziemy mieli zbiór miliona faktów potwierdzających daną teorię, może się w każdej chwili zdarzyć, że ktoś zarejestruje fakt nr milion jeden, który nie będzie z teorią zgodny.  „Teoria naukowa jest jak słup wbity w ruchomy piasek, na którym buduje się całą konstrukcję, gdy słup zgnije albo się zawali pod naporem faktów, trzeba go zastąpić nowym” KISIM, WIMiIP, AGH

Podstawowe pojęcia Populacja i próba statystyczna Badania statystyczne Cechy statystyczne, rodzaje cech i stosowane skale ich pomiaru Dane statystyczne i ich wstępne opracowanie

Populacja i próba statystyczna Populacja jest to zbiór wszystkich elementów reprezentujących analizowany problem (zjawisko). Może być zbiorem skończonym, przeliczalnym lub nieprzeliczalnym. Próba statystyczna – to podzbiór właściwy elementów badanej populacji, będący podstawą wnioskowania statystycznego o populacji.

Podstawowe cele badań statystycznych i statystycznej analizy zbiorów danych Badanie struktury populacji, reprezentowanej przez zbiór (danych) wartości wybranych cech (zmiennych) i jej wizualizacja w postaci rozkładów tych zmiennych bądź charakterystyka przy zastosowaniu parametrów statystyki opisowej. Odkrywanie i określanie (charakteru, siły, kierunku) zależności występujących w zbiorach danych reprezentujących różne cechy badanych obiektów, zjawisk, procesów. Wnioskowanie statystyczne – weryfikacja hipotez.

Badania statystyczne - rodzaje Badania pełne obejmują wszystkie elementy populacji, np. na przeglądzie uzębienia danego pacjenta można określić dokładną liczbę zębów i ich stan Badania częściowe – badania elementów próbki statystycznej, mają szerokie zastosowania i są: konieczne w przypadku populacji nieskończonej, stosowane w populacjach skończonych bardzo licznych stosowane w przypadkach badań niszczących

Badania statystyczne – próby losowe Losowy dobór próby polega na tym, że o fakcie znalezienia się poszczególnych elementów populacji w próbie decyduje przypadek. Jest to taki sposób wyboru przy którym spełnione są następujące dwa warunki; każda jednostka populacji ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji

Wybór próby reprezentatywnej Od próby wymaga się reprezentatywności, czyli aby z przyjętą dokładnością opisywała strukturę badanej populacji. O reprezentatywności decydują dwa czynniki: Liczebność (n) Sposób doboru grupy Wybór celowy: o przynależności do grupy decyduje badacz, stopień reprezentatywności zależy wyłącznie od jakości selekcji Wybór losowy: każdy element populacji ma jednakową szansę znalezienia się w próbie z takim samym prawdopodobieństwem, stopień reprezentatywności rośnie wraz ze wzrostem liczebności grupy. Stosowane są dwie techniki losowania: Losowanie niezależne (zwrotne) Losowanie zależne (bezzwrotne)

O źródłach błędów w badaniach statystycznych Badania zawsze obciążone są błędami, zarówno pełne jak i częściowe, związanymi z: organizacją eksperymentu, niedokładnością pomiarową, przetwarzaniem wyników, w badaniach częściowych z niedokładnością odwzorowania struktury populacji w strukturę próbki

Cechy statystyczne i ich rodzaje Cechy, którymi wyróżniają się jednostki wchodzące w skład zbiorowości, nazywa się cechami statystycznymi. Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie cechy, które stanowią istotną własność badanego zjawiska Typy cech cechy jakościowe – niemierzalne (np. kolor, sprawny, niesprawny) cechy ilościowe – mierzalne to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali ( np. wzrost [cm], waga [kg], udział[%]).

Cecha mierzalna jest: Cechy mierzalne ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np. odległość, ciężar, temperatura) dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (liczba zatrudnionych w zawodzie, liczba poległych) KISIM, WIMiIP, AGH

Skale pomiaru cechy Skala nominalna – klasyfikacja, podział na kategorie; dotyczy cech jakościowych, np. płeć. Skala porządkowa (rangowa) – porządkowanie lub uszeregowanie badanej zmiennej ze względu na nasilenie (np. mały, średni, duży; Męskość i kobiecość kultury przedsiębiorstwa) Skala przedziałowa (równomierna) – pozwala na określenie odległości pomiędzy jednostkami (równe interwały), umowny punkt zerowy (temperatura oC/ oF, iloraz inteligencji) Skala ilorazowa – stałe stosunki pomiarów (np. dwa razy więcej), zero absolutne, zero oznacza brak cechy: np. czas, długość, etc.

Dane jako wyniki badań Wyniki obserwacji i pomiarów mogą być wyrażone w postaci Tekstu (cechy jakościowe) Liczb całkowitych Przedziałów liczbowych Dane źródłowe zawierają się w: zbiorze, zbiorze uporządkowanym, zwanym szeregiem szczegółowym zbiorze podzielonym na klasy, zwanym szeregiem rozdzielczym

Opracowanie materiału statystycznego Szeregi statystyczne Celem tych działań jest przejście od danych indywidualnych do danych zbiorowych. Materiał źródłowy należy odpowiednio posegregować i policzyć, w wyniku otrzymuje się tzw. tablice robocze. Klasyfikacja danych musi być przeprowadzona: w sposób rozłączny, jednostki o określonych cechach muszą być jednoznacznie przydzielone do poszczególnych klas W sposób zupełny, tzn. klasy muszą objąć wszystkie występujące cechy danej zbiorowość Technika zestawiania zależy od rodzaju skali pomiarowej

Szeregi statystyczne szczegółowe rozdzielcze czasowe Z cechą ilościową Z cechą jakościową punktowe przedziałowe proste skumulowane proste skumulowane

Szereg szczegółowy Badana cecha przyjmuje niewielką liczbę jednostek (mała grupa) {x1, .... ,xn} Wartości porządkuje się Rosnąco x1< .... <xn lub Malejąco x1> .... >xn

Szereg czasowy, dynamiczny, chronologiczny Otrzymuje się w wyniku grupowania typologicznego (wyodrębniającego różne jakościowo cechy) wariancyjnego (porządkującego zbiorowość przez łączenie w klasy jednostek mających odpowiednie wartości cech) gdy podstawą grupowania jest zmiana badanego zjawiska w czasie

Analiza zmian w czasie - budowa szeregu czasowego

Szereg rozdzielczy Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy: Ustalenie liczby klas oraz wielkości przedziałów klasowych Przyporządkowanie danych przyjętym przedziałom klasowym Zliczanie liczby jednostek w każdej klasie Liczba klas k zależy przede wszystkim od liczby obserwacji n Stosowane bywają następujące wzory pomocne do szacowania liczby przedziałów budowanego szeregu rozdzielczego: k=1+3,322 log n lub

Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów Numer klasy Granice przedziałów klasowych Środek przedziału Liczność klasy Częstość dolna górna LP a b xi ni ni/n 1 3 9 6 0,03 2 15 12 0,11 21 18 16 0,15 4 27 24 0,17 5 33 30 26 0,25 39 36 17 0,16 7 45 42 8 0,08 51 48 0,04 57 54 0,01   Suma 105

Histogram

Przykład zastosowania pakietu Statistica do analizy zapotrzebowania na energię

KISIM, WIMiIP, AGH

2016r. 2012r. Odsetek pracujących (skumulowane) Struktura wynagrodzeń (netto) Liczba pracujących (skumulowane) Odsetek pracujących (skumulowane) Poniżej 1181 zł ok. 800 tys. osób 10% Poniżej 1423 zł ok. 1,44 mln 18% Poniżej 2776 zł ok. 5,2 mln osób 66% Poniżej 3549 zł ok. 6,4 mln osób 80,50% Ponad 3549 zł netto miesięcznie zarabia tylko 19,5% pracujących Ponad 7000 zł ok. 270 tys. osób 3,47% Ponad 14000 zł ok. 48 tys. osób 0,60% Ponad 19000 zł ok. 16 tys. osób 0,20% Źródło: opracowanie Bankier.pl na podstawie danych GUS *Dane w tabeli dotyczą ok. 8 mln osób zatrudnionych w gospodarce narodowej (sektor przedsiębiorstw plus sektor publiczny) 2016r. 2012r. KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH