statystyka podstawowe pojęcia

Slides:



Advertisements
Podobne prezentacje
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Advertisements

w szkole średniej Wykonały: Alicja Makowska i Beata Karwowska
Metody losowania próby
Analiza współzależności zjawisk
Zmienne losowe i ich rozkłady
Podsumowanie wykładu 1. Najpełniejszą charakterystyką wybranej zmiennej jest jej rozkład.
Skale pomiarowe – BARDZO WAŻNE
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
BUDOWA MODELU EKONOMETRYCZNEGO
Jak mierzyć zróżnicowanie zjawiska? Wykład 4. Miary jednej cechy Miary poziomu Miary dyspersji (zmienności, zróżnicowania, rozproszenia) Miary asymetrii.
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
Właściwości średniej arytmetycznej
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Statystyka w doświadczalnictwie
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
BIOSTATYSTYKA I METODY DOKUMENTACJI
Dane informacyjne: Gimnazjum im. Marii Skłodowskiej-Curie
Niepewności przypadkowe
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Co to są rozkłady normalne?
SKALE POMIAROWE.
Co to są rozkłady normalne?
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Magdalena Nowosielska
Elementy Rachunku Prawdopodobieństwa i Statystyki
Hipotezy statystyczne
Statystyka ©M.
Statystyka - to „nie boli”
Planowanie badań i analiza wyników
Co to jest dystrybuanta?
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski.
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Statystyka medyczna Piotr Kozłowski
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Wykład 5 Przedziały ufności
Repetytorium z probabilistyki i statystyki
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
Statystyczna analiza danych
Statystyczna analiza danych
Statystyczna analiza danych
Statystyczna analiza danych
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
ze statystyki opisowej
SKALA CIĄGŁA I SKOKOWA.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Człowiek – najlepsza inwestycja
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Halina Klimczak Katedra Geodezji i Fotogrametrii Akademia Rolnicza we Wrocławiu WYKŁAD 2 ZMIENNE GRAFICZNE SKALA CIĄGŁA I SKOKOWA.
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Jak mierzyć zróżnicowanie zjawiska?
Małgorzata Podogrodzka, SGH ISiD
Statystyka matematyczna
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Estymacja i estymatory
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Statystyka i Demografia
MIARY STATYSTYCZNE Warunki egzaminu.
Zapis prezentacji:

statystyka podstawowe pojęcia www.metal.agh.edu.pl/~regulski Krzysztof Regulski, WIMiIP, KISiM, regulski@agh.edu.pl B5, pok. 408

„data scientist” – badacz danych? KISIM, WIMiIP, AGH

struktura zbiorów danych dane składają się z obserwacji i zmiennych obserwacje to inaczej: przypadki, rekordy, instancje, case’y, etc. zmienne to inaczej: atrybuty, cechy, kolumny, etc. zmienna może być: zależna objaśniana, prognozowana, endogeniczna, odpowiedzi, wewnętrzna niezależna objaśniająca, predyktor, egzogeniczna, zewnętrzna zbieranie danych – to zbieranie przypadków (obserwacji) zebrane obserwacje opisywane są poprzez cechy (zmienne) każda zmienna to pewna charakterystyka przypadku KISIM, WIMiIP, AGH

cechy jakościowe – niemierzalne (np. kolor, sprawny, niesprawny) typy cech cechy jakościowe – niemierzalne (np. kolor, sprawny, niesprawny) cechy ilościowe – mierzalne to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali (np. wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest: ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura) dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba zatrudnionych w zawodzie KISIM, WIMiIP, AGH

skale pomiaru cechy (types of variables) Skala nominalna –dotyczy cech jakościowych, operacją pomiarową jest identyfikacja kategorii do której należy zaliczyć wynik, prowadzi do podziału zbioru na zbiory rozłączne (np. samochody wg kolorów). Skala porządkowa – stosowana jest do badania cech których natężenie jest określane przez przymiotniki, pociąga za sobą porządkowanie lub uszeregowanie badanej zmiennej (np. poniżej normy, w normie, powyżej normy, albo za mały, mały, średni, duży...) Skala równomierna (przedziałowa). Stosowana do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb rzeczywistych określona przez wskazanie stałej jednostki miary i relacji przyporządkowującej liczbę każdemu wynikowi obserwacji (czas kalendarzowy, temperatura oC) Skala ilorazowa. Posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzują się stałymi stosunkami i bezwzględnym zerem, ma zastosowanie w fizyce, technice, np. długość czy czas categorical variables skale ilościowe (quantitative variables) KISIM, WIMiIP, AGH

próbkowanie (sampling) chcemy wnioskować o populacji na podstawie danych… badania pełne obejmują wszystkie elementy populacji ale często danych dotyczących całej populacji jest… za dużo (czasem nieskończenie) nie da się ich zgromadzić, bo jest to niemożliwe lub bardzo trudne, lub za drogie badania niszczące (np. kontrola jakości) pomiary mogą być kosztowne, więc im mniej ich wykonamy, tym lepiej (z ekonomicznego punktu widzenia) dlatego stosujemy losowy dobór próby ― istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji KISIM, WIMiIP, AGH

błąd systematyczny (bias) odpowiednie losowanie pozwala uniknąć błędu systematycznego (ang. bias) bias może pojawić się na skutek wykonywania pomiarów w warunkach innych od rzeczywistych można je wykryć stosując niezależne metody pomiaru inne MOŻLIWE PRZYCZYNY zmiany obiektu badanego po dołączeniu do urządzenia lub układu pomiarowego wpływ otoczenia na stanowisko pomiarowe KISIM, WIMiIP, AGH

podstawy statystyki opisowej najważniejsze charakterystyki: średnia i mediana (mean and median) – miary położenia odchylenie standardowe i wariancja – miary rozproszenia mediana: wartość środkowa w szeregu uporządkowanym dla zbioru {1,5,99}, mediana wynosi 5 jeśli w szeregu jest parzysta liczba obserwacji, mediana to średnia z dwóch środkowych np. dla zbioru: {2,5,8,10}, mediana wynosi (5 + 8) / 2 = 6,5 mediana dzieli zbiorowość na pół (drugi kwartyl) jeśli średnia równa jest medianie, rozkład jest symetryczny KISIM, WIMiIP, AGH

sposób oceny poziomu wymagań wymagania i prowadzący OK studenci się nie uczą trzeba zaostrzyć reżim symetryczny: mediana „równa” średniej skośny w prawo – średnia mniejsza niż mediana skośny w lewo – średnia większa niż mediana KISIM, WIMiIP, AGH

outliers Która z miar położenia jest najbardziej odporna na obserwacje odstające? Mediana jest na skrajne wartości odporna, co powoduje że często nazywamy ją statystyką odporną (ang. robust, resistant statistic). Obserwacja odstająca lub samotnicza (ang. outlier) to obserwacja, która przyjmuje ekstremalną wartość badanej cechy statystycznej w porównaniu z innymi obserwacjami. KISIM, WIMiIP, AGH

miary rozproszenia, dyspersji (spread of data) odchylenie standardowe (standard deviation) – pokazuje jak daleko obserwacje odstają od średniej duże odchylenie = duże rozproszenie z-score: standaryzowane Z – zmienna jest sprowadzona do postaci, gdzie średnia wynosi 0, a odchylenie standardowe 1 wtedy jednostka zmiennej to liczba odchyleń standardowych KISIM, WIMiIP, AGH

histogram i jego rozdzielczość KISIM, WIMiIP, AGH

nierówności Markowa i Czebyszewa Nierówność Markowa Nierówność Czebyszewa znajaąc średnią i odchylenie standardowo danej zmiennej (z-score) mamy pewność, że maksymalnie 1/4= 25% danych jest oddalonych od średniej o 2 odchylenia standardowe, a 1/9 (ok.11%) o 3 itd. KISIM, WIMiIP, AGH