Probabilistyczne modele danych

Slides:



Advertisements
Podobne prezentacje
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Advertisements

Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 1 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
MATLOS „JAK TEORIA MA SIĘ DO PRAKTYKI?”. Cel projektu: Sprawdzamy, jaka jest zależność między prawdopodobieństwem a częstością zdarzenia.
Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Menu Jednomiany Wyrażenia algebraiczne -definicja Mnożenie i dzielenie sum algebraicznych przez jednomian Mnożenie sum algebraicznych Wzory skróconego.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
POP i SIR POK1 i POK2.
 Przedziałem otwartym ( a;b ) nazywamy zbiór liczb rzeczywistych x spełniających układ nierówności x a, co krócej zapisujemy a
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013
STATYSTYKA OPISOWA WYKŁADY.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
mutacyjnego algorytmu ewolucyjnego
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Rachunki zdań Tautologiczność funkcji
Wyniki egzaminu gimnazjalnego Matematyka Rok szkolny 2016/1017
WAE Jarosław Arabas Algorytm ewolucyjny
Liczby pierwsze.
Rachunek prawdopodobieństwa i statystyka
Modele SEM założenia formalne
Funkcja – definicja i przykłady
Wstęp do Informatyki - Wykład 3
Elementy analizy matematycznej
Pojedyńczy element, mała grupa
Opracowała: Monika Grudzińska - Czerniecka
Małgorzata Podogrodzka, SGH ISiD
Elementy fizyki kwantowej i budowy materii
Analiza rozkładu empirycznego
Wnioskowanie statystyczne. Estymacja i estymatory.
Eksploracja Danych ____________________ Repetytorium ze statystyki
Zmienne losowe wielowymiarowe
Własności statystyczne regresji liniowej
Weryfikacja hipotez statystycznych
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
Statystyka i Demografia
Proste obliczenia w arkuszu kalkulacyjnym
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Wnioskowanie statystyczne. Estymacja i estymatory.
Znajdowanie liczb pierwszych w zbiorze
REGRESJA WIELORAKA.
Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Statystyka i Demografia wykład 9
Prawa ruchu ośrodków ciągłych c. d.
…rozkłady, kowariancja, korelacja, estymacja i weryfikacja hipotez…
Program na dziś Wprowadzenie Logika prezentacji i artykułu
WYBRANE ZAGADNIENIA PROBABILISTYKI
Wiesław Niebudek 7 grudnia 2017r.
Podstawowe definicje i twierdzenia Rachunku Prawdopodobieństwa
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Probabilistyczne modele danych Statystyka i Demografia Probabilistyczne modele danych Zmienne losowe Rozkład prawdopodobieństwa i dystrybuanta Wartość oczekiwana i wariancja zmiennej losowej

Zmienne losowe Zmienna losowa jest to funkcja rzeczywista X, określona na zbiorze zdarzeń elementarnych  X: W Zmienne losowe zwykle oznacza się dużymi literami z końca alfabetu : X, Y, Z. Wartości zmiennych losowych zwykle oznacza się małymi literami z końca alfabetu: x,y,z.

Rodzaje zmiennych losowych Ze względu na zbiór wartości badanej cechy (zastosowaną skalę pomiarową) rozróżnia się dwa podstawowe typy zmiennych losowych: jakościowe – zbiory wartości lingwistycznych opisujących np kolor, wielkość, dzień tygodnia... ilościowe – zbiory liczbowe, zawierające wartości cech mierzalnych.... Zmienne losowe ilościowe mogą przyjmować wartości: dyskretne (skokowe) ze zbioru skończonego (np. ocena) lub dowolnego podzbioru liczb całkowitych, np liczba sztuk wadliwych, ciągłe z przedziału liczb rzeczywistych, np. czas działania urządzenia, temperatura, ciężar...

Definiowanie zmiennej losowej Z partii wyrobów zawierającej wyroby dobre i wyroby wadliwe losuję jeden wyrób, wtedy  = {d , w } gdzie d- oznacza wylosowanie wyrobu dobrego w- oznacza wylosowanie wyrobu wadliwego Określam zmienną losową X w następujący sposób: X(d)=1 X(w )=0 Definiowanie zmiennej losowej polega na przypisaniu poszczególnym zdarzeniom elementarnym konkretnych wartości (liczbowych)

Rozkład prawdopodobieństwa zmiennej losowej dyskretnej Jeżeli w przedstawionym przykładzie, dotyczącym kontroli jakości wyrobów, 90% wyrobów było dobrych, natomiast 10% było wadliwych, to możemy mówić o prawdopodobieństwie zdarzeń: P({ : X()=0}) = 0,1 P({ : X()=1}) = 0,9 (jest to tzw. „dwupunktowy” rozkład prawdopodobieństwa) Tablicowy zapis rozkładu prawdopodobieństwa zmiennej losowej X Xi 1 pi 0,1 0,9

Rozkład prawdopodobieństwa dyskretnej zmiennej losowej Rozkład prawdopodobieństwa dyskretnej zmiennej losowej X jest zbiorem par {xi, p(xi)}, gdzie xi jest wartością zmiennej X dla zdarzenia i, X(i)= xi p - prawdopodobieństwem wystąpienia wartości x Twierdzenie Założenie: Jeśli x1 , x2 , x3…….. oznaczają wszystkie różne wartości dyskretnej zmiennej losowej, to Teza

Dystrybuanta zmiennej losowej Dystrybuantą FX(x0) zmiennej losowej X jest funkcja F określona na zbiorze liczb rzeczywistych, jako prawdopodobieństwo zdarzenia, polegającego na tym, że zmienna ta przyjmie wartości mniejsze od x0. FX(x0) = P(X< x0) Dystrybuanta jest funkcją: określoną na zbierze liczb rzeczywistych; o wartościach z przedziału [0-1]; niemalejącą prawostronnie ciągłą Dystrybuantę zmiennej losowej X oznaczamy zwykle jako FX FX(x0) = PX((-,x0)) = P(X<x0) P ([a,b]) = P(a  X< b) = FX(b) - FX(a)

Zastosowanie teorii w praktyce – wyznaczanie rozkładu zmiennej losowej Z partii wyrobów losujemy 3 sztuki. Na rysunku pokazano : przestrzeń możliwych zdarzeń sposób określania zmiennej losowej X = Liczba sztuk wadliwych www 3 dww wdw 2 dwd wwd 1 ddw wdd ddd Przestrzeń zdarzeń

Rozkład i dystrybuanta zmiennej losowej p1=P( X=0)=1/8, p2=P( X=1)=3/8, ....... Rozkład prawdopodobieństwa zmiennej losowej X i 1 2 3 4 xi pi 1/8 3/8 F(x) 1/2 7/8 Dystrybuanta FX(0) = PX((-,0)) = P(X<0) = 0 FX(1) = PX((-,1)) = P(X<1) = P(X=0) =1/8 FX(2) = PX((-,2)) = P(X<2) = 1/8+3/8 = 4/8 FX(3) = PX((-,3)) = P(X<3) = 1/8+3/8 +3/8 = 7/8 FX(4) = PX((-,4)) = P(X<4) = 1

Wykresy rozkładu prawdopodobieństwa i dystrybuanty zmiennej losowej dyskretnej (skokowej) Wykres dystrybuanty Wykres rozkładu

Parametry rozkładu zmiennej losowej Wartość oczekiwana Wartość oczekiwaną [nadzieję matematyczną / wartość przeciętną], zmiennej losowej X oznacza się E(X) i określa w następujący sposób Dla zmiennej losowej dyskretnej Dla zmiennej losowej ciągłej

Twierdzenia o wartości oczekiwanej Założenia : X, Y są zmiennymi losowymi  jest liczbą rzeczywistą, c oznacza stałą wartość Tezy: E (c) = c E ( X) =  E (X) E (X +Y) = E (X) + E (Y)

Parametry rozkładu zmiennej losowej Wariancja D2(X) i odchylenie standardowe D(X) Wariancją zmiennej losowej X nazywamy wyrażenie Wariancja jest /parametrem/charakterystyką określającą stopień rozrzutu (rozproszenia, zróżnicowania, dyspersji). Ze względu na łatwość interpretacji geometrycznej, za miarę rozrzutu przyjmuje się pierwiastek kwadratowy z wariancji, czyli Odchylenie standardowe: Stosunek odchylenia standardowego do wartości oczekiwanej nazywamy współczynnikiem zmienności : V = D(X)/E(X)

Obliczanie Wariancji D2(X) Wariancja zmiennej losowej skokowej Wariancja zmiennej losowej ciągłej

Twierdzenia o wariancji Założenia: X, Y : zmienne losowe, a: liczba; Tezy: D2(X)=E (X2) – (E(X))2 D2(const)= 0 D2(a*X)= a2 *D2(X) D2(aX +b)= a2 *D2(X) D2(X +Y) = D2(X) + D2(Y)

Wariancja D2(X) Definicja wariancji Dla zmiennej skokowej Dla zmiennej ciągłej

Przykład jak prosto obliczyć wartość oczekiwaną i wariancję xi 1 2 3 S pi 0,125 0,375   xi*pi 0,75 1,5 xi2*pi 1,125 E(X) = 1,5 D2(X)=E (X2) – (E(X))2 =3 – (1,5)2= 0,75

Zadanie Sprawdzić czy funkcja f , jest gęstością prawdopodobieństwa znaleźć dystrybuantę F(x) obliczyć P (X< 0,5) P (1<X<2) przedstawić graficzną interpretację wyników obliczeń

Rozwiązanie 1. Czy f jest gęstością prawdopodobieństwa: a) Funkcja f jest nieujemna b) 2. Dystrybuanta 3. P (X< 0,5) = F(0,5) = 1- e-0,5 P (1<X<2) = F(2) - F(1) = (1- e-2) - (1- e-1)= e-1- e-2

Interpretacja graficzna EXP(-A1) 1,0 0,1 EXP(-A2) 0,9 0,2 EXP(-A3) 0,8 0,3 EXP(-A4) 0,7 0,4 EXP(-A5) 0,5 EXP(-A6) 0,6 EXP(-A7) EXP(-A8) EXP(-A9) EXP(-A10) : : P (X< 0,5) P (1<X<2) KISIM, WIMiIP, AGH

Histogram …znowu KISIM, WIMiIP, AGH

Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów

Wykresy

Przykład zastosowania pakietu Statistica do analizy zapotrzebowania na energię

Tabele przestawne MS Excel KISIM, WIMiIP, AGH

Tabele przestawne Excel Liczba godzin w pracy w tygodniu Czy stan cywilny, zarobki oraz płeć wpływa na rozkład czasu pracy? Kto pracuje dłużej? KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Liczba godzin w pracy w tygodniu KISIM, WIMiIP, AGH

Zarobki vs. Rasa vs. Edukacja Rasa wpływa na zarobki – proporcjonalnie więcej białych zarabia powyżej 50K Wykształcenie wpływa na zarobki Inne rasy muszą uczyć się dłużej, żeby zarabiać powyżej 50K KISIM, WIMiIP, AGH

Tabele wielodzielcze STATISTICA KISIM, WIMiIP, AGH

Tabele wielodzielcze STATISTICA KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Tabele raportujące KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Rozkłady dwuwymiarowe histogramy skategoryzowane Tabela dwudzielcza histogram skategoryzowany KISIM, WIMiIP, AGH

Rozkłady i histogramy MS Excel KISIM, WIMiIP, AGH

wykres słupkowy =CZĘSTOŚĆ(B94:B1005;$A$3:$A$18)  funkcje tablicowe kończymy wybierając Ctrl+Shift+Enter KISIM, WIMiIP, AGH

Analysis Toolpak histogram Zakres komórek – B1:B30 – wyniki / obserwacje Zakres zbioru – D1:D9 – grupy do których zostaną przyporządkowane obserwacje Zakres wyjściowy – F1 – wybieramy jedną komórkę, od której w prawo i w dół zostanie wygenerowane zestawienie KISIM, WIMiIP, AGH

Analysis Toolpak histogram KISIM, WIMiIP, AGH

rozkład normalny KISIM, WIMiIP, AGH

Excel – statystyka opisowa Age   education-num hours-per-week Średnia 38,58631415 10,0311042 40,84603 Błąd standardowy 0,550114822 0,098083873 0,510591 Mediana 37 10 40 Tryb 25 9 Odchylenie standardowe 13,94950616 2,48715639 12,94728 Wariancja próbki 194,5887221 6,18594691 167,632 Kurtoza 0,165702229 0,543292338 3,369519 Skośność 0,679404796 -0,253749493 0,626327 Zakres 73 15 95 Minimum 17 1 4 Maksimum 90 16 99 Suma 24811 6450 26264 Licznik 643 Poziom ufności(95,0%) 1,080241733 0,19260396 1,00263 KISIM, WIMiIP, AGH

Wykaz narzędzi statystycznych Analysis Toolpak 1. ANOVA 2. ANOVA: POJEDYNCZY CZYNNIK 3. ANOVA: DWA CZYNNIKI Z REPLIKACJĄ 4. ANOVA: DWA CZYNNIKI BEZ REPLIKACJI 5. Korelacja 6. Kowariancja 7. Statystyki opisowe 8. Wygładzanie wykładnicze 9. Test F: dwie próbki dla wariancji 10. Analiza fouriera 11. Histogram 12. Średnia ruchoma 13. Generowanie liczb losowych 14. Ranga i percentyl 15. Regresja 16. Próbkowanie 17. Test t 18. Test t: dwie próby, przy założeniu równych wariancji 19. Test t: dwie próby, przy założeniu nierównych wariancji 20. Test t: sparowany, dwie próby dla średnich KISIM, WIMiIP, AGH