Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013

Slides:



Advertisements
Podobne prezentacje
Statystyka Wojciech Jawień
Advertisements

Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 1 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ANALIZA DANYCH DO OPRACOWANIA MAP TEMATYCZNYCH HALINA KLIMCZAK INSTYTUT GEODEZJI I GEOINFORMATYKI UNIWERSYTET PRZYRODNICZY WE WROCŁAWIU.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Menu Jednomiany Wyrażenia algebraiczne -definicja Mnożenie i dzielenie sum algebraicznych przez jednomian Mnożenie sum algebraicznych Wzory skróconego.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
 Przedziałem otwartym ( a;b ) nazywamy zbiór liczb rzeczywistych x spełniających układ nierówności x a, co krócej zapisujemy a
Jak tworzymy katalog alfabetyczny? Oprac.Regina Lewańska.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Estymacja parametrów statystycznych – podstawowe pojęcia
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
W kręgu matematycznych pojęć
mutacyjnego algorytmu ewolucyjnego
Katedra Międzynarodowych Studiów Porównawczych
SYSTEM KWALIFIKACJI, AWANSÓW I SPADKÓW
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Prowadzący: dr Krzysztof Polko
Liczby pierwsze.
„Prawa Ceteris Paribus i socjo-ekonomiczne mechanizmy”
Rachunek prawdopodobieństwa i statystyka
FIGURY.
Małgorzata Podogrodzka, SGH ISiD
Modele SEM założenia formalne
Podstawy automatyki I Wykład /2016
Elementy analizy matematycznej
Pojedyńczy element, mała grupa
Małgorzata Podogrodzka, SGH ISiD
Elementy fizyki kwantowej i budowy materii
Analiza rozkładu empirycznego
Wnioskowanie statystyczne. Estymacja i estymatory.
Własności statystyczne regresji liniowej
Weryfikacja hipotez statystycznych
Dobrobyt.
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
Statystyka i Demografia
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
REGRESJA WIELORAKA.
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Prawa ruchu ośrodków ciągłych c. d.
TESTY NIEPARAMETRYCZNE
Probabilistyczne modele danych
Program na dziś Wprowadzenie Logika prezentacji i artykułu
WYBRANE ZAGADNIENIA PROBABILISTYKI
Podstawowe definicje i twierdzenia Rachunku Prawdopodobieństwa
Grazyna Mirkowska Matematyka Dyskretna PJWSTK 2001
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013 Wykład 3 i 4: Prawdopodobieństwo, zmienna losowa, rozkłady prawdopodobieństwa, podstawowe pojęcia statystyki, skale pomiarowe

Ściąga notacji z zakresu logiki matematycznej i teorii mnogości

Zdarzenia Eksperyment – powtarzalny sposób postępowania dający jakiś wynik nie zakładamy powtarzalności wyniku Zdarzenie elementarne – każdy możliwy wynik eksperymentu

Zbiory zdarzeń Zbiór zdarzeń elementarnych – zbiór wszystkich możliwych wyników eksperymentu Zdarzenie losowe – dowolny podzbiór zbioru zdarzeń

Prawdopodobieństwo Określone dla zdarzeń losowych lub elementarnych. Własności definiujące:

Częstość Częstość zdarzenia A: liczba wystąpień zdarzenia A liczba powtórzeń eksperymentu

Prawdopodobieństwo i częstość Tylko w nielicznych przypadkach można obliczyć teoretyczne prawdopodobieństwa. Zazwyczaj musimy przybliżać je za pomocą częstości. Przybliżenie to jest tym lepsze, im większa liczba powtórzeń eksperymentu (prawo wielkich liczb).

Prawdopodobieństwo warunkowe Zdarza się, że interesują nas nie wszystkie możliwe wyniki eksperymentu, a jedynie te, które spełniają pewien warunek (zdefiniowany przez zdarzenie losowe) Prawdopodobieństwo zdarzeń przy tak ograniczonym zbiorze zdarzeń elementarnych można obliczyć ze wzoru:

Prawdopodobieństwo warunkowe – przykłady P(♂|starał się na WNGiG UAM) =291/7650,38 policzenie tego wprost ze wzoru byłoby trudniejsze. P(♂|przyjęty na WNGiG UAM) =148/4200,35

Zatem dla zdarzeń niezależnych: Zdarzenia niezależne Jeśli nałożony warunek nie zmienia prawdopodobieństwa, zdarzenia nazywamy niezależnymi Zatem dla zdarzeń niezależnych:

Zmienna losowa Jeżeli wynik eksperymentu wyrazimy w postaci liczbowej to otrzymamy zmienną losową Ściślej: zmienna losowa to odwzorowanie zbioru zdarzeń elementarnych w zbiór liczb rzeczywistych. Nie musi być wzajemnie jednoznaczne. np. tę samą wygraną w grze liczbowej można uzyskać dla wielu układów wylosowanych liczb.

Zmienna losowa Gdy zmienna losowa może przybierać dowolne wartości z pewnego przedziału, nazywamy ją zmienną losową ciągłą. Jeśli natomiast przyjmuje tylko pewne wartości, a nie przyjmuje wartości pośrednich nazywamy ją zmienną losową dyskretną.

Zmienna losowa ciągła Losujemy liczbę z przedziału [0,1] – to nasza zmienna losowa X. Jakie są prawdopodobieństwa:

Zmienna losowa ciągła Dla zmiennych losowych celowe jest rozważanie prawdopodobieństw w przedziałach, a nie punktach. Pożytecznym sposobem przedstawienia zachowania zmiennej losowej jest histogram.

Histogram

Histogramy Ze wzrostem liczby przedziałów częstości obserwacji w przedziałach stają się coraz niższe. Można temu zapobiec wykreślając częstość / szerokość przedziału. W takim histogramie pole powierzchni słupka jest równe częstości.

Histogram

Histogramy

Funkcja gęstości rozkładu prawdopodobieństwa Ze wzrostem liczby pomiarów częstość dąży do prawdopodobieństwa. Jeśli równocześnie zwiększamy liczbę przedziałów, histogram dąży do wykresu tzw. funkcji gęstości rozkładu prawdopodobieństwa. Ma ona sens tylko dla zmiennej losowej ciągłej.

Funkcja gęstości rozkładu

Funkcja gęstości – właściwości Funkcja gęstości rozkładu prawdopodobieństwa pozwala obliczać prawdopodobieństwo znalezienia zmiennej losowej w dowolnym przedziale.

Funkcja gęstości

Funkcja rozkładu (dystrybuanta) Dystrybuanta podaje prawdopodobieństwo nieprzekroczenia przez zmienną losową wartości argumentu. Funkcja rozkładu ma sens zarówno dla ciągłych, jak i dyskretnych zmiennych losowych.

Funkcja gęstości prawdopodobieństwa a dystrybuanta rozkładu

Funkcja rozkładu jeśli X jest niewiększe od b i nie jest niewiększe od a W języku logiki: Można więc napisać:

Funkcja rozkładu Dla ciągłych zmiennych losowych było: a więc

Funkcja rozkładu Dystrybuanta jest funkcją pierwotną dla funkcji gęstości rozkładu: Nachylenie wykresu dystrybuanty odpowiada więc funkcji gęstości.

Funkcja rozkładu i f. gęstości Inne właściwości F jest funkcją niemalejącą (pole pod wykresem f(x) jest zawsze równe 1)

Rozkłady prawdopodobieństwa Różne eksperymenty opisywane mogą być różnymi funkcjami gęstości, czyli zmienne losowe mogą mieć różne rozkłady prawdopodobieństwa. W praktyce bardzo często spotykamy rozkład normalny.

Rozkład normalny Funkcja gęstości dana jest wzorem: Jej konkretna postać określona jest przez dwa parametry: wartość oczekiwaną odchylenie standardowe

Rozkład normalny

Rozkład normalny Dlaczego rozkład normalny jest tak częsty? Model Hagena. Centralne twierdzenie graniczne

Model Hagena dla błędów pomiarowych Błąd jest wypadkową wielu niezależnych czynników, wszystkich tego samego rzędu. Każdy czynnik z równym prawdopodobień-stwem wpływa na zawyżenie lub zaniżenie wyniku pomiaru. Można udowodnić, że gdy spełnione są te założenia, to wynik pomiaru podlega rozkładowi normalnemu.

Centralne twierdzenie graniczne

Wizualizacja centralnego twierdzenia granicznego

Wartość oczekiwana i odchylenie standardowe Wartość oczekiwaną i odchylenie standardowe można określić dla wielu innych (ale nie wszystkich) funkcji gęstości rozkładu: kwadrat odchyle-nia stand. nazy-wamy wariancją.

Średnia pomiarowa jako przybliżenie wartości oczekiwanej Jeżeli zm. losowa X ma dowolny rozkład prawdopodobieństwa (ale taki, że określone są i ), to oznacza średnią z n pomiarów w praktyce zwykle wystarczy n rzędu 10.

Estymacja parametrów Parametry rozkładu normalnego zwykle nie są znane. Na podstawie serii pomiarów możemy je oszacować: jest oszacowaniem dla wartości oczekiwanej jest oszacowaniem odchylenia standardowego

Standardowy rozkład normalny Jeśli X ma rozkład normalny o parametrach i to: ma rozkład normalny o parametrach zwany standardowym rozkładem normalnym.

Standardowy rozkład normalny

Suma i różnica niezależnych rozkładów Jeżeli X ma rozkład o parametrach i oraz Y ma rozkład o parametrach i to parametry rozkładu ich sumy X+Y są następujące: Podobnie, dla różnicy X-Y:

Suma i różnica rozkładów Kształt rozkładu sumy lub różnicy jest zwykle inny od kształtu składników. Są jednak wyjątki, np. rozkład normalny lub Suma lub różnica dwóch zmiennych o rozkładzie normalnym też ma rozkład normalny.

Średnia z pomiarów o rozkładzie normalnym Jeśli zmienna losowa X ma rozkład normalny o parametrach i : to średnia z n pomiarów ma rozkład normalny o parametrach i :

Galeria rozkładów ciągłych

Rozkłady statystyczne w R Commander

Ile jest teoretycznych rozkładów statystycznych?

PODSTAWOWE POJĘCIA STATYSTYKI Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter: pełny - badanie obejmuje całą populację częściowy - odbywa się na pewnych (zazwyczaj losowo) wybranych elementach populacji, czyli próbie losowej, zazwyczaj reprezentatywnej dla populacji

Ile czołgów posiadał armia niemiecka w czasie II Wojny Światowej?

Badania statystyczne

PODSTAWOWE POJĘCIA STATYSTYKI Zbiorowość statystyczna, nazywana też populacją statystyczną, - zbiór elementów (osób, przedmiotów, zdarzeń) podobnych, lecz nie identycznych pod względem określonej cechy, poddanych badaniom statystycznym.

PODSTAWOWE POJĘCIA STATYSTYKI Element zbiorowości statystycznej (populacji statystycznej) jest nazywany jednostką statystyczną. Liczba jednostek statystycznych, czyli elementów zbiorowości, jest nazywana liczebnością zbiorowości.

PODSTAWOWE POJĘCIA STATYSTYKI Element zbiorowości statystycznej (populacji statystycznej) jest nazywany jednostką statystyczną. Liczba jednostek statystycznych, czyli elementów zbiorowości, jest nazywana liczebnością zbiorowości. Cecha statystyczna (nazywana też zmienną) to właściwość elementów zbiorowości statystycznej będąca przedmiotem badania statystycznego.

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Skończona Ma skończoną liczbę jednostek; np. 50 firm farmaceutycznych Nieskończona Ma nieskończona lub niemożliwą do ustalenia liczbę jednostek statystycznych; Np. zbiorowość mikroorganizmów, klienci odwiedzający centrum handlowe

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Jednowymiarowa badana ze względu na jedną cechę np. firmy farmaceutyczne badane ze względu na wielkość obrotów Wielowymiarowa badana jednocześnie ze względu na kilka cech np. firmy farm. W których badamy zależność wielkości obrotów od liczby przedstawicieli handlowych

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Względnie jednorodna Jej podzbiorowości mało różnią się własnościami np. zbiorowość gospodarstw 2 – osobowych badana ze względu na tygodniowe wydatki na żywność Niejednorodna Jej podzbiorowości wyraźnie różnią się własnościami np. zbiorowość gospodarstw o różnej wielkości badana ze względu na tygodniowe wydatki na żywność

Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Statyczna Wszystkie jednostki statystyczne pochodzą z tego samego okresu np. firmy farm. zarejestrowane we wrześniu 2006 r., spółki na giełdzie notowane 15.06.2007r. Dynamiczna Jednostki statystyczne pochodzą z różnych okresów np. kolejne sesje giełdowe w październiku 2006r.

Cecha Badana własność elementów populacji statystycznej, która różnicuje tę populację Cechy mierzalne (ilościowe): możliwe do opisania za pomocą liczb ciągłe: przyjmujące dowolne wartości w danym przedziale skokowe: przyjmująca określone wartości w danym przedziale, Cechy niemierzalne (jakościowe): można je jedynie opisać słownie lub za pomocą odpowiednich skal

Rodzaje cech ilościowe jakościowe

Klasyfikacja cech statystycznych Cecha statystyczna ilościowa (mierzalna) wyrażone za pomocą liczb jakościowa (niemierzalna) wyrażona w sposób opisowy. skokowa przyjmuje skończoną lub przeliczalną liczbę wartości; w pewnym przedziale zmienności może przyjąć tylko niektóre wartości. ciągła - może przyjąć każdą wartość z określonego przedziału liczbowego

PRZYKŁAD 1 Badamy wysokość kredytów wśród klientów indywidualnych PKO BP w dniu 30.06.2007r. Zbiorowość statystyczna: indywidualni kredytobiorcy PKOBP Jednostka statystyczna: jeden klient – obiekt materialny (kto – klient PKO BP, kiedy – 30.06.2007r., gdzie – Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: wysokość kredytu (tys. zł) Typ cechy statystycznej: mierzalna, ciągła

PRZYKŁAD 2 Badamy opinię pracowników, dotyczącą decyzji zarządu jednej z warszawskich firm o połączeniu z jedną firmą. Zbiorowość statystyczna: pracownicy firmy Jednostka statystyczna: jeden pracownik – obiekt materialny (kto – pracownik firmy, kiedy – np. 31.05.2007r., gdzie – Warszawa, Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: opinia (kategoria cechy: popieram, nie popieram, nie wiem) Typ cechy statystycznej: niemierzalna

Skale pomiarowe Uzależnione są od rodzaju opisywanych zmiennych Determinują, co można zrobić z daną zmienną Zmienne jakościowe Skala nominalna Skala porządkowa (rangowa) Zmienne ilościowe Skala przedziałowe (interwałowa) Skala ilorazowa (stosunkowa)

Skala nominalna Pozwala rozpoznawać obiekty jednakowe i różne, bez wypowiadania się o relacjach między nimi, np. gatunek, rodzaj drewna, rodzaj zakładu pracy, płeć, itp. Często pomiar na skali nominalnej jest liczbowym etykietowaniem badanych obiektów, np. kody w niektórych bazach danych Bardzo słaba skala pomiarowa Graficzna prezentacja, dominanta

Skala porządkowa Dodatkowo wprowadza relację porządku w zbiorze zmiennych jakościowych, np. drewno suche, wilgotne; uszkodzenie słabe, średnie, silne; ... Jest skalą mocniejszą niż nominalna Powoduje najwięcej problemów i nieporozumień, przedmiot powszechnie popełnianych błędów

Skala porządkowa Przykład: skala ocen (ndst, dst, db, bdb) Wszelkiego rodzaju obliczenia są tutaj nadużyciem: nieznana jest odległość między poszczególnymi ocenami (różnica w między różnymi stopniami jest różna; często mieszane kategorie) Możliwe jest jedynie określenie, że np. silny stopień uszkodzenia jest mocniejszy, niż słaby

Skala przedziałowa Zachowuje własności skali porządkowej, ale dodatkowo wyposażona jest w stałą jednostkę miary i umowne zero Możliwy jest pomiar odległości między uporządkowanymi zmiennymi Jest skalą mocniejszą od porządkowej

Skala przedziałowa Przykład: skala Celsjusza dla temperatury Możliwe jest określenie o ile stopni dana temperatura różni się od innej Ale nie można opisać sensownie stosunku dwóch wartości zmiennych Np. średnia temperatura lipca w centralnej Polsce (17°C) różni się od średniej rocznej temperatury tego obszaru (7°C) o 10 stopni, ale nie oznacza to, że w lipcu jest prawie 2,5 raza cieplej, niż średnio w roku

Skala ilorazowa różni się od skali przedziałowej tym, że jest posiada zero absolutne, a nie umowne Możliwe jest określenie ile razy dana cecha jest większa od innej Jest to najsilniejsza skala pomiarowa

Skala ilorazowa Przykład: skala Kelwina Gleba o temperaturze 50°C (323°K) jest 1.1 raza (czyli o 10%) cieplejsza od gleby o temperaturze 20°C (293°K) Przykład: liczba kandydatów na studia Na WB (300) było 5 razy mniej kandydatów na studia, niż na WNGiG (1500) – zerem absolutnym jest tu brak kandydatów na dany kierunek studiów