Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013 Wykład 3 i 4: Prawdopodobieństwo, zmienna losowa, rozkłady prawdopodobieństwa, podstawowe pojęcia statystyki, skale pomiarowe
Ściąga notacji z zakresu logiki matematycznej i teorii mnogości
Zdarzenia Eksperyment – powtarzalny sposób postępowania dający jakiś wynik nie zakładamy powtarzalności wyniku Zdarzenie elementarne – każdy możliwy wynik eksperymentu
Zbiory zdarzeń Zbiór zdarzeń elementarnych – zbiór wszystkich możliwych wyników eksperymentu Zdarzenie losowe – dowolny podzbiór zbioru zdarzeń
Prawdopodobieństwo Określone dla zdarzeń losowych lub elementarnych. Własności definiujące:
Częstość Częstość zdarzenia A: liczba wystąpień zdarzenia A liczba powtórzeń eksperymentu
Prawdopodobieństwo i częstość Tylko w nielicznych przypadkach można obliczyć teoretyczne prawdopodobieństwa. Zazwyczaj musimy przybliżać je za pomocą częstości. Przybliżenie to jest tym lepsze, im większa liczba powtórzeń eksperymentu (prawo wielkich liczb).
Prawdopodobieństwo warunkowe Zdarza się, że interesują nas nie wszystkie możliwe wyniki eksperymentu, a jedynie te, które spełniają pewien warunek (zdefiniowany przez zdarzenie losowe) Prawdopodobieństwo zdarzeń przy tak ograniczonym zbiorze zdarzeń elementarnych można obliczyć ze wzoru:
Prawdopodobieństwo warunkowe – przykłady P(♂|starał się na WNGiG UAM) =291/7650,38 policzenie tego wprost ze wzoru byłoby trudniejsze. P(♂|przyjęty na WNGiG UAM) =148/4200,35
Zatem dla zdarzeń niezależnych: Zdarzenia niezależne Jeśli nałożony warunek nie zmienia prawdopodobieństwa, zdarzenia nazywamy niezależnymi Zatem dla zdarzeń niezależnych:
Zmienna losowa Jeżeli wynik eksperymentu wyrazimy w postaci liczbowej to otrzymamy zmienną losową Ściślej: zmienna losowa to odwzorowanie zbioru zdarzeń elementarnych w zbiór liczb rzeczywistych. Nie musi być wzajemnie jednoznaczne. np. tę samą wygraną w grze liczbowej można uzyskać dla wielu układów wylosowanych liczb.
Zmienna losowa Gdy zmienna losowa może przybierać dowolne wartości z pewnego przedziału, nazywamy ją zmienną losową ciągłą. Jeśli natomiast przyjmuje tylko pewne wartości, a nie przyjmuje wartości pośrednich nazywamy ją zmienną losową dyskretną.
Zmienna losowa ciągła Losujemy liczbę z przedziału [0,1] – to nasza zmienna losowa X. Jakie są prawdopodobieństwa:
Zmienna losowa ciągła Dla zmiennych losowych celowe jest rozważanie prawdopodobieństw w przedziałach, a nie punktach. Pożytecznym sposobem przedstawienia zachowania zmiennej losowej jest histogram.
Histogram
Histogramy Ze wzrostem liczby przedziałów częstości obserwacji w przedziałach stają się coraz niższe. Można temu zapobiec wykreślając częstość / szerokość przedziału. W takim histogramie pole powierzchni słupka jest równe częstości.
Histogram
Histogramy
Funkcja gęstości rozkładu prawdopodobieństwa Ze wzrostem liczby pomiarów częstość dąży do prawdopodobieństwa. Jeśli równocześnie zwiększamy liczbę przedziałów, histogram dąży do wykresu tzw. funkcji gęstości rozkładu prawdopodobieństwa. Ma ona sens tylko dla zmiennej losowej ciągłej.
Funkcja gęstości rozkładu
Funkcja gęstości – właściwości Funkcja gęstości rozkładu prawdopodobieństwa pozwala obliczać prawdopodobieństwo znalezienia zmiennej losowej w dowolnym przedziale.
Funkcja gęstości
Funkcja rozkładu (dystrybuanta) Dystrybuanta podaje prawdopodobieństwo nieprzekroczenia przez zmienną losową wartości argumentu. Funkcja rozkładu ma sens zarówno dla ciągłych, jak i dyskretnych zmiennych losowych.
Funkcja gęstości prawdopodobieństwa a dystrybuanta rozkładu
Funkcja rozkładu jeśli X jest niewiększe od b i nie jest niewiększe od a W języku logiki: Można więc napisać:
Funkcja rozkładu Dla ciągłych zmiennych losowych było: a więc
Funkcja rozkładu Dystrybuanta jest funkcją pierwotną dla funkcji gęstości rozkładu: Nachylenie wykresu dystrybuanty odpowiada więc funkcji gęstości.
Funkcja rozkładu i f. gęstości Inne właściwości F jest funkcją niemalejącą (pole pod wykresem f(x) jest zawsze równe 1)
Rozkłady prawdopodobieństwa Różne eksperymenty opisywane mogą być różnymi funkcjami gęstości, czyli zmienne losowe mogą mieć różne rozkłady prawdopodobieństwa. W praktyce bardzo często spotykamy rozkład normalny.
Rozkład normalny Funkcja gęstości dana jest wzorem: Jej konkretna postać określona jest przez dwa parametry: wartość oczekiwaną odchylenie standardowe
Rozkład normalny
Rozkład normalny Dlaczego rozkład normalny jest tak częsty? Model Hagena. Centralne twierdzenie graniczne
Model Hagena dla błędów pomiarowych Błąd jest wypadkową wielu niezależnych czynników, wszystkich tego samego rzędu. Każdy czynnik z równym prawdopodobień-stwem wpływa na zawyżenie lub zaniżenie wyniku pomiaru. Można udowodnić, że gdy spełnione są te założenia, to wynik pomiaru podlega rozkładowi normalnemu.
Centralne twierdzenie graniczne
Wizualizacja centralnego twierdzenia granicznego
Wartość oczekiwana i odchylenie standardowe Wartość oczekiwaną i odchylenie standardowe można określić dla wielu innych (ale nie wszystkich) funkcji gęstości rozkładu: kwadrat odchyle-nia stand. nazy-wamy wariancją.
Średnia pomiarowa jako przybliżenie wartości oczekiwanej Jeżeli zm. losowa X ma dowolny rozkład prawdopodobieństwa (ale taki, że określone są i ), to oznacza średnią z n pomiarów w praktyce zwykle wystarczy n rzędu 10.
Estymacja parametrów Parametry rozkładu normalnego zwykle nie są znane. Na podstawie serii pomiarów możemy je oszacować: jest oszacowaniem dla wartości oczekiwanej jest oszacowaniem odchylenia standardowego
Standardowy rozkład normalny Jeśli X ma rozkład normalny o parametrach i to: ma rozkład normalny o parametrach zwany standardowym rozkładem normalnym.
Standardowy rozkład normalny
Suma i różnica niezależnych rozkładów Jeżeli X ma rozkład o parametrach i oraz Y ma rozkład o parametrach i to parametry rozkładu ich sumy X+Y są następujące: Podobnie, dla różnicy X-Y:
Suma i różnica rozkładów Kształt rozkładu sumy lub różnicy jest zwykle inny od kształtu składników. Są jednak wyjątki, np. rozkład normalny lub Suma lub różnica dwóch zmiennych o rozkładzie normalnym też ma rozkład normalny.
Średnia z pomiarów o rozkładzie normalnym Jeśli zmienna losowa X ma rozkład normalny o parametrach i : to średnia z n pomiarów ma rozkład normalny o parametrach i :
Galeria rozkładów ciągłych
Rozkłady statystyczne w R Commander
Ile jest teoretycznych rozkładów statystycznych?
PODSTAWOWE POJĘCIA STATYSTYKI Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter: pełny - badanie obejmuje całą populację częściowy - odbywa się na pewnych (zazwyczaj losowo) wybranych elementach populacji, czyli próbie losowej, zazwyczaj reprezentatywnej dla populacji
Ile czołgów posiadał armia niemiecka w czasie II Wojny Światowej?
Badania statystyczne
PODSTAWOWE POJĘCIA STATYSTYKI Zbiorowość statystyczna, nazywana też populacją statystyczną, - zbiór elementów (osób, przedmiotów, zdarzeń) podobnych, lecz nie identycznych pod względem określonej cechy, poddanych badaniom statystycznym.
PODSTAWOWE POJĘCIA STATYSTYKI Element zbiorowości statystycznej (populacji statystycznej) jest nazywany jednostką statystyczną. Liczba jednostek statystycznych, czyli elementów zbiorowości, jest nazywana liczebnością zbiorowości.
PODSTAWOWE POJĘCIA STATYSTYKI Element zbiorowości statystycznej (populacji statystycznej) jest nazywany jednostką statystyczną. Liczba jednostek statystycznych, czyli elementów zbiorowości, jest nazywana liczebnością zbiorowości. Cecha statystyczna (nazywana też zmienną) to właściwość elementów zbiorowości statystycznej będąca przedmiotem badania statystycznego.
Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Skończona Ma skończoną liczbę jednostek; np. 50 firm farmaceutycznych Nieskończona Ma nieskończona lub niemożliwą do ustalenia liczbę jednostek statystycznych; Np. zbiorowość mikroorganizmów, klienci odwiedzający centrum handlowe
Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Jednowymiarowa badana ze względu na jedną cechę np. firmy farmaceutyczne badane ze względu na wielkość obrotów Wielowymiarowa badana jednocześnie ze względu na kilka cech np. firmy farm. W których badamy zależność wielkości obrotów od liczby przedstawicieli handlowych
Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Względnie jednorodna Jej podzbiorowości mało różnią się własnościami np. zbiorowość gospodarstw 2 – osobowych badana ze względu na tygodniowe wydatki na żywność Niejednorodna Jej podzbiorowości wyraźnie różnią się własnościami np. zbiorowość gospodarstw o różnej wielkości badana ze względu na tygodniowe wydatki na żywność
Klasyfikacja zbiorowości statystycznych Zbiorowość statystyczna Statyczna Wszystkie jednostki statystyczne pochodzą z tego samego okresu np. firmy farm. zarejestrowane we wrześniu 2006 r., spółki na giełdzie notowane 15.06.2007r. Dynamiczna Jednostki statystyczne pochodzą z różnych okresów np. kolejne sesje giełdowe w październiku 2006r.
Cecha Badana własność elementów populacji statystycznej, która różnicuje tę populację Cechy mierzalne (ilościowe): możliwe do opisania za pomocą liczb ciągłe: przyjmujące dowolne wartości w danym przedziale skokowe: przyjmująca określone wartości w danym przedziale, Cechy niemierzalne (jakościowe): można je jedynie opisać słownie lub za pomocą odpowiednich skal
Rodzaje cech ilościowe jakościowe
Klasyfikacja cech statystycznych Cecha statystyczna ilościowa (mierzalna) wyrażone za pomocą liczb jakościowa (niemierzalna) wyrażona w sposób opisowy. skokowa przyjmuje skończoną lub przeliczalną liczbę wartości; w pewnym przedziale zmienności może przyjąć tylko niektóre wartości. ciągła - może przyjąć każdą wartość z określonego przedziału liczbowego
PRZYKŁAD 1 Badamy wysokość kredytów wśród klientów indywidualnych PKO BP w dniu 30.06.2007r. Zbiorowość statystyczna: indywidualni kredytobiorcy PKOBP Jednostka statystyczna: jeden klient – obiekt materialny (kto – klient PKO BP, kiedy – 30.06.2007r., gdzie – Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: wysokość kredytu (tys. zł) Typ cechy statystycznej: mierzalna, ciągła
PRZYKŁAD 2 Badamy opinię pracowników, dotyczącą decyzji zarządu jednej z warszawskich firm o połączeniu z jedną firmą. Zbiorowość statystyczna: pracownicy firmy Jednostka statystyczna: jeden pracownik – obiekt materialny (kto – pracownik firmy, kiedy – np. 31.05.2007r., gdzie – Warszawa, Polska) Typ zbiorowości: skończona, jednowymiarowa, względnie jednorodna, statyczna Cecha statystyczna: opinia (kategoria cechy: popieram, nie popieram, nie wiem) Typ cechy statystycznej: niemierzalna
Skale pomiarowe Uzależnione są od rodzaju opisywanych zmiennych Determinują, co można zrobić z daną zmienną Zmienne jakościowe Skala nominalna Skala porządkowa (rangowa) Zmienne ilościowe Skala przedziałowe (interwałowa) Skala ilorazowa (stosunkowa)
Skala nominalna Pozwala rozpoznawać obiekty jednakowe i różne, bez wypowiadania się o relacjach między nimi, np. gatunek, rodzaj drewna, rodzaj zakładu pracy, płeć, itp. Często pomiar na skali nominalnej jest liczbowym etykietowaniem badanych obiektów, np. kody w niektórych bazach danych Bardzo słaba skala pomiarowa Graficzna prezentacja, dominanta
Skala porządkowa Dodatkowo wprowadza relację porządku w zbiorze zmiennych jakościowych, np. drewno suche, wilgotne; uszkodzenie słabe, średnie, silne; ... Jest skalą mocniejszą niż nominalna Powoduje najwięcej problemów i nieporozumień, przedmiot powszechnie popełnianych błędów
Skala porządkowa Przykład: skala ocen (ndst, dst, db, bdb) Wszelkiego rodzaju obliczenia są tutaj nadużyciem: nieznana jest odległość między poszczególnymi ocenami (różnica w między różnymi stopniami jest różna; często mieszane kategorie) Możliwe jest jedynie określenie, że np. silny stopień uszkodzenia jest mocniejszy, niż słaby
Skala przedziałowa Zachowuje własności skali porządkowej, ale dodatkowo wyposażona jest w stałą jednostkę miary i umowne zero Możliwy jest pomiar odległości między uporządkowanymi zmiennymi Jest skalą mocniejszą od porządkowej
Skala przedziałowa Przykład: skala Celsjusza dla temperatury Możliwe jest określenie o ile stopni dana temperatura różni się od innej Ale nie można opisać sensownie stosunku dwóch wartości zmiennych Np. średnia temperatura lipca w centralnej Polsce (17°C) różni się od średniej rocznej temperatury tego obszaru (7°C) o 10 stopni, ale nie oznacza to, że w lipcu jest prawie 2,5 raza cieplej, niż średnio w roku
Skala ilorazowa różni się od skali przedziałowej tym, że jest posiada zero absolutne, a nie umowne Możliwe jest określenie ile razy dana cecha jest większa od innej Jest to najsilniejsza skala pomiarowa
Skala ilorazowa Przykład: skala Kelwina Gleba o temperaturze 50°C (323°K) jest 1.1 raza (czyli o 10%) cieplejsza od gleby o temperaturze 20°C (293°K) Przykład: liczba kandydatów na studia Na WB (300) było 5 razy mniej kandydatów na studia, niż na WNGiG (1500) – zerem absolutnym jest tu brak kandydatów na dany kierunek studiów