Statystyka Wojciech Jawień <wojciech.jawien@uj.edu.pl> http://farm.cm-uj.krakow.pl/dyd/stat p. 323
Program zajęć Wymiar 10 godzin wykładu (5 spotkań po 2 godziny) 20 godzin ćwiczeń (10 spotkań po 2 godziny)
Program zajęć – tematyka Wykłady Podstawowe pojęcia: prawdopodobieństwo, zmienna losowa, rozkłady prawdop. Estymacja, statystyka opisowa Testowanie hipotez Elementy statystycznej kontroli jakości
Program zajęć – tematyka (cd.) Ćwiczenia Ilustracja materiału wykładowego poprzez praktyczne wykonanie analiz statystycznych z wykorzystaniem programów ogólnego zastosowania i specjalistycznych: MS Excel Statistica SAS (Stat i Graph) R (darmowy S-Plus)
Zasady zaliczenia Na ćwiczeniach obowiązuje materiał z poprzednich wykładów (kolokwia). Praca na ćwiczeniach.
Podstawowe pojęcia
Zdarzenia Eksperyment – powtarzalny sposób postępowania dający jakiś wynik nie zakładamy powtarzalności wyniku Zdarzenie elementarne – każdy możliwy wynik eksperymentu
Zbiory zdarzeń Zbiór zdarzeń elementarnych – zbiór wszystkich możliwych wyników eksperymentu Zdarzenie losowe – dowolny podzbiór zbioru zdarzeń
Prawdopodobieństwo Określone dla zdarzeń losowych lub elementarnych. Własności definiujące:
Częstość Częstość zdarzenia A: liczba wystąpień zdarzenia A liczba powtórzeń eksperymentu
Prawdopodobieństwo i częstość Tylko w nielicznych przypadkach można obliczyć teoretyczne prawdopodobieństwa. Zazwyczaj musimy przybliżać je za pomocą częstości. Przybliżenie to jest tym lepsze, im większa liczba powtórzeń eksperymentu (prawo wielkich liczb).
Prawdopodobieństwo warunkowe Zdarza się, że interesują nas nie wszystkie możliwe wyniki eksperymentu, a jedynie te, które spełniają pewien warunek (zdefiniowany przez zdarzenie losowe) Prawdopodobieństwo zdarzeń przy tak ograniczonym zbiorze zdarzeń elementarnych można obliczyć ze wzoru:
Prawdopodobieństwo warunkowe – przykłady P(♂|starał się na WF UJ)=290/17600,16 policzenie tego wprost ze wzoru byłoby trudniejsze. P(♂|przyjęty na WF UJ)=37/2540,15
Zdarzenia niezależne Jeśli nałożony warunek nie zmienia prawdopodobieństwa, zdarzenia nazywamy niezależnymi Zatem dla zdarzeń niezależnych:
Zmienna losowa Jeżeli wynik eksperymentu wyrazimy w postaci liczbowej to otrzymamy zmienną losową Ściślej: zmienna losowa to odwzorowanie zbioru zdarzeń elementarnych w zbiór liczb rzeczywistych. Nie musi być wzajemnie jednoznaczne. np. tę samą wygraną w grze liczbowej można uzyskać dla wielu układów wylosowanych liczb.
Zmienna losowa Gdy zmienna losowa może przybierać dowolne wartości z pewnego przedziału, nazywamy ją zmienną losową ciągłą. Jeśli natomiast przyjmuje tylko pewne wartości, a nie przyjmuje wartości pośrednich nazywamy ją zmienną losową dyskretną.
Zmienna losowa ciągła Losujemy liczbę z przedziału [0,1] – to nasza zmienna losowa X. Jakie są prawdopodobieństwa:
Zmienna losowa ciągła Dla zmiennych losowych celowe jest rozważanie prawdopodobieństw w przedziałach a nie punktach. Pożytecznym sposobem przedstawienia zachowania zmiennej losowej jest histogram.
Histogram
Histogramy Ze wzrostem liczby przedziałów częstości obserwacji w przedziałach stają się coraz niższe. Można temu zapobiec wykreślając częstość / szerokość przedziału. W takim histogramie pole powierzchni słupka jest równe częstości.
Histogram
Histogramy
Funkcja gęstości rozkładu prawdopodobieństwa Ze wzrostem liczby pomiarów częstość dąży do prawdopodobieństwa. Jeśli równocześnie zwiększamy liczbę przedziałów, histogram dąży do wykresu tzw. funkcji gęstości rozkładu prawdopodobieństwa. Ma ona sens tylko dla zmiennej losowej ciągłej.
Funkcja gęstości rozkładu
Funkcja gęstości – właściwości Funkcja gęstości rozkładu prawdopodobieństwa pozwala obliczać prawdopodobieństwo znalezienia zmiennej losowej w dowolnym przedziale.
Funkcja gęstości
Funkcja rozkładu (dystrybuanta) Dystrybuanta podaje prawdopodobieństwo nieprzekroczenia przez zmienną losową wartości argumentu. Funkcja rozkładu ma sens zarówno dla ciągłych, jak i dyskretnych zmiennych losowych.
Funkcja rozkładu jeśli X jest niewiększe od b i nie jest niewiększe od a W języku logiki: Można więc napisać:
Funkcja rozkładu Dla ciągłych zmiennych losowych było: a więc
Funkcja rozkładu Kto pamięta cokolwiek z rachunku całkowego zauważy, że dystrybuanta jest funkcją pierwotną dla funkcji gęstości rozkładu: Nachylenie wykresu dystrybuanty odpowiada więc funkcji gęstości.
Funkcja rozkładu i f. gęstości Inne właściwości F jest funkcją niemalejącą (pole pod wykresem f(x) jest zawsze równe 1)
Rozkłady prawdopodobieństwa Różne eksperymenty opisywane mogą być różnymi funkcjami gęstości, czyli zmienne losowe mogą mieć różne rozkłady prawdopodobieństwa. W praktyce bardzo często spotykamy rozkład normalny.
Rozkład normalny Funkcja gęstości dana jest wzorem: Jej konkretna postać określona jest przez dwa parametry: wartość oczekiwaną odchylenie standardowe
Rozkład normalny
Rozkład normalny Dlaczego rozkład normalny jest tak częsty? Model Hagena. Centralne twierdzenie graniczne
Model Hagena dla błędów pomiarowych Błąd jest wypadkową wielu niezależnych czynników, wszystkich tego samego rzędu. Każdy czynnik z równym prawdopodobień-stwem wpływa na zawyżenie lub zaniżenie wyniku pomiaru. Można udowodnić, że gdy spełnione są te założenia, to wynik pomiaru podlega rozkładowi normalnemu.
Wartość oczekiwana i odchylenie standardowe Wartość oczekiwaną i odchylenie standardowe można określić dla wielu innych (ale nie wszystkich) funkcji gęstości rozkładu: kwadrat odchyle-nia stand. nazy-wamy wariancją.
Centralne twierdzenie graniczne Jeżeli zm. losowa X ma dowolny rozkład prawdopodobieństwa (ale taki, że określone są i ), to oznacza średnią z n pomiarów w praktyce zwykle wystarczy n rzędu 10.
Estymacja parametrów Parametry rozkładu normalnego zwykle nie są znane. Na podstawie serii pomiarów możemy je oszacować: jest oszacowaniem dla wartości oczekiwanej jest oszacowaniem odchylenia standardowego
Standardowy rozkład normalny Jeśli X ma rozkład normalny o parametrach i to: ma rozkład normalny o parametrach zwany standardowym rozkładem normalnym.
Standardowy rozkład normalny
Suma i różnica niezależnych rozkładów Jeżeli X ma rozkład o parametrach i oraz Y ma rozkład o parametrach i to parametry rozkładu ich sumy X+Y są następujące: Podobnie, dla różnicy X-Y:
Suma i różnica rozkładów Kształt rozkładu sumy lub różnicy jest zwykle inny od kształtu składników. Są jednak wyjątki, np. rozkład normalny lub Suma lub różnica dwóch zmiennych o rozkładzie normalnym też ma rozkład normalny.
Średnia z pomiarów o rozkładzie normalnym Jeśli zmienna losowa X ma rozkład normalny o parametrach i : to średnia z n pomiarów ma rozkład normalny o parametrach i :
Galeria rozkładów ciągłych