Kurs dla Budownictwa Lądowego

Slides:

Advertisements

Podobne prezentacje

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA

Advertisements

BIOSTATYSTYKA I METODY DOKUMENTACJI Ćwiczenie 1

Statystyka Wojciech Jawień

W dalszej części zajęć wyróżniać będziemy następujące

Wykład 5 Standardowy błąd a odchylenie standardowe

Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.

Analiza współzależności zjawisk

Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.

Skale pomiarowe – BARDZO WAŻNE

Jak mierzyć asymetrię zjawiska?

Graficzna prezentacja danych Wykład 2 dr Małgorzata Radziukiewicz

Jak mierzyć zróżnicowanie zjawiska? Wykład 4. Miary jednej cechy Miary poziomu Miary dyspersji (zmienności, zróżnicowania, rozproszenia) Miary asymetrii.

ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH

Miary położenia Miary położenia opisują umiejscowienie typowych wartości cechy statystycznej na osi liczbowej.

Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają

Statystyka w doświadczalnictwie

(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.

BIOSTATYSTYKA I METODY DOKUMENTACJI

Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby

Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego

Rachunek P-stwa i Statystyka

Wykład 14 Liniowa regresja

Wykład 3 Wzór Bayesa – wpływ rozkładu a priori.

Wykład 5 Przedziały ufności

Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego

Statystyczna analiza danych

Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa:

Wykład 11 Analiza wariancji (ANOVA)

Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.

Wykład 4 Przedziały ufności

Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.

Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych Dr inż. Halina Tarasiuk

Średnie i miary zmienności

Co to są rozkłady normalne?

Co to są rozkłady normalne?

Jednoczynnikowa analiza wariancji (ANOVA)

Konstrukcja, estymacja parametrów

Analiza współzależności cech statystycznych

Elementy Rachunku Prawdopodobieństwa i Statystyki

Elementy Rachunku Prawdopodobieństwa i Statystyki

Elementy Rachunku Prawdopodobieństwa i Statystyki

dla klas gimnazjalnych

Elementy Rachunku Prawdopodobieństwa i Statystyki

1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)

Statystyka ©M.

Podstawy statystyki, cz. II

Statystyka i opracowanie wyników badań

Planowanie badań i analiza wyników

Wnioskowanie statystyczne

STATYSTYKA Pochodzenie nazwy:

Statystyka medyczna Piotr Kozłowski

Wykład 5 Przedziały ufności

Podstawowe pojęcia i terminy stosowane w statystyce

Statystyczna analiza danych w praktyce

Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.

Statystyczna analiza danych

Statystyczna analiza danych

Statystyczna analiza danych

ze statystyki opisowej

Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.

Parametry rozkładów Metodologia badań w naukach behawioralnych II.

STATYSTYKA – kurs podstawowy wykład 11

Jak mierzyć zróżnicowanie zjawiska?

Statystyka matematyczna

Jednorównaniowy model regresji liniowej

Analiza niepewności pomiarów Zagadnienia statystyki matematycznej

PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego

MIARY STATYSTYCZNE Warunki egzaminu.

statystyka podstawowe pojęcia

Zapis prezentacji:

Kurs dla Budownictwa Lądowego Statystyka stosowana Kurs dla Budownictwa Lądowego Semestr zimowy 2008/2009 Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

Wykładowca : Małgorzata Bogdan Biuro: C-11, p.2.04 Godziny konsultacji: pon. 14:30-16:30, wt. 13:30 – 15:30 Telefon: 320 21 03 Email: Malgorzata.Bogdan@pwr.wroc.pl

Oceny Dwa kolokwia: 27 listopad, 29 styczeń (na wykładzie) 50+50=100pt Trzy kartkowki (16 X, 6 XI, 8 I) = 15 pt 50 pt: dst, 70pt: db, 90pt: bdb. Kolokwium poprawkowe (4 II) - zalicza kurs na ocenę najwyżej dst +

Podreczniki Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. III Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III

Listy zadań dostępne w internecie Część zadań pochodzi ze skryptu H. Jasiulewicz i W. Kordeckiego „Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II. Proszę zaopatrzyć się w kalkulator

Przygotowanie do zajęć Przeczytać ostatni wykład Rozwiązać obowiązującą listę zadań Można wydrukować bieżącą prezentację z Internetu, żeby ułatwić sobie śledzenie wykładu i notowanie Zachęcam do zadawania pytań

Dane Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji Na ogół dane charakteryzują się losową zmiennością Oceniamy informację zawartą w danych

Czym jest statystyka? Nauka rozumienia danych i podejmowania decyzji w obliczu losowości Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności

Przykład 1 Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? Czynniki mogące wpłynąć na wynik eksperymentu: Ludzie mają naturalnie różne poziomy cholesterolu Reagują różnie na ten sam reżim ćwiczeń Różny stopień zaangażowania w realizację ćwiczeń Wpływ diety Ćwiczenia mogą wpływać na inne czynniki, np. apetyt

Przykład 2 Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne ? Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną?

Przykład 3 Czy przeprowadzone badania upoważniają do takiej konkluzji? W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania upoważniają do takiej konkluzji?

Przykład 4 Reakcja owiec na bakterie wąglika Szczepione Nie szczepione Śmierć 24 Przeżycie Procent przetrwania 100 % 0 %

Przykład 5 Rozwój raka wątroby u myszy E. coli Wolne od zarazków Rak wątroby 8 19 Zdrowa 5 30 Suma 13 49 Procent myszy z rakiem wątroby 62 % 39 %

Sygnał i szum Przykład 4 – brak zmienności (??): mocna konkluzja Przykład 5 – duża zmienność: słaba konkluzja Jak duża musi być próba, abyśmy w oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu?

Losowość Dane na ogół charakteryzują się zmiennością Matematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa

Przykłady Prognoza pogody- prawdopodobieństwo deszczu wynosi 80% Prawdopodobieństwo urodzenia dziewczynki wynosi 0,49

Schemat badań naukowych Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe

Próba, Zmienna Próba: Przykłady: Obserwacje lub wyniki eksperymentu Reprezentuje konkretną realizację eksperymentu Przykłady: Wysokość 10 kłosów żyta (10 obserwacji) Poziom(y) hemoglobiny u 35 dawców Kolor i kształt ziaren grochu

Próba, Zmienna cd. Rozmiar próby: Zmienna: “n” np. n=10, n=35, n=556 to co mierzymy tu: wysokość, poziom hemoglobiny, kolor i kształt

Rodzaje zmiennych Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne

Zmienne jakościowe (kategoryczne) Jakościowe – kwalifikujące do kategorii Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nie porządkowe, np.: kolor i kształt

Zmienne ilościowe (liczbowe) Ilościowe – wynik jest liczbą Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków

Oznaczenia Zmienne: X,Y,Z; np.Y=wzrost (pojęcie) Obserwacja: x,y,z; np. y=182cm (wynik) Próba: y1,y2,…,yn (wielokrotne obserwacje) Rozmiar próby: n, czasem n1,n2

Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. „20 próbek krwi”? (biolog) „Jedna próba 20 pomiarów glukozy.” (statystyk) Będziemy używali “pomiar” tam, gdzie biolog użyłby słowa “próba”.

Statystyki opisowe: Tabela częstości Groszki:gładkie/pomarszczone, zielone/żółte Klasy Liczba Gładkie, żółte 315 Gładkie, zielone 108 Pomarszczone, żółte 101 Pomarszczone, zielone 32

Wykres słupkowy (dane jakościowe)

Wykształcenie Liczba (*1000000) Procent Podstawowe lub zawodowe 4.7 12.3 Szkoła średnia 11.8 30.7 Szkoła policealna 10.9 28.3 Licencjat 8.5 22.1 Wykształcenie wyższe 2.5 6.6

Wykres słupkowy

Wykres kołowy

Dane ilościowe dyskretne Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna).

Dane 10 12 7 14 11 13 8 5 9

Rozkład liczebności 13 14 Liczba potomstwa Liczba macior 5 1 6 7 2 8 3 7 2 8 3 9 10 11 12 13 14

Histogram (liczebności) Grupowanie podobnych obserwacji zwykle jest pomocne Prawie zawsze postępujemy tak z danymi ciągłymi Definiujemy “klasy” (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy

Jak wybierać klasy: Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki) Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 – 29.26 Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n  50); więcej, gdy próba jest duża

Przykład Dane : długość łodygi papryki (n=15) 12.4 12.2 13.4 10.9 12.1 11.8 13.5 12 14.1 12.7 13.2 12.6 11.9 13.1

Min=10.9, max=14.1, zakres=max-min=3.2 Wybieramy szerokość klasy, np. 0.5 i początek 10.5, aby pokryć zakres 10.5 – 14.5. Zliczamy liczby wystąpień i rysujemy histogram. Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt Za mała szerokość klas=dużo „szumu”, za duża = utrata informacji

Tabela liczebności (klas) Klasa Liczność 10.5 - 10.99 1 11.0 - 11.49 11.5 - 11.99 2 12.0 - 12.49 5 12.5 - 12.99 13.0 - 13.49 3 13.5 - 13.99 14.0 - 14.49

Przykład: Stężenia serum CK 121 82 100 151 68 58 95 145 64 201 101 163 84 57 139 60 78 94 119 104 110 113 118 203 62 83 67 93 92 25 123 70 48 42

Min=25, max=203 Rozstęp =178 Szerokość klasy =20 Punkt początkowy=20

Serum CK Liczność 20 - 39 1 40 - 59 4 60 - 79 7 80 - 99 8 100 - 119 120 - 139 3 140 - 159 2 160 - 179 180 - 199 200 - 219 Suma 36

Opis histogramu: Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny–skośny na prawo

Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas) Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu Do tego odcinka wpada: 42% (15 z 36) wartości CK

Nierówna szerokość klas Powierzchnia pod histogramem nie jest proporcjonalna do liczności W tak „spaczonym’’ histogramie (patrz dalej) powierzchnia między 140 a 220J/L stanowi 39% całkowitej powierzchni (mimo, że te stężenia stanowią tylko 14% obserwacji) Rozwiązanie – podzielić liczności przez długość odcinka (liczbę zgrupowanych klas) Oś Y na przekształconym histogramie – średnia liczność (w zgrupowanych klasach)

Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n Histogram częstości jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n

Diagram łodygi i liścia (Stem and leaf plot) Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje. Wybieramy „łodygę” („pień”) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym Zapisujemy wszystkie „łodygi” w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od „liści”)

Diagram łodygi i liścia (Stem and leaf plot) cd. Znajdujemy ``pień’’ odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest „liściem”. Dostajemy „obrócony’’ histogram Ograniczenie: trudniej manipulować liczbą klas

Przykład: Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów 81 85 93 99 76 75 84 78 82 89 96 74 70 86 80 131 88 102 115 79 106

Opis histogramu (rozkładu) Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony) Skośny na prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący) Rozrzut (duży lub mały)

Statystyka Statystyka – liczbowa charakterystyka danych Przykłady statystyk: próba: y1=24,y2=35, y3=26 ,y4=36 min=24, max=36, rozstęp= 36-24=12 Opis danych: kształt, centrum, rorzut

Miary położenia rozkładu Średnia z próby: symbol oznacza liczbę; arytmetyczną średnią z obserwacji Symbol oznacza pojęcie średniej z próby Średnia jest „środkiem ciężkości” zbioru danych

Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y1=11, y2=13,…, y6=1

Odchylenia Σ devi= ?

Mediana próbkowa: Środkowa obserwacja jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości gdy n jest parzyste

Przykłady Przykład 1 (n = 5) Przykład 2 (n = 6) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8

Średnia a mediana Przykład 1 cd. (n = 5) Błąd w zapisie danych: Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3

Średnia a mediana Mediana dzieli powierzchnię histogramu na połowę Jest odporna – nie mają na nią wpływu obserwacje „odstające” Średnia to „środek ciężkości” histogramu Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna

Średnia a mediana Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później).

Miary położenia cd.:Kwartyle Kwartyle dzielą zbiór danych na cztery grupy. Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2.

Przykład Dane: 3 5 6 2 1 7 4

Przykład (n=15) 7 12 8 2 4 3 5 6 9

Rozstęp międzykwartylowy IRQ=Q3-Q1 (inter-quartile range)

Wykres ramkowy (Boxplot) Boxplot – graficzna reprezentacja: mediany, kwartyli, maximum i minimum z danych. „Ramka” („pudełko”) powstaje z obrysowania kwartyli Linie („wąsy”) ciągą się do wartości najmniejszej i największej.

Zmodyfikowany Boxplot Obserwacja odstająca: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Kryterium do identyfikacji obserwacji odstających: Dolna granica = Q1 - 1.5*IQR Górna granica = Q3 + 1.5*IQR

Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16

Przykładowy zmodyfikowany wykres ramkowy (boxplot)

Miary rorzutu: Rozstęp (max – min) – bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania Rozstęp międzykwartylowy (IRQ=Q3-Q1) – rozstęp środkowych 50% obserwacji Standardowe odchylenie / Wariancja Współczynnik zmienności (CV)

Próbkowe odchylenie standardowe (SD, s) Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje.

W mianowniku jest n-1:

Próbkowa wariancja: s2 Przeciętny kwadrat odległości od średniej próbkowej: s2 Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane

Dlaczego n-1 ? s2 jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później) Σ devi=0 stąd n-1 stopni swobody = n-1 jednostek informacji

Miary rozrzutu, cd. Współczynnik zmienności (CV) Przykład Dane : 35.1, 30.6, 36.9, 29.8 (n=4) Rozstęp =

Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: s z definicji: SS = wariancja: s2 = s=

Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec. Współczynnik zmienności: CV=

Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład ) jest w kształcie dzwonu („normalny”), to około: 68% obserwacji jest w odległości  1 s od średniej 95% obserwacji jest w odległości  2 s od średniej 99% obserwacji jest w odległości  3 s od średniej

Nawet, gdy rozkład nie jest normalny to co najmniej 75% obserwacji jest w odległości  2 s od średniej co najmniej 89% obserwacji jest w odległości  3 s od średniej. (Wniosek z nierówności Czebyszewa)

Przykład 13 14 12 17 19 11 10 15 20 18

Przykład cd Średnia = 14.4, odchylenie standardowe s = 2.9.

Ocena s z histogramu Odcinek zawiera około 95 % danych. Ocena s = (długość I) /4. Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu).

Przykład (puls po ćwiczeniach) 95 % pomiarów jest pomiędzy 75 a 125 Faktyczne s = 13.4

Porównanie miar rozrzutu i położenia Miary rozrzutu służą do oszacowania zmienności w danych. Odporność: Załóżmy, że mamy dość skupiony „dzwonowy” (normalny) zbiór danych. Co się stanie, gdy jedną dużą obserwację zastąpimy bardzo dużą wartością?

Mediana Rozstęp Średnia Kwartyle i rozstęp międzykwartylowy Standardowe odchylenie

Praca własna: Przeczytać ponownie obecny wykład Przeczytać i przygotować listę zadań, zapisać w zeszycie wszystkie rozwiązania Przejrzeć, ew. wydrukować następny wykład (www, za kilka dni) Powtórzyć 1.-3. po każdym wykładzie.