Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa:

Podobne prezentacje


Prezentacja na temat: "Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa:"— Zapis prezentacji:

1 Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

2 Wykładowca : Małgorzata Bogdan Biuro: C-11, p.2.04 Godziny konsultacji: śr. 12:00-14:00, czw. 14:30 – 15:30 Telefon: 320 21 03 Email: Malgorzata.Bogdan@pwr.wroc.pl

3 Oceny Dwa kolokwia: 18 listopada i 23 stycznia (na wykładzie) 50+50=100pkt. Aktywność na ćwiczeniach – extra Laboratoria – 40 pkt 90 % (126 pt) bdb, 90% - 80 % (125 - 112 pt) db +, itd. dst, 70 pkt

4 Podreczniki Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. III Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III

5 Listy zadań na ćwiczenia i laboratoria dostępne w internecie Zachęcam do zadawania pytań na wykładzie

6 Dane Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji Na ogół dane charakteryzują się losową zmiennością Oceniamy informację zawartą w danych

7 Czym jest statystyka? Nauka rozumienia danych i podejmowania decyzji w obliczu losowości Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności

8 Przykład 1 Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? Czynniki mogące wpłynąć na wynik eksperymentu: Ludzie mają naturalnie różne poziomy cholesterolu Reagują różnie na ten sam reżim ćwiczeń Różny stopień zaangażowania w realizację ćwiczeń Wpływ diety Ćwiczenia mogą wpływać na inne czynniki, np. apetyt

9 Przykład 2 Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne ? Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną?

10 Przykład 3 W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania upoważniają do takiej konkluzji?

11 Przykład 4 Reakcja owiec na bakterie wąglika ReakcjaSzczepioneNie szczepione Śmierć024 Przeżycie240 Procent przetrwania 100 % 0 %

12 Przykład 5 Rozwój raka wątroby u myszy E. coliWolne od zarazków Rak wątroby819 Zdrowa530 Suma1349 Procent myszy z rakiem wątroby 62 %39 %

13 Sygnał i szum Przykład 4 – brak zmienności (??): mocna konkluzja Przykład 5 – duża zmienność: słaba konkluzja Jak duża musi być próba, abyśmy w oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu?

14 Losowość Dane na ogół charakteryzują się zmiennością Matematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa

15 Przykłady Prognoza pogody- prawdopodobieństwo deszczu wynosi 80% Prawdopodobieństwo urodzenia dziewczynki wynosi 0,49

16 Schemat badań naukowych Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe

17 Próba, Zmienna Próba: Obserwacje lub wyniki eksperymentu Reprezentuje konkretną realizację eksperymentu Przykłady: Wysokość 10 kłosów żyta (10 obserwacji) Poziom(y) hemoglobiny u 35 dawców Kolor i kształt ziaren grochu

18 Próba, Zmienna cd. Rozmiar próby: n np. n=10, n=35, n=556 Zmienna: to co mierzymy tu: wysokość, poziom hemoglobiny, kolor i kształt

19 Zmienne JakościoweIlościowe Porządkowe Nie porządkowe CiągłeDyskretne Rodzaje zmiennych

20 Zmienne jakościowe (kategoryczne) Jakościowe – kwalifikujące do kategorii Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nie porządkowe, np.: kolor i kształt

21 Zmienne ilościowe (liczbowe) Ilościowe – wynik jest liczbą Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków

22 Oznaczenia Zmienne: X,Y,Z; np.Y=wzrost (pojęcie) Obserwacja: x,y,z; np. y=182cm (wynik) Próba: y 1,y 2,…,y n (wielokrotne obserwacje) Rozmiar próby: n, czasem n 1,n 2

23 Próba a próbka Biolog mierzy poziom glukozy we krwi 20 ludzi. 20 próbek krwi? (biolog) Jedna próba 20 pomiarów glukozy. (statystyk) Będziemy używali pomiar tam, gdzie biolog użyłby słowa próba.

24 Statystyki opisowe: Tabela częstości Groszki:gładkie/pomarszczone, zielone/żółte KlasyLiczba Gładkie, żółte315 Gładkie, zielone108 Pomarszczone, żółte101 Pomarszczone, zielone32

25 Wykres słupkowy (dane jakościowe)

26 WykształcenieLiczba (*1000000)Procent Podstawowe lub zawodowe 4.712.3 Szkoła średnia11.830.7 Szkoła policealna10.928.3 Licencjat8.522.1 Wykształcenie wyższe 2.56.6

27 Wykres słupkowy

28 Wykres kołowy

29 Dane ilościowe dyskretne Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna).

30 Dane 10121071411 1411101310 8117131213 108511 12 11 981210 9111012109

31 Rozkład liczebności Liczba potomstwaLiczba macior 51 60 72 83 93 109 118 125 133 142

32

33 Histogram (liczebności) Grupowanie podobnych obserwacji zwykle jest pomocne Prawie zawsze postępujemy tak z danymi ciągłymi Definiujemy klasy (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy

34 Jak wybierać klasy: Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki) Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 – 29.26 Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); więcej, gdy próba jest duża

35 Przykład Dane : długość łodygi papryki (n=15) 12.412.213.410.912.2 12.111.813.51214.1 12.713.212.611.913.1

36 Min=10.9, max=14.1, zakres=max-min=3.2 Wybieramy szerokość klasy, np. 0.5 i początek 10.5, aby pokryć zakres 10.5 – 14.5. Zliczamy liczby wystąpień i rysujemy histogram. Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt Za mała szerokość klas=dużo szumu, za duża = utrata informacji

37 Tabela liczebności (klas) KlasaLiczność 10.5 -10.991 11.0 -11.490 11.5 -11.992 12.0 -12.495 12.5 -12.992 13.0 -13.493 13.5 -13.991 14.0 -14.491

38

39 Przykład: Stężenia serum CK 121821001516858 9514564201101163 8457139607894 119104110113118203 6283679392110 2512370489542

40 Min=25, max=203 Rozstęp =178 Szerokość klasy =20 Punkt początkowy=20

41 Serum CKLiczność 20 - 391 40 - 594 60 - 797 80 - 998 100 - 1198 120 - 1393 140 - 1592 160 - 1791 180 - 1990 200 - 2192 Suma36

42

43 Opis histogramu: Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny–skośny na prawo

44 Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas) Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu Do tego odcinka wpada: 42% (15 z 36) wartości CK

45 Nierówna szerokość klas Powierzchnia pod histogramem nie jest proporcjonalna do liczności W tak spaczonym histogramie (patrz dalej) powierzchnia między 140 a 220J/L stanowi 39% całkowitej powierzchni (mimo, że te stężenia stanowią tylko 14% obserwacji) Rozwiązanie – podzielić liczności przez długość odcinka (liczbę zgrupowanych klas) Oś Y na przekształconym histogramie – średnia liczność (w zgrupowanych klasach)

46

47

48 Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną) =liczba wystąpień / n Histogram częstości jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n

49

50 Diagram łodygi i liścia (Stem and leaf plot) Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje. Wybieramy łodygę (pień) liczby- zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym Zapisujemy wszystkie łodygi w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od liści)

51 Diagram łodygi i liścia (Stem and leaf plot) cd. Znajdujemy ``pień odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest liściem. Dostajemy obrócony histogram Ograniczenie: trudniej manipulować liczbą klas

52 Przykład: Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów 818593 9976 758478848182 898196827470 8486807013175 88102115898279 106

53 Opis histogramu (rozkładu) Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony) Skośny na prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący) Rozrzut (duży lub mały)

54 Statystyka Statystyka – liczbowa charakterystyka danych Przykłady statystyk: próba: y 1 =24,y 2 =35, y 3 =26,y 4 =36 min=24, max=36, rozstęp= 36-24=12 Opis danych: kształt, centrum, rorzut

55 Miary położenia rozkładu Średnia z próby: symbol oznacza liczbę; arytmetyczną średnią z obserwacji Symbol oznacza pojęcie średniej z próby Średnia jest środkiem ciężkości zbioru danych

56 Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10, 1 y 1 =11, y 2 =13,…, y 6 =1

57 Odchylenia Σ dev i = ?

58 Mediana próbkowa: Środkowa obserwacja jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości gdy n jest parzyste

59 Przykłady Przykład 1 (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia z próby = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: 366 327 274 292 274 230 Średnia z próby = 293.8 Mediana =

60 Średnia a mediana Przykład 1 cd. (n = 5) Dane: 6.3 5.9 7.0 6.9 5.9 Średnia = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych: Dane: 6.3 5.9 70 6.9 5.9 Średnia = 19 Mediana = 6.3

61 Średnia a mediana Mediana dzieli powierzchnię histogramu na połowę Jest odporna – nie mają na nią wpływu obserwacje odstające Średnia to środek ciężkości histogramu Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna

62 Średnia a mediana Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana. Obie te miary położenia są jednakowo ważne. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później).

63 Miary położenia cd.:Kwartyle Kwartyle dzielą zbiór danych na cztery grupy. Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2. Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2.

64 Przykład Dane: 3 5 6 2 1 7 4

65 Przykład (n=15) 712824355 4345693

66 Rozstęp międzykwartylowy IRQ=Q3-Q1 (inter-quartile range)

67 Wykres ramkowy (Boxplot) Boxplot – graficzna reprezentacja: mediany, kwartyli, maximum i minimum z danych. Ramka (pudełko) powstaje z obrysowania kwartyli Linie (wąsy) ciągą się do wartości najmniejszej i największej.

68

69 Zmodyfikowany Boxplot Obserwacja odstająca: błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp. Kryterium do identyfikacji obserwacji odstających: Dolna granica = Q1 - 1.5*IQR Górna granica = Q3 + 1.5*IQR

70 Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16

71 Przykładowy zmodyfikowany wykres ramkowy (boxplot)

72 Miary rorzutu: Rozstęp (max – min) – bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania Rozstęp międzykwartylowy (IRQ=Q3-Q1) – rozstęp środkowych 50% obserwacji Standardowe odchylenie / Wariancja Współczynnik zmienności (CV)

73 Próbkowe odchylenie standardowe (SD, s) Wyrażone w jednostkach pomiarowych Informuje o ile przeciętnie odległe od średniej są obserwacje.

74 W mianowniku jest n-1 :

75 Próbkowa wariancja: s 2 Przeciętny kwadrat odległości od średniej próbkowej: s 2 Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane

76 Dlaczego n-1 ? s 2 jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później) Σ dev i =0 stąd n-1 stopni swobody = n-1 jednostek informacji

77 Miary rozrzutu, cd. Współczynnik zmienności (CV) Przykład Dane : 35.1, 30.6, 36.9, 29.8 (n=4) Rozstęp =

78 Suma obserwacji: y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4 średnia: s z definicji: SS = wariancja: s 2 = s=

79 Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec. Współczynnik zmienności: CV=

80 Ogólne uwagi Duże s=duży rozrzut. Małe s=mały rozrzut. Jeżeli histogram (rozkład ) jest w kształcie dzwonu (normalny), to około: 68% obserwacji jest w odległości 1 s od średniej 95% obserwacji jest w odległości 2 s od średniej 99% obserwacji jest w odległości 3 s od średniej

81 Nierówność Czebyszewa Nawet, gdy rozkład nie jest normalny to co najmniej 75% obserwacji jest w odległości 2 s od średniej co najmniej 89% obserwacji jest w odległości 3 s od średniej.

82 Przykład 1314121413 1217141319 1411101415 1320 1812

83 Przykład cd Średnia = 14.4, odchylenie standardowe s = 2.9.

84 Ocena s z histogramu Odcinek zawiera około 95 % danych. Ocena s = (długość I) /4. Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu).

85 Przykład (puls po ćwiczeniach) 95 % pomiarów jest pomiędzy 75 a 125 Faktyczne s = 13.4

86 Porównanie miar rozrzutu i położenia Miary rozrzutu służą do oszacowania zmienności w danych. Odporność: Załóżmy, że mamy dość skupionydzwonowy (normalny) zbiór danych. Co się stanie, gdy jedną dużą obserwację zastąpimy bardzo dużą wartością?

87 Mediana Rozstęp Średnia Kwartyle i rozstęp międzykwartylowy Standardowe odchylenie


Pobierz ppt "Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa:"

Podobne prezentacje


Reklamy Google