Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Rachunek P-stwa i Statystyka Kurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa:

Podobne prezentacje


Prezentacja na temat: "Rachunek P-stwa i Statystyka Kurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa:"— Zapis prezentacji:

1 Rachunek P-stwa i Statystyka Kurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa:

2 Wykładowca : Małgorzata Bogdan Biuro: C Godziny konsultacji: Pon 14:00-16:00, Pt 13:00 – 15:00 (lub indywidualnie) Telefon:

3 Oceny Dwa kolokwia na wykładzie (22 listopad i 24 styczeń) Aktywność na ćwiczeniach Zaliczenie ćwiczeń gwarantuje zaliczenie wykładu Egzamin Egzamin zalicza ćwiczenia na ocenę najwyżej dostateczną

4 Książka Statistics for the Life Sciences, 3rd edition, Myra L. Samuels i Jeffrey A. Witmer, 2003 Listy zadań dostępne w internecie

5 Dane Używamy danych aby odpowiedzieć na różne pytania naukowe Na ogół dane charakteryzują się losową zmiennością Oceniamy informację zawartą w danych Chcemy odróżnić sygnał od szumu

6 Co to jest statystyka? Nauka dotycząca zrozumienia danych i podejmowania decyzji w obliczu losowości Zbiór metod do planowania eksperymentu i analizy danych służących do uzyskania maksimum informacji i ilościowej oceny ich wiarygodności

7 Przykład 1 Badania dotyczące wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie. Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? Ludzie mają naturalnie różne poziomy cholesterolu Reagują różnie na tą samą dawkę ćwiczeń (np. genetyka) Różny stopnień zaangażowania w realizację planu ćwiczeń Wpływ diety Ćwiczenia mogą wpływać na inne czynniki (np. apetyt)

8 Przykład 2 Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? Czy mamy powtórzenia eksperymentu ? Czy w kolejnych powtórzeniach wyniki są podobne ? Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną ?

9 Przykład 3 (Lokalizacja genów) Gen o dwóch allelach – trzy genotypy AA, Aa, aa Dzielimy kłosy żyta odpowiednio na trzy grupy Czy różnice w przeciętnej wydajności między tymi trzema grupami są wystarczająco duże aby stwierdzić bliskość genu odpowiadającego za wydajność

10 Przykład 4 W artykule wyczytaliśmy, że stwierdzono, że 80 % pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania a 20 % jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. Czy przeprowadzone badania upoważniają do takiej konkluzji ?

11 Przykład 5 Reakcja owiec na bakterie wąglika ReakcjaSzczepioneNie szczepione Śmierć024 Przeżycie240 Procent przetrwania 100 % 0 %

12 Przykład 6 Rozwój raka wątroby u myszy wynikE.coliWolne od zarazków Rak wątroby819 Zdrowa530 Suma1349 Procent myszy z rakiem wątroby 62 %39 %

13 Przykład 5 – brak zmienności (?) – mocna konkluzja Przykład 6 – duża zmienność – słaba konkluzja Jak duża musi być próba abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik eksperymentu ?

14 Losowość Dane na ogół charakteryzują się zmiennością Matematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa

15 Przykłady Prognoza pogody- prawdopodobieństwo deszczu wynosi 80% Prawdopodobieństwo wyrzucenia orła wynosi ½ Prawdopodobieństwo heterozygoty Aa wynosi 2p(1-p), gdzie p i (1-p) są częstościami alleli A i a

16 Proces naukowy/statystyczny Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe

17 Próba, Zmienna Próba Obserwacje lub wyniki eksperymentu Reprezentuje kolejne realizacje eksperymentu Przykłady Wysokości 10 kłosów żyta (10 obserwacji) Poziom hemoglobiny u 35 dawców Kolor i kształt 556 fasolek w drugiej generacji (żółte/zielone, gładkie/pomarszczone)

18 Rozmiar próby n n=10,n=35,n=556 Zmienna To co mierzymy Wysokość, poziom hemoglobiny, kolor/kształt

19 Zmienne JakościoweIlościowe Porządkowe Nie porządkowe CiągłeDyskretne Rodzaje zmiennych

20 Jakościowe – kwalifikujące do kategorii Porządkowe : wybory w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe : gładkie & żółte, gładkie & zielone, pomarszczone & żółte, pomarszczone & zielone

21 Ilościowe – wynik jest liczbą Ciągłe : wzrost, waga, stężenie Dyskretne : liczba wadliwych elementów, liczba gładkich i żółtych fasolek

22 Oznaczenia Rozmiar próby = n, czasami n 1,n 2 zmienne : X,Y,Z; Y=wzrost, pojęcie obserwacje (wyniki) : x,y,z Wielokrotne obserwacje y 1,y 2,…,y n

23 Próba a Próba Biolog mierzy poziom glukozy we krwi 20 ludzi. 20 próbek krwi ? (biolog) Jedna próba 20 pomiarów glukozy ? (statystyk) Będziemy używali pomiar tam gdzie biolog użyłby słowa próba.

24 Tabela częstości Fasolki:gładkie/pomarszczone, zielone/żółte KlasyLiczba Gładkie, żółte315 Gładkie, zielone108 Pomarszczone, żółte101 Pomarszczone, zielone32

25 Wykres słupkowy (dane jakościowe)

26 Dane ilościowe dyskretne Liczba potomstwa u n=36 macior. Liczba potomstwa jest liczbą całkowitą (zmienna dyskretna).

27 Dane

28 Rozkład częstości Liczba potomstwaLiczba macior

29

30 Histogram Zwykle jest pomocne grupowanie podobnych obserwacji Tak prawie zawsze postępujemy z danymi ciągłymi Definiujemy klasy obserwacji i zliczamy liczbę obserwacji w każdej klasie

31 Jak wybierać klasy Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy są rozłączne, nie ma ``dużych dziur) Rozmiar (szerokość) wszystkich klas jest zwykle taki sam Używamy wygodnych granic, np a nie – Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n 50); więcej gdy próba jest duża

32 Przykład Dane : długość łodygi papryki (n=15)

33 Min=10.9, max=14.1, zakres=max-min=3.2 Wybieramy szerokość klasy, np. 0.5 i punkt początkowy 10.5 aby pokryć przedział 10.5 – Liczymy rozkład częstości i rysujemy histogram. Zmieniamy szerokość klas aby uzyskać pożądany kształt Za mała szerokość klas = ``postrzępiony, za duża = tracimy informację

34 Tabela częstości KlasaCzęstość

35

36 Czasami rysujemy histogramy częstości względnej = częstość / n Użyteczne gdy chcemy porównać kilka zbiorów o różnych rozmiarach

37 Przykład Serum CK

38 Min=25, max=203 Rozstęp =178 Szerokość klasy =20 Punkt początkowy=20

39 Serum CKCzęstość Suma36

40

41 Centralny szczyt (moda) w okolicach 100 U/Li Zasadnicza masa rozkładu między 40 a 140 U/Li Nie symetryczny – skośny na prawo

42 Całkowanie powierzchni pod histogramem (równa szerokość klas) Odcinek U/Li 42 % całkowitej powierzchni pod histogramem 42 % (16 out of 36) wartości CK

43 Nierówna szerokość klas Powierzchnia pod histogramem nie jest proporcjonalna do częstości W tak ``spaczonym histogramie (patrz następna strona) powierzchnia między 140 – 220 stanowi 39 % całkowitej powierzchni (tylko 14 % obserwacji) Rozwiązanie – Podzielić odpowiednią częstość przez liczbę zgrupowanych klas Oś Y na przekształconym histogramie – średnia częstość w zgrupowanych klasach

44

45

46 Diagram pnia i liścia (Stem and leaf plot) Inny sposób podsumowania danych; zachowuje ``prawie wszystkie informacje. Wybieramy podstawę lub ``pień; zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie danych Zapisujemy wszystkie bazy w kolumnie, w kolejności rosnącej i rysujemy pionową linię

47 Przeglądamy dane. Znajdujemy ``pień odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest liściem. Dostajemy ``obrócony histogram Ograniczenia – ciężko kontrolować liczbę klas

48 Przykład Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów

49

50 Opis histogramu (rozkładu) Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie ogony Skośny na prawo lub lewo Jednomodalny (jeden główny wierzchołek) Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący) Rozrzut (duży lub mały)

51 Statystyka Statystyka – liczbowa charakteryzacja danych Przykłady statystyk próba: y 1 =24, y 2 =35, y 3 =26,y 4 =36 min=24, max=36, t= y 1 +y 2 =59

52 Miary położenia rozkładu Średnia z próby symbol oznacza liczbę (arytmetyczną średnią z obserwacji) Symbol oznacza pojęcie średniej z próby Średnia jest ``środkiem ciężkości zbioru danych

53 Przykład: Przyrost wagi owiec Dane : 11, 13, 19, 2, 10,1 y 1 =11, y 2 =13,…, y 6 =1

54 Odchylenia Σ dev i = ?

55 Mediana próbkowa Środkowa obserwacja jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości gdy n jest parzyste

56 Przykłady Przykład 1 (n = 5) Dane: Średnia z próby y = 32/5 = 6.4 Mediana = Przykład 2 (n = 6) Dane: Średnia z próby y = Mediana =

57 Średnia a mediana Przykład 1 (n = 5) Dane: Średnia y = 32/5 = 6.4 Mediana = 6.3 Błąd w zapisie danych Data: Średnia y = 19 Mediana = 6.3

58 Średnia a mediana Mediana dzieli powierzchnię histogramu na połowę Jest odporna – nie mają na nią wpływu obserwacje ``odstające Średnia to ``środek ciężkości histogramu Obserwacje odstające mają duży wpływ na średnią – średnia nie jest odporna

59 Średnia a Mediana Jeżeli histogram jest w przybliżeniu symetryczny to średnia i mediana są zbliżone. Jeżeli histogram jest skośny na prawo to średnia jest zwykle większa niż mediana. Obie miary położenia są jednakowo ważne Średnia jest częściej wykorzystywana do testowania i estymacji (czego nauczymy się wkrótce).

60 Kwartyle Kwartyle dzielą zbiór danych na cztery grupy. Drugi kwartyl (Q2) to mediana. Pierwszy kwartyl (Q1) to mediana połowy obserwacji leżących poniżej Q2. Trzeci kwartyl (Q3) to mediana połowy obserwacji leżących powyżej Q2.

61 Przykład Dane:

62 Przykład (n=15)

63 Rozstęp międzykwartylowy IRQ=Q3-Q1

64 Wykres pudełkowy (Boxplot) Boxplot – graficzna reprezentacja mediany, kwartyli, maximum i minimum z danych. ``Pudełko powstaje z obrysowania kwartyli Linie ciągą się do wartości najmniejszej i największej.

65

66 Zmodyfikowany Boxplot Obserwacja odstająca Np. błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu Które obserwacje są odstające Dolna granica = Q *IQR Górna granica = Q *IQR

67 Dane :

68

69 Miary rorzutu Opis danych : kształt, centrum, rorzut Miary rozrzutu Rozstęp (max – min) – bardzo wrażliwy na obserwacje odstające, nie przydatny do testowania Rozstęp międzykwartylowy (IRQ=Q3-Q1) – rozstęp środkowych 50% obserwacji Standardowe odchylenie/ Wariancja Współczynnik zmienności (CV)

70 Próbkowe odchylenie standardowe (SD, symbol s) Wyrażone w jednostkach pomiarowych Mówi jak przeciętnie obserwacje są odległe od średniej.

71

72 Próbkowa wariancja Przeciętny kwadrat odległości od średniej próbkowej – s 2 Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane.

73 Dlaczego n-1 ? s 2 jest nieobciążonym estymatorem wariancji w populacji Σ dev i =0 n-1 jednostek informacji = n-1 stopni swobody

74 Miary rozrzutu Współczynnik zmienności (CV) Przykład Dane : 35.1,30.6,36.9,29.8 (n=4) Rozstęp =

75 Suma obserwacji: y = = średnia: SD z definicji: SS = variance: s 2 =

76 Współczynnik zmienności: CV= Uwaga: Proszę zachować dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec.

77 Standardowe odchylenie (cd) Duże SD = Duży rozrzut. Małe SD = mały rozrzut. Ogólne zasady Jeżeli rozkład jest dzwonowy (bliski normalnemu) wtedy zwykle 68% obserwacji jest w odległości 1 SD od średniej 95% obserwacji jest w odległości 2 SD od śedniej > 99% obserwacji jest w odległości 3 SD od średniej

78 Nierówność Czebyszewa Nawet gdy rozkład nie jest normalny to możemy oczekiwać, że Co najmniej 75% obserwacji będzie w odległości 2 SD od średniej Co najmniej 89% obserwacji będzie w odległości 3 SD od średniej.

79 Przykład

80 Przykład cd Średnia = 14.4 i odchylenie standardowe s = 2.9.

81 Ocena SD z histogramu Odcinek zawiera około 95 % danych. Ocena s = (długość I /4) Działa najlepiej gdy rozkład jest bliski normalnemu.

82 Przykład (puls po ćwiczeniach) 95 % danych jest pomiędzy 75 a 125 Faktyczne s = 13.4

83 Porównanie miar rozrzutu i położenia Miary rozrzutu służą do oszacowania zmienności w danych. Odporność Załóżmy, że mamy dość skupiony ``dzwonowy (normalny) zbiór danych. Co się stanie gdy jedną dużą obserwację zastąpimy bardzo dużą wartością.

84 Mediana Rozstęp Średnia Kwartyle i rozstęp międzykwartylowy Standardowe odchylenie


Pobierz ppt "Rachunek P-stwa i Statystyka Kurs powtórkowy dla Inżynierii Biomedycznej Strona internetowa:"

Podobne prezentacje


Reklamy Google