Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Statystyczna analiza danych. Wykładowca : Małgorzata Bogdan

Podobne prezentacje


Prezentacja na temat: "Statystyczna analiza danych. Wykładowca : Małgorzata Bogdan"— Zapis prezentacji:

1 Statystyczna analiza danych

2 Wykładowca : Małgorzata Bogdan

3 Oceny sprawozdania z laboratoriów (50%) kartkówki (50%)

4 Oceny 90 – 100 = 5 80 – 89 = – 79 = – 69 = – 54 = 3 Zdanie wszytkich raportów jest warunkiem koniecznym uzyskania zaliczenia.

5 Wykład 1 Graficzne reprezentacje danych Statystyki opisowe Podstawy testowania

6 Zmienne i rekordy Rekordy– odpowiadają opisywanym obiektom (zwierzętom, ludziom, rzeczom) Zmienna – pewna charakterystyka danego obiektu

7 Zmienne JakościoweIlościowe PorządkoweNie porządkoweCiągłeDyskretne Rodzaje zmiennych

8 Typy zmiennych Jakościowe – charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: gładki & żółty, gładki & zielony, pomarszczony & żółty, pomarszczony & zielony płeć, rasa, zawód

9 Ilościowe Ciągłe : wzrost, waga, stężenie Dyskretne : liczba kwiatów, liczba gładkich & żółtych groszków

10 Dane pracowników CyberStat

11 Analiza opisowa - wykresy Zaczynamy od opisu pojedynczych zmiennych. Zmienne jakościowe Rozkład – podaje liczbę lub procent osobników w danej kategorii.

12 WykształcenieLiczba (w mln)Procent Podstawowe Średnie Pomaturalne Licencjat Wyższe2.56.6

13 Wykres słupkowy

14 Wykres kołowy

15 Zmienna ilościowa – Diagram pnia i liścia Pień – na ogół wszystkie cyfry poza ostatnią Liść – na ogół ostatnia cyfra Przykład 1 Roczna liczba kończących uderzeń jednego z najlepszych graczy baseballa, Babe Ruth :

16

17 Opis rozkładu Kształt, środek, rozrzut. Kształt – Ile punktów szczytowych (mod) ? Symetryczny albo skośny. Środek – punkt centralny Rozrzut – odstęp między największymi i najmniejszymi wartościami. Identyfikacja obserwacji odstających (nie pasujących do reszty).

18 Histogramy

19 Tabela częstości ClassCountPercentClassCountPercent

20

21 Opis rozkładu za pomocą liczb Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie

22 Dane – Przykład 1 ' c:\mbogdan\data\ex01_026.txt'; A = importdata(filename, delimiter, nheaderlines ) pie(X) – wykres kołowy bar(X) – wykres słupkowy mean(X) - średnia

23 Testy istotności Schemat wnioskowania statystycznego Sformułowanie hipotezy Statystyka testowa P-wartość Statystyczna istotność Test dla średniej w populacji Test dwustronny a przedziały ufności

24 Testy istotności-Testowanie hipotez Ten standardowy sposób wnioskowania statystycznego jest stosowany do oceny czy dane wskazują na prawdziwość pewnych stwierdzeń (hipotez) o całej populacji… Innym rodzajem wnioskowania jest estymacja nieznanych parametrów opisujących populację. Do tego celu często stosujemy przedziały ufności.

25 Przykłady testowania hipotez: 1. Średni ciężar tabletki w100 elementowej próbie wyniósł 198mg. Czy przeczy to tezie producenta, że rozkład wagi produkowanych tabletek ma średnią 200 mg i odchylenie standardowe 5mg? 2. Czy w pewnej fabryce nie produkuje się więcej niż 15% wadliwych wyrobów ?

26 Przykład 1: Producent twierdzi, że średnia zawartość substancji czynnej w jego tabletkach wynosi 200mg z odchyleniem standardowym 5mg. Przetestowano 100 tabletek i uzyskano średnią 187mg. Czy ta wartość przeczy twierdzeniu producenta?

27 Przykład 1 (kontynuacja): Jak należałoby zinterpetować wyniki 199mg lub 200.5mg? Czy te wyniki są prawdopodobne czy istotne ?

28 Formułowanie hipotez Hipoteza to stwierdzenie o parametrach w populacji lub modelu. Nie o naszej próbie. Formułujemy dwie hipotezy: Hipotezę zerową H 0 Hipotezę alternatywną H a

29 Hipoteza zerowa: Hipoteza zerowa to twierdzenie, które jest wstępnie faworyzowane lub w którego prawdziwość się wierzy. Często opisuje nie interesującą sytuacjębraku wpływu lub braku różnicy. Zwykle musimy ustalić czy dane dostarczają wystarczająco silne dowody aby hipotezę zerową odrzucić. Test istotności ocenia ``siłę przesłanek przeciwko hipotezie zerowej.

30 Hipoteza alternatywna: Hipoteza alternatywna opisuje sytuację, która może zachodzić zamiast H 0. Często zaczynamy formułując hipotezę alternatywną H a. Następnie formułujemy H 0 jako twierdzenie, że efekt w który wierzymy nie zachodzi.

31 Przykład 1 (kontynuacja): H 0 : μ = 200 Słownie: Średnia zawartość lekarstwa w pigułce wynosi 200mg. H a : μ 200 Słownie: Średnia zawartość nie wynosi 200mg. Tak zwana dwu-stronna alternatywa H a. (Szukamy odchyleń w obu kierunkach.)

32 Przykład 1 (inne możliwe sytuacje): H 0 : μ = 200 vs. H a : μ <200 Podejrzewamy, że zawartość substancji czynnej jest niższa. Jedno-stronna H a. H 0 : μ = 200 vs. H a : μ >200 Podejrzewamy, że zawartość substancji czynnej jest wyższa. Jedno-stronna H a. H 0 : μ 200 vs. H a : μ >200 Zasadniczo, ta sama sytuacja jak powyżej. Jedno-stronna H a. Uwaga: Postać alternatywy trzeba wybrać zanim spojrzymy na dane, w oparciu o wiedzę ogólną lub inne pomiary.

33 Przykład 1. Statystyka testowa: Jeżeli średnia zawartość wynosi 200mg a SD=5mg, to ma (w przybliżeniu) standardowy rozkład normalny

34 Przykład 1. P-wartość. Jeżeli H 0 jest prawdziwa, jakie jest p-stwo, że średnia ze 100 tabletek będzie się różniła od 200 mg o co najmniej 13 mg [187 mg] ? O 1 mg [199 mg]? O 0.5 mg [200.5 mg]?

35 P-wartość… Jest to p-stwo, wyliczone przy założeniu że H 0 jest prawdziwa, że statystyka testowa może przybrać wartość ca najmniej tak ekstremalną jak ta zaobserwowana w próbie. Jeżeli P-wartość jest mała, jest to przesłanka aby H 0 odrzucić. Aby wyznaczyć p-wartość, trzeba znać rozkład statystyki testowej przy H 0.

36 Statystyczna istotność: Potrzeba nam ``wartości krytycznej z którą możemy porównać naszą P-wartość aby podjąć decyzję. Tą ``wartość krytyczną nazywamy poziomem istotności. Przyjmuje się ją, zanim spojrzy się na dane. Poziom istotności zwykle oznacza się α. Typowe wartości α: 0.05, Jeżeli nie ustalimy inaczej, będziemy zawsze używali α=0.05.

37 Statystyczna istotność Jeżeli P-wartość α, mówimy, że dane są statystycznie istotne na poziomie α, tzn. mamy istotne przesłanki przeciwko hipotezie zerowej. Uwaga: Test z P-wartością 0.02 jest statystycznie istotny na poziomie 0.05, ale nie na poziomie 0.01.

38 Konkluzja/decyzja: Jeżeli P-wartość jest mniejsza niż ustalony poziom istotności α wtedy odrzucamy hipotezę zerową (na korzyść alternatywy). W innym wypadku nie mamy wystarczających przesłanek aby odrzucić hipotezę zerową. Uwaga: Razem z konkluzją należy podać P-wartość.

39 Przykład 1. Konkluzja.

40 Test o Średniej w Populacji Ogólny kontekst: X 1,…., X n : Próba prosta z (w przybliżeniu) N( µ, σ) σ jest znane, µ jest nieznane Hipoteza zerowa H 0 : μ = μ 0 Możliwe hipotezy alternatywne: H a : μ μ 0 (dwu-stronna) H a : μ > μ 0 (jedno-stronna) H a : μ < μ 0 (jedno-stronna)

41 Statystyka testowa : Jeżeli H 0 jest prawdziwa, z ma standardowy rozkład normalny – spodziewamy się małych wartości z.

42 P-wartość

43 Decyzja Odrzucamy H 0 gdy P-wartość jest mniejsza niż poziom istotności α. W innym przypadku nie odrzucamy. Ta reguła pracuje dla każdego testu istotności.

44 Jedno-stronny vs. dwu-stronny Jeżeli w oparciu o wcześniejsze dane lub doświadczenie oczekujemy wzrostu lub ``spadku wtedy możemy użyć testu jedno- stronnego. Słowa kluczowe: więcej, mniej, lepszy, gorszy, wzrost, spadek. W innym przypadku stosujemy test dwu- stronny. Słowa kluczowe:różny,odchylenie, zmiana…

45 Przykład 2: W grupie 72 mężczyzn, na wysokich stanowiskach i w grupie wiekowej średnie ciśnienie krwi (systoliczne) wyniosło Czy średnie ciśnienie krwi w tej grupie mężczyzn istotnie różni się od średniego ciśnienia w całej populacji, które można opisać rozkładem normalnym N(128, 15)? (α nie podane?? Weźmy 0.05.)

46

47 Przykład 3: Nowy system pobierania opłat opłaci się tylko gdy średni miesięczny wpływ na rachunek przekroczy $170. Odchylenie standardowe wpłat wynosi SD= $65. Badanie statystyczne 400 losowo wybranych rachunków wykazało średni wpływ wysokości $178. Czy nowy system się opłaci ?

48

49 Testy dwu-stronne a przedziały ufności Przykład 1 : Znajdź 95% przedział ufności jeżeli średnia z próby wynosi 187mg (199mg, 200.5mg). Przypomnijmy: SD=5, n=100. Zwróćmy uwagę, że hipotetyczna wartość µ =200mg nie mieści się w pierwszych dwóch, a mieści w trzecim przedziale.

50 Testy dwu-stronne a przedziały ufności. Dwu-stronny test na poziomie istotności α odrzuca H 0 : µ = µ 0 dokładnie wtedy gdy µ 0 nie mieści się w przedziale ufności na poziomie ufności 1- α.

51 P-wartość to mniejsza wartość α przy której wynik testu jest istotny.

52

53 Obszar krytyczny – zbiór wartości statystyki testowej dla których odrzucamy H 0 Wartość krytyczny – ``granica między obszarem krytycznym a obszarem ``przyjęć. Znajdź wartość krytyczną dla H a : μ > μ 0 gdy α=0.05, 0.02, Jakie P-wartości odpowiadają wartościom krytycznym z=1.5, z=2, z=2.5?


Pobierz ppt "Statystyczna analiza danych. Wykładowca : Małgorzata Bogdan"

Podobne prezentacje


Reklamy Google