Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Statystyczna analiza danych

Podobne prezentacje


Prezentacja na temat: "Statystyczna analiza danych"— Zapis prezentacji:

1 Statystyczna analiza danych

2 Wykładowca : Małgorzata Bogdan

3 Oceny sprawozdania z laboratoriów (50%) kartkówki (50%)

4 Oceny 90 – 100 = 5 80 – 89 = 4.5 70 – 79 = 4.0 55 – 69 = 3.5 30 – 54 = 3 Zdanie wszytkich raportów jest warunkiem koniecznym uzyskania zaliczenia.

5 Wykład 1 Graficzne reprezentacje danych Statystyki opisowe
Podstawy testowania

6 Zmienne i rekordy Rekordy– odpowiadają opisywanym obiektom (zwierzętom, ludziom, rzeczom) Zmienna – pewna charakterystyka danego obiektu

7 Rodzaje zmiennych Zmienne Jakościowe Ilościowe Porządkowe
Nie porządkowe Ciągłe Dyskretne

8 Typy zmiennych Jakościowe – charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: gładki & żółty, gładki & zielony, pomarszczony & żółty, pomarszczony & zielony płeć, rasa, zawód

9 Ilościowe Ciągłe : wzrost, waga, stężenie
Dyskretne : liczba kwiatów, liczba gładkich & żółtych groszków

10 Dane pracowników CyberStat

11 Analiza opisowa - wykresy
Zaczynamy od opisu pojedynczych zmiennych. Zmienne jakościowe Rozkład – podaje liczbę lub procent osobników w danej kategorii.

12 Wykształcenie Liczba (w mln) Procent Podstawowe 4.7 12.3 Średnie 11.8 30.7 Pomaturalne 10.9 28.3 Licencjat 8.5 22.1 Wyższe 2.5 6.6

13 Wykres słupkowy

14 Wykres kołowy

15 Zmienna ilościowa – Diagram pnia i liścia
Pień – na ogół wszystkie cyfry poza ostatnią Liść – na ogół ostatnia cyfra Przykład 1 Roczna liczba kończących uderzeń jednego z najlepszych graczy baseballa, Babe Ruth :

16

17 Opis rozkładu Kształt, środek, rozrzut. Kształt –
Ile punktów szczytowych (mod) ? Symetryczny albo skośny. Środek – punkt centralny Rozrzut – odstęp między największymi i najmniejszymi wartościami. Identyfikacja obserwacji odstających (nie pasujących do reszty).

18 Histogramy

19 Tabela częstości Class Count Percent 0.1-5.0 30 60 20.1-25 1 2
10 20 4 8

20

21 Opis rozkładu za pomocą liczb
Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie

22 Dane – Przykład 1 ' c:\mbogdan\data\ex01_026.txt';
A = importdata(filename, delimiter, nheaderlines ) pie(X) – wykres kołowy bar(X) – wykres słupkowy mean(X) - średnia

23 Testy istotności Schemat wnioskowania statystycznego
Sformułowanie hipotezy Statystyka testowa P-wartość Statystyczna istotność Test dla średniej w populacji Test dwustronny a przedziały ufności

24 Testy istotności-Testowanie hipotez
Ten standardowy sposób wnioskowania statystycznego jest stosowany do oceny czy dane wskazują na prawdziwość pewnych stwierdzeń (hipotez) o całej populacji… Innym rodzajem wnioskowania jest estymacja nieznanych parametrów opisujących populację. Do tego celu często stosujemy przedziały ufności.

25 Przykłady testowania hipotez:
1. Średni ciężar tabletki w100 elementowej próbie wyniósł 198mg. Czy przeczy to tezie producenta, że rozkład wagi produkowanych tabletek ma średnią 200 mg i odchylenie standardowe 5mg? 2. Czy w pewnej fabryce nie produkuje się więcej niż 15% wadliwych wyrobów ?

26 Przykład 1: Producent twierdzi, że średnia zawartość substancji czynnej w jego tabletkach wynosi 200mg z odchyleniem standardowym 5mg. Przetestowano 100 tabletek i uzyskano średnią 187mg. Czy ta wartość przeczy twierdzeniu producenta?

27 Przykład 1 (kontynuacja): Jak należałoby zinterpetować wyniki 199mg lub 200.5mg? Czy te wyniki są prawdopodobne czy istotne ?

28 Formułowanie hipotez Hipoteza to stwierdzenie o parametrach w populacji lub modelu. Nie o naszej próbie. Formułujemy dwie hipotezy: Hipotezę zerową H0 Hipotezę alternatywną Ha

29 Hipoteza zerowa: Hipoteza zerowa to twierdzenie, które jest wstępnie faworyzowane lub w którego prawdziwość się wierzy. Często opisuje nie interesującą sytuację “braku wpływu” lub “braku różnicy”. Zwykle musimy ustalić czy dane dostarczają wystarczająco silne dowody aby hipotezę zerową odrzucić. Test istotności ocenia ``siłę’’ przesłanek przeciwko hipotezie zerowej.

30 Hipoteza alternatywna:
Hipoteza alternatywna opisuje sytuację, która może zachodzić zamiast H0. Często zaczynamy formułując hipotezę alternatywną Ha . Następnie formułujemy H0 jako twierdzenie, że efekt w który wierzymy nie zachodzi.

31 Przykład 1 (kontynuacja):
H0: μ = 200 Słownie: Średnia zawartość lekarstwa w pigułce wynosi 200mg. Ha: μ ≠ 200 Słownie: Średnia zawartość nie wynosi 200mg. Tak zwana dwu-stronna alternatywa Ha. (Szukamy odchyleń w obu kierunkach.)

32 Przykład 1 (inne możliwe sytuacje):
H0: μ = 200 vs. Ha: μ <200 Podejrzewamy, że zawartość substancji czynnej jest niższa. Jedno-stronna Ha. H0: μ = 200 vs. Ha: μ >200 Podejrzewamy, że zawartość substancji czynnej jest wyższa. Jedno-stronna Ha. H0: μ ≤ 200 vs. Ha: μ >200 Zasadniczo, ta sama sytuacja jak powyżej. Jedno-stronna Ha. Uwaga: Postać alternatywy trzeba wybrać zanim spojrzymy na dane, w oparciu o wiedzę ogólną lub inne pomiary.

33 Przykład 1. Statystyka testowa:
Jeżeli średnia zawartość wynosi 200mg a SD=5mg, to ma (w przybliżeniu) standardowy rozkład normalny

34 Przykład 1. P-wartość. Jeżeli H0 jest prawdziwa, jakie jest p-stwo, że średnia ze 100 tabletek będzie się różniła od 200 mg o co najmniej 13 mg [187 mg] ? O 1 mg [199 mg]? O 0.5 mg [200.5 mg]?

35 P-wartość… Jest to p-stwo, wyliczone przy założeniu że H0 jest prawdziwa, że statystyka testowa może przybrać wartość ca najmniej tak ekstremalną jak ta zaobserwowana w próbie. Jeżeli P-wartość jest mała, jest to przesłanka aby H0 odrzucić. Aby wyznaczyć p-wartość, trzeba znać rozkład statystyki testowej przy H0 .

36 Statystyczna istotność:
Potrzeba nam ``wartości krytycznej’’ z którą możemy porównać naszą P-wartość aby podjąć decyzję. Tą ``wartość krytyczną’’ nazywamy poziomem istotności. Przyjmuje się ją, zanim spojrzy się na dane. Poziom istotności zwykle oznacza się α. Typowe wartości α: 0.05, 0.01. Jeżeli nie ustalimy inaczej, będziemy zawsze używali α=0.05.

37 Statystyczna istotność
Jeżeli P-wartość ≤α, mówimy, że dane są statystycznie istotne na poziomie α, tzn. mamy istotne przesłanki przeciwko hipotezie zerowej. Uwaga: Test z P-wartością jest statystycznie istotny na poziomie 0.05, ale nie na poziomie 0.01.

38 Konkluzja/decyzja: Jeżeli P-wartość jest mniejsza niż ustalony poziom istotności α wtedy odrzucamy hipotezę zerową (na korzyść alternatywy). W innym wypadku nie mamy wystarczających przesłanek aby odrzucić hipotezę zerową. Uwaga: Razem z konkluzją należy podać P-wartość.

39 Przykład 1. Konkluzja.

40 Test o Średniej w Populacji Ogólny kontekst:
X1,…., Xn : Próba prosta z (w przybliżeniu) N(µ, σ) σ jest znane, µ jest nieznane Hipoteza zerowa H0: μ = μ0 Możliwe hipotezy alternatywne: Ha: μ ≠ μ (dwu-stronna) Ha: μ > μ (jedno-stronna) Ha: μ < μ0 (jedno-stronna)

41 Statystyka testowa : Jeżeli H0 jest prawdziwa, z ma standardowy rozkład normalny – spodziewamy się małych wartości z.

42 P-wartość

43 Decyzja Odrzucamy H0 gdy P-wartość jest mniejsza niż poziom istotności α. W innym przypadku nie odrzucamy. Ta reguła pracuje dla każdego testu istotności.

44 Jedno-stronny vs. dwu-stronny
Jeżeli w oparciu o wcześniejsze dane lub doświadczenie oczekujemy “wzrostu” lub ``spadku’’ wtedy możemy użyć testu jedno-stronnego. Słowa kluczowe: więcej, mniej, lepszy, gorszy, wzrost, spadek. W innym przypadku stosujemy test dwu-stronny. Słowa kluczowe: “różny”,“odchylenie”, “zmiana”…

45 Przykład 2: W grupie 72 mężczyzn, na wysokich stanowiskach i w grupie wiekowej średnie ciśnienie krwi (systoliczne) wyniosło Czy średnie ciśnienie krwi w tej grupie mężczyzn istotnie różni się od średniego ciśnienia w całej populacji, które można opisać rozkładem normalnym N(128, 15)? (α nie podane?? Weźmy 0.05.)

46

47 Przykład 3: Nowy system pobierania opłat opłaci się tylko gdy średni miesięczny wpływ na rachunek przekroczy $ Odchylenie standardowe wpłat wynosi SD= $65. Badanie statystyczne 400 losowo wybranych rachunków wykazało średni wpływ wysokości $178. Czy nowy system się opłaci ?

48

49 Testy dwu-stronne a przedziały ufności
Przykład 1 : Znajdź 95% przedział ufności jeżeli średnia z próby wynosi 187mg (199mg, 200.5mg). Przypomnijmy: SD=5, n=100. Zwróćmy uwagę, że hipotetyczna wartość µ=200mg nie mieści się w pierwszych dwóch, a mieści w trzecim przedziale.

50 Testy dwu-stronne a przedziały ufności.
Dwu-stronny test na poziomie istotności α odrzuca H0: µ=µ0 dokładnie wtedy gdy µ0 nie mieści się w przedziale ufności na poziomie ufności 1- α .

51 P-wartość to mniejsza wartość α przy której wynik testu jest istotny.

52

53 Obszar krytyczny – zbiór wartości statystyki testowej dla których odrzucamy H0
Wartość krytyczny – ``granica’’ między obszarem krytycznym a obszarem ``przyjęć’’. Znajdź wartość krytyczną dla Ha: μ > μ0 gdy α=0.05, 0.02, Jakie P-wartości odpowiadają wartościom krytycznym z=1.5, z=2, z=2.5?


Pobierz ppt "Statystyczna analiza danych"

Podobne prezentacje


Reklamy Google