Statystyczna analiza danych
Wykładowca : Małgorzata Bogdan Email: Malgorzata.Bogdan@pwr.wroc.pl
Oceny sprawozdania z laboratoriów (50%) kartkówki (50%)
Oceny 90 – 100 = 5 80 – 89 = 4.5 70 – 79 = 4.0 55 – 69 = 3.5 30 – 54 = 3 Zdanie wszytkich raportów jest warunkiem koniecznym uzyskania zaliczenia.
Wykład 1 Graficzne reprezentacje danych Statystyki opisowe Podstawy testowania
Zmienne i rekordy Rekordy– odpowiadają opisywanym obiektom (zwierzętom, ludziom, rzeczom) Zmienna – pewna charakterystyka danego obiektu
Rodzaje zmiennych Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne
Typy zmiennych Jakościowe – charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: gładki & żółty, gładki & zielony, pomarszczony & żółty, pomarszczony & zielony płeć, rasa, zawód
Ilościowe Ciągłe : wzrost, waga, stężenie Dyskretne : liczba kwiatów, liczba gładkich & żółtych groszków
Dane pracowników CyberStat
Analiza opisowa - wykresy Zaczynamy od opisu pojedynczych zmiennych. Zmienne jakościowe Rozkład – podaje liczbę lub procent osobników w danej kategorii.
Wykształcenie Liczba (w mln) Procent Podstawowe 4.7 12.3 Średnie 11.8 30.7 Pomaturalne 10.9 28.3 Licencjat 8.5 22.1 Wyższe 2.5 6.6
Wykres słupkowy
Wykres kołowy
Zmienna ilościowa – Diagram pnia i liścia Pień – na ogół wszystkie cyfry poza ostatnią Liść – na ogół ostatnia cyfra Przykład 1 Roczna liczba kończących uderzeń jednego z najlepszych graczy baseballa, Babe Ruth : 54 59 35 41 46 25 47 60 54 46 49 46 41 34 22
Opis rozkładu Kształt, środek, rozrzut. Kształt – Ile punktów szczytowych (mod) ? Symetryczny albo skośny. Środek – punkt centralny Rozrzut – odstęp między największymi i najmniejszymi wartościami. Identyfikacja obserwacji odstających (nie pasujących do reszty).
Histogramy
Tabela częstości Class Count Percent 0.1-5.0 30 60 20.1-25 1 2 5.1-10.0 10 20 25.1-30 4 10.1-15 8 30.1-35 15.1-20 35.1-40
Opis rozkładu za pomocą liczb Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie
Dane – Przykład 1 ' c:\mbogdan\data\ex01_026.txt'; A = importdata(filename, delimiter, nheaderlines ) pie(X) – wykres kołowy bar(X) – wykres słupkowy mean(X) - średnia
Testy istotności Schemat wnioskowania statystycznego Sformułowanie hipotezy Statystyka testowa P-wartość Statystyczna istotność Test dla średniej w populacji Test dwustronny a przedziały ufności
Testy istotności-Testowanie hipotez Ten standardowy sposób wnioskowania statystycznego jest stosowany do oceny czy dane wskazują na prawdziwość pewnych stwierdzeń (hipotez) o całej populacji… Innym rodzajem wnioskowania jest estymacja nieznanych parametrów opisujących populację. Do tego celu często stosujemy przedziały ufności.
Przykłady testowania hipotez: 1. Średni ciężar tabletki w100 elementowej próbie wyniósł 198mg. Czy przeczy to tezie producenta, że rozkład wagi produkowanych tabletek ma średnią 200 mg i odchylenie standardowe 5mg? 2. Czy w pewnej fabryce nie produkuje się więcej niż 15% wadliwych wyrobów ?
Przykład 1: Producent twierdzi, że średnia zawartość substancji czynnej w jego tabletkach wynosi 200mg z odchyleniem standardowym 5mg. Przetestowano 100 tabletek i uzyskano średnią 187mg. Czy ta wartość przeczy twierdzeniu producenta?
Przykład 1 (kontynuacja): Jak należałoby zinterpetować wyniki 199mg lub 200.5mg? Czy te wyniki są prawdopodobne czy istotne ?
Formułowanie hipotez Hipoteza to stwierdzenie o parametrach w populacji lub modelu. Nie o naszej próbie. Formułujemy dwie hipotezy: Hipotezę zerową H0 Hipotezę alternatywną Ha
Hipoteza zerowa: Hipoteza zerowa to twierdzenie, które jest wstępnie faworyzowane lub w którego prawdziwość się wierzy. Często opisuje nie interesującą sytuację “braku wpływu” lub “braku różnicy”. Zwykle musimy ustalić czy dane dostarczają wystarczająco silne dowody aby hipotezę zerową odrzucić. Test istotności ocenia ``siłę’’ przesłanek przeciwko hipotezie zerowej.
Hipoteza alternatywna: Hipoteza alternatywna opisuje sytuację, która może zachodzić zamiast H0. Często zaczynamy formułując hipotezę alternatywną Ha . Następnie formułujemy H0 jako twierdzenie, że efekt w który wierzymy nie zachodzi.
Przykład 1 (kontynuacja): H0: μ = 200 Słownie: Średnia zawartość lekarstwa w pigułce wynosi 200mg. Ha: μ ≠ 200 Słownie: Średnia zawartość nie wynosi 200mg. Tak zwana dwu-stronna alternatywa Ha. (Szukamy odchyleń w obu kierunkach.)
Przykład 1 (inne możliwe sytuacje): H0: μ = 200 vs. Ha: μ <200 Podejrzewamy, że zawartość substancji czynnej jest niższa. Jedno-stronna Ha. H0: μ = 200 vs. Ha: μ >200 Podejrzewamy, że zawartość substancji czynnej jest wyższa. Jedno-stronna Ha. H0: μ ≤ 200 vs. Ha: μ >200 Zasadniczo, ta sama sytuacja jak powyżej. Jedno-stronna Ha. Uwaga: Postać alternatywy trzeba wybrać zanim spojrzymy na dane, w oparciu o wiedzę ogólną lub inne pomiary.
Przykład 1. Statystyka testowa: Jeżeli średnia zawartość wynosi 200mg a SD=5mg, to ma (w przybliżeniu) standardowy rozkład normalny
Przykład 1. P-wartość. Jeżeli H0 jest prawdziwa, jakie jest p-stwo, że średnia ze 100 tabletek będzie się różniła od 200 mg o co najmniej 13 mg [187 mg] ? O 1 mg [199 mg]? O 0.5 mg [200.5 mg]?
P-wartość… Jest to p-stwo, wyliczone przy założeniu że H0 jest prawdziwa, że statystyka testowa może przybrać wartość ca najmniej tak ekstremalną jak ta zaobserwowana w próbie. Jeżeli P-wartość jest mała, jest to przesłanka aby H0 odrzucić. Aby wyznaczyć p-wartość, trzeba znać rozkład statystyki testowej przy H0 .
Statystyczna istotność: Potrzeba nam ``wartości krytycznej’’ z którą możemy porównać naszą P-wartość aby podjąć decyzję. Tą ``wartość krytyczną’’ nazywamy poziomem istotności. Przyjmuje się ją, zanim spojrzy się na dane. Poziom istotności zwykle oznacza się α. Typowe wartości α: 0.05, 0.01. Jeżeli nie ustalimy inaczej, będziemy zawsze używali α=0.05.
Statystyczna istotność Jeżeli P-wartość ≤α, mówimy, że dane są statystycznie istotne na poziomie α, tzn. mamy istotne przesłanki przeciwko hipotezie zerowej. Uwaga: Test z P-wartością 0.02 jest statystycznie istotny na poziomie 0.05, ale nie na poziomie 0.01.
Konkluzja/decyzja: Jeżeli P-wartość jest mniejsza niż ustalony poziom istotności α wtedy odrzucamy hipotezę zerową (na korzyść alternatywy). W innym wypadku nie mamy wystarczających przesłanek aby odrzucić hipotezę zerową. Uwaga: Razem z konkluzją należy podać P-wartość.
Przykład 1. Konkluzja.
Test o Średniej w Populacji Ogólny kontekst: X1,…., Xn : Próba prosta z (w przybliżeniu) N(µ, σ) σ jest znane, µ jest nieznane Hipoteza zerowa H0: μ = μ0 Możliwe hipotezy alternatywne: Ha: μ ≠ μ0 (dwu-stronna) Ha: μ > μ0 (jedno-stronna) Ha: μ < μ0 (jedno-stronna)
Statystyka testowa : Jeżeli H0 jest prawdziwa, z ma standardowy rozkład normalny – spodziewamy się małych wartości z.
P-wartość
Decyzja Odrzucamy H0 gdy P-wartość jest mniejsza niż poziom istotności α. W innym przypadku nie odrzucamy. Ta reguła pracuje dla każdego testu istotności.
Jedno-stronny vs. dwu-stronny Jeżeli w oparciu o wcześniejsze dane lub doświadczenie oczekujemy “wzrostu” lub ``spadku’’ wtedy możemy użyć testu jedno-stronnego. Słowa kluczowe: więcej, mniej, lepszy, gorszy, wzrost, spadek. W innym przypadku stosujemy test dwu-stronny. Słowa kluczowe: “różny”,“odchylenie”, “zmiana”…
Przykład 2: W grupie 72 mężczyzn, na wysokich stanowiskach i w grupie wiekowej 35-44 średnie ciśnienie krwi (systoliczne) wyniosło 126.07. Czy średnie ciśnienie krwi w tej grupie mężczyzn istotnie różni się od średniego ciśnienia w całej populacji, które można opisać rozkładem normalnym N(128, 15)? (α nie podane?? Weźmy 0.05.)
Przykład 3: Nowy system pobierania opłat opłaci się tylko gdy średni miesięczny wpływ na rachunek przekroczy $170. Odchylenie standardowe wpłat wynosi SD= $65. Badanie statystyczne 400 losowo wybranych rachunków wykazało średni wpływ wysokości $178. Czy nowy system się opłaci ?
Testy dwu-stronne a przedziały ufności Przykład 1 : Znajdź 95% przedział ufności jeżeli średnia z próby wynosi 187mg (199mg, 200.5mg). Przypomnijmy: SD=5, n=100. Zwróćmy uwagę, że hipotetyczna wartość µ=200mg nie mieści się w pierwszych dwóch, a mieści w trzecim przedziale.
Testy dwu-stronne a przedziały ufności. Dwu-stronny test na poziomie istotności α odrzuca H0: µ=µ0 dokładnie wtedy gdy µ0 nie mieści się w przedziale ufności na poziomie ufności 1- α .
P-wartość to mniejsza wartość α przy której wynik testu jest istotny.
Obszar krytyczny – zbiór wartości statystyki testowej dla których odrzucamy H0 Wartość krytyczny – ``granica’’ między obszarem krytycznym a obszarem ``przyjęć’’. Znajdź wartość krytyczną dla Ha: μ > μ0 gdy α=0.05, 0.02, 0.01. Jakie P-wartości odpowiadają wartościom krytycznym z=1.5, z=2, z=2.5?