Statystyczna analiza danych

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

ESTYMACJA PRZEDZIAŁOWA
hasło: student Szymon Drobniak pokój konsultacje: wtorek 13-14
Wykład 9 Analiza wariancji (ANOVA)
Wykład 5 Standardowy błąd a odchylenie standardowe
Wykład 7: Moc Moc testu to prawdopodobieństwo odrzucenia H0, gdy prawdziwa jest HA Moc=czułość testu Moc = 1 – Pr (nie odrzucamy H0, gdy prawdziwa jest.
Analiza wariancji jednoczynnikowa
Zmienne losowe i ich rozkłady
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Opinie, przekonania, stereotypy
Symulacja zysku Sprzedaż pocztówek.
Statystyka w doświadczalnictwie
hasło: student Joanna Rutkowska Aneta Arct
Wykład 7 Przedział ufności dla 1 – 2
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 8 Testy Studenta Jest kilka różnych testów Studenta. Mają one podobną strukturę ale służą do testowania różnych hipotez i różnią się nieco postacią.
Wykład 14 Liniowa regresja
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 11 Analiza wariancji (ANOVA)
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Wykład 4 Przedziały ufności
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Rozkład t.
Metody ilościowe w biznesie Wykład 1
Hipotezy statystyczne
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Testowanie hipotez statystycznych
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Testy nieparametryczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Modelowanie ekonometryczne
Hipotezy statystyczne
Podstawy statystyki, cz. II
Statystyka i opracowanie wyników badań
Planowanie badań i analiza wyników
Seminarium licencjackie Beata Kapuścińska
Testowanie hipotez statystycznych
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
Wykład 5 Przedziały ufności
Weryfikacja hipotez statystycznych
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Testowanie hipotez Jacek Szanduła.
Statystyczna analiza danych
Statystyczna analiza danych
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Estymacja parametrów populacji. Estymacja polega na szacowaniu wartości parametrów rozkładu lub postaci samego rozkładu zmiennej losowej, na podstawie.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Wnioskowanie statystyczne. Próbkowanie (sampling)
Rozkład z próby Jacek Szanduła.
Statystyka matematyczna
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
MIARY STATYSTYCZNE Warunki egzaminu.
statystyka podstawowe pojęcia
Zapis prezentacji:

Statystyczna analiza danych

Wykładowca : Małgorzata Bogdan Email: Malgorzata.Bogdan@pwr.wroc.pl

Oceny sprawozdania z laboratoriów (50%) kartkówki (50%)

Oceny 90 – 100 = 5 80 – 89 = 4.5 70 – 79 = 4.0 55 – 69 = 3.5 30 – 54 = 3 Zdanie wszytkich raportów jest warunkiem koniecznym uzyskania zaliczenia.

Wykład 1 Graficzne reprezentacje danych Statystyki opisowe Podstawy testowania

Zmienne i rekordy Rekordy– odpowiadają opisywanym obiektom (zwierzętom, ludziom, rzeczom) Zmienna – pewna charakterystyka danego obiektu

Rodzaje zmiennych Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne

Typy zmiennych Jakościowe – charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy, rzadko, czasami, często, zawsze Nie porządkowe: gładki & żółty, gładki & zielony, pomarszczony & żółty, pomarszczony & zielony płeć, rasa, zawód

Ilościowe Ciągłe : wzrost, waga, stężenie Dyskretne : liczba kwiatów, liczba gładkich & żółtych groszków

Dane pracowników CyberStat

Analiza opisowa - wykresy Zaczynamy od opisu pojedynczych zmiennych. Zmienne jakościowe Rozkład – podaje liczbę lub procent osobników w danej kategorii.

Wykształcenie Liczba (w mln) Procent Podstawowe 4.7 12.3 Średnie 11.8 30.7 Pomaturalne 10.9 28.3 Licencjat 8.5 22.1 Wyższe 2.5 6.6

Wykres słupkowy

Wykres kołowy

Zmienna ilościowa – Diagram pnia i liścia Pień – na ogół wszystkie cyfry poza ostatnią Liść – na ogół ostatnia cyfra Przykład 1 Roczna liczba kończących uderzeń jednego z najlepszych graczy baseballa, Babe Ruth : 54 59 35 41 46 25 47 60 54 46 49 46 41 34 22

Opis rozkładu Kształt, środek, rozrzut. Kształt – Ile punktów szczytowych (mod) ? Symetryczny albo skośny. Środek – punkt centralny Rozrzut – odstęp między największymi i najmniejszymi wartościami. Identyfikacja obserwacji odstających (nie pasujących do reszty).

Histogramy

Tabela częstości Class Count Percent 0.1-5.0 30 60 20.1-25 1 2 5.1-10.0 10 20 25.1-30 4 10.1-15 8 30.1-35 15.1-20 35.1-40

Opis rozkładu za pomocą liczb Średnia Mediana Kwartyle Wykresy pudełkowe Standardowe odchylenie

Dane – Przykład 1 ' c:\mbogdan\data\ex01_026.txt'; A = importdata(filename, delimiter, nheaderlines ) pie(X) – wykres kołowy bar(X) – wykres słupkowy mean(X) - średnia

Testy istotności Schemat wnioskowania statystycznego Sformułowanie hipotezy Statystyka testowa P-wartość Statystyczna istotność Test dla średniej w populacji Test dwustronny a przedziały ufności

Testy istotności-Testowanie hipotez Ten standardowy sposób wnioskowania statystycznego jest stosowany do oceny czy dane wskazują na prawdziwość pewnych stwierdzeń (hipotez) o całej populacji… Innym rodzajem wnioskowania jest estymacja nieznanych parametrów opisujących populację. Do tego celu często stosujemy przedziały ufności.

Przykłady testowania hipotez: 1. Średni ciężar tabletki w100 elementowej próbie wyniósł 198mg. Czy przeczy to tezie producenta, że rozkład wagi produkowanych tabletek ma średnią 200 mg i odchylenie standardowe 5mg? 2. Czy w pewnej fabryce nie produkuje się więcej niż 15% wadliwych wyrobów ?

Przykład 1: Producent twierdzi, że średnia zawartość substancji czynnej w jego tabletkach wynosi 200mg z odchyleniem standardowym 5mg. Przetestowano 100 tabletek i uzyskano średnią 187mg. Czy ta wartość przeczy twierdzeniu producenta?

Przykład 1 (kontynuacja): Jak należałoby zinterpetować wyniki 199mg lub 200.5mg? Czy te wyniki są prawdopodobne czy istotne ?

Formułowanie hipotez Hipoteza to stwierdzenie o parametrach w populacji lub modelu. Nie o naszej próbie. Formułujemy dwie hipotezy: Hipotezę zerową H0 Hipotezę alternatywną Ha

Hipoteza zerowa: Hipoteza zerowa to twierdzenie, które jest wstępnie faworyzowane lub w którego prawdziwość się wierzy. Często opisuje nie interesującą sytuację “braku wpływu” lub “braku różnicy”. Zwykle musimy ustalić czy dane dostarczają wystarczająco silne dowody aby hipotezę zerową odrzucić. Test istotności ocenia ``siłę’’ przesłanek przeciwko hipotezie zerowej.

Hipoteza alternatywna: Hipoteza alternatywna opisuje sytuację, która może zachodzić zamiast H0. Często zaczynamy formułując hipotezę alternatywną Ha . Następnie formułujemy H0 jako twierdzenie, że efekt w który wierzymy nie zachodzi.

Przykład 1 (kontynuacja): H0: μ = 200 Słownie: Średnia zawartość lekarstwa w pigułce wynosi 200mg. Ha: μ ≠ 200 Słownie: Średnia zawartość nie wynosi 200mg. Tak zwana dwu-stronna alternatywa Ha. (Szukamy odchyleń w obu kierunkach.)

Przykład 1 (inne możliwe sytuacje): H0: μ = 200 vs. Ha: μ <200 Podejrzewamy, że zawartość substancji czynnej jest niższa. Jedno-stronna Ha. H0: μ = 200 vs. Ha: μ >200 Podejrzewamy, że zawartość substancji czynnej jest wyższa. Jedno-stronna Ha. H0: μ ≤ 200 vs. Ha: μ >200 Zasadniczo, ta sama sytuacja jak powyżej. Jedno-stronna Ha. Uwaga: Postać alternatywy trzeba wybrać zanim spojrzymy na dane, w oparciu o wiedzę ogólną lub inne pomiary.

Przykład 1. Statystyka testowa: Jeżeli średnia zawartość wynosi 200mg a SD=5mg, to ma (w przybliżeniu) standardowy rozkład normalny

Przykład 1. P-wartość. Jeżeli H0 jest prawdziwa, jakie jest p-stwo, że średnia ze 100 tabletek będzie się różniła od 200 mg o co najmniej 13 mg [187 mg] ? O 1 mg [199 mg]? O 0.5 mg [200.5 mg]?

P-wartość… Jest to p-stwo, wyliczone przy założeniu że H0 jest prawdziwa, że statystyka testowa może przybrać wartość ca najmniej tak ekstremalną jak ta zaobserwowana w próbie. Jeżeli P-wartość jest mała, jest to przesłanka aby H0 odrzucić. Aby wyznaczyć p-wartość, trzeba znać rozkład statystyki testowej przy H0 .

Statystyczna istotność: Potrzeba nam ``wartości krytycznej’’ z którą możemy porównać naszą P-wartość aby podjąć decyzję. Tą ``wartość krytyczną’’ nazywamy poziomem istotności. Przyjmuje się ją, zanim spojrzy się na dane. Poziom istotności zwykle oznacza się α. Typowe wartości α: 0.05, 0.01. Jeżeli nie ustalimy inaczej, będziemy zawsze używali α=0.05.

Statystyczna istotność Jeżeli P-wartość ≤α, mówimy, że dane są statystycznie istotne na poziomie α, tzn. mamy istotne przesłanki przeciwko hipotezie zerowej. Uwaga: Test z P-wartością 0.02 jest statystycznie istotny na poziomie 0.05, ale nie na poziomie 0.01.

Konkluzja/decyzja: Jeżeli P-wartość jest mniejsza niż ustalony poziom istotności α wtedy odrzucamy hipotezę zerową (na korzyść alternatywy). W innym wypadku nie mamy wystarczających przesłanek aby odrzucić hipotezę zerową. Uwaga: Razem z konkluzją należy podać P-wartość.

Przykład 1. Konkluzja.

Test o Średniej w Populacji Ogólny kontekst: X1,…., Xn : Próba prosta z (w przybliżeniu) N(µ, σ) σ jest znane, µ jest nieznane Hipoteza zerowa H0: μ = μ0 Możliwe hipotezy alternatywne: Ha: μ ≠ μ0 (dwu-stronna) Ha: μ > μ0 (jedno-stronna) Ha: μ < μ0 (jedno-stronna)

Statystyka testowa : Jeżeli H0 jest prawdziwa, z ma standardowy rozkład normalny – spodziewamy się małych wartości z.

P-wartość

Decyzja Odrzucamy H0 gdy P-wartość jest mniejsza niż poziom istotności α. W innym przypadku nie odrzucamy. Ta reguła pracuje dla każdego testu istotności.

Jedno-stronny vs. dwu-stronny Jeżeli w oparciu o wcześniejsze dane lub doświadczenie oczekujemy “wzrostu” lub ``spadku’’ wtedy możemy użyć testu jedno-stronnego. Słowa kluczowe: więcej, mniej, lepszy, gorszy, wzrost, spadek. W innym przypadku stosujemy test dwu-stronny. Słowa kluczowe: “różny”,“odchylenie”, “zmiana”…

Przykład 2: W grupie 72 mężczyzn, na wysokich stanowiskach i w grupie wiekowej 35-44 średnie ciśnienie krwi (systoliczne) wyniosło 126.07. Czy średnie ciśnienie krwi w tej grupie mężczyzn istotnie różni się od średniego ciśnienia w całej populacji, które można opisać rozkładem normalnym N(128, 15)? (α nie podane?? Weźmy 0.05.)

Przykład 3: Nowy system pobierania opłat opłaci się tylko gdy średni miesięczny wpływ na rachunek przekroczy $170. Odchylenie standardowe wpłat wynosi SD= $65. Badanie statystyczne 400 losowo wybranych rachunków wykazało średni wpływ wysokości $178. Czy nowy system się opłaci ?

Testy dwu-stronne a przedziały ufności Przykład 1 : Znajdź 95% przedział ufności jeżeli średnia z próby wynosi 187mg (199mg, 200.5mg). Przypomnijmy: SD=5, n=100. Zwróćmy uwagę, że hipotetyczna wartość µ=200mg nie mieści się w pierwszych dwóch, a mieści w trzecim przedziale.

Testy dwu-stronne a przedziały ufności. Dwu-stronny test na poziomie istotności α odrzuca H0: µ=µ0 dokładnie wtedy gdy µ0 nie mieści się w przedziale ufności na poziomie ufności 1- α .

P-wartość to mniejsza wartość α przy której wynik testu jest istotny.

Obszar krytyczny – zbiór wartości statystyki testowej dla których odrzucamy H0 Wartość krytyczny – ``granica’’ między obszarem krytycznym a obszarem ``przyjęć’’. Znajdź wartość krytyczną dla Ha: μ > μ0 gdy α=0.05, 0.02, 0.01. Jakie P-wartości odpowiadają wartościom krytycznym z=1.5, z=2, z=2.5?