„There are three kinds of lies: lies, damned lies, and statistics”

„There are three kinds of lies: lies, damned lies, and statistics”
Postawa fobiczna Postawa spiskowa „There are three kinds of lies: lies, damned lies, and statistics” Mark Twain

Prawdziwej nauce nie wystarczy stwierdzenie wystąpienia faktu bądź opis zjawiska. O wiele ważniejszym zadaniem jest dostarczenie racjonalnego wyjaśnienia zjawisk i ich powiązań w czasie i przestrzeni. Sposoby wyjaśniania: Indukcyjny: Fakty nieuporządkowane  pomiar i klasyfikacja  fakty uporządkowane  uogólnienie indukcyjne  weryfikacja hipotezy  budowa teorii. Dedukcyjny: Obraz rzeczywistego świata  model a priori  hipoteza  dane  weryfikacja  budowa teorii. Statystyka zajmuje się m.in. weryfikacją hipotez, weryfikacja odbywa się na drodze konfrontacji z danymi empirycznymi. Dane (obserwacje, pomiary) są realizacją określonej zmiennej.

„chłodni ogrodnicy” - może to jest osobliwość cyklu rocznego???
Przykłady rozumowania indukcyjnego W roku: 1951, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70 itd., wystąpili „chłodni ogrodnicy” - może to jest osobliwość cyklu rocznego???

(to stwierdzenie pozostaje hipotezą, którą trzeba zweryfikować)
Przykłady rozumowania dedukcyjnego Wszyscy ludzie są śmiertelni Sokrates jest (był) człowiekiem Co oznacza, że: Sokrates jest (był) śmiertelny Aktywne niże potrzebują wsparcia z górnej troposfery w postaci obszarów silnej dywergencji Prawy sektor wyjścia prądu strumieniowego stanowi obszar silnej dywergencji Co oznacza, że: Aktywne niże powinny rozwijać się pod lewym sektorem wyjścia prądu LF. (to stwierdzenie pozostaje hipotezą, którą trzeba zweryfikować) LF

„Nie ma różnicy” nie oznacza, że różnica jest równa 0
Testowanie hipotez 1. H0 "brak jest różnicy w efekcie działania leku X oraz Y" H1: "Lek X jest lepszy niż obecnie stosowany lek Y" 2. H0: "nie ma różnicy między temperaturą w Europie w fazie dodatniej i ujemnej NAO” H1: "jest różnica". 3. H0: "nie ma różnicy pomiędzy IQ studentów i studentek „Nie ma różnicy” nie oznacza, że różnica jest równa 0 Statystyka testowa: wielkość obliczona z próby, na podstawie której decydujemy o odrzuceniu bądź przyjęciu H0. Konstruowana jest na podstawie brzmienia H0.

Którą hipotezę uznać za bardziej prawdopodobną? - H0 czy H1?
Proces losowy generuje następujący rozkład statystyki t (różnice poziomu cholesterolu między 10-osobowymi grupami) Obszary zdarzeń nieprawdopodobnych Obszar zdarzeń prawdopodobnych Załóżmy, że statystyka t obliczona dla konkretnych 2 prób po 10 pacjentów znalazła się w obszarze zdarzeń nieprawdopodobnych Zdarzyło się coś, co nie powinno się zdarzyć przy założeniu, że działa jedynie przypadek Może, w związku z tym, zaobserwowana różnica jest nieprzypadkowa

H1: koncentracja > norma
Apropos rozmieszczenia obszarów zdarzeń nieprawdopodobnych Test dwustronny Test jednostronny Wybór testu zależy od brzmienia hipotezy alternatywnej H1 Przykład testu jednostronnego: czy zanieczyszczenie rzeki „w dół strumienia” względem miejsca zrzutu jest większe niż norma? H1: koncentracja > norma

Idea testowania hipotezy zerowej H0
Testujemy hipotezę o wpływie El Nino na warunki termiczne w Europie. H0: "brak jest istotnej różnicy między temperaturą na obszarze Europy w latach El Nino i w fazie neutralnej".

Czy różnica 2oC jest wynikiem El Nino czy dziełem przypadku?
Dysponujemy 10 pomiarami temperatury w epizodach El Nino (próba eksperymentalna) i 10 pomiarami temperatury w fazie neutralnej (próba kontrolna). Średnia z próby eksperymentalnej = +10oC, a z próby kontrolnej +8oC. Czy różnica 2oC jest wynikiem El Nino czy dziełem przypadku? Jak często może występować różnica większa bądź równa 2oC kiedy grupa kontrolna i eksperymentalna dobrane są losowo - tzn. wpływ na różnicę ma jedynie przypadek? Jeżeli taka bądź większa różnica wypada często, np. 1 na 4 to "przypadek" pozostaje wystarczającym (realnym) wyjaśnieniem zaistniałej różnicy. Jeżeli w 1 na 1000 grup eksperymentalnych i kontrolnych (dobranych losowo) różnica jest równa bądź większa niż 2oC to "przypadek" nie jest wystarczającym wyjaśnieniem. Najważniejsze pytanie: “Zakładając, że hipoteza H0 jest prawdziwa, jakie jest prawdopodobieństwo zaobserwowania wartości statystyki testowej, która jest co najmniej tak ekstremalna jak ta aktualnie obserwowana???

Przykład nr 1 rozkładu różnic między grupami losowymi
Rozkład wskazuje na to, że różnica średniej temperatury między próbkami losowymi może dosyć często przewyższać 2oC – dokładnie w 20%. Jak zinterpretować rezultaty eksperymentu w świetle tego rozkładu? Co powie sceptyk: "Ponieważ różnica 2oC może bardzo często pojawić się wskutek przypadku, to niby dlaczego powinienem dać się przekonać, że to co obserwujemy to wpływ El Nino? Może tak a może nie – nie jestem do tego w żadnym stopniu przekonany".

Przykład nr 2 rozkładu różnic między grupami losowymi
Rozkład wskazuje na to, że różnica równa 2oC bądź większa występuje bardzo rzadko (np. 1 raz na 1000 losowań). Co na to sceptyk?: "Oczywiście zjawiska niezmiernie rzadkie czasem jednak występują – ta różnica między grupą eksperymentalną i kontrolną może stanowić właśnie to rzadkie wystąpienie. Jednak fakt, że jestem sceptyczny nie oznacza, że w ogóle nie akceptuję nowych odkryć. Przykład jest raczej przekonywujący więc jestem zmuszony przyznać, że El Nino rzeczywiście wpływa na temperaturę".

Efekt testowania: odrzucić H0 / nie odrzucać H0
Hipotezie zerowej poświęca się specjalną uwagę ponieważ ona odnosi się do stwierdzenia, które jest testowane (testowana jest H0). Hipoteza alternatywna (H1) to stwierdzenie, które może zostać przyjęte jeżeli H0 zostanie odrzucona. Jeżeli konkluzja brzmi "nie odrzucać H0" to wcale nie oznacza koniecznie, że hipoteza zerowa jest prawdziwa, oznacza jedynie, że nie ma wystarczających dowodów na to aby ją odrzucić. Efekt testowania: odrzucić H0 / nie odrzucać H0 Testowanie = porównanie statystyki testowej z rozkładem losowym

Przykład "ostrego" poziomu istotności α = 0.005
Etapy testowania hipotez: 1. Określenie hipotezy H0 i H1 2. Ustalenie poziomu istotności (α = 0.05; 0.01) Można znaleźć graniczną wartość odpowiadającą pewnemu małemu prawdopodobieństwu α taką, że prawdopodobieństwo przekroczenia granicy przez mierzoną wielkość, przy założeniu braku efektu, wynosi właśnie alfa. Liczba alfa (α) jest poziomem istotności testu. Najpierw ustala się poziom istotności, a później sprawdza czy należy przyjąć czy odrzucić hipotezę o istnieniu pewnego efektu. Poziom istotności nie może być wybierany na podstawie wyniku podlegającego testowaniu. Przykład "ostrego" poziomu istotności α = 0.005 i "łagodnego" α = 0.05.

cd. Etapy testowania hipotez
3. Obliczenie statystyki testowej określonej przez hipotezę zerową 4. Odczytanie z tablic statystycznych wartości krytycznej określonej poziomem istotności α. Wartość krytyczna: jest to próg względem którego statystyka testowa jest porównywana w celu określenia czy przyjąć czy też nie hipotezę H0. Wartość krytyczna zależy od przyjętego poziomu istotności i od tego czy test jest dwu czy jednostronny. 5. Wartość statystyki testowej porównywana jest z wartością krytyczną. Jeśli wartość statystyki jest większa bądź równa wartości krytycznej to H0 jest odrzucane, jeżeli mniejsza to H0 nie zostaje odrzucona. Jeżeli odrzucamy H0 to wynik jest "statystycznie istotny", jeżeli nie odrzucamy to wynik jest "statystycznie nieistotny". Obszar krytyczny: obszar, w którym krytycznie ustosunkowujemy się do hipotezy zerowej.

Jeżeli zakładamy ten sam poziom istotności to:
dwustronny test jest bardziej konserwatywny niż test jednostronny, ponieważ wartość krytyczna jest umieszczona dalej w ogonie krzywej, a więc jest trudniej odrzucić H0 stosując test dwustronny test, kiedy nie jest się pewnym, który test wybrać, należy stosować test dwustronny.

z faktycznym stanem rzeczy), możliwe są 4 wyniki testu.
4 możliwe wyniki testu Zgodnie z klasyczną definicją prawdy (zgodność myśli z rzeczywistością - myślimy tak jak podpowiada nam test, a więc chodzi o zgodność wyniku testu z faktycznym stanem rzeczy), możliwe są 4 wyniki testu. (zgodność testu z rzeczywistością) Dwa stany rzeczywistości: występowanie lub niewystępowanie efektu. Dwa wyniki testu: odrzucenie lub nie hipotezy o braku efektu.

polega na odrzuceniu hipotezy H0 kiedy jest ona prawdziwa.
Błąd I rodzaju polega na odrzuceniu hipotezy H0 kiedy jest ona prawdziwa. Błąd ten wystąpi wtedy kiedy założymy, że lekarstwo X jest lepsze od lekarstwa Y podczas gdy w rzeczywistości ich działanie się nie różni. Błąd I rodzaju jest zazwyczaj traktowany jako bardzo poważny. Błąd I rodzaju jest fałszem, jest stwierdzeniem nieprawdy. Błąd I rodzaju = “grzech przecenienia”, stwierdza się występowanie istotnego powiązania wówczas gdy w rzeczywistości ono nie istnieje. Dlatego istnieje tendencja do zmniejszania poz. istotności (α) tak aby ustrzec się przed stawianiem błędnych (zbyt daleko idących) wniosków.

Jeżeli NIE odrzucamy H0 w sytuacji kiedy jest ona fałszywa
Jednak nie można bezkarnie zmniejszać α gdyż rośnie prawdopodobieństwo popełnienia błędu II rodzaju!!! Jeżeli NIE odrzucamy H0 w sytuacji kiedy jest ona fałszywa to popełniamy błąd II rodzaju Przykład: kiedy twierdzimy, że oba lekarstwa działają podobnie w sytuacji gdy w rzeczywistości jedno z nich jest lepsze. Błąd II rodzaju oznacza, że nie dowiemy się o czymś co istnieje!!! Błąd II rodzaju = “grzech niedocenienia” , nie udało się stwierdzić istotnego powiązania występującego w rzeczywistości.

Jakie jest ryzyko, że popełnię błąd, twierdząc, że nie ma efektu?
Takie, jaka jest szansa, że t < tkr mogą wystąpić NIE przez przypadek ! beta Jakie jest ryzyko, że popełnię błąd, twierdząc, że jest efekt? Takie, jaka jest szansa, że t > tkr mogą wystąpić losowo ! alfa Losowy rozkład ciśnienia tętniczego Hipotetyczny rozkład po zastosowaniu leku X Obszar „Power” ==> odrzucenie H0 oraz „efekt jest” ==> szansa wykrycia realnego związku Moc testu = prawdopodobieństwo, że słusznie odrzucimy hipotezę H0.

Konsekwencje praktyczne błędów I i II rodzaju - przykład
Jeżeli test weryfikujący czy dany teren jest skażony, błędnie wskaże, że teren jest skażony (błąd I rodzaju) to spowoduje zmarnowanie energii i pieniędzy na usunięcie skażenia, które nie musiało zostać usunięte. Z drugiej strony nie wykrycie skażenia, gdy rzeczywiście do niego doszło (błąd II rodzaju) może prowadzić do degradacji środowiska oraz problemów zdrowotnych ludności zamieszkującej ten region.

bardzo istotne, istotne, nie istotne.
P - Value Stały poziom istotności, alfa=0.05, H0 jest testowana względem tego poziomu - (* - w tabeli) albo, alfa=0.01 i (** w tabeli) A czy wynik istotny na poziomie 0.05 pozostanie również istotny dla alfa=0.01, a ??? P - value - obserwowany poziom istotności - najmniejszy poziom istotności przy którym hipoteza H0 może zostać odrzucona - prawdopodobieństwo otrzymania rezultatów co najmniej tak ekstremalnych jak aktualnie otrzymane (przy założeniu, że H0 jest prawdziwa) alfa > P - value odrzucamy H0 alfa < P - value nie odrzucamy H0 Stosowanie P - value jest alternatywnym sposobem opisania rezultatów testu o stałym poziomie istotności. Czasem stosujemy dwa poziomy istotności 0.05 i 0.01 i wyróżniamy trzy kategorie: bardzo istotne, istotne, nie istotne.

Mnożenie eksperymentów
W pewnym zestawie danych poszukuje się efektu! Jeżeli ilość wyników pozytywnych w stosunku do wszystkich wyników testu niewiele przekracza alfa, to można stwierdzić, że prawie wszystkie wyniki pozytywne były błędami I rodzaju. Częstość wyników pozytywnych musi być znacznie większa od alfa (np. 10 razy!). Serie czasowe dzielimy na „podserie” i porównujemy różnice między nimi wielokrotnie wybieramy grupy osób do porównania (testujemy lek kilkukrotnie) wielokrotne podziały przestrzeni i grupowanie obiektów w obrębie wydzielonych sektorów, a następnie porównywanie ich parametrów (przykłady: miejska wyspa ciepła, IQ w klasach, blaknięcie koralowców)

Poprawka Bonferroniego z modyfikacją Holma

Urealnianie poziomu istotności
Kiedy analizujemy serie o długości > kilkaset elementów, i otrzymujemy statystyki testowe, którym odpowiada bardzo mała P value (< ) - wykracza poza wszelkie granice konwencjonalnych wartości poziomów istotności, warto przeanalizować autokorelację w szeregu. Np. pomiary zawartości 13C w osadach jeziora Gościąż cechują się wysoką autokorelacją aż do przesunięcia 5 (aż do piątego sąsiada). Jeżeli by założyć, że cztery sąsiednie pomiary dają podobna wartość, to ilość pomiarów zredukuje się do 1/4 pierwotnej ilości i P value wzrośnie znacząco. „Optymalny” poziom istotności Każda analiza wyników pomiarów powinna się kończyć wnioskami na „słabym” poziomie istotności, np. Alfa=0.1. Jeżeli alfa jest znacznie mniejsze to dane pomiarowe nie zostały należycie wyeksploatowane. Poprzestano na wnioskach pewnych, gdyż alfa = daje praktycznie pewność. Być może da się postawić jeszcze parę tez prawdopodobnych.

Wartości P statystyki t liczonej dla r = 0.2
Długość szeregów Gdy szeregi mają długość ok. 100 elementów współczynnik korelacji 0.2 staje się istotny statystycznie!

Efektywna długość serii (uwzględniająca autokorelację w szeregu)
Gdzie: N’ - efektywna długość serii (do wykorzystania np. przy obliczaniu liczby stopni swobody) N - rzeczywista liczba elementów w serii Tau - przesunięcie (przy liczeniu autokorelacji) ro_tau - współczynnik autokorelacji liczony dla przesunięcia tau. Cytowanie: Mitchell M. J., 1963, Some practical consideration in the analysis of geophysical time series. United States Department of Commerce, Weather Bureau, Washington, Paper presented at the 44th Annual Meeting of the American Geophysical Union, Washington D.C., April 17-20, 1963.

Podsumowanie Test statystyczny przeważnie używany jest dla poparcia tezy o zaobserwowaniu jakiegoś efektu, skutku oddziaływania, zależności. Efekt zwykle jest słaby i występuje na tle szumu. Rozumowanie testowe przebiega w ten sposób, iż zakłada się na wstępie, że nie ma żadnego efektu i oblicza prawdopodobieństwo wystąpienia statystyki testowej — wystąpienia spowodowanego jedynie procesem losowym. Jeżeli aktualna wartość liczbowa mierzonej statystyki przekracza wartość krytyczną to oznacza, że zdarzyło się coś mało prawdopodobnego, coś czego prawdopodobieństwo wynosi co najwyżej α.

Oczywiście odrzuca się możliwość mało prawdopodobnych zdarzeń :)
Czyni się to przez odrzucenie hipotezy, wg której prawdopodobieństwo było małe – wynosiło co najwyżej alfa. Przypuszcza się że było ono większe!!! W logicznej konsekwencji odrzuca się hipotezę o braku efektu!!! Tak właśnie brzmi pozytywny wynik testu: "należy odrzucić hipotezę o braku efektu". Wynik negatywny brzmi: "nie ma podstaw do odrzucenia hipotezy o braku efektu". Wartościowanie wyniku pozytywny/negatywny odpowiada naturalnej chęci wykrywania nowych efektów.

„There are three kinds of lies: lies, damned lies, and statistics”

Podobne prezentacje

Prezentacja na temat: "„There are three kinds of lies: lies, damned lies, and statistics”"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

„There are three kinds of lies: lies, damned lies, and statistics”

Podobne prezentacje

Prezentacja na temat: "„There are three kinds of lies: lies, damned lies, and statistics”"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres