Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Eksploracja Danych ____________________ Repetytorium ze statystyki

Podobne prezentacje


Prezentacja na temat: "Eksploracja Danych ____________________ Repetytorium ze statystyki"— Zapis prezentacji:

1 Eksploracja Danych ____________________ Repetytorium ze statystyki
Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

2 • Wnioskowanie statystyczne.
Podstawowe cele badań statystycznych; statystycznej analizy zbiorów danych • Badanie struktury populacji, reprezentowanej przez zbiór (danych) wartości wybranych cech (zmiennych) i jej: wizualizacja w postaci rozkładów tych zmiennych bądź charakterystyka przy zastosowaniu parametrów statystyki opisowej. • Odkrywanie i określanie (charakteru, siły, kierunku) zależności występujących w zbiorach danych reprezentujących różne cechy badanych obiektów, zjawisk, procesów. • Wnioskowanie statystyczne. KISIM, WIMiIP, AGH

3 Rodzaje szeregów statystycznych
Badana cecha przyjmuje niewielką liczbę jednostek (mała grupa). Porządkowana rosnąco lub malejąco Charakteryzują stan badanej zbiorowości w określonym momencie (np. w danym miesiącu, roku). Przedstawiają więc populację w układzie statycznym i służą do analizy jej struktury. dane ilościowe Szeregi przestrzenne przedstawiają rozmieszczenie wielkości statystycznych według podziału administracyjnego (gmina, powiat, województwo, krajów, regionów geograficznych). dane jakościowe proste skumulowane proste skumulowane KISIM, WIMiIP, AGH

4 Szereg rozdzielczy prosty
Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy: Ustalenie liczby klas oraz wielkości przedziałów klasowych Przyporządkowanie danych przyjętym przedziałom klasowym Zliczanie liczby jednostek w każdej klasie Liczba klas k zależy przede wszystkim od liczby obserwacji n. Stosowane bywają następujące wzory pomocne do szacowania liczby przedziałów budowanego szeregu rozdzielczego: k=1+3,322 log n KISIM, WIMiIP, AGH

5 Histogram Histogram to jeden z graficznych sposobów przedstawiania rozkładu cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są wyznaczone przez przedziały klasowe wartości cechy; szerokość przedziału; krok natomiast ich wysokość jest określona przez liczebności częstości elementów należących do określonego przedziału klasowego. KISIM, WIMiIP, AGH

6 Wykresy Wielobok liczebności Histogram KISIM, WIMiIP, AGH

7 Szereg rozdzielczy skumulowany Dystrybuanta empiryczna
KISIM, WIMiIP, AGH

8 KISIM, WIMiIP, AGH

9 2016r. 2012r. Odsetek pracujących (skumulowane)
Struktura wynagrodzeń (netto) Liczba pracujących (skumulowane) Odsetek pracujących (skumulowane) Poniżej 1181 zł ok. 800 tys. osób 10% Poniżej 1423 zł ok. 1,44 mln 18% Poniżej 2776 zł ok. 5,2 mln osób 66% Poniżej 3549 zł ok. 6,4 mln osób 80,50% Ponad 3549 zł netto miesięcznie zarabia tylko 19,5% pracujących Ponad 7000 zł ok. 270 tys. osób 3,47% Ponad zł ok. 48 tys. osób 0,60% Ponad zł ok. 16 tys. osób 0,20% Źródło: opracowanie Bankier.pl na podstawie danych GUS *Dane w tabeli dotyczą ok. 8 mln osób zatrudnionych w gospodarce narodowej (sektor przedsiębiorstw plus sektor publiczny) 2016r. 2012r. KISIM, WIMiIP, AGH

10 Statystyka Opisowa Wyróżnia się następujące grupy parametrów statystycznych: • Miary położenia / skupienia/ koncentracji średnia, moda, mediana, max, min, kwantyle) • Miary zmienności pozycyjne: rozstęp, odchylenie ćwiartkowe, odchylenie przeciętne, wsp. zmienności klasyczne: wariancja, odchylenie standardowe, klasyczny wsp. zmienności • Miary asymetrii i Graficzna interpretacja statystyk KISIM, WIMiIP, AGH

11 Moda (dominanta) W rozkładach empirycznych określa się dominantę (modę), najczęściej występującą wartość cechy gdzie x0 – dolna granicą przedziału w którym występuje moda, hm – rozpiętość przedziału klasowego, nm, nm-1, nm+1– liczebności odpowiednio przedziału z modą, poprzedniego i następnego KISIM, WIMiIP, AGH

12 Miary zmienności (rozproszenia) danych – interpretacja graficzna odchylenia standardowego
Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2). Diagram (1) jest smuklejszy i wyższy. s1 < s2 KISIM, WIMiIP, AGH

13 Praktyczne wykorzystanie miar zmienności
• Przedział TYPOWYCH wartości cechy (miary klasyczne) • Przedział taki ma tą własność, że około 70% jednostek badanej zbiorowości charakteryzuje się wartością cechy należącą do tego przedziału. KISIM, WIMiIP, AGH

14 Reguła „3 sigma” KISIM, WIMiIP, AGH

15 Model deterministyczny
W analizie często mamy do czynienia ze zjawiskami będącymi funkcjami zdeterminowanymi. Ich wartość może być opisana za pomocą ścisłych zależności matematycznych pomiędzy zmiennymi, wyniki eksperymentów są powtarzalne, np.: ruch satelity po orbicie, zmiana temperatury wody przy podgrzewaniu, KISIM, WIMiIP, AGH

16 Model probabilistyczny
W wielu wypadkach występują jednak zjawiska niezdeterminowane, odpowiadające losowym zjawiskom fizycznym, których nie można opisać ścisłymi zależnościami. Zależność stochastyczna – występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się - średnio biorąc – wartość zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X. KISIM, WIMiIP, AGH

17 Model probabilistyczny
Jeśli mamy do czynienia z czynnikiem losowym, który może obejmować również nie znane nam zmienne wpływające na wartość zmiennej zależnej. Dane = Model + Błąd Model probabilistyczny jest zawsze uproszczeniem. Jeśli zmienna zależna ma charakter ilościowy, model nazywamy modelem regresyjnym. KISIM, WIMiIP, AGH

18 Wprowadzenie do badania zależności pomiędzy danymi statystycznymi
Zwykle badane jednostki statystyczne charakteryzuje się za pomocą wielu zmiennych (cech) i wtedy ważnym jest ustalenie: – czy analizowane grupy danych, reprezentujące określone zmienne, można uznać za niezależne – jeśli hipoteza o niezależności zostaje odrzucona, należy przyjąć, że pomiędzy analizowanymi zmiennymi występuje zależność i szukamy odpowiedzi na pytanie: jaka jest jej: • siła • postać • kierunek Zależność między zmiennymi może być dwojakiego rodzaju: • funkcyjna • stochastyczna (probabilistyczna). KISIM, WIMiIP, AGH

19 KISIM, WIMiIP, AGH

20 KISIM, WIMiIP, AGH

21 Wykrywanie korelacji Obserwacja szeregów statystycznych zawierających informacje o cechach pozwala wykrywać zależności korelacyjne. Jeśli naszym celem jest analiza zachowania pewnej wielkości losowej Y, zbieramy również informacje towarzyszące, które mogą mieć znaczenie w analizie interesującej nas wielkości. Badana wartość, choć losowa, w istotny sposób zależy od innych zmiennych i zrozumienie charakteru tej zależności może być pożyteczne w wielu zadaniach np. przewidywania przyszłych wartości interesującej nas zmiennej. KISIM, WIMiIP, AGH

22 KISIM, WIMiIP, AGH

23 Współczynnik korelacji
Powiązanie między współczynnikiem korelacji a układem punktów Wykresy, które reprezentują graficznie związek pomiędzy zmiennymi, nazywane są wykresami rozrzutu. Wzrokowa ocena umożliwia często określenie siły i rodzaju zależności. Im bliżej położone są punkty na wykresie tym większej korelacji możemy się spodziewać. Najważniejsza jest statystyczna istotność korelacji. Konieczna jest weryfikacja istotności wyliczonego z próby współczynnika. Wartość współczynnika bliska 0 oznacza jedynie brak zależności liniowej. KISIM, WIMiIP, AGH

24 Badanie istotności współczynnika korelacji liniowej
Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: porównujemy jej wartość z odpowiednią wartością krytyczną t ,n-2 i podejmujemy odpowiednią decyzję co do prawdziwości H0. KISIM, WIMiIP, AGH

25 Związek korelacyjny pomiędzy zmiennymi X1 i X2,
z wyłączeniem działania zmiennej X3 KISIM, WIMiIP, AGH

26 Postaci zależności Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. Chodzi o to, aby wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa Może się bowiem okazać, że wyliczona wartość współczynnika korelacji jest zbliżona do zera, a mimo to pomiędzy korelowanymi zmiennymi występuje współzależność, tyle że nieliniowa KISIM, WIMiIP, AGH

27 Przykład realizowany z pomocą pakietu STATISTICA
Dane z badań przeprowadzonych w 1996 roku dotyczące zarobków Polaków. Ankiety wysłano do 5000 pracowników wylosowanych przez GUS. Ankiety zwróciło 1255 osób. Arkusz zawiera następujące informacje o badanych osobach Płeć Wykształcenie Wiek Staż pracy Płaca brutto Stawiam pod wątpliwość twierdzenie, że płeć nie ma wpływu na wysokość zarobków w Polsce, jeśli by tak było to nie powinno być różnic pomiędzy średnimi wartościami zarobków kobiet i mężczyzn. Hipotezą zerową jest zdanie: Zarobki mężczyzn i kobiet nie różnią się H0 : m1=m2 przy hipotezie alternatywnej H1 : m1 m2 , KISIM, WIMiIP, AGH

28 KISIM, WIMiIP, AGH

29 Regresja liniowa KISIM, WIMiIP, AGH

30 Współczynnik determinacji
r2 – współczynnik determinacji, przyjmujący wartości z przedziału [0,1], jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych KISIM, WIMiIP, AGH

31 KISIM, WIMiIP, AGH

32 Współczynniki korelacji i determinacji
Współczynniki, które otrzymujemy jeśli wcześniej dokonamy standaryzacji wszystkich zmiennych na średnią równą 0 i odchylenie standardowe równe 1. Np., Wielkość tych współczynników BETA pozwala na porównanie relatywnego wkładu każdej ze zmiennych niezależnych do predykcji zmiennej zależnej. Współczynniki regresji KISIM, WIMiIP, AGH

33 KISIM, WIMiIP, AGH

34 KISIM, WIMiIP, AGH

35 5.) składniki losowe (reszty) są nieskorelowane
Założenia MNK 1.) model jest liniowy 2.) liczba obserwacji n musi być większa lub równa liczbie oszacowanych parametrów 3.) 4.) 5.) składniki losowe (reszty) są nieskorelowane 6.) reszty mają rozkład normalny KISIM, WIMiIP, AGH

36 Regresja wieloraka KISIM, WIMiIP, AGH

37 Liniowy model regresji wielorakiej:
Regresja wieloraka Jeśli w modelu regresji mamy do czynienia z więcej niż jedną zmienną objaśniającą (niezależną), mówimy o regresji wielorakiej (wielokrotnej). Liniowy model regresji wielorakiej: y = β0+ β1x1 + β2x βkxk + ε gdzie βj – parametry modelu (współczynniki regresji) ε – składnik losowy KISIM, WIMiIP, AGH

38 5.) składniki losowe (reszty) są nieskorelowane
Założenia MNK 1.) model jest liniowy 2.) liczba obserwacji n musi być większa lub równa liczbie oszacowanych parametrów 3.) 4.) 5.) składniki losowe (reszty) są nieskorelowane 6.) reszty mają rozkład normalny KISIM, WIMiIP, AGH

39 KISIM, WIMiIP, AGH

40 KISIM, WIMiIP, AGH

41 KISIM, WIMiIP, AGH

42 brak istotności wyrazu wolnego
zmienna zależna brak istotności wyrazu wolnego wzrost istotny statystycznie wiek – brak istotności KISIM, WIMiIP, AGH

43 oszacowana funkcja regresji:
Wyniki regresji model istotny statystycznie oszacowana funkcja regresji: WAGA = 6, ,05*WIEK+ 0,72*WZROST±4, (10,94) (0,94) (0,26) R2=0,78 interpretacja: jeśli wartość zmiennej WIEK wrośnie o 1 to wartość zmiennej WAGA wzrośnie o 2,5kg BETA: standaryzowany wskaźnik siły powiązania brak istotności wpływu wieku dodatnie oddziaływanie wieku i wzrostu na wagę R2=0,78, czyli 78% ogólnej zmienności WAGI wyjaśnione przez model KISIM, WIMiIP, AGH

44 Predykcja na podstawie modelu
ile będzie ważyć dziecko w wieku 13 lat, mające 65 cali wzrostu? Brak dowodu na istotność zmiennej nie jest dostatecznym powodem do usunięcia jej z modelu. Należy sprawdzić współliniowość Tolerancja (1-R2) mówi ile zmienności danej zmiennej nie zostało wyjaśnione przez pozostałe zmienne. Im mniejsza, tym bardziej nadmiarowy jest jej wkład w równanie regresji. tolerancja = 0 (lub bliska) oznacza brak możliwości obliczenia modelu. KISIM, WIMiIP, AGH

45 Regresja ze zmienną jakościową
Jeśli w analizie występują zmienne jakościowe (np. płeć, stanowisko pracy etc) można podzielić zbiorowość na jednorodne grupy pod względem poszczególnych wartości zmiennej a następnie porównać modele. Możemy również zastąpić zmienną jakościową sztucznymi zmiennymi binarnymi (np. płeć: kobieta = 1, mężczyzna = 0) KISIM, WIMiIP, AGH

46 KISIM, WIMiIP, AGH

47 model przybiera postać:
CSK = 105,8 + 1,05*WIEK- 17,5*PŁEƱ7, (4,5) (0,089) (2,72) R2=0,87 PŁEĆ =0, CSK = 105,8 + 1,05*WIEK PŁEĆ =1, CSK = 88,3 + 1,05*WIEK KISIM, WIMiIP, AGH

48 Skategoryzowane wykresy rozrzutu
KISIM, WIMiIP, AGH

49 Przygotowanie i wstępna obróbka danych
Eksploracja Danych Przygotowanie i wstępna obróbka danych postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych.

50 STATISTICA: Moduł Podstawowe statystyki i tabele
Aby wykonać ten test, idziemy do okna Statystyki opisowe i wybierzmy kartę Odporne. Karta ta zawiera opcje umożliwiające włączenie do arkusza wynikowego średniej Winsora, średniej przyciętej oraz testu Grubbsa. Test Grubbsa na obserwacje odstające może być użyty w celu wskazania jednej obserwacji odstającej podczas jednego przebiegu. Test ten polega na wyliczeniu jak daleko potencjalna obserwacja odstająca znajduje się od pozostałych wartości w zbiorze danych. Statystyka testu Grubbsa (G) liczona jest jako stosunek największego bezwzględnego odchylenia średniej z próby do odchylenia standardowego próby KISIM, WIMiIP, AGH

51 KISIM, WIMiIP, AGH

52 Okno Zamiana wartości odstających i rzadkich zawiera różne testy umożliwiające identyfikację obserwacji odstających w zmiennych ciągłych i jakościowych. W przypadku zmiennych jakościowych, STATISTICA za obserwacje odstające uzna te przypadki, których kod lub wartość tekstowa występują rzadziej niż określona częstotliwość. W przypadku zmiennych ciągłych można wybrać jeden z wielu dostępnych testów. KISIM, WIMiIP, AGH

53 Test Grubbsa KISIM, WIMiIP, AGH

54 Zamiana obserwacji odstających.
2 1 KISIM, WIMiIP, AGH

55 KISIM, WIMiIP, AGH

56 Metoda graficzna KISIM, WIMiIP, AGH

57 Wykres ramka-wąsy Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. Aby to zrobić, należy kliknąć przycisk Zmienne, który znajduje się w oknie Statystyki opisowe. Otrzymamy okno wyboru zmiennej. Ponieważ interesuje nas znalezienie jakiejkolwiek obserwacji odstającej w naszym zbiorze, klikamy przycisk Wszystkie oraz OK. Następnie, na karcie Podstawowe, klikamy Wykres ramka-wąsy. KISIM, WIMiIP, AGH

58 Obserwacje odstające Aby włączyć pokazywanie takich obserwacji, należy dwukrotnie kliknąć w tło wykresu. Na ekranie pojawi się okno Opcje wykresu; przechodzimy w nim na kartę Wykres właściwy: Ramka-wąsy. KISIM, WIMiIP, AGH

59 Przykład: Wykrywanie obserwacji odstających
Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. KISIM, WIMiIP, AGH

60 wybieramy dodatkowe opcje określające wykres, kontrolujące wyświetlanie obserwacji odstających i ekstremalnych oraz wykorzystanie rozkładu przyciętego zmiennej zależnej do policzenia średniej/mediany. W oknie Wykres ramka-wąsy; więcej opcji wybieramy Odstające i ekstremalne z rozwijanej listy Odstające. KISIM, WIMiIP, AGH

61 Usuwanie odstających wartości
Dla każdej ze zmiennej liczbowej wykonuje się wykresy ramka-wąsy, by znaleźć wartości odstające. stosuje się następujące współczynniki: Ramka Wąs Odstające KISIM, WIMiIP, AGH

62 KISIM, WIMiIP, AGH

63 Reguła „3 sigma” KISIM, WIMiIP, AGH

64 Wybór zmiennych

65 Dobór i eliminacja zmiennych
KISIM, WIMiIP, AGH

66 STATISTICA - Dobór i eliminacja zmiennych
Procedura ta sprawdza wpływ zmiennych na zmienną zależną automatycznie eliminuje puste zmienne (niezawierające żadnych wartości) i stałe (przyjmujące tę samą wartość dla wszystkich przypadków). procedura bada wpływ pojedynczych zmiennych na wielkość wyjściową. Sprawdza ona, na ile dla różnych wartości potencjalnego predykatora zmienna zależna przyjmuje różne wartości. KISIM, WIMiIP, AGH

67 Ważność predyktorów KISIM, WIMiIP, AGH

68 Dobór i eliminacja zmiennych
KISIM, WIMiIP, AGH

69 korelacje korzystne dla modelu współczynniki > r*
α=0,05 tα=2,1009 r*=0,4438 korelacje korzystne dla modelu współczynniki > r* korelacje niekorzystne dla modelu KISIM, WIMiIP, AGH

70 Metoda analizy grafów (metoda Bartosiewicz)
Metoda zmierza do tego, by spośród wszystkich zmiennych objaśniających wyodrębnić grupy zmiennych skorelowanych między sobą oraz znaleźć zmienne, z których żadna nie jest skorelowana z pozostałymi zmiennymi objaśniającymi. Następnie spośród tych grup zmiennych wybiera się zmienne mocniej skorelowane ze zmienną objaśnianą i wprowadza się je do relacji modelu. Do modelu wchodzą również wszystkie zmienne nieskorelowane między sobą, ale skorelowane ze zmienną objaśnianą. KISIM, WIMiIP, AGH

71 Metoda analizy grafów (metoda Bartosiewicz)
Obliczenie współczynników korelacji zmiennych objaśniających ze zmienną objaśnianą rj oraz zmiennych objaśniających pomiędzy sobą rij. Testowanie istotności współczynników korelacji Odrzucenie zmiennych X nieskorelowanych ze zmienna objaśnianą i konstrukcja macierzy R' z zerami w miejscu nieistotnych współczynników rij. Budowa grafu powiązań między zmiennymi objaśniającymi i wybór zmiennych do modelu, tworząc w ten sposób k grafów – grup zmiennych, odpowiadających przyszłym k zmiennym objaśniającym modelu. Do zmiennych objaśniających zalicza się: zmienne, które w odwzorowaniu tworzą grafy zerowe (izolowane), zmienne o maksymalnej liczbie łuków wybrane z każdego grafu spójnego, jeżeli w każdym grafie spójnym jest więcej niż jedna zmienna o takiej samej maksymalnej liczbie łuków, to wybiera się spośród tych zmiennych tę, która jest najbardziej skorelowana ze zmienną objaśnianą. KISIM, WIMiIP, AGH

72 X1, r*=0,4 r(X2)=3 X2, do modelu wchodzą: X5, KISIM, WIMiIP, AGH

73 Liniowa postać modelu:
α=0,05 tα=2,1009 r*=0,4438 wszystkie zmienne istotne współczynniki > r* do modelu wchodzą: X1, X2, X4 Liniowa postać modelu: Y=a0 + a1X1 + a2X2 + a4X4+ e KISIM, WIMiIP, AGH

74 wybór predyktorów – ocena zależności zmiennych
Rodzaj zmiennych 1:1 Jedna objaśniająca 1:n Wiele zmiennych Ilościowe Korelacja, wykres rozrzutu Macierz korelacji, F Ilościowa zależna, jakościowa objaśniająca ANOVA, χ2 skategoryzowany histogram Skategoryzowany wykres rozrzutu, χ2 Jakościowa zależna Tabela wielodzielcza, χ2 χ2, Tabele wielodzielcze, KISIM, WIMiIP, AGH

75 Przykład 1a (ANOVA) Wiadomo, że związki chemiczne stosowane w leczeniu nowotworów mogą powodować obniżenie poziomu hemoglobiny we krwi (niedokrwistość). W przypadku pewnego związku chemicznego stosowanego w leczeniu nowotworów (Lek A) podejrzewano, że przy długotrwałym stosowaniu powoduje niedokrwistość (stężenie hemoglobiny we krwi poniżej 11g/dl) w większym stopniu niż inne leki tego typu. Do badania włączono grupę 24 osób z rozpoznaniem nowotworu. 10 z nich podawano wspomniany lek A. Pozostałym pacjentom podawano inne leki o podobnym działaniu. 7 pacjentów zażywało lek B, a 7 lek C. W momencie przystąpienie do badania u wszystkich pacjentów poziom hemoglobiny we krwi był prawidłowy. Po zakończonej obserwacji u pacjentów ponownie wykonano morfologię krwi. Wyniki badania poziomu hemoglobiny u badanych były następujące: KISIM, WIMiIP, AGH

76 Przykład 1b Lek A Lek B Lek C 10,2 14,3 10,4 8,7 14,1 12 12,5 17 13,6 13,8 13,2 13,5 7,6 11,6 14,7 8,2 10,9 15,3 9,8 9,3 14,9 14,2 Czy pacjenci przyjmujący lek A po zakończeniu terapii mieli niższy poziom hemoglobiny we krwi niż pacjenci leczeni innymi lekami? KISIM, WIMiIP, AGH

77 Przykład 1c Stąd wniosek, że poziom hemoglobiny u pacjentów stosujących różne leki różni się istotnie. Zakładamy normalność rozkładów oraz jednorodność wariancji w grupach.  KISIM, WIMiIP, AGH

78 Przykład 1d KISIM, WIMiIP, AGH

79 KISIM, WIMiIP, AGH

80 Przykład 1e Analiza post-hoc: Porównania wielokrotne Te testy umożliwiają nam odpowiedzenie na pytanie, które z analizowanych grup różnią się między sobą. KISIM, WIMiIP, AGH

81 Kontrasty: kombinacje średnich
Kontrasty pozwalają badać hipotezy na temat różnic średnich w poszczególnych grupach. Załóżmy że chcemy porównać lek A z lekiem B z wyłączeniem leku C (Przykład 1b). Wtedy kontrasty będą następujące: 1, -1, 0 [przykład 1f] Jeśli grupy (leki) są takie same, to suma średnich pomnożonych przez odpowiednie wagi będzie miała wartość oczekiwaną równą 0. Jeśli pacjenci leczeni lekiem C mają wyższy poziom hemoglobiny, wtedy średnia będzie mniejsza od 0 (waga -1) KISIM, WIMiIP, AGH

82 Kontrasty: kombinacje średnich
Jeśli chcemy sprawdzić, czy leki B i C istotnie różnią się od leku A, tworzymy kontrast: 2, -1, -1 [przykład 1g] Wagi muszą sumować się do 0, tylko wtedy suma ważonych średnich z poszczególnych grup będzie równa 0, a suma ta będzie się różnić od 0 tylko jeśli wystąpią różnice międzygrupowe. KISIM, WIMiIP, AGH

83 Kontrasty: kombinacje średnich
[przykład 1f] KISIM, WIMiIP, AGH

84 VEPAC Wykres zmienności KISIM, WIMiIP, AGH

85 Tabele wielodzielcze KISIM, WIMiIP, AGH

86 KISIM, WIMiIP, AGH

87 KISIM, WIMiIP, AGH

88 KISIM, WIMiIP, AGH

89 Tabele raportujące KISIM, WIMiIP, AGH


Pobierz ppt "Eksploracja Danych ____________________ Repetytorium ze statystyki"

Podobne prezentacje


Reklamy Google