Metodologia badań społecznych Wykłady VIII-IX Roman Dolata Zakład Ewaluacji Instytucji Edukacyjnych Dyżury: piątki, 15.30-17.00, s. 314 rdolata@uw.edu.pl
Podstawowe pojęcia statystyczne przydatne do analizy danych ilościowych
Macierz danych Wygodnym formatem zapisywania danych ilościowych jest macierz (tabela) Wiersz macierzy to obiekt badany Kolumna macierzy to zmienna (cecha obiektu) Każdy obiekt ma unikalny identyfikator Braki danych też zapisujemy w macierzy Rodzaje braków danych: brak danych dla całego narzędzia, brak danych dla danej pozycji Losowe i nielosowe braki danych
Rozkład liczebności Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład skumulowany, procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Podstawowe parametry rozkładu 1 Podstawowe parametry rozkładu 1. Miary tendencji centralnej i inne miary pozycji Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887 Średnia arytmetyczna x: 22,6 Mediana Me: 23 Pierwszy kwartyl (25 percentyl): 17 Drugi kwartyl (mediana, 50 percentyl): 23 Trzeci kwartyl (75 percentyl): 28
Jak wyznaczamy medianę i kwartyle Porządkujemy wszystkie uzyskane wyniki od najmniejszego do największego (400887 wyników, najpierw zera, potem jedynki itd.) Poczynając od wyników najniższych szukamy takiego wyniku, że: a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl minimum 1. kwartyl mediana 3.kwartyl maksimum 25% wyników 25% wyników 25% wyników 25% wyników
Podstawowe parametry rozkładu 2 Podstawowe parametry rozkładu 2. Miary zmienności wyników Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887 średnia 1. kwartyl 3. kwartyl Wariancja: 58,2 Odchylenie standardowe: 7,6 Odchylenie kwartylowe (ćwiartkowe): 11
Rozkład normalny Odgrywa ważną rolę w statystycznym opisie różnych zjawisk przyrodniczych, społecznych i psychologicznych Ma interesujące właściwości matematyczne, dzięki którym oparte na nim metody statystyczne są dość proste obliczeniowo 10
Rozkład normalny 11
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Rysunkowe przedstawienie zrównywania wyników. Jest chyba na tyle przedstawiona sugestywnie przedstawiona, że nie wymaga ode mnie wyjaśnień. 12
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Wyniki znormalizowane
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Wyniki znormalizowane Wyniki po przejściach
Standaryzacja Skala standaryzowana - skala przedstawiająca wyniki pomiarów uzyskanych z dowolnej skali w postaci jednostek odchylenia standardowego, czyli tzw. wyników standaryzowanych Zastosowanie skal standaryzowanych wynika z potrzeby porównywania wyników uzyskanych na dwóch (lub więcej) skalach pomiarowych o odmiennych właściwościach i przez to bezpośrednio nieporównywalnych Najczęściej spotykanym sposobem standaryzacji jest tzw. standaryzacja Z którą można wyrazić poniższym wzorem gdzie: Zi - zmienna standaryzowana SD - odchylenie standardowe w grupie X - średnia w gupie Xi – wynik i-tego ucznia 15
Skala wyników standaryzowanych z Uzyskane w ten sposób wartości wyników standaryzowanych przyjmują wartości dodatnie lub ujemne, w zależności od tego, czy odchylają się w górę, czy w dół od wartości średniej. 16
Relacje pomiędzy pięcioma skalami standardowymi Autor, dr H. Szaleniec Relacje pomiędzy pięcioma skalami standardowymi 17
Skala staninowa
Podstawowe modele analizy danych ilościowych
Podstawowe modele analizy danych ilościowych Analiza rozkładu Analiza porównawcza rozkładów Analiza zależności między zmiennymi dla danych nominalnych Analiza współzmienności dla danych na skali interwałowej lub ilorazowej
Analiza rozkładu: dane nominalne
Analiza rozkładu: dane o znaczeniu absolutnym Rozkład procentowy gimnazjów ze względu na odsetek dyslektyków. Dane z egzaminu gimnazjalnego 2006
Analiza rozkładu: dane o znaczeniu względnym Rozkład wyników sprawdzianu 2008 w Szkole Podstawowej X w skali staninowej
Analiza porównawcza dwóch rozkładów Sprawdzian 2009, szkoły publiczne i niepubliczne miara Publiczne n=393982 Niepubliczne n=6905 Średnia 22,6 27,4 Mediana 23 29 1. kwartyl 17 22 3. kwartyl 28 34 Wariancja 57,7 60,4 Odchylenie standardowe 7,6 7,8 Roztęp ćwiartkowy 11 12
Analiza porównawcza dwóch rozkładów Sprawdzian 2009, dwie szkoły miara SP A n=132 SP B n=143 Średnia 28,9 24,9 Mediana 29 25 1. kwartyl 18 3. kwartyl 33 Wariancja 26,0 83 Odchylenie standardowe 5,1 9,1 Roztęp ćwiartkowy 8 15
Analiza porównawcza dwóch rozkładów Wykorzystanie skali staninowej Analiza porównawcza rozkładów wyników sprawdzianu w roku 2006 i 2008 w Szkole Podstawowej X z wykorzystaniem skali staninowej
Badanie zależności: dane na skali nominalnej Tabela . Procentowe rozkłady odpowiedzi na pytanie ankiety ze względu na typ szkoły. Zgodnie z przyjętymi rozwiązaniami maturzysta nie będzie musiał zdawać egzaminu z matematyki. Czy jest to Pani/Pana zdaniem dobre rozwiązanie? Typ szkoły zdecy-dowanie tak raczej tak raczej nie zdecy-dowanie nie nie mam zdania N Średnie zawodowe 36,8 34,0 16,7 8,1 4,3 209 Licea ogólnokształcące 30,9 18,4 16,4 0,4 256 Łącznie 35,3 32,3 17,6 12,7 2,2 465
Badanie zależności: potrzeba kontroli innych zmiennych Tabela: Poziom religijności a głosowanie w wyborach. Rozkłady procentowe (dane wymyślone na potrzeby dydaktyczne) Religijność nie głosują w wyborach głosują w wyborach N niska 43% 57% 300 wysoka Łącznie 50% 600
Badanie zależności: potrzeba kontroli innych zmiennych, cd Tabela: Poziom religijności a głosowanie w wyborach przy kontroli wykształcenia. Rozkłady procentowe (dane wymyślone na potrzeby dydaktyczne) Wykształ-cenie Religijność nie głosują w wyborach głosują w wyborach N niskie niska 70% 30% 100 wysoka 200 wysokie Łącznie 50% 600
Badanie zależności: dane na skali interwałowej lub ilorazowej Czy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej? Analiza graficzna: wykresy rozrzutu Możliwe do zastosowania statystyki: - współczynnik korelacji r Pearsona
Korelacja dodatnia (pozytywna)
Korelacja ujemna (negatywna)
Korelacja zerowa (brak)
Korelacja nieliniowa
Modele wpływu zmiennych niezależnych na zmienną zależną Model wpływu addytywnego Model wpływu interakcyjnego
Interakcja genotyp-środowisko
Brak wpływu
Tylko wpływ genów
Tylko wpływ środowiska
Wpływ addytywny genów i środowiska
Interakcja genotyp-środowisko
Prezentacja wyników w raporcie badawczym
Tabele Zawiera informację, którą trudno jest czytelnie przedstawić w tekście Zawiera tytuł, numer, nagłówek, część główną, przypisy Konieczny opis znaczenia liczb umieszczonych w tabeli, tak, aby można było ją zinterpretować bez odwoływania się do tekstu
Typowa tabela w artykule naukowym Tabela 1. Wyniki po terapii dla trzech podejść terapeutycznych Rodzaj terapii Pomiary Behawioralna Poznawcza Analityczna Liczba aktywności a Wyniki Becka b 4,6 16,7 3,8 15,3 2,1 17,5 a Średnia liczba podjętych aktywności rekreacyjnych w ciągu 1 tygodnia b Średni wynik w kwestionariuszu depresji Becka – im wyższy wynik tym większa depresja
Elementy wykresu Wykres – graficzna ilustracja kluczowych wyników Poziomy zmiennej niezależnej zwykle umieszcza się wzdłuż osi x, a wartości zmiennej zależnej wzdłuż osi y; każda oś powinna być opisana Para wartości określa punkt na wykresie, który może obrazować indywidualny wynik lub średnią grupy dla konkretnej wartości zmiennej niezależnej Rodzaje wykresów: histogramy, wykresy słupkowe, liniowe, kołowe
Wykres słupkowy Średni wynik A. Rywalizacja indywidualna B. Rywalizacja grupowa C. Współdziałanie Wykres 1. Średnie wyniki w teście dla 3 grup badawczych
Wykres słupkowy – dwa czynniki Średnia zmiana postawy Wykres 2. Zmiana postawy wobec brania narkotyków jako funkcja wzbudzonego lęku i bycia ochotnikiem w badaniu.
Wykres liniowy Liczba błędów Poziom hałasu Wykres 3. Średnia liczba błędów w zależności od wieku i poziomu hałasu przy wykonywaniu zadania
Wykres kołowy Wykres 4. Procentowy udział poszczególnych grup wiekowych w grupie badanych osób