Metodologia badań społecznych Wykład IV-VII

Slides:



Advertisements
Podobne prezentacje
Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Advertisements

Modele oparte o dane przekrojowo-czasowe
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Analiza wariancji jednoczynnikowa
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
PROF. DR HAB. WIESŁAWA PRZYBYLSKA-KAPUŚCIŃSKA
Prezentacja przygotowana przez zespół badawczy przy CKE pod kierunkiem dr R.Dolaty PRIORYTETY POMORSKIEGO KURATORA OŚWIATY w roku szkolnym 2008/
Wpływ domu rodzinnego na sukcesy edukacyjne uczniów
ABC nauczyciela przygotowującego uczniów do konkursu polonistycznego
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
Metody badawcze w socjologii
Metody badawcze w socjologii – ciąg dalszy
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Inwestycja w kadry 3 Praca zaliczająca moduł Dr G.Maniak.
Program przedmiotu “Metody statystyczne w chemii”
Metody badawcze w psychologii
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
LITERATURA ANEKSY. STRUKTURA DZIAŁU TEORETYCZNEGO DEFINICJE WAŻNIEJSZYCH POJĘĆ HISTORIA ROZWOJU ZJAWISKA ANALIZA TEORII NAUKOWYCH PUNKTY WYJŚCIOWE O CELU.
Doświadczalnictwo.
Elementy statystyki dla lekarzy Planowanie badań i zbieranie danych
LITERATURA ANEKSY. STRUKTURA DZIAŁU TEORETYCZNEGO DEFINICJE WAŻNIEJSZYCH POJĘĆ HISTORIA ROZWOJU ZJAWISKA ANALIZA TEORII NAUKOWYCH PUNKTY WYJŚCIOWE O CELU.
Rozkład t.
Metody ilościowe w biznesie Wykład 1
Hipotezy statystyczne
Pedagogika ogólna.
EGZAMIN MATURALNY EGZAMINY OBOWIĄZKOWE CZĘŚĆ USTNA JĘZYK POLSKI JĘZYK OBCY NOWOŻYTNY CZĘŚĆ PISEMNA JĘZYK POLSKI JĘZYK OBCY NOWOŻYTNY MATEMATYKA EGZAMINY.
EGZAMIN MATURALNY EGZAMINY OBOWIĄZKOWE CZĘŚĆ USTNA JĘZYK POLSKI JĘZYK OBCY NOWOŻYTNY JĘZYK MNIEJSZOŚCI NARODOWEJ CZĘŚĆ PISEMNA JĘZYK POLSKI JĘZYK OBCY.
Badania osiągnięć uczniów – analiza wyników
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
dr Robert Szwed Katolicki Uniwersytet Lubelski Jana Pawła II
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
SPOTKANIE Z RODZICAMI OGÓLNE INFORMACJE O SPRAWDZIANIE Data sprawdzianu – 8 kwietnia 2008 roku Czas pracy – 60 minut Liczba punktów do uzyskania.
Organizacja nadzoru pedagogicznego Sprawny system przepływu informacji Prawidłowość doboru pracowników do charakteru realizowanych zadań Terminowość zadań
Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych
NIEPEWNOŚĆ POMIARU Politechnika Łódzka
Metody zbierania danych empirycznych
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Analiza wyników sprawdzianu ‘2013
Wykorzystanie EWD w ewaluacji wewnętrznej szkoły
Proces badawczy – schemat i zasady realizacji
Planowanie badań i analiza wyników
PROGRAMY NAUCZANIA INNOWACJE PEDAGOGICZNE PROGRAMY AUTORSKIE
MATURA 2010 Z MATEMATYKI Podstawowe informacje o egzaminie maturalnym z matematyki Prezentację opracowała: Iwona Kowalik.
Ewaluacja dydaktyczna – podstawowe pojęcia
Elementy teorii testów osiągnięć szkolnych
Metoda studium przypadku jako element XI Konkursu Wiedzy Ekonomicznej
Analiza wyników egzaminu gimnazjalnego
1 Egzamin maturalny i zawodowy w 2015 roku podstawowe informacje Egzamin maturalny i potwierdzający kwalifikacje zawodowe – technik informatyk w 2015 roku.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski.
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Teorie osobowości Literatura podstawowa
Charakterystyka powszechnie stosowanych metod badawczych
Statystyka medyczna Piotr Kozłowski
Informator dla rodziców
Powiat Górowski/ Powiatowe Centrum Doskonalenia Nauczycieli i Poradnictwa Psychologiczno-Pedagogicznego w Górze Priorytet III Wysoka jakość systemu oświaty.
STRUKTURA PRACY DYPLOMOWEJ
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Człowiek – najlepsza inwestycja
C ZY SEKRETARKA MOŻE BYĆ ZAWODEM TRUDNYM ? F UNKCJONALNE ZNACZENIE OSOBOWOŚCI NA PRZYKŁADZIE URZĘDNIKÓW SĄDOWYCH : DONIESIENIA WSTĘPNE dr Katarzyna Orlak.
Projektowanie kwestionariusza
PRZEDMIOTOWY SYSTEM OCENIANIA
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Wyniki projektu naukowego
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Zapis prezentacji:

Metodologia badań społecznych Wykład IV-VII Roman Dolata Zakład Ewaluacji Instytucji Edukacyjnych Dyżury: piątki, 15.30-17.00, s. 314

Struktura tekstu naukowego – raport z badania - Streszczenie Przedstawienie problemu badawczego Metoda, czyli opis sposobu rozwiązania problemu badawczego Przedstawienie wyników Dyskusja wyników - Bibliografia - Aneks

Jak pisać streszczenie (abstrakt) Abstrakt to krótki opis badania Zawiera opis: pytania/hipotezy badawczej metody badania (próba, podstawowe pomiary, model analizy danych) najważniejszych wyników oraz słowa kluczowe

Przedstawienie problemu badawczego Wstępne określenie problemu, dlaczego jest ważny? Przegląd literatury – co wiemy? Definicje kluczowych pojęć Sformułowanie pytania/hipotezy badawczej na poziomie teoretycznym

Przegląd literatury – gdzie szukać Podręczniki (spis treści, indeks rzeczowy, słowniczki kluczowych pojęć) Encyklopedie przedmiotowe Monografie danego zagadnienia Artykuły w prasie naukowej, w tym elektroniczne bazy tekstów: artykuły przeglądowe, metaanalizy raporty badawcze www.buw.uw.edu.pl

Przegląd literatury - zasady Krytycyzm i szacowanie wartości źródła Unikanie omawiania „z drugiej ręki” Dokumentowanie źródeł Pamiętanie cały czas, czemu służy przegląd literatury: synteza dotychczasowej wiedzy na dany temat Zwracanie uwagi zarówno na otrzymane wyniki jak i na stosowane metody badania Poszukiwanie badania „wzorcowego” dla naszego problemu badawczego

Cytowanie prac w tekście: psychologia, system amerykański Jeden autor (Feldman, 1966) Feldman (1966) – jeśli w zdaniu wymieniamy nazwisko Dwóch autorów (Kahneman i Tversky, 1984) Kilku autorów Pierwszy raz wymieniamy wszystkich (Cacioppo, Gardner i Berntson, 1997) Kolejne odwoływania do tej pracy (Cacioppo i inni, 1997) Kilka prac na ten sam temat (Ganzach, 1995; Gardner, 1996; Rowe, 1989)

Alfabetyczny spis prac cytowanych w raporcie Bibliografia Alfabetyczny spis prac cytowanych w raporcie Artykuły w prasie naukowej: Markman J., M., Hanushek E., A., Kain J., F., Rivkin S., G. (2003) Does peer ability affect student achievement? Journal of Applied Econometrics, vol. 18(5), s. 527-544. Seppänen P. (2003) Patterns of „public-school markets” in the Finnish comprehensive school from a comparative perspective. Journal of Educational Policy, vol. 18, no. 5, pp.513-531. Książki: Sternberg R., J., Wagner R. (1986) Practical intelligence: Origins of competence in everyday world. New York, Cambridge University Press. Sanders W.L., Saxton A., Horn S. (1997) The Tennessee value-added assessment system: A quantitative, outcomes-based approach to educational assessment. W: J. Millman (ed.) Grading Teachers, Grading Schools: Is student achievements a valid measure? Thousand Oaks, CA, Corwin Press.

Definicje – tworzenie ładu pojęciowego Definicja realna (DR) – stwierdzenie zasadniczej natury lub cech istotnych danego zjawiska Poszukiwanie DR jest przejawem naiwnego realizmu. DR ewentualnie wieńczy proces badawczy, a nie go otwiera

Definicje – tworzenie ładu pojęciowego, cd Definicja nominalna (DN) – znaczenie przypisane do danego terminu bez żadnych roszczeń co do oddania „istoty rzeczy”. Konwencja terminologiczna DN nie przysługuje wartość logiczna Regulacyjne i projektujące DN Wartość DN - użyteczność

Definicje – tworzenie ładu pojęciowego, cd Definicja sprawozdawcza (DS) – jak wspólnota naukowa definiuje dany termin; rekonstrukcja różnych sposobów definiowania DS są ważne w naukach społecznych, pozwalają świadomie wybrać odpowiednią dla danego badania DN

Definicje – tworzenie ładu pojęciowego, cd Definicja operacyjna (DO) – określenie, jak będzie wyglądał sposób badania/mierzenia danego zjawiska DO są pochodną metody badawczej DO wyznaczają zakres dopuszczalnych interpretacji wyników badania (uogólnienia wyniku) Operacjonizm – szersza koncepcja metodologiczna, która dopuszcza stosowanie w języku nauki tylko operacyjne zdefiniowanych terminów Przykład operacjonizmu w psychologii – Inteligencja to to, co mierzą testy inteligencji. Mamy więc tyle inteligencji, ile narzędzi do pomiaru inteligencji.

Definicje – tworzenie ładu pojęciowego, cd Najważniejsze błędy w definiowaniu nieznane przez nieznane błędne koło wielosłowie, zbyteczna komplikacja niejasność wieloznaczność

Metoda badania Określenie badanej populacji, jednostki analizy, jednostki obserwacji Pobieranie próby Schemat badania Pomiar zmiennych, wskaźniki Model analizy wyników Pytanie badawcze/hipoteza w postaci operacyjnej

Określenie badanej populacji Populacja – zbiór obiektów, na który będziemy uogólniać otrzymane wyniki Populacje jednoelementowe: studia przypadków, podejście idiograficzne Populacje jednorodne – w badaniach społecznych praktycznie nie występują Populacje niejednorodne – badania wyczerpujące i badania na reprezentatywnych próbkach

Dobór obiektu badania w studium przypadku Przesłanki praktyczne: Skąd biorą się problemy w nauce szkolnej Jasia? Dlaczego szkoła X tak nieefektywnie uczy? Przesłanki teoretyczne: Czy zaburzenia relacji emocjonalnych matka-dziecko są koniecznym warunkiem wystąpienia autyzmu? Czy poprawa warunków życia grup społecznie upośledzonych zawsze poprzedza rewolucje społeczne?

Badania wyczerpujące Badania wyczerpujące dużych populacji są rzadkie Spisy powszechne Powszechne testy lub egzaminy szkolne

Dobór obiektów badania w badaniach reprezentatywnych Próba (próbka) – zbiór obiektów pobranych z populacji i poddanych badaniu Wyniki uzyskane w próbie można uogólniać na populację tylko wtedy, gdy próba jest reprezentatywna Próba jest reprezentatywna, jeżeli jest „populacją w miniaturze” Jedyną, w pełni akceptowalną metodą tworzenia prób reprezentatywnych jest losowanie obiektów z populacji

Jednostka analizy, jednostka obserwacji Jednostka analizy: kto lub co jest obiektem, którego dotyczy pytanie badawcze lub hipoteza Jednostka obserwacji (badania): kto lub co jest obiektem pomiaru/zbierania danych Wyuczona bezradność prowadzi do niskich osiągnięć szkolnych . Rywalizacyjny klimat klasy zwiększa zróżnicowanie osiągnięć szkolnych. Granie w gry komputerowe zawierające agresję podwyższa poziom lęku. Dokumenty oficjalne zawierają mniej przymiotników niż dokumenty prywatne.

Nielosowe metody doboru próby Dobór przypadkowy (np. dostępność) Dobór celowy Metoda kuli śnieżnej Dobór kwotowy Dobór parami w badaniu porównawczym

Losowe metody doboru próby Populacja pożądana i faktycznie badana Operat losowania Metody losowania Prosty dobór losowy Systematyczny dobór losowy Dobór warstwowy Dobór grupowy

Inne warunki reprezentatywności próby By móc wyniki z próby prawomocnie uogólnić na populację (uznać je za reprezentatywne) ważny jest nie tylko sposób doboru próby, ale również tzw. stopa realizacji badania. Losowe i nielosowe braki danych.

Schematy badań Nomotetyczny vs idiograficzne Nomotetyczne: Badanie surveyowe (przeglądowe, opisowe): jedna populacja, pytanie o nasilenie zjawiska Badania korelacyjne: jedna populacja, pytanie o korelację Badania porównawcze: dwie lub więcej populacji, pytanie o nasilenie Badania eksperymentalne: jedna populacja, weryfikacja hipotez przyczynowo-skutkowych

Schematy badań, cd Wymiar czasu: Badania poprzeczne (przekrojowe, statyczne) Badania podłużne (panelowe, dynamiczne) Ta sama kohorta przez wiele lat Różne kohorty w tej samej fazie rozwojowej

Pozyskiwanie danych: podejście jakościowe Obserwacja etnograficzna Wywiad pogłębiony Analiza treści (dokumentów)

Pozyskiwanie danych: podejście ilościowe Obserwacja ilościowa Testy Wywiad standaryzowany – ankieta

Jakie informacje przenoszą dane liczbowe? Liczby jako wynik pomiaru relacje między liczbami – wynikami pomiaru - mają oddawać relacje między badanymi obiektami pod danym względem Skale pomiarowe: skala nominalna skala porządkowa skala interwałowa skala ilorazowa Typ skali pomiarowej decyduje o dopuszczalnych interpretacjach wyników pomiaru i możliwych do zastosowaniach modelach statystycznych analizy danych

Skala nominalna Nominalna – nazwy kategorii Skala dychotomiczna: tylko dwie możliwe wartości wykonał/nie wykonał zadania kobieta/mężczyzna Więcej możliwych wartości wyznanie religijne ulubione kolory  

Skala porządkowa Porządkowa: miejsce w porządku Poziom wykształcenia: zawodowe średnie wyższe Wynik rangowania przez badanego jakiś obiektów, np. hierarchia wartości Liczba uzyskanych punktów w teście umiejętności (wynik surowy)

Skala interwałowa Interwałowa – miejsce w porządku i stała jednostka Skala temperatury Celsjusza Wynik testu wyrażony w znormalizowanej skali standardowej Ogólnie: ustalona jednostka, ale arbitralny punkt zerowy

Przykładowe skale interwałowe oparte na odchyleniu standardowym na podstawie: H. Szaleniec, Przejście od komunikowania rezultatów egzaminu w postaci wyników surowych do wyników w skali standardowej

Skala ilorazowa Ilorazowa: miejsce w porządku, stała jednostka, niearbitralny punkt zerowy Wzrost wyrażony w ustalonej jednostce Temperatura w skali Kelwina Liczba uczniów w klasie

Obserwacja ilościowa Obserwacja ilościowa jest: skategoryzowana niskoinferencyjna Obserwacja szerokiego spektrum zjawisk w krótkich okresach czasu – próbki czasowe np. interakcje uczniowie- nauczyciel na lekcji Obserwacja wystąpienia określonego zjawiska w długim okresie czasu - próbki zdarzeń np. zachowania agresywne uczniów na przerwie

Testy Zjawiska, które badamy często mają charakter bezpośrednio nieobserwowalny Wnioskuje się wtedy o wystąpieniu/nasileniu zjawiska na podstawie wskaźników Wiązki wskaźników spełniające warunki dobrego pomiaru to testy

Wskaźniki (przykłady) Zapamiętania – poprawne odtworzenie, liczba rozpoznanych elementów, przewidzenie kolejnego elementu, ilość zniekształceń, czas rozpoznania; Zadowolenia – odwzajemnienie uśmiechu, ocena neutralnej fotografii, odpowiedź na skali szacunkowej, testy fizjologiczne (szerokość źrenic), postawa ciała, szybkość chodzenia; Lęku – długość utrzymywania kontaktu wzrokowego, wskaźniki fizjologiczne, szybkość przechodzenia przez ulicę, tiki, ocena prawdopodobieństwa, że spotka nas nieszczęście ; Wpływu społecznego – skłonność do ulegania prośbom, naśladownictwo, zmiana postawy;

Co można badać za pomocą testów Inteligencję i inne cechy osobowości Osiągnięcia szkolne Dyspozycje zawodowe Uprzedzenia etniczne Klimat klasy szkolnej Typ przywództwa w instytucji I wiele innych cech jednostek, grup czy instytucji

Cechy dobrego testu Obiektywność Explicite sformułowane przesłanki budowy testu Standaryzacja Ustalona, powtarzalna procedura testowania Trafność Czy test mierzy, to co ma mierzyć Rzetelność Jak dokładnie test mierzy to, co ma mierzyć

Trafność testu

Trafność zadania testowego Cecha ukryta, którą chcemy zmierzyć To, co faktycznie mierzymy

Aspekty trafności testu Definicyjny Czy wskaźniki są zgodne z przyjętą definicją badanego zjawiska Fasadowy Czy test zdaniem użytkowników i odbiorców jest adekwatny Prognostyczny Czy test pozwala prognozować wystąpienie interesujących badacza zjawisk Teoretyczny Czy układ zależności uzyskanych w badaniu sprawdzającym jakość testu jest zgodny z teoretycznymi przewidywaniami

Rzetelność testu

wynik empiryczny = wynik prawdziwy + błąd pomiaru Rzetelność testu Każdy pomiar obarczony jest niepewnością pomiarową Klasyczne ujęcie niepewności pomiarowej wynik empiryczny = wynik prawdziwy + błąd pomiaru Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

Błąd pomiaru Wynik osoby w teście Uczeń Wyniki Niskie Wysokie Mierzymy umiejętność ucznia i otrzymujemy jakiś wynik. Niskie Wysokie Wyniki 43 43

Błąd pomiaru Wynik osoby w teście Uczeń Wynik prawdziwy Wyniki Niskie Wynik uzyskany na teście nie musi być tożsamy z wynikiem „prawdziwie” charakteryzującym ucznia. Empiryczny wynik testu reprezentujący poziom umiejętności może być niespójny z prawdziwym poziomem umiejętności ucznia, z jego prawdziwą wiedzą i umiejętnościami. Testy nie są idealne, warunki testowania są różne, egzaminatorzy różnie reagują na dane prace i różnie je oceniają; w pewnych warunkach o wyniku (jeżeli mamy do czynienia z pytaniami zamkniętymi o poprawnej odpowiedzi) może przesądzić los. Niskie Wysokie Wyniki 44 44

Błąd pomiaru Wynik osoby w teście Wynik prawdziwy Uczeń Błąd pomiaru Różnica między wynikiem prawdziwym a wynikiem pomiaru nazywana jest błędem pomiaru. Błąd pomiaru Niskie Wysokie Wyniki 45 45

Główne źródła błędu pomiaru na przykładzie testów osiągnięć szkolnych Arbitralność doboru zadań testowych Niedostatki standaryzacji procedury testowej Zgadywanie w zadaniach zamkniętych Punktowanie zadań otwartych Ściąganie Losowe wahania dyspozycji intelektualnych ucznia Błędy systematyczne: stronniczość testu

Metody określania rzetelności wyniku testu Dwukrotne testowanie Korelacja między wynikami dwóch testów Metoda połówkowa Korelacja między wynikami dwóch połówek Wewnętrzna spójność testu Wsp. rzetelności Alfa Cronbacha Eksperymentalne określanie rzetelności kodowania

Intertretacja ws. Alfa Cronbacha

Wykorzystanie współczynnika rzetelności w interpretacji wyniku testu Wyznaczanie przedziału ufności dla wyniku indywidualnego

Idea szacowania przedziału ufności Wynik ucznia w teście Uczeń Wyniki prawdziwe mogą być różne. My niestety obserwujemy nie wynik prawdziwy, ale wynik testowania. Niskie Wyniki Wysokie 50 50

Idea szacowania przedziału ufności Uczeń Niskie Wyniki Wysokie 51

Idea szacowania przedziału ufności Uczeń Niskie Wyniki Wysokie 52

Idea szacowania przedziału ufności Uczeń Który z nich jest prawdziwy? Nie wiemy bo to co jest nam dane to tylko wynik uzyskany na tescie Niskie Wyniki Wysokie 53 53

Idea szacowania przedziału ufności Przedział ufności Uczeń Dlatego konstruujemy przedziały ufności, które pokazują przedział, w którym wyniki prawdziwe mogą się znaleźć. Wyniki Niskie Wysokie 54 54

Idea szacowania przedziału ufności Rzetelność testu Wyniki Wysokie Niskie Wynik najmniej prawdopodobny (2,5%) Funkcja prawdopodobieństwa Wynik najbardziej prawdopodobny (95%) 55 55

Przykład Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo, że wynik ucznia znajduje się w przedziale wyznaczonym przez prostokąt wynosi 95%

Zapewnianie rzetelności testu: analiza mocy różnicującej zadań testowych Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010

Zadanie X

Zadanie Y

Zadanie Z

Zadanie X

Zadanie Y

Zadanie Z

Rzetelność punktacji – opis eksperymentu Na podstawie: R. Dolata, E Rzetelność punktacji – opis eksperymentu Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacje Instytut Spraw Publicznych, badanie sfinansowane przez MENiS

Analiza rzetelności systemów punktacji Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002: Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II). Historia – test i interpretacja źródeł (arkusz I i II). Matematyka – poziom podstawowy i rozszerzony (arkusz I i II).

Procedura badania rzetelności Dobór prac. Przygotowanie prac do ponownego sprawdzania. Dobór egzaminatorów.

Problem trafności ekologicznej eksperymentu Czynniki mogące zawyżać oszacowanie rzetelności: - dobór egzaminatorów (posługiwanie się dobrze znanym schematem punktacji), - pominięcie opcji (polski, historia). Czynniki mogące zaniżać oszacowanie rzetelności: - upływ czasu, - brak procedur oceniania grupowego

Metoda badania rzetelności systemów punktacji Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki. Zbiór danych (dla każdego kryterium): Lp E1 E2 E3 E4 E5 E6 E7 E8 1. 31 25 35 36 21 27 2. 55 41 59 26 54 3. 48 49 51 50 47 52 … 50. 18 19 20

Model analizy statystycznej

Wyniki analizy rzetelności punktacji dla wypracowania, arkusz III Efekt jakości pracy Prosty efekt egzaminatora Interakcyjny efekt egzaminatora

Efekt egzaminatora dla przykładowych wypracowań Lp. Średnia ocena Rozrzut ocen (SD) Minimalna Maksymalna 39 60,3 18,9 29 86 48 46,9 18,5 11 67 18 43,4 18,2 24 72 28 57,5 17,1 33 80 06 46,0 16,6 19 77

Co odpowiada za niską rzetelności systemu punktacji arkusza III? Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%). Zła budowa skal szacunkowych: skala kompozycji (rzetelność=33%), skala stylu (rzetelność=31%), skala poprawności językowej (rzetelność=34%). Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).

Najmniej i najbardziej rzetelne kryterium skali rozwinięcia tematu, arkusz III Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji łacińskiej i wkroczenia barbarzyńców) Kryterium 15.1.: 14% Za pogłębione wnioski Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.

Przykład wadliwie skonstruowanej skali szacunkowej Skala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt. Oto ich opis: 0 – brak opisu, 5 – w większości poprawna składnia i frazeologia, zgodna z normą fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne, 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne, 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.

Zestawienie wyników analizy rzetelności systemów punktacji Arkusz Rzetelność Prosty efekt egzaminatora Interakcyjny efekt egzaminatora Polski, arkusz I 55% 16% 29% Polski, arkusz III 49% 22% Polski, arkusz II 80% 7% 13% Historia, arkusz I 95% 2% 3% Historia, arkusz II 58% Matematyka, arkusz I 99% 1% 0% arkusz II 97%

Koniec opisu eksperymentu