Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych

Slides:



Advertisements
Podobne prezentacje
Obowiązkowy egzamin maturalny z matematyki od 2010 roku
Advertisements

Podczas sprawdzianu badano umiejętności z następujących obszarów:
NOWA MATURA Z JĘZYKA ROSYJSKIEGO
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Prezentacja przygotowana przez zespół badawczy przy CKE pod kierunkiem dr R.Dolaty PRIORYTETY POMORSKIEGO KURATORA OŚWIATY w roku szkolnym 2008/
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Wpływ domu rodzinnego na sukcesy edukacyjne uczniów
Sprawdzian po klasie szóstej w szkole podstawowej
Statystyka w doświadczalnictwie
Program Międzynarodowej Oceny Umiejętności Uczniów OECD PISA
Analiza korelacji.
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Sprawdzian dla uczniów kończących szóstą klasę szkoły podstawowej.
Średnie i miary zmienności
Hipotezy statystyczne
Zgodnie z rozporządzeniem Ministra Edukacji Narodowej.
Analiza współzależności cech statystycznych
Badania osiągnięć uczniów – analiza wyników
Pomiar postaw. Zgodność postaw z zachowaniami
Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
WYNIKI PRÓBNEGO SPRAWDZIANU W KLASACH VI 27 LISTOPADA 2012R. ILOŚĆ UCZNIÓW W KLASACH VI126 ILOŚĆ UCZNIÓW PISZĄCYCH PRÓBNY SPRAWDZIAN124.
Analiza wyników sprawdzianu ‘2013
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Edukacyjna Wartość Dodana czyli EWD
Metodologia badań społecznych Wykłady VIII-IX
ANALIZA EGZAMINU GIMNAZJALNEGO 2013 GIMNAZJUM IM
Wykorzystanie EWD w ewaluacji wewnętrznej szkoły
Różnicowanie się gimnazjów w dużych miastach
Na podstawie materiałów polskiego zespołu realizującego badanie PISA 2012,
Planowanie badań i analiza wyników
MATURA 2010 Z MATEMATYKI Podstawowe informacje o egzaminie maturalnym z matematyki Prezentację opracowała: Iwona Kowalik.
Henryk Rusinowski, Marcin Plis
Regresja wieloraka.
Algorytmika.
1 Analiza wyników sprawdzianu ‘2014 Zespół Szkolno-Przedszkolny w Krowiarkach – XI 2014 – XI 2014 Opracował: J. Pierzchała.
Ewaluacja dydaktyczna – podstawowe pojęcia
Elementy teorii testów osiągnięć szkolnych
1 Egzamin maturalny i zawodowy w 2015 roku podstawowe informacje Egzamin maturalny i potwierdzający kwalifikacje zawodowe – technik informatyk w 2015 roku.
Sprawdzian szóstoklasisty
Termin sprawdzianu: 1 kwietnia 2015 r. (środa), godz
ANALIZA EGZAMINU GIMNAZJALNEGO 2014 GIMNAZJUM IM. JANA PAWŁA II W BOGUSZYCACH.
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
Informator dla rodziców
Sprawdzian po klasie szóstej Informacje w pigułce Sprawdzian odbył się 4 kwietnia 2013r. Do sprawdzianu przystąpiło 42 uczniów Test składał się.
Sprawdzian po klasie szóstej INFORMACJE W PIGUŁCE Do rozwiązania było 26 zadań z języka polskiego i matematyki Maksymalnie można było uzyskać 40.
Sprawdzian szóstoklasisty
EWD gimnazjalne Czym jest metoda edukacyjnej wartości dodanej (EWD)? Efektywność pracy szkoły, przed kilku laty, oceniano jedynie na podstawie wyników.
Podstawowe pojęcia i terminy stosowane w statystyce
1 kwietnia 2015 roku odbył się kolejny ogólnopolski sprawdzian dla uczniów klas szóstych szkoły podstawowej. Został on zorganizowany i przeprowadzony na.
PRÓBNEGO SPRAWDZIANU SZÓSTOKLASISTY
Wyniki egzaminu maturalnego 2006 Maria Krystyna Szmigel OKE Kraków_2006.
ze statystyki opisowej
Raport Analiza i interpretacja wyników próbnego egzaminu maturalnego z matematyki w województwie kujawsko-pomorskim w 2013 r. cz.1 Opracowanie Ewa Ludwikowska.
Projektowanie kwestionariusza
STATYSTYKA – kurs podstawowy wykład 11
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Wykorzystywanie wyników sprawdzianu w pracy dydaktycznej
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
MATEMATYKA Egzamin ósmoklaisty
MIARY STATYSTYCZNE Warunki egzaminu.
Wyniki egzaminu próbnego
Egzamin gimnazjalny z języka angielskiego
Opracowanie wyników egzaminów maturalnych 2019
Zapis prezentacji:

Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW dolata@poczta.onet.pl

Kontakt Roman Dolata Dyżury Poczta Piątki od 16 do 17, s. 314 dolata@poczta.onet.pl

Literatura, zaliczenie M. Jakubowski, A. Pokropek (2009) Badając egzaminy. Podejście ilościowe w badaniach edukacyjnych. Centralna Komisja Egzaminacyjna. www.cke.edu.pl (zakładka Kwartalniki EFS). Str. 8-72. A. Anastasi, S. Urbina, (1999) Testy psychologiczne. Pracowania testów psychologicznych PTP. Rozdziały: 8,11, 13, 14. Zaliczenie Opracowanie, przeprowadzenie i przeanalizowanie wyników testu osiągnięć edukacyjnych

Co to jest test? (Daniel Koretz) Mała próbka zadań, której używamy do oszacowania opanowania przez uczniów szerokiego wachlarza wiadomości i umiejętności (Daniel Koretz) Cechy formalne testu: - obiektywność standaryzacja liczbowa postać wyniku

Aspekty oceniania Wynik testu Perspektywa programowa Perspektywa ewaluacyjna Perspektywa diagnostyczna

Typy oceniania sumujące Wartościujące osiągnięcia ucznia (wiadomości i umiejętności vs wymagania programowe) Kończące etap nauczania kształtujące Niewartościujące, wspierające uczenie się W trakcie etapu opanowywania nowych wiadomości i umiejętności opisowe ?

Podstawowe pojęcia statystyczne przydatne przy konstrukcji testów i analizie ich wyników

Rozkład liczebności Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

Rozkład procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

Rozkład skumulowany, procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

Podstawowe parametry rozkładu 1 Podstawowe parametry rozkładu 1. Miary tendencji centralnej i inne miary pozycji Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887 Średnia arytmetyczna x: 22,6 Mediana Me: 23 Pierwszy kwartyl (25 percentyl): 17 Drugi kwartyl (mediana, 50 percentyl): 23 Trzeci kwartyl (75 percentyl): 28

Jak wyznaczamy medianę i kwartyle Porządkujemy wszystkie uzyskane wyniki od najmniejszego do największego (400887 wyników, najpierw zera, potem jedynki itd.) Poczynając od wyników najniższych szukamy takiego wyniku, że: a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl minimum 1. kwartyl mediana 3.kwartyl maksimum 25% wyników 25% wyników 25% wyników 25% wyników

Podstawowe parametry rozkładu 2 Podstawowe parametry rozkładu 2. Miary zmienności wyników Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887 średnia 3. kwartyl 1. kwartyl Wariancja: 58,2 Odchylenie standardowe: 7,6 Odchylenie kwartylowe (ćwiartkowe): 11

Porównanie dwóch rozkładów Sprawdzian 2009, szkoły publiczne i niepubliczne miara Publiczne n=393982 Niepubliczne n=6905 Średnia 22,6 27,4 Mediana 23 29 1. kwartyl 17 22 3. kwartyl 28 34 Wariancja 57,7 60,4 Odchylenie standardowe 7,6 7,8 Roztęp ćwiartkowy 11 12

Porównanie dwóch rozkładów Sprawdzian 2009, dwie szkoły miara SP A n=132 SP B n=143 Średnia 28,9 24,9 Mediana 29 25 1. kwartyl 18 3. kwartyl 33 Wariancja 26,0 83 Odchylenie standardowe 5,1 9,1 Roztęp ćwiartkowy 8 15

Badanie współzmienności wyników dwóch testów Czy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej? Analiza graficzna: wykresy rozrzutu Możliwe do zastosowania statystyki: - współczynnik korelacji r Pearsona - współczyniki regresji

Korelacja dodatnia (pozytywna) współczynnik korelacji wyższy od zera

Korelacja ujemna (negatywna) współczynnik korelacji niższy od zera

Brak korelacji (zerowa) współczynnik korelacji bliski zeru

Korelacja nieliniowa

Konstruowanie testów osiągnięć szkolnych

Testy osiągnięć a testy zdolności testy poznawcze testy osiągnięć związane z określonymi kursami testy osiągnięć szeroko zorientowane słowne testy inteligencji bezsłowne i wykonaniowe testy inteligencji testy inteligencji wolne od wpływów kulturowych

Typy testów osiągnięć szkolnych Przesiewowe (minimum kompetencji) Szerokiego stosowania Selekcyjne Testy różnicujące i testy kryterialne Testy mocy i testy szybkości

Podstawowe problemy związane z budową testu osiągnięć Obiektywność Reprezentatywność Standaryzacja procedury testowej Trafność Rzetelność Skalowanie - liczbowa postać wyników – moc skali, czyli jakie informacje przenoszą liczby, będące wynikiem testowania Budowa wersji równoległych testu – zrównywanie wyników

Konstrukcja testu – podejście klasyczne

Schemat konstrukcyjny testów osiągnięć szkolnych Cele kształcenia Zadania testowe Badania pilotażowe – wybór zadań, określenie rzetelności testu Ostateczna postać testu Wynik surowy Skalowanie Wynik testu Normy wykonania

Elementy składowe testu 1. Lista celów edukacyjnych 2. Plan testu 3. Zadania testowe 4. Schematy punktacji 5. Kwestionariusz testu i instrukcja testowania 6. Normy wykonania testu: ilościowe i treściowe

Lista celów edukacyjnych Fundament budowy testu Cele dotyczą wiadomości i umiejętności, które mają opanowywać uczniowie, a nie czynności nauczyciela Cele muszą być sformułowane w sposób jasny i jednoznaczny Lista celów nie powinna być zbyt długa; gdy zbyt długa: łączenie celów w ogólniejsze wyznaczenie priorytetów

W najprostszej postaci tabela o postaci: Plan testu W najprostszej postaci tabela o postaci: Cel edukacyjny Liczba zadań Typy zadań Nr w kwestionariuszu 1. Umie przedstawić geometryczną interpretację mnożenia 4 2 WW, 2 KO 1,2,7,8 2. Potrafi przedstawić mnożenie jako dodawanie i odwrotnie 4 WW 3,4,5,6 3. Rozwiązuje zadania tekstowe, jednodziałaniowe na mnożenie 4 KO 9,10,11,12

Plan testu taksonomia ABC na podstawie B. Blooma Cele Materiał Wiadomości Umiejętności Zastosowanie Razem dodawanie 2 zadania 6 odejmowanie mnożenie razem 18

Plan testu: przykład kursu statystyki

Plan testu, cd W rozbudowanej postaci – koncepcja testu Przykład: koncepcja testu sumującego po III klasie szkoły podstawowej autorstwa Aleksandry Jasińskiej (na podstawie PISA/OECD)

Test sumujący po klasie III Test czytania Test pisania i świadomości językowej Test matematyczny

Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

Typ materiału testowego Test czytania Typ materiału testowego

Typ materiału testowego Test czytania Typ materiału testowego tekst literacki

Typ materiału testowego Test czytania Typ materiału testowego tekst literacki proza poezja

Test czytania Typ materiału testowego tekst literacki tekst popularnonaukowy proza poezja

Test czytania Typ materiału testowego tekst literacki tekst popularnonaukowy tekst użytkowy proza poezja

Test czytania Umiejętności

Wyszukiwanie informacji Test czytania Umiejętności Wyszukiwanie informacji Interpretacja Refleksja i ocena

Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

Test pisania i świadomości językowej

Test pisania i świadomości językowej Zad. sprawdzające umiejętności związane z pisaniem tekstów

Test pisania i świadomości językowej Zad. sprawdzające umiejętności związane z pisaniem tekstów Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu

Test pisania i świadomości językowej Zad. sprawdzające umiejętności związane z pisaniem tekstów Zad. sprawdzające zasób słownikowy dziecka Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu

Test pisania i świadomości językowej Zad. sprawdzające umiejętności związane z pisaniem tekstów Zad. sprawdzające zasób słownikowy dziecka Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu Synonimy i antonimy Wyjaśnianie znaczenia słowa Błędne / poprawne użycie słowa Związki frazeologiczne Porównania

Test pisania i świadomości językowej Zad. sprawdzające umiejętności związane z pisaniem tekstów Zad. sprawdzające zasób słownikowy dziecka Zad. sprawdzające elementy wiedzy o języku Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu Synonimy i antonimy Wyjaśnianie znaczenia słowa Błędne / poprawne użycie słowa Związki frazeologiczne Porównania

Test pisania i świadomości językowej Zad. sprawdzające umiejętności związane z pisaniem tekstów Zad. sprawdzające zasób słownikowy dziecka Zad. sprawdzające elementy wiedzy o języku Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu Synonimy i antonimy Wyjaśnianie znaczenia słowa Błędne / poprawne użycie słowa Związki frazeologiczne Porównania Poprawność gramatyczna wypowiedzi Ortografia i interpunkcja Błędy językowe

Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

Test matematyczny Trzy wymiary opisujące zadania: Treści Umiejętności Kontekst Treści Umiejętności Kontekst

Test matematyczny Treści

Test matematyczny Treści Ilość

Test matematyczny Treści Ilość Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne

Test matematyczny Treści Ilość Przestrzeń i kształt Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne

Test matematyczny Treści Ilość Przestrzeń i kształt Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne Geometria na płaszczyźnie Geometria przestrzenna

Test matematyczny Treści Ilość Przestrzeń i kształt Zmiana i związki Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne Geometria na płaszczyźnie Geometria przestrzenna

Test matematyczny Treści Ilość Przestrzeń i kształt Zmiana i związki Niepewność Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne Geometria na płaszczyźnie Geometria przestrzenna

Test matematyczny Treści Ilość Przestrzeń i kształt Zmiana i związki Niepewność Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne Geometria na płaszczyźnie Geometria przestrzenna Gromadzenie i porządkowanie danych Odczytywanie i interpretowa- nie danych

Test matematyczny Umiejętności

Test matematyczny Umiejętności Odtwarzanie Powiązania Rozumowanie

Test matematyczny Kontekst

Test matematyczny Kontekst Osobisty Szkolny Publiczny

Test matematyczny Trzy wymiary opisujące zadania: Treści Umiejętności Kontekst Treści Umiejętności Kontekst

Zadania testowe Zadanie testowe to wskaźnik opanowania celu edukacyjnego By rzetelnie wypowiadać się o opanowaniu celu potrzebujemy wielu wskaźników W wypadku szczegółowego celu wystarczy kilka zadań testowych W wypadku ogólnych celów potrzeba znacznie więcej zadań testowych

Zadania testowe: klasyfikacja Praktyczne W sytuacji naturalnej Prowokowane „Papier ołówek” Otwarte Krótkiej odpowiedzi Rozbudowanej odpowiedzi Zamknięte Prawda-fałsz Na dobieranie Wielokrotnego wyboru Porządkowanie listy

Schematy punktacji do zadań zamkniętych Schemat punktacji Schematy punktacji do zadań zamkniętych Problem tzw. punktów ujemnych Schematy punktacji do zadań otwartych Problem rzetelności oceny wykonania zadań otwartych

Kwestionariusz testu i instrukcja przeprowadzenia testowania Szata graficzna testu Problem praw autorskich Kolejność zadań Od najłatwiejszych do najtrudniejszych Instrukcja przeprowadzenia testu Standaryzacja sytuacji testowe Limit czasu: testy mocy vs testy szybkości

Norma ilościowa wykonania testu Interpretacja ilościowa wyniku testu: wynik testu na tle rozkładu wyników w grupie odniesienia Najprostsza norma: odniesienie wyniku do średniej w grupie odniesienia Normy pozycyjne: centyle Normalizacja i standaryzacja wyniku: skala staninowa skale o zadanej średniej i odchyleniu standardowym (problem będzie omówiony szerzej przy okazji skalowania testu)

Skala staninowa Skala 9 stopniowa (9 rang) Skala normalizuje wyniki

Skala staninowa

Skala centylowa, przykład

Skala centylowa

Skala centylowa, wyznaczanie pozycji

Norma treściowa Wynik testu jako miara opanowania celów edukacyjnych Najprostsza norma treściowa: wskazanie od jakiego wyniku można uznać, że cel został opanowany w stopniu pozwalającym na dalsze uczenie się Złożone normy treściowe: zdefiniowanie kilku poziomów opanowania celu Problem kumulatywności testu

Rzetelność i trafność testu

Trafność testu

Trafność testu w psychologii W psychometrii trafny test, to taki, który mierzy, to co ma mierzyć Definicyjna Czy wskaźniki są zgodne z przyjętą definicją badanego zjawiska Fasadowa Czy test zdaniem użytkowników i odbiorców jest adekwatny Prognostyczna Czy test pozwala prognozować wystąpienie interesujących badacza zjawisk Teoretyczna Czy układ zależności uzyskanych w badaniu sprawdzającym jakość testu jest zgodny z teoretycznymi przewidywaniami

Trafność w testach osiągnięć Podejście dydaktyczne: test jest trafny, gdy: uczniowie wykonują, te operacje umysłowe, na których nam zależy możemy dostać na to dowód

Trafność zadania testowego Treść celu edukacyjnego Procesy umysłowe zachodzące „w głowie” rozwiązującego

Trafność zadania - problemy Przykład: Badana umiejętność: zasób słownikowy dziecka

Trafność zadania - problemy Przykład: Badana umiejętność: zasób słownikowy dziecka, rozpoznawanie błędnego użycia słowa.

Trafność zadania - problemy Czy prawidłowa odpowiedź jest na pewno poprawna, a dystraktory błędne? Jakość dystraktorów: Czy są prawdopodobne? Czy zawierają typowe błędne przekonania uczniów? Czy wykorzystują prawdziwe stwierdzenia, które nie są poprawną odpowiedzią?

Trafność zadania - problemy Czy treść zadania (polecenie, pytanie, możliwe odpowiedzi, rysunki i schematy) są jednoznaczne, jasne i zrozumiałe? Język odpowiedni dla dziecka. Główna myśl w pytaniu, nie w odpowiedziach. Czy w zadaniu nie ma nadmiaru słów? Czy w pytaniu i możliwych odpowiedziach nie ma negacji? Jeśli musi być, czy jest wyróżniona?

Trafność zadania - problemy Odpowiedź na pytanie w treści innego zadania. Poprawna odpowiedź dłuższa od innych. Niejednorodność pod względem treści i formy gramatycznej. Powtarzanie się elementów prawidłowej odpowiedzi w dystraktorach.

Trafność zadania - problemy Poprawna odpowiedź dłuższa od innych. Niejednorodność pod względem treści i formy gramatycznej. Powtarzanie się zwrotów prawidłowej odpowiedzi w dystraktorach. Duże kwantyfikatory: zawsze, nigdy, całkowicie, absolutnie. Brak poprawności gramatycznej, interpunkcyjnej, ortograficznej treści zadania

Metody analizy trafności Analiza treściowa zadań - jw Analiza jakościowa rozwiązywania zadań przez uczniów (Jak rozwiązywałeś ten test? – technika głośnego myślenia) Analiza statystyczna: związek z innymi miarami odniesienia

Rzetelność testu

wynik empiryczny = wynik prawdziwy + błąd pomiaru Rzetelność testu Każdy pomiar obarczony jest niepewnością pomiarową Klasyczne ujęcie niepewności pomiarowej wynik empiryczny = wynik prawdziwy + błąd pomiaru Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

Błąd pomiaru Wynik ucznia w teście Uczeń Wyniki Niskie Wysokie Mierzymy umiejętność ucznia i otrzymujemy jakiś wynik. Niskie Wysokie Wyniki 92

Błąd pomiaru Wynik ucznia w teście Uczeń Wynik prawdziwy Wyniki Niskie Wynik uzyskany na teście nie musi być tożsamy z wynikiem „prawdziwie” charakteryzującym ucznia. Empiryczny wynik testu reprezentujący poziom umiejętności może być niespójny z prawdziwym poziomem umiejętności ucznia, z jego prawdziwą wiedzą i umiejętnościami. Testy nie są idealne, warunki testowania są różne, egzaminatorzy różnie reagują na dane prace i różnie je oceniają; w pewnych warunkach o wyniku (jeżeli mamy do czynienia z zadaniami zamkniętymi o poprawnej odpowiedzi) może przesądzić los. Niskie Wysokie Wyniki 93

Błąd pomiaru Wynik ucznia w teście Wynik prawdziwy Uczeń Błąd pomiaru Różnica między wynikiem prawdziwym a wynikiem pomiaru nazywana jest błędem pomiaru. Błąd pomiaru Niskie Wysokie Wyniki 94

Główne źródła błędu pomiaru w testach osiągnięć szkolnych Arbitralność doboru zadań testowych Niedostatki standaryzacji procedury testowej Zgadywanie w zadaniach zamkniętych Ocenianie zadań otwartych Ściąganie Losowe wahania dyspozycji intelektualnych ucznia Błędy systematyczne: stronniczość testu

Rzetelność punktacji – opis eksperymentu Na podstawie: R. Dolata, E Rzetelność punktacji – opis eksperymentu Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacje Instytut Spraw Publicznych, badanie sfinansowane przez MENiS

Analiza rzetelności systemów punktacji Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002: Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II). Historia – test i interpretacja źródeł (arkusz I i II). Matematyka – poziom podstawowy i rozszerzony (arkusz I i II).

Procedura badania rzetelności Dobór prac. Przygotowanie prac do ponownego sprawdzania. Dobór egzaminatorów.

Problem trafności ekologicznej eksperymentu Czynniki mogące zawyżać oszacowanie rzetelności: - dobór egzaminatorów (posługiwanie się dobrze znanym schematem punktacji), - pominięcie opcji (polski, historia). Czynniki mogące zaniżać oszacowanie rzetelności: - upływ czasu, - brak procedur oceniania grupowego

Metoda badania rzetelności systemów punktacji Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki. Zbiór danych (dla każdego kryterium): Lp E1 E2 E3 E4 E5 E6 E7 E8 1. 31 25 35 36 21 27 2. 55 41 59 26 54 3. 48 49 51 50 47 52 … 50. 18 19 20

Model analizy statystycznej

Wyniki analizy rzetelności punktacji dla wypracowania, arkusz III Efekt jakości pracy Prosty efekt egzaminatora Interakcyjny efekt egzaminatora

Efekt egzaminatora dla przykładowych wypracowań Lp. Średnia ocena Rozrzut ocen (SD) Minimalna Maksymalna 39 60,3 18,9 29 86 48 46,9 18,5 11 67 18 43,4 18,2 24 72 28 57,5 17,1 33 80 06 46,0 16,6 19 77

Co odpowiada za niską rzetelności systemu punktacji arkusza III? Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%). Zła budowa skal szacunkowych: skala kompozycji (rzetelność=33%), skala stylu (rzetelność=31%), skala poprawności językowej (rzetelność=34%). Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).

Najmniej i najbardziej rzetelne kryterium skali rozwinięcia tematu, arkusz III Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji łacińskiej i wkroczenia barbarzyńców) Kryterium 15.1.: 14% Za pogłębione wnioski Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.

Przykład wadliwie skonstruowanej skali szacunkowej Skala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt. Oto ich opis: 0 – brak opisu, 5 – w większości poprawna składnia i frazeologia, zgodna z normą fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne, 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne, 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.

Zestawienie wyników analizy rzetelności systemów punktacji Arkusz Rzetelność Prosty efekt egzaminatora Interakcyjny efekt egzaminatora Polski, arkusz I 55% 16% 29% Polski, arkusz III 49% 22% Polski, arkusz II 80% 7% 13% Historia, arkusz I 95% 2% 3% Historia, arkusz II 58% Matematyka, arkusz I 99% 1% 0% arkusz II 97%

Koniec opisu eksperymentu

Zapewnianie rzetelności testu: analiza mocy różnicującej zadań testowych Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010

Zadanie X

Zadanie Y

Zadanie Z

Metody określania rzetelności wyniku testu Dwukrotne testowanie Korelacja między wynikami dwóch testów Metoda połówkowa Korelacja między wynikami dwóch połówek Wewnętrzna spójność testu Wsp. rzetelności Alfa Cronbacha

Współczynnik rzetelności Alfa Cronbacha Rzetelność jest to stosunek zróżnicowania wyniku prawdziwego do zróżnicowania wyniku uzyskanego na podstawie testowania (będącego sumą zróżnicowania wyniku prawdziwego oraz zróżnicowania błędu pomiaru)

Intertretacja ws. Alfa Cronbacha

Rzetelność użytego testu Zgodność klasyfikacji na podstawie wyniku testu Procent uczniów, którzy zakwalifikowani zostaną w inny sposób przy następnym testowaniu Ilu ma zdać (%) Rzetelność użytego testu 0,70 0,80 0,90 90 11 9 6 70 22 17 12 50 26 21 14 30 18 13 10 (Koretez 2002: 160)

Wykorzystanie wsp. rzetelności w interpretacji wyniku testu Wyznaczanie przedziału ufności dla wyniku indywidualnego

Przykład Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo, że wynik ucznia znajduje się w przedziale wyznaczonym przez prostokąt wynosi 95%

Idea szacowania przedziału ufności Wynik ucznia w teście Uczeń Wyniki prawdziwe mogą być różne. My niestety obserwujemy nie wynik prawdziwy, ale wynik testowania. Niskie Wyniki Wysokie 119

Idea szacowania przedziału ufności Uczeń Niskie Wyniki Wysokie

Idea szacowania przedziału ufności Uczeń Niskie Wyniki Wysokie

Idea szacowania przedziału ufności Uczeń Który z nich jest prawdziwy? Nie wiemy bo to co jest nam dane to tylko wynik uzyskany na tescie Niskie Wyniki Wysokie 122

Idea szacowania przedziału ufności Przedział ufności Uczeń Dlatego konstruujemy przedziały ufności, które pokazują przedział, w którym wyniki prawdziwe mogą się znaleźć. Niskie Wyniki Wysokie 123

Idea szacowania przedziału ufności Rzetelność testu Wyniki Wysokie Niskie Wynik mało prawdopodobny (2,5%) Funkcja prawdopodobieństwa Wynik prawdopodobny (95%) 124

Skalowanie wyniku testu Jaki rozkład ma wynik testu w populacji docelowej? Surowe wyniki testów nie są porównywalne Normalizacja wyniku Standaryzacja wyniku

Przykład: średnie wyniki w punktach ze sprawdzianu w latach 2002-2010

Rozkład wyników sprawdzianu Mediana 25 Średnia 24,3 2010 Mediana 23 Średnia 22,6 2009 Mediana 27 Średnia 25,7 2008

Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Rysunkowe przedstawienie zrównywania wyników. Jest chyba na tyle przedstawiona sugestywnie przedstawiona, że nie wymaga ode mnie wyjaśnień.

Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Wyniki znormalizowane

Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Test 1 Test 2 Test 3 Wyniki pierwotne Wyniki znormalizowane Wyniki po przejściach

Rozkład normalny Odgrywa ważną rolę w statystycznym opisie zagadnień egzaminacyjnych, socjalnych, przyrodniczych, itp Często występuje w naturze Ma interesujące właściwości matematyczne, dzięki którym oparte na nim metody statystyczne są dość proste obliczeniowo

Rozkład normalny

Standaryzacja Skala standaryzowana - skala przedstawiająca wyniki pomiarów uzyskanych z dowolnej skali w postaci jednostek odchylenia standardowego, czyli tzw. wyników standaryzowanych Zastosowanie skal standaryzowanych wynika z potrzeby porównywania wyników uzyskanych na dwóch (lub więcej) skalach pomiarowych o odmiennych właściwościach i przez to bezpośrednio nieporównywalnych Najczęściej spotykanym sposobem standaryzacji jest tzw. standaryzacja Z którą można wyrazić poniższym wzorem gdzie: Zi - zmienna standaryzowana SD - odchylenie standardowe w grupie X - średnia w gupie Xi – wynik i-tego ucznia 133

Skala wyników standaryzowanych z Uzyskane w ten sposób wartości wyników standaryzowanych przyjmują wartości dodatnie lub ujemne, w zależności od tego, czy odchylają się w górę, czy w dół od wartości średniej. 134

Relacje pomiędzy pięcioma skalami standardowymi Autor, dr H. Szaleniec Relacje pomiędzy pięcioma skalami standardowymi

Skala staninowa

Wprowadzenie do IRT (probabilistyczna teoria odpowiedzi na zadanie testowe)

Wybrane problemy klasycznej strategii tworzenia testów Interpretacja wyniku surowego – czy wyniki surowe spełniają założenia skali porządkowej? Arbitralność decyzji o włączaniu/wyłączaniu zadania z testu – brak odpowiedniego testu statystycznego Sztywność zastosowania testu KT (tylko wyniki tego samego testu lub testów równoległych mogą być porównywane)

Schemat konstrukcyjny testów osiągnięć szkolnych Item Response Theory Cele kształcenia Zadania testowe Badania pilotażowe – wybór zadań do banku i określenie ich parametrów Bank zadań Wiele możliwych wersji testu Pilotaż wersji przeznaczonych do danego zastosowania Skalowanie Wynik testu Normy wykonania

Podstawowe założenia i cechy IRT Wykonanie zadania testowego zależy od poziomu ukrytej (bezpośrednio nieobserwowalnej) dyspozycji umysłowej Skala pomiarowa jest kumulatywna Poziom ukrytej dyspozycji wyznacza prawdopodobieństwo poradzenia sobie z danym zadaniem testowym (uwzględnienie czynników losowych) Jedno- lub wielowymiarowość danego testu Model zależności ukryta dyspozycja - radzenie sobie z zadaniem podlega empirycznemu testowi (zgodność modelu z danymi) Trudność zadań i poziom ukrytej dyspozycji umysłowej ucznia można lokować na jednej skali

Jak rozumieć pojęcie ukrytej dyspozycji?

Interpretacja związku między poziomem wykonania dwóch zadań Analiza dla zadań 0-1 zadanie 2 wykonał nie wykonał zadanie 1 a b a+b c d c+d a+c b+d a+b+c+d

Korelacja negatywna między dwoma zadaniami Φ=-1,0 zad.1 zad. 2 zad. 2 1 zad. 1 50 dysp. x dysp. y Wykluczające się dyspozycje

Brak korelacji między dwoma zadaniami Φ=0,0 zad.1 zad. 2 zad. 2 1 zad. 1 25 dysp. x dysp. y niezależne dyspozycje

Korelacja pozytywna między dwoma zadaniami Φ=1,0 zad.1 zad. 2 zad. 2 1 zad. 1 50 dysp. x wspólna dyspozycja

Odkrywanie ukrytych wymiarów Analizując empiryczne powiązania między zadaniami odkrywamy ukryte dyspozycje umysłowe mierzone przez dany test Do wyjaśnienia radzenia sobie z danym zbiorem zadań może wystarczyć jedna (test jednowymiarowy) lub kilka (wielowymiarowy) ukrytych dyspozycji umysłowych W praktyce stosuje się jednowymiarowe modele IRT

Jak rozumieć kumulatywność skali pomiarowej?

Zależności kierunkowe między zadaniami zad. 1 / zad. 2 zad. 2  zad. 1 zad.1 zad. 2 zad. 2 1 zad. 1 50 20 30 wspólna dyspozycja

Trzy wiązka trzech zadań tworzy kumulatywną skalę? wspólna dyspozycja

Sprawdzanie, czy wiązka trzech zadań spełnia warunek kumulatywności (skalogram Guttmana) Wzorzec odpowiedzi Liczba przypadków Wynik surowy Wynik skalowy Wzorce zgodne 000 15 100 25 1 110 30 2 111 20 3 Wzorce niezgodne 101 5 010 011 001 razem

Jak uwzględniamy działanie czynników losowych?

Prosty determinizm poziom dyspozycji  radzenie sobie z zadaniem radzi sobie z zadaniem 1 prawdopodobieństwo poradzenia sobie z zadaniem nie radzi sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

Związek probabilistyczny – model prostoliniowy 1 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

Związek probabilistyczny – model logistyczny 1 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

Jak empirycznie testujemy teorię związku poziomu dyspozycji umysłowej z radzeniem sobie z danym zadaniem?

Przykład modelu dobrze dopasowanego do danych 1 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

Przykład modelu źle dopasowanego do danych 1 prawdopodobieństwo poradzenia sobie z zadaniem niski poziom dyspozycji umysłowej wysoki

Lokowanie zadania na skali  Zadanie x 1,0 0,5 prawdopodobieństwo poradzenia sobie z zadaniem  -4 -3 -2 -1 0 1 2 3 4 niski poziom dyspozycji umysłowej wysoki

Zestaw 5 zadań tworzących skalę  niski poziom dyspozycji umysłowej wysoki

Określanie trudności tych zadań  niski poziom dyspozycji umysłowej wysoki

Lokowanie ucznia na skali  Metoda największej wiarygodności Warunkowe prawdopodobieństwo poradzenia sobie z zadaniem Jaś: 110-- Małgosia: --110 Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 -3 0,15 0,05 0,01 0,007 0,001 -2 0,50 0,070 -1 0,90 0,383 0,95 0,428 0,074 1 0,99 0,094 2 0,049 3 0,010