Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

E lementy teorii testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW.

Podobne prezentacje


Prezentacja na temat: "E lementy teorii testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW."— Zapis prezentacji:

1 E lementy teorii testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW

2 Kontakt Roman Dolata Dyżury Piątki od 16 do 17, s. 314 Poczta

3 Co to jest test? Mała próbka zadań, której używamy do oszacowania opanowania przez uczniów szerokiego wachlarza wiadomości i umiejętności (Daniel Koretz) Cechy formalne testu: - obiektywność -standaryzacja -liczbowa postać wyniku

4 Podstawowe pojęcia statystyczne przydatne przy konstrukcji testów i analizie ich wyników

5 Rozkład liczebności Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

6 Rozkład procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

7 Rozkład skumulowany, procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

8 Podstawowe parametry rozkładu 1. Miary tendencji centralnej i inne miary pozycji Wyniki sprawdzianu 2009, rozkład dla kraju, n= Średnia arytmetyczna x: 22,6 Mediana Me: 23 Pierwszy kwartyl (25 percentyl): 17 Drugi kwartyl (mediana, 50 percentyl): 23 Trzeci kwartyl (75 percentyl): 28

9 Jak wyznaczamy medianę i kwartyle 25% wyników 1.Porządkujemy wszystkie uzyskane wyniki od najmniejszego do największego ( wyników, najpierw zera, potem jedynki itd.) 2.Poczynając od wyników najniższych szukamy takiego wyniku, że: a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl 25% wyników minimum mediana 3.kwartyl maksimum 1. kwartyl

10 Podstawowe parametry rozkładu 2. Miary zmienności wyników Wyniki sprawdzianu 2009, rozkład dla kraju, n= Wariancja: 58,2 Odchylenie standardowe: 7,6 Odchylenie kwartylowe (ćwiartkowe): 11 średnia 3. kwartyl 1. kwartyl

11 Porównanie dwóch rozkładów Sprawdzian 2009, szkoły publiczne i niepubliczne miara Publiczne n= Niepubliczne n=6905 Średnia22,627,4 Mediana kwartyl kwartyl2834 Wariancja57,760,4 Odchylenie standardowe7,67,8 Roztęp ćwiartkowy1112

12 Porównanie dwóch rozkładów Sprawdzian 2009, dwie szkoły miara SP A n=132 SP B n=143 Średnia28,924,9 Mediana kwartyl kwartyl33 Wariancja26,083 Odchylenie standardowe5,19,1 Roztęp ćwiartkowy815

13 Badanie współzmienności wyników dwóch testów Czy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej? Analiza graficzna: wykresy rozrzutu Możliwe do zastosowania statystyki: - współczynnik korelacji r Pearsona - współczyniki regresji

14 Korelacja dodatnia (pozytywna) współczynnik korelacji wyższy od zera

15 Korelacja ujemna (negatywna) współczynnik korelacji niższy od zera

16 Brak korelacji (zerowa) współczynnik korelacji bliski zeru

17 Korelacja nieliniowa

18 Konstruowanie testów osiągnięć szkolnych

19 Testy osiągnięć a testy zdolności testy poznawcze testy osiągnięć związane z określonymi kursami testy osiągnięć szeroko zorientowane słowne testy inteligencji bezsłowne i wykonaniowe testy inteligencji testy inteligencji wolne od wpływów kulturowych

20 Typy testów osiągnięć szkolnych Do pomiaru indywidualnej cechy lub cechy grupy Indywidualne: –Przesiewowe (minimum kompetencji) –Szerokiego stosowania –Selekcyjne Testy różnicujące i testy kryterialne Testy mocy i testy szybkości Koncepcja oceniania kształtującego

21 Konstrukcja testu – podejście klasyczne

22 Ostateczna postać testu Badania pilotażowe – wybór zadań, określenie rzetelności testu Schemat konstrukcyjny testów osiągnięć szkolnych Normy wykonaniaWynik surowyZadania testoweCele kształceniaSkalowanieWynik testu

23 Elementy składowe testu 1. Lista celów edukacyjnych 2. Plan testu 3. Zadania testowe 4. Schematy punktacji 5. Kwestionariusz testu 6. Instrukcja przeprowadzenia testu (standaryzacja sytuacji testowej) 7. Normy wykonania testu: ilościowe i treściowe

24 Zadania testowe: klasyfikacja Zadania testowe Praktyczne W sytuacji naturalnej Prowokowane „Papier ołówek” Otwarte Krótkiej odpowiedzi Rozbudowanej odpowiedzi Zamknięte Prawda-fałszNa dobieranie Wielokrotnego wyboru Porządkowanie listy

25 Trafność testu

26 Podejście dydaktyczne: test jest trafny, gdy : –uczniowie wykonują, te operacje umysłowe, na których nam zależy –możemy dostać na to dowód

27 Trafność testu Aspekt trafności: Dydaktyczny Czy zadania sprawdzają przyswojenie wiadomości i umiejętności przewidzianych w programie Fasadowy Czy test zdaniem użytkowników i odbiorców jest adekwatny Kryterialny Czy wynik testu koreluje z uznanymi miarami danego zasobu wiedzy lub ich korelatami Prognostyczny Czy test pozwala prognozować przyszłe osiągnięcia Interpretacyjny Czy wynik jest właściwie interpretowany i na jego podstawie podejmowane są adekwatne decyzje Konsekwencyjny Jakie konsekwencje społeczne niesie za sobą stosowanie testu

28 Metody analizy trafności Analiza treściowa testu Analiza jakościowa rozwiązywania zadań: wywiady pogłębione z uczniem (Jak rozwiązywałeś to zadanie?) Analiza statystyczna: związek z innymi miarami odniesienia

29 Rzetelność testu

30 Każdy pomiar obarczony jest niepewnością pomiarową Klasyczne ujęcie niepewności pomiarowej wynik empiryczny = wynik prawdziwy + błąd pomiaru Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

31 Wyniki Wysokie Niskie Uczeń Błąd pomiaru Wynik ucznia w teście

32 Wyniki Wysokie Niskie Uczeń Błąd pomiaru Wynik prawdziwy Wynik ucznia w teście

33 Wyniki Wysokie Niskie Uczeń Błąd pomiaru Wynik prawdziwy Wynik ucznia w teście Błąd pomiaru

34 Główne źródła błędu pomiaru w testach osiągnięć szkolnych Arbitralność doboru zadań testowych Niedostatki standaryzacji procedury testowej Zgadywanie w zadaniach zamkniętych Ocena wykonania zadań otwartych Ściąganie Losowe wahania dyspozycji intelektualnych ucznia Błędy systematyczne: stronniczość testu

35 Metody ilościowego określania rzetelności wyniku testu Dwukrotne testowanie –Korelacja między wynikami dwóch testów Metoda połówkowa –Korelacja między wynikami dwóch połówek testu Wewnętrzna spójność testu –Współczynnik rzetelności Alfa Cronbacha

36 Współczynnik rzetelności Alfa Cronbacha Rzetelność jest to stosunek zróżnicowania wyniku prawdziwego do zróżnicowania wyniku uzyskanego na podstawie testowania (będącego sumą zróżnicowania wyniku prawdziwego oraz zróżnicowania błędu pomiaru )

37 Intertretacja ws. Alfa Cronbacha

38 Wykorzystanie wsp. rzetelności w interpretacji wyniku testu Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo że wynik ucznia znajduje się w przedziale wyznaczonym przez oddcinek wynosi 95%

39 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności Wynik ucznia w teście

40 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

41 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

42 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

43 Wyniki Wysokie Niskie Uczeń Przedział ufności Idea szacowania przedziału ufności

44 Wyniki Wysokie Niskie Wynik mało prawdopodobny(2,5%) Funkcja prawdopodobieństwa Wynik mało prawdopodobny(2,5%) Wynik prawdopodobny (95%) Rzetelność testu Wynik ucznia

45 Rzetelność oceny zadań otwartych – opis eksperymentu Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacje Instytut Spraw Publicznych, badanie sfinansowane przez MENiS

46 Analiza rzetelności systemów punktacji Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002: –Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II). –Historia – test i interpretacja źródeł (arkusz I i II). –Matematyka – poziom podstawowy i rozszerzony (arkusz I i II).

47 Procedura badania rzetelności Dobór prac. Przygotowanie prac do ponownego sprawdzania. Dobór egzaminatorów.

48 Problem trafności ekologicznej eksperymentu Czynniki mogące zawyżać oszacowanie rzetelności: - dobór egzaminatorów (posługiwanie się dobrze znanym schematem punktacji), - pominięcie opcji (polski, historia). Czynniki mogące zaniżać oszacowanie rzetelności: - upływ czasu, - brak procedur oceniania grupowego

49 Metoda badania rzetelności systemów punktacji Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki. Zbiór danych (dla każdego kryterium): Lp E1E2E3E4E5E6E7E … ……………………

50 Model analizy statystycznej Całkowita zmienność ocen Efekt jakości pracy Interakcyjny efekt egzaminatora Prosty efekt egzaminatora

51 Wyniki analizy rzetelności punktacji dla wypracowania, arkusz III Całkowita zmienność ocen 49%29%22% Efekt jakości pracy Prosty efekt egzaminatoraInterakcyjny efekt egzaminatora

52 Efekt egzaminatora dla przykładowych wypracowań Lp.Średnia ocena Rozrzut ocen (SD) MinimalnaMaksymalna 3960,318, ,918, ,418, ,517, ,016,61977

53 Co odpowiada za niską rzetelności systemu punktacji arkusza III? Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%). Zła budowa skal szacunkowych: –skala kompozycji (rzetelność=33%), –skala stylu (rzetelność=31%), –skala poprawności językowej (rzetelność=34%). Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).

54 Najmniej i najbardziej rzetelne kryterium skali rozwinięcia tematu, arkusz III Kryterium 17: 77% –Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji łacińskiej i wkroczenia barbarzyńców) Kryterium 15.1.: 14% –Za pogłębione wnioski Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.

55 Przykład wadliwie skonstruowanej skali szacunkowej Skala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt. Oto ich opis: 0 – brak opisu, 5 – w większości poprawna składnia i frazeologia, zgodna z normą fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne, 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne, 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.

56 Zestawienie wyników analizy rzetelności systemów punktacji ArkuszRzetelnośćProsty efekt egzaminatora Interakcyjny efekt egzaminatora Polski, arkusz I 55%16%29% Polski, arkusz III 49%22%29% Polski, arkusz II 80%7%13% Historia, arkusz I 95%2%3% Historia, arkusz II 58%29%13% Matematyka, arkusz I 99%1%0% Matematyka, arkusz II 97%1%2%

57 Koniec opisu eksperymentu

58 Zapewnianie rzetelności testu: analiza mocy różnicującej zadań testowych Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010

59 Zadanie X

60 Zadanie Y

61 Zadanie Z

62 Skalowanie wyniku Jaki rozkład ma wynik testu w populacji docelowej? Normalizacja wyniku Standaryzacja wyniku

63 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Wyniki pierwotne Egzamin 1Egzamin 2Egzamin 3

64 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Wyniki pierwotne Wyniki znormalizowane Egzamin 1Egzamin 2Egzamin 3

65 Wyniki pierwotne Wyniki znormalizowane Wyniki po przejściach Egzamin 1Egzamin 2Egzamin 3 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15

66 Rozkład normalny

67 Standaryzacja Skala standaryzowana - skala przedstawiająca wyniki pomiarów uzyskanych z dowolnej skali w postaci jednostek odchylenia standardowego, czyli tzw. wyników standaryzowanych Zastosowanie skal standaryzowanych wynika z potrzeby porównywania wyników uzyskanych na dwóch (lub więcej) skalach pomiarowych o odmiennych właściwościach i przez to bezpośrednio nieporównywalnych Najczęściej spotykanym sposobem standaryzacji jest tzw. standaryzacja Z którą można wyrazić poniższym wzorem gdzie: –Z i - zmienna standaryzowana –SD - odchylenie standardowe w grupie –X - średnia w gupie –X i – wynik i-tego ucznia

68 Skala wyników standaryzowanych z Uzyskane w ten sposób wartości wyników standaryzowanych przyjmują wartości dodatnie lub ujemne, w zależności od tego, czy odchylają się w górę, czy w dół od wartości średniej.

69 Relacje pomiędzy pięcioma skalami standardowymi Autor, dr H. Szaleniec

70 Skala staninowa

71 Wprowadzenie do IRT (probabilistyczna teoria odpowiedzi na zadanie testowe)

72 Pilotaż wersji przeznaczonych do danego zastosowania Bank zadań Badania pilotażowe – wybór zadań do banku i określenie ich parametrów Schemat konstrukcyjny testów osiągnięć szkolnych Item Response Theory Normy wykonaniaWiele możliwych wersji testuZadania testoweCele kształceniaSkalowanieWynik testu

73 Podstawowe założenia i cechy IRT Wykonanie zadania testowego zależy od poziomu ukrytej (bezpośrednio nieobserwowalnej) dyspozycji umysłowej Skala pomiarowa jest kumulatywna Poziom ukrytej dyspozycji wyznacza prawdopodobieństwo poradzenia sobie z danym zadaniem testowym (uwzględnienie czynników losowych) Jedno- lub wielowymiarowość danego testu Model zależności ukryta dyspozycja - radzenie sobie z zadaniem podlega empirycznemu testowi (zgodność modelu z danymi) Trudność zadań i poziom ukrytej dyspozycji umysłowej ucznia można lokować na jednej skali

74 Jak rozumieć pojęcie ukrytej dyspozycji?

75 Interpretacja związku między poziomem wykonania dwóch zadań Analiza dla zadań 0-1 zadanie 2 wykonałnie wykonał zadanie 1 wykonał ab a+b nie wykonał cd c+d a+cb+da+b+c+d

76 Brak korelacji między dwoma zadaniami zad zad zad.1zad. 2 dysp. xdysp. y Φ=0,0 niezależne dyspozycje

77 Korelacja pozytywna między dwoma zadaniami zad zad zad.1zad. 2 dysp. x Φ=1,0 wspólna dyspozycja

78 Odkrywanie ukrytych wymiarów Analizując empiryczne powiązania między zadaniami odkrywamy ukryte dyspozycje umysłowe mierzone przez dany test Do wyjaśnienia radzenia sobie z danym zbiorem zadań może wystarczyć jedna (test jednowymiarowy) lub kilka (wielowymiarowy) ukrytych dyspozycji umysłowych W praktyce stosuje się jednowymiarowe modele IRT

79 Jak rozumieć kumulatywność skali pomiarowej?

80 Zależności kierunkowe między zadaniami zad zad zad.1zad. 2 wspólna dyspozycja

81 Trzy wiązka trzech zadań tworzy kumulatywną skalę? zad.1zad. 3 wspólna dyspozycja zad. 2

82 Sprawdzanie, czy wiązka trzech zadań spełnia warunek kumulatywności (skalogram Guttmana) Wzorzec odpowiedzi Liczba przypadków Wynik surowy Wynik skalowy Wzorce zgodne Wzorce niezgodne razem 100

83 Jak uwzględniamy działanie czynników losowych?

84 Prosty determinizm poziom dyspozycji  radzenie sobie z zadaniem nie radzi sobie z zadaniem radzi sobie z zadaniem niski poziom dyspozycji umysłowej wysoki prawdopodobieństwo poradzenia sobie z zadaniem 1

85 Związek probabilistyczny – model prostoliniowy niski poziom dyspozycji umysłowej wysoki 1 prawdopodobieństwo poradzenia sobie z zadaniem

86 Związek probabilistyczny – model logistyczny niski poziom dyspozycji umysłowej wysoki 1 prawdopodobieństwo poradzenia sobie z zadaniem

87 Jak empirycznie testujemy teorię związku poziomu dyspozycji umysłowej z radzeniem sobie z danym zadaniem?

88 Przykład modelu dobrze dopasowanego do danych niski poziom dyspozycji umysłowej wysoki 1 prawdopodobieństwo poradzenia sobie z zadaniem

89 Przykład modelu źle dopasowanego do danych niski poziom dyspozycji umysłowej wysoki 1 prawdopodobieństwo poradzenia sobie z zadaniem

90 Lokowanie zadania na skali  niski poziom dyspozycji umysłowej wysoki 1,0 prawdopodobieństwo poradzenia sobie z zadaniem  ,5 Zadanie x

91 Zestaw 5 zadań tworzących skalę  niski poziom dyspozycji umysłowej wysoki

92 Określanie trudności tych zadań  niski poziom dyspozycji umysłowej wysoki

93 Lokowanie ucznia na skali  Metoda największej wiarygodności  Warunkowe prawdopodobieństwo poradzenia sobie z zadaniem Jaś: Małgosia: Zad. 1Zad. 2Zad. 3Zad. 4Zad ,150,050,01 0,0070, ,500,150,050,01 0,0700,001 0,900,500,150,050,010,3830,007 00,950,900,500,150,01 0,428 0,074 10,990,950,900,500,150,0940,383 20,99 0,950,900,500,049 0,428 30,99 0,950,900,0100,094


Pobierz ppt "E lementy teorii testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW."

Podobne prezentacje


Reklamy Google