Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW

Podobne prezentacje


Prezentacja na temat: "Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW"— Zapis prezentacji:

1 Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW

2 Kontakt Roman Dolata Dyżury Piątki od 16 do 17, s. 314 Poczta

3 Literatura, zaliczenie Literatura: M. Jakubowski, A. Pokropek (2009) Badając egzaminy. Podejście ilościowe w badaniach edukacyjnych. Centralna Komisja Egzaminacyjna. (zakładka Kwartalniki EFS). Str www.cke.edu.pl A. Anastasi, S. Urbina, (1999) Testy psychologiczne. Pracowania testów psychologicznych PTP. Rozdziały: 8,11, 13, 14. Zaliczenie Opracowanie, przeprowadzenie i przeanalizowanie wyników testu osiągnięć edukacyjnych

4 Co to jest test? Mała próbka zadań, której używamy do oszacowania opanowania przez uczniów szerokiego wachlarza wiadomości i umiejętności (Daniel Koretz) Cechy formalne testu: - obiektywność -standaryzacja -liczbowa postać wyniku

5 Aspekty oceniania Wynik testu Perspektywa programowa Perspektywa ewaluacyjna Perspektywa diagnostyczna

6 Typy oceniania Wartościujące osiągnięcia ucznia (wiadomości i umiejętności vs wymagania programowe) Kończące etap nauczania sumujące Niewartościujące, wspierające uczenie się W trakcie etapu opanowywania nowych wiadomości i umiejętności kształtujące ? opisowe

7 Podstawowe pojęcia statystyczne przydatne przy konstrukcji testów i analizie ich wyników

8 Rozkład liczebności Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

9 Rozkład procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

10 Rozkład skumulowany, procentowy Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887

11 Podstawowe parametry rozkładu 1. Miary tendencji centralnej i inne miary pozycji Wyniki sprawdzianu 2009, rozkład dla kraju, n= Średnia arytmetyczna x: 22,6 Mediana Me: 23 Pierwszy kwartyl (25 percentyl): 17 Drugi kwartyl (mediana, 50 percentyl): 23 Trzeci kwartyl (75 percentyl): 28

12 Jak wyznaczamy medianę i kwartyle 25% wyników 1.Porządkujemy wszystkie uzyskane wyniki od najmniejszego do największego ( wyników, najpierw zera, potem jedynki itd.) 2.Poczynając od wyników najniższych szukamy takiego wyniku, że: a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl 25% wyników minimum mediana 3.kwartyl maksimum 1. kwartyl

13 Podstawowe parametry rozkładu 2. Miary zmienności wyników Wyniki sprawdzianu 2009, rozkład dla kraju, n= Wariancja: 58,2 Odchylenie standardowe: 7,6 Odchylenie kwartylowe (ćwiartkowe): 11 średnia 3. kwartyl 1. kwartyl

14 Porównanie dwóch rozkładów Sprawdzian 2009, szkoły publiczne i niepubliczne miara Publiczne n= Niepubliczne n=6905 Średnia22,627,4 Mediana kwartyl kwartyl2834 Wariancja57,760,4 Odchylenie standardowe7,67,8 Roztęp ćwiartkowy1112

15 Porównanie dwóch rozkładów Sprawdzian 2009, dwie szkoły miara SP A n=132 SP B n=143 Średnia28,924,9 Mediana kwartyl kwartyl33 Wariancja26,083 Odchylenie standardowe5,19,1 Roztęp ćwiartkowy815

16 Badanie współzmienności wyników dwóch testów Czy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej? Analiza graficzna: wykresy rozrzutu Możliwe do zastosowania statystyki: - współczynnik korelacji r Pearsona - współczyniki regresji

17 Korelacja dodatnia (pozytywna) współczynnik korelacji wyższy od zera

18 Korelacja ujemna (negatywna) współczynnik korelacji niższy od zera

19 Brak korelacji (zerowa) współczynnik korelacji bliski zeru

20 Korelacja nieliniowa

21 Konstruowanie testów osiągnięć szkolnych

22 Testy osiągnięć a testy zdolności testy poznawcze testy osiągnięć związane z określonymi kursami testy osiągnięć szeroko zorientowane słowne testy inteligencji bezsłowne i wykonaniowe testy inteligencji testy inteligencji wolne od wpływów kulturowych

23 Typy testów osiągnięć szkolnych Przesiewowe (minimum kompetencji) Szerokiego stosowania Selekcyjne Testy różnicujące i testy kryterialne Testy mocy i testy szybkości

24 Podstawowe problemy związane z budową testu osiągnięć Obiektywność Reprezentatywność Standaryzacja procedury testowej Trafność Rzetelność Skalowanie - liczbowa postać wyników – moc skali, czyli jakie informacje przenoszą liczby, będące wynikiem testowania Budowa wersji równoległych testu – zrównywanie wyników

25 Konstrukcja testu – podejście klasyczne

26 Ostateczna postać testu Badania pilotażowe – wybór zadań, określenie rzetelności testu Schemat konstrukcyjny testów osiągnięć szkolnych Normy wykonaniaWynik surowyZadania testoweCele kształceniaSkalowanieWynik testu

27 Elementy składowe testu 1. Lista celów edukacyjnych 2. Plan testu 3. Zadania testowe 4. Schematy punktacji 5. Kwestionariusz testu i instrukcja testowania 6. Normy wykonania testu: ilościowe i treściowe

28 Lista celów edukacyjnych Fundament budowy testu Cele dotyczą wiadomości i umiejętności, które mają opanowywać uczniowie, a nie czynności nauczyciela Cele muszą być sformułowane w sposób jasny i jednoznaczny Lista celów nie powinna być zbyt długa; gdy zbyt długa: –łączenie celów w ogólniejsze –wyznaczenie priorytetów

29 Plan testu W najprostszej postaci tabela o postaci: Cel edukacyjnyLiczba zadań Typy zadańNr w kwestionariusz u 1. Umie przedstawić geometryczną interpretację mnożenia 42 WW, 2 KO1,2,7,8 2. Potrafi przedstawić mnożenie jako dodawanie i odwrotnie 44 WW3,4,5,6 3. Rozwiązuje zadania tekstowe, jednodziałaniowe na mnożenie 44 KO9,10,11,12

30 Plan testu taksonomia ABC na podstawie B. Blooma Cele Materiał WiadomościUmiejętnościZastosowanie Razem dodawanie2 zadania 6 odejmowanie2 zadania 6 mnożenie2 zadania 6 razem

31 Plan testu: przykład kursu statystyki

32 Plan testu, cd W rozbudowanej postaci – koncepcja testu Przykład: koncepcja testu sumującego po III klasie szkoły podstawowej autorstwa Aleksandry Jasińskiej (na podstawie PISA/OECD)

33 Test sumujący po klasie III Test czytania Test pisania i świadomości językowej Test matematyczny

34 Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

35 Test czytania Typ materiału testowego

36 Test czytania Typ materiału testowego tekst literacki

37 Test czytania Typ materiału testowego tekst literacki prozapoezja

38 Test czytania Typ materiału testowego tekst literackitekst popularnonaukowy prozapoezja

39 Test czytania Typ materiału testowego tekst literackitekst popularnonaukowy prozapoezja tekst użytkowy

40 Test czytania Umiejętności

41 Test czytania Umiejętności Wyszukiwanie informacji InterpretacjaRefleksja i ocena

42 Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

43 Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

44 Test pisania i świadomości językowej Test pisania

45 Test pisania i świadomości językowej Test pisania Zad. sprawdzające umiejętności związane z pisaniem tekstów

46 Test pisania i świadomości językowej Test pisania Zad. sprawdzające umiejętności związane z pisaniem tekstów Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu

47 Test pisania i świadomości językowej Test pisania Zad. sprawdzające umiejętności związane z pisaniem tekstów Zad. sprawdzające zasób słownikowy dziecka Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu

48 Test pisania i świadomości językowej Test pisania Zad. sprawdzające umiejętności związane z pisaniem tekstów Zad. sprawdzające zasób słownikowy dziecka Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu Synonimy i antonimy Wyjaśnianie znaczenia słowa Błędne / poprawne użycie słowa Związki frazeologiczne Porównania

49 Test pisania i świadomości językowej Test pisania Zad. sprawdzające umiejętności związane z pisaniem tekstów Zad. sprawdzające zasób słownikowy dziecka Zad. sprawdzające elementy wiedzy o języku Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu Synonimy i antonimy Wyjaśnianie znaczenia słowa Błędne / poprawne użycie słowa Związki frazeologiczne Porównania

50 Test pisania i świadomości językowej Test pisania Zad. sprawdzające umiejętności związane z pisaniem tekstów Zad. sprawdzające zasób słownikowy dziecka Zad. sprawdzające elementy wiedzy o języku Redagowanie tekstu Struktura wypowiedzi Styl wypowiedzi Dzielenie wypowiedzi na zdania Argumentacja Adekwatność wypowiedzi do sytuacji i celu Synonimy i antonimy Wyjaśnianie znaczenia słowa Błędne / poprawne użycie słowa Związki frazeologiczne Porównania Poprawność gramatyczna wypowiedzi Ortografia i interpunkcja Błędy językowe

51 Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

52 Trzy testy Test czytania Test pisania i świadomości językowej Test matematyczny

53 Trzy wymiary opisujące zadania: Treści Umiejętności Kontekst Treści Umiejętności Kontekst

54 Test matematyczny Treści

55 Test matematyczny Treści Ilość

56 Test matematyczny Treści Ilość Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne

57 Test matematyczny Treści IlośćPrzestrzeń i kształt Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne

58 Test matematyczny Treści IlośćPrzestrzeń i kształt Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne Geometria na płaszczyźnie Geometria przestrzenna

59 Test matematyczny Treści IlośćPrzestrzeń i kształt Zmiana i związki Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne Geometria na płaszczyźnie Geometria przestrzenna

60 Test matematyczny Treści IlośćPrzestrzeń i kształt Zmiana i związki Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne Geometria na płaszczyźnie Geometria przestrzenna Niepewność

61 Test matematyczny Treści IlośćPrzestrzeń i kształt Zmiana i związki Pojęcie liczby, liczenie, sprawność rachunkowa Zadania z treścią Pomiar Obliczenia pieniężne Geometria na płaszczyźnie Geometria przestrzenna Gromadzenie i porządkowanie danych Odczytywanie i interpretowa- nie danych Niepewność

62 Test matematyczny Umiejętności

63 Test matematyczny Umiejętności OdtwarzaniePowiązaniaRozumowanie

64 Test matematyczny Kontekst

65 Test matematyczny Kontekst OsobistySzkolnyPubliczny

66 Test matematyczny Trzy wymiary opisujące zadania: Treści Umiejętności Kontekst Treści Umiejętności Kontekst

67 Zadania testowe Zadanie testowe to wskaźnik opanowania celu edukacyjnego By rzetelnie wypowiadać się o opanowaniu celu potrzebujemy wielu wskaźników W wypadku szczegółowego celu wystarczy kilka zadań testowych W wypadku ogólnych celów potrzeba znacznie więcej zadań testowych

68 Zadania testowe: klasyfikacja Zadania testowe Praktyczne W sytuacji naturalnej Prowokowane Papier ołówek Otwarte Krótkiej odpowiedzi Rozbudowanej odpowiedzi Zamknięte Prawda-fałszNa dobieranie Wielokrotnego wyboru Porządkowanie listy

69 Schemat punktacji Schematy punktacji do zadań zamkniętych –Problem tzw. punktów ujemnych Schematy punktacji do zadań otwartych –Problem rzetelności oceny wykonania zadań otwartych

70 Kwestionariusz testu i instrukcja przeprowadzenia testowania Szata graficzna testu Problem praw autorskich Kolejność zadań –Od najłatwiejszych do najtrudniejszych Instrukcja przeprowadzenia testu –Standaryzacja sytuacji testowe –Limit czasu: testy mocy vs testy szybkości

71 Norma ilościowa wykonania testu Interpretacja ilościowa wyniku testu: wynik testu na tle rozkładu wyników w grupie odniesienia Najprostsza norma: odniesienie wyniku do średniej w grupie odniesienia Normy pozycyjne: centyle Normalizacja i standaryzacja wyniku: –skala staninowa –skale o zadanej średniej i odchyleniu standardowym (problem będzie omówiony szerzej przy okazji skalowania testu)

72 Skala staninowa Skala 9 stopniowa (9 rang) Skala normalizuje wyniki

73 Skala staninowa

74 Skala centylowa, przykład

75 Skala centylowa

76 Skala centylowa, wyznaczanie pozycji

77 Norma treściowa Wynik testu jako miara opanowania celów edukacyjnych Najprostsza norma treściowa: wskazanie od jakiego wyniku można uznać, że cel został opanowany w stopniu pozwalającym na dalsze uczenie się Złożone normy treściowe: zdefiniowanie kilku poziomów opanowania celu –Problem kumulatywności testu

78 Rzetelność i trafność testu

79 Trafność testu

80 Trafność testu w psychologii W psychometrii trafny test, to taki, który mierzy, to co ma mierzyć –Definicyjna Czy wskaźniki są zgodne z przyjętą definicją badanego zjawiska –Fasadowa Czy test zdaniem użytkowników i odbiorców jest adekwatny –Prognostyczna Czy test pozwala prognozować wystąpienie interesujących badacza zjawisk –Teoretyczna Czy układ zależności uzyskanych w badaniu sprawdzającym jakość testu jest zgodny z teoretycznymi przewidywaniami

81 Trafność w testach osiągnięć Podejście dydaktyczne: test jest trafny, gdy : –uczniowie wykonują, te operacje umysłowe, na których nam zależy –możemy dostać na to dowód

82 Trafność zadania testowego Treść celu edukacyjnego Procesy umysłowe zachodzące w głowie rozwiązującego

83 Trafność zadania - problemy Przykład: Badana umiejętność: zasób słownikowy dziecka

84 Trafność zadania - problemy Przykład: Badana umiejętność: zasób słownikowy dziecka, rozpoznawanie błędnego użycia słowa.

85 Trafność zadania - problemy Czy prawidłowa odpowiedź jest na pewno poprawna, a dystraktory błędne? Jakość dystraktorów: –Czy są prawdopodobne? –Czy zawierają typowe błędne przekonania uczniów? –Czy wykorzystują prawdziwe stwierdzenia, które nie są poprawną odpowiedzią?

86 Trafność zadania - problemy Czy treść zadania (polecenie, pytanie, możliwe odpowiedzi, rysunki i schematy) są jednoznaczne, jasne i zrozumiałe? –Język odpowiedni dla dziecka. –Główna myśl w pytaniu, nie w odpowiedziach. Czy w zadaniu nie ma nadmiaru słów? Czy w pytaniu i możliwych odpowiedziach nie ma negacji? Jeśli musi być, czy jest wyróżniona?

87 Trafność zadania - problemy Odpowiedź na pytanie w treści innego zadania. Poprawna odpowiedź dłuższa od innych. Niejednorodność pod względem treści i formy gramatycznej. Powtarzanie się elementów prawidłowej odpowiedzi w dystraktorach.

88 Trafność zadania - problemy Poprawna odpowiedź dłuższa od innych. Niejednorodność pod względem treści i formy gramatycznej. Powtarzanie się zwrotów prawidłowej odpowiedzi w dystraktorach. Duże kwantyfikatory: zawsze, nigdy, całkowicie, absolutnie. Brak poprawności gramatycznej, interpunkcyjnej, ortograficznej treści zadania

89 Metody analizy trafności Analiza treściowa zadań - jw Analiza jakościowa rozwiązywania zadań przez uczniów (Jak rozwiązywałeś ten test? – technika głośnego myślenia) Analiza statystyczna: związek z innymi miarami odniesienia

90 Rzetelność testu

91 Każdy pomiar obarczony jest niepewnością pomiarową Klasyczne ujęcie niepewności pomiarowej wynik empiryczny = wynik prawdziwy + błąd pomiaru Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

92 Wyniki Wysokie Niskie Uczeń Błąd pomiaru Wynik ucznia w teście

93 Wyniki Wysokie Niskie Uczeń Błąd pomiaru Wynik prawdziwy Wynik ucznia w teście

94 Wyniki Wysokie Niskie Uczeń Błąd pomiaru Wynik prawdziwy Wynik ucznia w teście Błąd pomiaru

95 Główne źródła błędu pomiaru w testach osiągnięć szkolnych Arbitralność doboru zadań testowych Niedostatki standaryzacji procedury testowej Zgadywanie w zadaniach zamkniętych Ocenianie zadań otwartych Ściąganie Losowe wahania dyspozycji intelektualnych ucznia Błędy systematyczne: stronniczość testu

96 Rzetelność punktacji – opis eksperymentu Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacje Instytut Spraw Publicznych, badanie sfinansowane przez MENiS

97 Analiza rzetelności systemów punktacji Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002: –Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II). –Historia – test i interpretacja źródeł (arkusz I i II). –Matematyka – poziom podstawowy i rozszerzony (arkusz I i II).

98 Procedura badania rzetelności Dobór prac. Przygotowanie prac do ponownego sprawdzania. Dobór egzaminatorów.

99 Problem trafności ekologicznej eksperymentu Czynniki mogące zawyżać oszacowanie rzetelności: - dobór egzaminatorów (posługiwanie się dobrze znanym schematem punktacji), - pominięcie opcji (polski, historia). Czynniki mogące zaniżać oszacowanie rzetelności: - upływ czasu, - brak procedur oceniania grupowego

100 Metoda badania rzetelności systemów punktacji Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki. Zbiór danych (dla każdego kryterium): Lp E1E2E3E4E5E6E7E … ……………………

101 Model analizy statystycznej Całkowita zmienność ocen Efekt jakości pracy Interakcyjny efekt egzaminatora Prosty efekt egzaminatora

102 Wyniki analizy rzetelności punktacji dla wypracowania, arkusz III Całkowita zmienność ocen 49%29%22% Efekt jakości pracy Prosty efekt egzaminatoraInterakcyjny efekt egzaminatora

103 Efekt egzaminatora dla przykładowych wypracowań Lp.Średnia ocena Rozrzut ocen (SD) MinimalnaMaksymalna 3960,318, ,918, ,418, ,517, ,016,61977

104 Co odpowiada za niską rzetelności systemu punktacji arkusza III? Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%). Zła budowa skal szacunkowych: –skala kompozycji (rzetelność=33%), –skala stylu (rzetelność=31%), –skala poprawności językowej (rzetelność=34%). Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).

105 Najmniej i najbardziej rzetelne kryterium skali rozwinięcia tematu, arkusz III Kryterium 17: 77% –Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji łacińskiej i wkroczenia barbarzyńców) Kryterium 15.1.: 14% –Za pogłębione wnioski Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.

106 Przykład wadliwie skonstruowanej skali szacunkowej Skala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt. Oto ich opis: 0 – brak opisu, 5 – w większości poprawna składnia i frazeologia, zgodna z normą fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne, 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne, 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.

107 Zestawienie wyników analizy rzetelności systemów punktacji ArkuszRzetelnośćProsty efekt egzaminatora Interakcyjny efekt egzaminatora Polski, arkusz I 55%16%29% Polski, arkusz III 49%22%29% Polski, arkusz II 80%7%13% Historia, arkusz I 95%2%3% Historia, arkusz II 58%29%13% Matematyka, arkusz I 99%1%0% Matematyka, arkusz II 97%1%2%

108 Koniec opisu eksperymentu

109 Zapewnianie rzetelności testu: analiza mocy różnicującej zadań testowych Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010

110 Zadanie X

111 Zadanie Y

112 Zadanie Z

113 Metody określania rzetelności wyniku testu Dwukrotne testowanie –Korelacja między wynikami dwóch testów Metoda połówkowa –Korelacja między wynikami dwóch połówek Wewnętrzna spójność testu –Wsp. rzetelności Alfa Cronbacha

114 Współczynnik rzetelności Alfa Cronbacha Rzetelność jest to stosunek zróżnicowania wyniku prawdziwego do zróżnicowania wyniku uzyskanego na podstawie testowania (będącego sumą zróżnicowania wyniku prawdziwego oraz zróżnicowania błędu pomiaru )

115 Intertretacja ws. Alfa Cronbacha

116 Zgodność klasyfikacji na podstawie wyniku testu Procent uczniów, którzy zakwalifikowani zostaną w inny sposób przy następnym testowaniu Ilu ma zdać (%)Rzetelność użytego testu 0,700,800, (Koretez 2002: 160)

117 Wykorzystanie wsp. rzetelności w interpretacji wyniku testu Wyznaczanie przedziału ufności dla wyniku indywidualnego

118 Przykład Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo, że wynik ucznia znajduje się w przedziale wyznaczonym przez prostokąt wynosi 95%

119 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności Wynik ucznia w teście

120 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

121 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

122 Wyniki Wysokie Niskie Uczeń Idea szacowania przedziału ufności

123 Wyniki Wysokie Niskie Uczeń Przedział ufności Idea szacowania przedziału ufności

124 Wyniki Wysokie Niskie Wynik mało prawdopodobny(2,5%) Funkcja prawdopodobieństwa Wynik mało prawdopodobny(2,5%) Wynik prawdopodobny (95%) Rzetelność testu

125 Skalowanie wyniku testu Jaki rozkład ma wynik testu w populacji docelowej? Surowe wyniki testów nie są porównywalne Normalizacja wyniku Standaryzacja wyniku

126 Przykład: średnie wyniki w punktach ze sprawdzianu w latach

127 Rozkład wyników sprawdzian Rozkład wyników sprawdzianu Mediana 23 Średnia 22,6 Mediana 27 Średnia 25,7 Mediana 25 Średnia 24,3

128 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Wyniki pierwotne Egzamin 1Egzamin 2Egzamin 3

129 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Wyniki pierwotne Wyniki znormalizowane Egzamin 1Egzamin 2Egzamin 3

130 Wyniki pierwotne Wyniki znormalizowane Wyniki po przejściach Test 1Test 2Test 3 Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15

131 Rozkład normalny Odgrywa ważną rolę w statystycznym opisie zagadnień egzaminacyjnych, socjalnych, przyrodniczych, itp Często występuje w naturze Ma interesujące właściwości matematyczne, dzięki którym oparte na nim metody statystyczne są dość proste obliczeniowo

132 Rozkład normalny

133 Standaryzacja Skala standaryzowana - skala przedstawiająca wyniki pomiarów uzyskanych z dowolnej skali w postaci jednostek odchylenia standardowego, czyli tzw. wyników standaryzowanych Zastosowanie skal standaryzowanych wynika z potrzeby porównywania wyników uzyskanych na dwóch (lub więcej) skalach pomiarowych o odmiennych właściwościach i przez to bezpośrednio nieporównywalnych Najczęściej spotykanym sposobem standaryzacji jest tzw. standaryzacja Z którą można wyrazić poniższym wzorem gdzie: –Z i - zmienna standaryzowana –SD - odchylenie standardowe w grupie –X - średnia w gupie –X i – wynik i-tego ucznia

134 Skala wyników standaryzowanych z Uzyskane w ten sposób wartości wyników standaryzowanych przyjmują wartości dodatnie lub ujemne, w zależności od tego, czy odchylają się w górę, czy w dół od wartości średniej.

135 Relacje pomiędzy pięcioma skalami standardowymi Autor, dr H. Szaleniec

136 Skala staninowa

137 Wprowadzenie do IRT (probabilistyczna teoria odpowiedzi na zadanie testowe)

138 Wybrane problemy klasycznej strategii tworzenia testów Interpretacja wyniku surowego – czy wyniki surowe spełniają założenia skali porządkowej? Arbitralność decyzji o włączaniu/wyłączaniu zadania z testu – brak odpowiedniego testu statystycznego Sztywność zastosowania testu KT (tylko wyniki tego samego testu lub testów równoległych mogą być porównywane)

139 Pilotaż wersji przeznaczonych do danego zastosowania Bank zadań Badania pilotażowe – wybór zadań do banku i określenie ich parametrów Schemat konstrukcyjny testów osiągnięć szkolnych Item Response Theory Normy wykonaniaWiele możliwych wersji testuZadania testoweCele kształceniaSkalowanieWynik testu

140 Podstawowe założenia i cechy IRT Wykonanie zadania testowego zależy od poziomu ukrytej (bezpośrednio nieobserwowalnej) dyspozycji umysłowej Skala pomiarowa jest kumulatywna Poziom ukrytej dyspozycji wyznacza prawdopodobieństwo poradzenia sobie z danym zadaniem testowym (uwzględnienie czynników losowych) Jedno- lub wielowymiarowość danego testu Model zależności ukryta dyspozycja - radzenie sobie z zadaniem podlega empirycznemu testowi (zgodność modelu z danymi) Trudność zadań i poziom ukrytej dyspozycji umysłowej ucznia można lokować na jednej skali

141 Jak rozumieć pojęcie ukrytej dyspozycji?

142 Interpretacja związku między poziomem wykonania dwóch zadań Analiza dla zadań 0-1 zadanie 2 wykonałnie wykonał zadanie 1 wykonał ab a+b nie wykonał cd c+d a+cb+da+b+c+d

143 Korelacja negatywna między dwoma zadaniami zad zad zad.1zad. 2 dysp. xdysp. y Φ=-1,0 Wykluczające się dyspozycje

144 Brak korelacji między dwoma zadaniami zad zad zad.1zad. 2 dysp. xdysp. y Φ=0,0 niezależne dyspozycje

145 Korelacja pozytywna między dwoma zadaniami zad zad zad.1zad. 2 dysp. x Φ=1,0 wspólna dyspozycja

146 Odkrywanie ukrytych wymiarów Analizując empiryczne powiązania między zadaniami odkrywamy ukryte dyspozycje umysłowe mierzone przez dany test Do wyjaśnienia radzenia sobie z danym zbiorem zadań może wystarczyć jedna (test jednowymiarowy) lub kilka (wielowymiarowy) ukrytych dyspozycji umysłowych W praktyce stosuje się jednowymiarowe modele IRT

147 Jak rozumieć kumulatywność skali pomiarowej?

148 Zależności kierunkowe między zadaniami zad zad zad.1zad. 2 wspólna dyspozycja zad. 1 / zad. 2 zad. 2 zad. 1

149 Trzy wiązka trzech zadań tworzy kumulatywną skalę? zad.1zad. 3 wspólna dyspozycja zad. 2

150 Sprawdzanie, czy wiązka trzech zadań spełnia warunek kumulatywności (skalogram Guttmana) Wzorzec odpowiedzi Liczba przypadków Wynik surowy Wynik skalowy Wzorce zgodne Wzorce niezgodne razem 100

151 Jak uwzględniamy działanie czynników losowych?

152 Prosty determinizm poziom dyspozycji radzenie sobie z zadaniem nie radzi sobie z zadaniem radzi sobie z zadaniem niski poziom dyspozycji umysłowej wysoki prawdopodobieństwo poradzenia sobie z zadaniem 1

153 Związek probabilistyczny – model prostoliniowy niski poziom dyspozycji umysłowej wysoki 1 prawdopodobieństwo poradzenia sobie z zadaniem

154 Związek probabilistyczny – model logistyczny niski poziom dyspozycji umysłowej wysoki 1 prawdopodobieństwo poradzenia sobie z zadaniem

155 Jak empirycznie testujemy teorię związku poziomu dyspozycji umysłowej z radzeniem sobie z danym zadaniem?

156 Przykład modelu dobrze dopasowanego do danych niski poziom dyspozycji umysłowej wysoki 1 prawdopodobieństwo poradzenia sobie z zadaniem

157 Przykład modelu źle dopasowanego do danych niski poziom dyspozycji umysłowej wysoki 1 prawdopodobieństwo poradzenia sobie z zadaniem

158 Lokowanie zadania na skali niski poziom dyspozycji umysłowej wysoki 1,0 prawdopodobieństwo poradzenia sobie z zadaniem ,5 Zadanie x

159 Zestaw 5 zadań tworzących skalę niski poziom dyspozycji umysłowej wysoki

160 Określanie trudności tych zadań niski poziom dyspozycji umysłowej wysoki

161 Lokowanie ucznia na skali Metoda największej wiarygodności Warunkowe prawdopodobieństwo poradzenia sobie z zadaniem Jaś: Małgosia: Zad. 1Zad. 2Zad. 3Zad. 4Zad ,150,050,01 0,0070, ,500,150,050,01 0,0700,001 0,900,500,150,050,010,3830,007 00,950,900,500,150,01 0,428 0,074 10,990,950,900,500,150,0940,383 20,99 0,950,900,500,049 0,428 30,99 0,950,900,0100,094


Pobierz ppt "Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW"

Podobne prezentacje


Reklamy Google