Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Skalowanie Rascha - wstęp

Podobne prezentacje


Prezentacja na temat: "Skalowanie Rascha - wstęp"— Zapis prezentacji:

1 Skalowanie Rascha - wstęp
Dorota Węziak Instytut Statystyki i Demografii Zakład Metod Badań Marketingowych Szkoła Główna Handlowa w Warszawie

2 Obszar zastosowań skalowania Rascha
Alternatywa dla skal skumulowanych ocen lub skalogramu Guttmana Stworzenie skali lub indeksu z zestawu pytań/stwierdzeń o odpowiedziach mierzonych na skalach nominalnych lub porządkowych Najpierw jeden wymiar, a potem ustawienie pozycji wzdłuż niego, gdzie oś jest spolaryzowana: mniej - więcej

3 Obszar zastosowań skalowania Rascha
W obszarze badań społecznych i marketingowych Stworzenie narzędzia (skali, indeksu) o właściwościach skali interwałowej – oszacowania respondentów; Diagnostyka skali pomiarowej – sprawdzenie, do jakiego stopnia narzędzie jest wiarygodne; Identyfikacja stwierdzeń, które respondenci rozumieją w różny sposób; Identyfikacja respondentów odpowiadających niespójnie, niedbale, „strzelają”; Sprawdzenie, czy zastosowana skala odpowiedzi ma optymalną długość; Ocena pracy sędziów kompetentnych; Najpierw jeden wymiar, a potem ustawienie pozycji wzdłuż niego, gdzie oś jest spolaryzowana: mniej - więcej

4 Obszar zastosowań skalowania Rascha
W obszarze diagnostyki edukacyjnej: Sprawdzenie, czy trudność egzaminu jest taka sama z roku na rok; Zrównanie wyników egzaminów zewnętrznych w poziomie i w pionie Ocena pracy egzaminatorów zewnętrznych (ocena surowości oceniania oraz ocena stronniczości oceniania) Najpierw jeden wymiar, a potem ustawienie pozycji wzdłuż niego, gdzie oś jest spolaryzowana: mniej - więcej

5 Założenia skalowania Rascha
zestaw stwierdzeń odnosi się do tylko jednej badanej właściwości (jeden konstrukt, jedna cecha latentna); mówi się, że osoby z wysokim wynikiem ogólnym skali są bardziej skłonne do zgadzania się z poszczególnymi stwierdzeniami niż osoby o niższym wyniku ogólnym; jest bardziej prawdopodobne, że respondenci odpowiedzą twierdząco na pytania łatwiejsze do zaakceptowania (o mniejszej intensywności, łatwiejsze) i odwrotnie, taka odpowiedź jest mniej prawdopodobna w przypadku pytań o większej intensywności, trudniejszych; Pytania/stwierdzenia budujące skalę/indeks charakteryzują się zróżnicowaną intensywnością; 1. czy zaakceptowałby Pan osobę innej rasy lub wyznania, gdyby miała stać się członkiem Pańskiej rodziny? 2. czy zaakceptowałby Pan osobę innej rasy lub wyznania ,gdyby zamieszkała w tym samym domu? 3. czy zaakceptowałby Pan osobę innej rasy lub wyznania, gdyby zamieszkała na tej samej ulicy? My tworzymy pewien model, który jest stanem idealnym – a potem sprawdzamy czy nasze dane pasują do niego

6 Typy skalowania Rascha
1. Klasyczne skalowanie Rascha (Rasch model, Dichotomous Rasch Model, Rasch, 1960) 2. Porządkowe skalowanie Rascha (Rating Scale Model – Andrich, 1978) 3. Wieloaspektowe skalowanie Rascha (many-facets Rasch measurement MFRM– Linacre, 1989) Uzależnienie prawdopodobieństwa udzielenia odpowiedniej odpowiedzi tylko od oceny powiązania respondenta z tematem badania i intensywności danego stwierdzenia; Nie ma żadnych założeń co do rozkładu tych parametrów – jedynie wystandaryzowane reszty powinny mieć rozkład standardowy normalny – jeśli nie mają to jest to wskazówka, że być może nie jest spełnione założenie o jednowymiarowości; Respondenci z tym samym wynikiem ogólnym będą mieć to samo oszacowanie pozycji – ale czy ono jest dobre – to statystyki dopasowania Pyt. Dlaczego podwyższać komuś oszacowanie jeśli dobrze odpowiadał na pytania trudne, a mylił się przy łatwych? A w druga stronę, dlaczego obniżać komuś ocenę, jeśli dobrze odpowiedział na łatwe a źle na trudne? Czy to był przypadek, to statystyki dopasowania  B’ i D’ oszacowania początkowe (dla nich statystyką dostateczną jest suma odpowiedzi) B’ i D’ są estymowane za pomocą metod największej wiarygodności (najczęściej używane są warunkowa metoda największej wiarygodności (CMLE), bezwarunkowa metoda największej wiarygodności (UCON) oraz krańcowa metoda największej wiarygodności (MMLE), głównie ze względu na dostępność oprogramowania. Każda z tych metod ma swoich zwolenników i przeciwników, ale biorąc pod uwagę dokładność i trafność uzyskiwanych oszacowań można traktować te metody jako równoważne. Należy jednak zwrócić uwagę na problemy z porównywalnością oszacowań uzyskanych różnymi metodami) tak, aby maksymalizować dopasowanie, czyli minimalizować różnice między odpowiedziami obserwowanymi i oczekiwanymi. JML – korekta przez L – 1/L gdzie L to liczba pozycji Statystyki dostateczne dla Di i Bn to sumy odpowiedzi odpowiednio po respondentach i po pozycjach Statystyka dostateczna dla Tj to liczba danych kategorii odpowiedzi do liczby wszystkich odpowiedzi (biorąc pod uwagę wszystkie pytania na raz)

7 Klasyczne skalowanie Rascha (Rasch model)
Zastosowanie: bateria pytań/stwierdzeń z dwiema kategoriami odpowiedzi (skala nominalna) gdzie: Pnik – prawdopodobieństwo odpowiedzi twierdzącej na i – tą pozycję skali udzielonej przez n – tego respondenta, Di – oszacowanie intensywności/trudności i – tej pozycji skali, Bn – oszacowanie pozycji/umiejętności n – tego respondenta. Prawdopodobieństwo udzielenia określonego typu odpowiedzi zależy tylko od interakcji między charakterystyką respondenta Bn a charakterystyką pozycji Di; Za pomocą metod iteracyjnych opartych najczęściej na metodzie największej wiarygodności szacuje się prawdopodobieństwo uzyskania konkretnego wzoru odpowiedzi pod warunkiem danej liczby odpowiedzi twierdzących;

8 Skalowanie Rascha (Rasch model)
Bazuje na dwóch typach oszacowań: oszacowanie pozycji respondenta (person location, person ability, person agreeability) (oszacowanie umiejętności, intensywności akceptowania) Bn oszacowanie pozycji skali (item difficulty, item agreeability) (oszacowanie trudności pytania, oszacowanie intensywności stwierdzenia) Di Uzależnienie prawdopodobieństwa udzielenia odpowiedniej odpowiedzi tylko od oceny powiązania respondenta z tematem badania i intensywności danego stwierdzenia; Nie ma żadnych założeń co do rozkładu tych parametrów – jedynie wystandaryzowane reszty powinny mieć rozkład standardowy normalny – jeśli nie mają to jest to wskazówka, że być może nie jest spełnione założenie o jednowymiarowości; Respondenci z tym samym wynikiem ogólnym będą mieć to samo oszacowanie pozycji – ale czy ono jest dobre – to statystyki dopasowania Pyt. Dlaczego podwyższać komuś oszacowanie jeśli dobrze odpowiadał na pytania trudne, a mylił się przy łatwych? A w druga stronę, dlaczego obniżać komuś ocenę, jeśli dobrze odpowiedział na łatwe a źle na trudne? Czy to był przypadek, to statystyki dopasowania  B’ i D’ oszacowania początkowe (dla nich statystyką dostateczną jest suma odpowiedzi) B’ i D’ są estymowane za pomocą metod największej wiarygodności (najczęściej używane są warunkowa metoda największej wiarygodności (CMLE), bezwarunkowa metoda największej wiarygodności (UCON) oraz krańcowa metoda największej wiarygodności (MMLE), głównie ze względu na dostępność oprogramowania. Każda z tych metod ma swoich zwolenników i przeciwników, ale biorąc pod uwagę dokładność i trafność uzyskiwanych oszacowań można traktować te metody jako równoważne. Należy jednak zwrócić uwagę na problemy z porównywalnością oszacowań uzyskanych różnymi metodami) tak, aby maksymalizować dopasowanie, czyli minimalizować różnice między odpowiedziami obserwowanymi i oczekiwanymi. JML – korekta przez L – 1/L gdzie L to liczba pozycji Statystyki dostateczne dla Di i Bn to sumy odpowiedzi odpowiednio po respondentach i po pozycjach Statystyka dostateczna dla Tj to liczba danych kategorii odpowiedzi do liczby wszystkich odpowiedzi (biorąc pod uwagę wszystkie pytania na raz)

9 Bn – Di > 0 to Pni > 0,5 (A) Bn – Di = 0 to Pni = 0,5 (B)
Bn – Di < 0 to Pni < 0,5 (C) A B Uzależnienie prawdopodobieństwa uzyskania danego wyniku od dwóch parametrów, czynników – trudności, intensywności pozycji i umiejętności, stopnia odczuwania respondenta; C

10 Krzywe charakterystyczne

11 Forma logitowa Sample-free, dystribution-free – pod warunkiem, że model jest dobry oszacowania skali nie zależą od siebie -

12 Skalowanie porządkowe
gdzie: Pnik – prawdopodobieństwo wyboru k – tej kategorii odpowiedzi na i – tą pozycję skali przez n – tego respondenta, Fk – oszacowanie k – tego progu, Di – oszacowanie intensywności i – tej pozycji, Bn – oszacowanie pozycji n – tego respondenta. Odległości między oszacowaniami progów Fk dla wszystkich stwierdzeń są takie same.

13 Skalowanie wieloaspektowe
gdzie: Pnik – prawdopodobieństwo przyznania przez j-tego egzaminatora k – tej kategorii punktowej za rozwiązanie i – tego zadania przez n – tego egzaminowanego, Fk – oszacowanie k – tego progu, Di – oszacowanie intensywności i – tej pozycji, Bn – oszacowanie pozycji n – tego respondenta, Rj – oszacowanie surowości j – tego egzaminatora.

14 Ocena dopasowania (skalowanie Rascha)
ODPOWIEDZI OBSERWOWANE „ODPOWIEDZI” OCZEKIWANE PYTANIA PYTANIA My tworzymy pewien model, który jest stanem idealnym – a potem sprawdzamy czy nasze dane pasują do niego B’ i D’ oszacowania początkowe (dla nich statystyką dostateczną jest suma odpowiedzi) B’ i D’ są estymowane za pomocą metod największej wiarygodności (najczęściej używane są warunkowa metoda największej wiarygodności (CMLE), bezwarunkowa metoda największej wiarygodności (UCON) oraz krańcowa metoda największej wiarygodności (MMLE), głównie ze względu na dostępność oprogramowania. Każda z tych metod ma swoich zwolenników i przeciwników, ale biorąc pod uwagę dokładność i trafność uzyskiwanych oszacowań można traktować te metody jako równoważne. Należy jednak zwrócić uwagę na problemy z porównywalnością oszacowań uzyskanych różnymi metodami) tak, aby maksymalizować dopasowanie, czyli minimalizować różnice między odpowiedziami obserwowanymi i oczekiwanymi. JML – korekta przez L – 1/L gdzie L to liczba pozycji Statystyki dostateczne dla Di i Bn to sumy odpowiedzi odpowiednio po respondentach i po pozycjach Statystyka dostateczna dla Tj to liczba danych kategorii odpowiedzi do liczby wszystkich odpowiedzi (biorąc pod uwagę wszystkie pytania na raz) OSOBY OSOBY

15 Ocena dopasowania (skalowanie porządkowe)
ODPOWIEDZI OBSERWOWANE „ODPOWIEDZI” OCZEKIWANE PYTANIA PYTANIA My tworzymy pewien model, który jest stanem idealnym – a potem sprawdzamy czy nasze dane pasują do niego OSOBY OSOBY

16 OCENA DOPASOWANIA DANYCH DO MODELU
Wskaźniki OUTFIT Wskaźniki INFIT OMS SOMS IMS SIMS Identyfikacja nietypowych pozycji skali i respondentów Liczebność próby IMS, OMS Do 500 >1,3 500 – 1000 >1,2 Powyżej 1000 >1,1 Statystyki dopasowania mówią, czy odpowiedzi na dane pytanie lub odpowiedzi danego respondenta są zgodne z tymi jakie wynikałyby z założeń modelu, za ich pomocą można zidentyfikować źle funkcjonujące pozycje, podejrzane wzory odpowiedzi respondentów, dziwne kombinacje odpowiedzi danego respondenta na daną pozycję, a także pozycje lub respondentów, którzy pasują zbyt dobrze; <-2,2> - nie ma podstaw do odrzucenia H0, że dana pozycja skali nie wprowadza zakłóceń, czyli ma swój poważny wkład do pomiaru danej cechy latentnej; wydaje mi się, że zakłada się tutaj tylko duże próby (> 60) Alfa = 0,05, t(0,05; 60) = 2,0003, im więcej stopni swobody tym ta wartość jest mniejsza, ale nieznacznie – dla +nieskończoności = 1,96 (czyli zgodnie z regułą kciuka 2) Ale dla respondentów to nie tak dokładnie , chyba że kryterium mówi o odchyleniu o dwa odchylenia standardowe O dwa odchylenia standardowe; Te miary nie są jednoznaczne, nie zawsze jest tak, że jeśli spełnione jest kryterium SIMS SOMS poza przedziałem <-2,2> Żródło:Bond T.G., Fox Ch. M., Applying The Rasch Model. Fundamental Measurement in the Human Science, Lawrence Erlbaum Associates, Publishers Mahwah, New Jersey 2001, s.209

17 Ocena rzetelności Współczynnik rzetelności
(person separation reliability) <0,1> gdzie: SD2P – całkowita wariancja oszacowań pozycji respondentów, SA2P – wariancja prawdziwych oszacowań pozycji respondentów, MSEP – średniokwadratowy błąd szacunku. Konstrukcja RP opiera się o oszacowania respondentów (które są wyrażone w logitach, a więc mają charakter interwałowy)

18 Ocena rzetelności Indeks rozłączności „respondentów” (person separation index) Indeks rozłączności aby pozbyć się ograniczenia z góry Jeśli G = 1 to pozycje nie tworzą kontinuum, a raczej tylko dwie grupy, jest ich zbyt mało, albo za bardzo są skupione, nie można takim narzędziem mierzyć cechy latentnej, bo to tak jakby posługiwać się linijką, która na środku nie ma podziałki; Zalecane wartości: GP > 1 (RP na poziomie 0,5) GP > 2 (RP na poziomie 0,8)

19 Ocena trafności Trafność teoretyczna – za pomocą statystyk dopasowania IMS, OMS, SIMS, SOMS; Trafność treściowa – wykorzystując oszacowania intensywności pozycji skali; DIF; Trafność kryterialna (aspekt zbieżny i rozbieżny) – współczynnik korelacji między oszacowaniami pozycji respondentów a kryterium; Trafność teoretyczna – czy narzędzie mierzy to pojęcie, które miało mierzyć Trafność treściowa –zakres, w jakim pozycje skali mierzącej daną właściwość empiryczną są reprezentatywną próbą zachowań odnoszących się właśnie do tej właściwości Trafność kryterialna

20 Ilustracja – klasyczne skalowania Rascha

21 Ilustracja – klasyczne skalowania Rascha
Analizowane dane pochodziły z pilotażowego badania zatytułowanego: Kapitał Intelektualny Lubelszczyzny. Badania potencjału regionu. Badanie przeprowadzono w styczniu 2006r. Miało ono na celu przetestowanie przygotowanych kwestionariuszy ankietowych oraz zweryfikowanie na tyle, na ile to możliwe założonych metod analizy danych. Przebadano 54 mieszkańców 9 gmin regionu. W celu ocenienia stanu posiadania pytano o posiadanie następujących dóbr trwałego użytku: pralka automatyczna, telewizor kolorowy, magnetowid/wideo, kuchenka mikrofalowa, komputer, samochód, telefon, łączność z Internetem;

22 Dobro trwałego użytku IMS SIMS OMS SOMS Kuchenka mikrofalowa 0,93 -0,4 0,71 -0,2 Internet 0,96 0,80 Magnetowid lub wideo 1,18 1,1 1,03 0,1 Samochód 0,9 1,29 0,8 Komputer -0,1 1,16 0,5 Pralka automatyczna 0,72 -0,5 0,15 -0,3 Telewizor kolorowy 0,83 0,0 0,09 0,6 Telefon Średnia 0,95 0,66 0,2 Odchylenie standardowe 0,46 0,4 Rzetelność skali oceniana za pomocą współczynnika rzetelności wyniosła 0,93, przy indeksie rozłączności na poziomie 3,71, co przy tak mało licznej próbie można uznać za wynik bardzo dobry.

23 Źródło: Obliczenia własne.
Tabela 2. Średnie poziomy indeksu dla gmin regionu. Gmina Średni poziom indeksu Skala logitowa Skala Skala LSD Puchaczów 2,620 68,237 15,988 Dęblin 1,106 47,860 12,526 Puławy 2,618 68,214 15,987 Poniatowa 0,775 43,405 11,772 Ryki 2,792 70,547 16,378 Lubartów 2,203 62,629 15,038 Uścimów 2,755 70,054 16,298 Lublin 2,347 64,558 15,365 Chełm 2,557 67,384 15,845 Źródło: Obliczenia własne.

24 Ilustracja – porządkowe skalowanie Rascha

25 Ilustracja – skalowanie porządkowe
Do analizy wykorzystano skalę badającą stosunek do osób starszych złożoną z ośmiu następujących pozycji: A1. Dzięki doświadczeniu są ciągle potrzebni A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia A4. Społeczeństwo powinno brać pod uwagę prawa starszych A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa A7. Starsze osoby stanowią przeszkodę dla zmian A8. Starsze osoby stanowią ciężar dla społeczeństwa Wykorzystane dane pochodziły z badania zatytułowanego: „Badanie poglądów na zagadnienia ludnościowe oraz politykę ludnościową PPA2 (Population Policy Attitudes Survey)” przeprowadzonego w IV kw na części próby BAEL przez Instytut Statystyki i Demografii Szkoły Głównej Handlowej w Warszawie przy współpracy z Głównym Urzędem Statystycznym w ramach projektu „Population Policy Acceptance Study. The Viewpoint of Citizens and Policy Actors regarding the Management of Population Related Change DIALOG” – V Program Ramowy Unii Europejskiej.

26 (r)A7. Starsze osoby stanowią przeszkodę dla zmian
(r)A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa (r)A8. Starsze osoby stanowią ciężar dla społeczeństwa A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia A4. Społeczeństwo powinno brać pod uwagę prawa starszych A1. Dzięki doświadczeniu są ciągle potrzebni A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych

27 STATYSTYKI DOPASOWANIA
POZYCJE SKALI STATYSTYKI DOPASOWANIA IMS SIMS OMS (r)A7. Starsze osoby stanowią przeszkodę dla zmian 0,98 -0,1 0,94 -0,4 (r)A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa 1,14 1,1 1,09 0,7 (r)A8. Starsze osoby stanowią ciężar dla społeczeństwa 1,13 1 1,11 0,9 A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie 0,93 -0,5 0,84 -1,3 A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia 0,82 -1,5 0,81 A4. Społeczeństwo powinno brać pod uwagę prawa starszych 0,78 -1,9 -1,8 A1. Dzięki doświadczeniu są ciągle potrzebni 1,22 1,7 A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych 0,92 -0,6 ŚREDNIA 0,99 0,95 ODCHYLENIE STANDARDOWE 0,15 0,14 1,0

28 Optymalizacja długości skali odpowiedzi - porządkowe skalowanie Rascha

29 Analiza skali odpowiedzi
Przynajmniej 10 obserwacji przypadających na każdą kategorię odpowiedzi Wartości progowe Fk powinny wzrastać wraz ze wzrostem kategorii odpowiedzi o przynajmniej 1 logit i o co najwyżej 5 logitów Wzrost wartości średnich oszacowań respondentów wraz ze wzrostem kategorii odpowiedzi Wartość OMS < 2

30 Wynikające z percepcji respondentów odległości między kategoriami odpowiedzi
1 (zdecydowanie się nie zgadzam) 2 3 4 5 (zdecydowanie się zgadzam) Źródło: Opracowanie własne.

31 Ilustracja – wieloaspektowe skalowanie Rascha

32 Ilustracja – wieloaspektowe skalowanie Rascha
Projekt „Badanie dotyczące wyników egzaminów zewnętrznych” realizowany przez Centralną Komisję Egzaminacyjną w Warszawie Zadanie badawcze: Przygotowanie koncepcji metody zrównywania wyników – badanie wpływu efektu egzaminatora na wynik egzaminu Na użytek badań oraz w celu praktycznego wdrożenia efektów szkolenia egzaminatorom przygotowano do ocenienia przed przystąpieniem do pracy 15 zróżnicowanych ze względu na poziom zestawów rozwiązań zadań otwartych z arkuszy uczniów. Każdy z kilkuset egzaminatorów oceniał prace pięciu uczniów. W trakcie badań poszukiwano odpowiedzi na następujące pytania: Jak wielkie jest zróżnicowanie surowości oceniania pomiędzy poszczególnymi egzaminatorami? Czy wynik zależy od treści zadania i jego schematu oceniania?

33 W badaniu zastosowano wieloczynnikowe skalowanie Rascha
Wieloczynnikowe skalowanie Rascha zakłada, że wynik uzyskiwany przez egzaminowanego jest nie tylko funkcją poziomu jego wiedzy (B) i trudności rozwiązywanego zadania (D), ale również sposobu oceniania zadań przez sędziego/egzaminatora (R). Parametry Fk w modelu odpowiadają punktom przejścia między k-tą i k+1 kategorią punktową.

34 Ocena trudności zadań Di
2 najtrudniejsze zadania: z_21_6 z_21_5 4 najłatwiejsze zadania: z_25_4 z_25_2 z_25_3 z_25_1

35 Tabela 4. Ocena poziomu umiejętności uczniów Bn

36 Rysunek 2. Rezultaty szacowania poziomu umiejętności uczniów, surowości egzaminatorów i trudności zadań

37 Rysunek 6. Rozstęp poziomu surowości egzaminatorów w poszczególnych zespołach

38 Tabela 3. Zbiorcze statystyki oszacowań surowości egzaminatorów
Średnia (w jednostkach logit) -0,0013 Odchylenie standardowe 0,1168 Współczynnik asymetrii 1,244 Wartość minimalna -0,4 Wartość maksymalna 0,74 Typowy obszar zmienności[1] <-0,1181; 0,1155> Obszar obserwacji nietypowych (1)[2] <-0,4; -0,2349) oraz (0,2323; 0,74> Obszar obserwacji nietypowych (2)[3] <-0,4; -0,35170,3526) oraz (0,3491; 0,74> Odsetek obserwacji w obszarze nietypowym (1) 1,3% (17 egzaminatorów) oraz 4,3% (58 egzaminatorów) Odsetek obserwacji w obszarze nietypowym (2) 0,1% (2 egzaminatorów) oraz 1,6% (22 egzaminatorów) [1] typowy obszar zmienności zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o nie więcej niż jedno odchylenie standardowe; [2] obszar obserwacji nietypowych (1) zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o więcej niż dwa odchylenia standardowe; [3] obszar obserwacji nietypowych (2) zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o więcej niż trzy odchylenia standardowe;

39 Wielkość obciążenia (mierzona logitem)
Analiza interakcji egzaminator – uczeń Tabela 14. Rozkład wielkości obciążeń egzaminator-uczeń[1]. Wielkość obciążenia (mierzona logitem) Liczebność Odsetek (%) Uczniowie <-2; -1> 4 12.50 B04 (2), A02 (1), C05 (1) <1; 2> 7 21.88 B01 (3), C01 (3), C03 (1) (2; 3> 18 56.25 A01 (18) (3; 4> 2 6.25 A01 (2) (4; 5> 1 3.13 A01 (1) Ogółem 32 100,0 Obciążenie dodatnie oznacza surowszy proces oceny wymienionych w tabeli 14 uczniów, niż ten, jakie powinni egzaminatorzy przeprowadzać, zgodnie z poziomem surowości charakteryzującym ich, a wynikającym z przeprowadzonego przez nich procesu oceny wszystkich uczniów. [1] liczby w nawiasach ostatniej kolumny tabeli 14 oznaczają krotność występowania stronniczego procesu oceny danego ucznia

40 Tabela 15. Rozkład wielkości obciążeń znaczących w podziale na zadania.
Zadanie Liczba obciążeń ogółem Z_21_1 z_21_2 1 z_21_3 2 z_21_4 10 z_21_5 447 z_21_6 301 z_22_1 3 z_23_1 43 z_24_1 z_25_1 11 z_25_2 357 z_25_3 20 z_25_5 24 z_25_6 85 z_25_8 8 z_25_9 26

41 Zrównywania wyników egzaminów zewnętrznych
Zrównywanie poziome Zrównywanie pionowe

42 Przedstawione przykłady pochodzą z:
1. Węziak Dorota, Ocena jakości skali ze szczególnym uwzględnieniem jej rzetelności i trafności za pomocą skalowania Rascha, „ASK Społeczeństwo Badania Metody”, nr 15/2006, Instytut Filozofii i Socjologii, Polska Akademia Nauk, Warszawa, 2006. 2. Węziak Dorota, Zastosowanie porządkowego skalowania Rascha do optymalizacji długości skali odpowiedzi, [w:] Ilościowe i jakościowe metody badania rynku, Garczarczyk J. (red.), Zeszyty naukowe 71, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań 2006. 3. Węziak Dorota, Zastosowanie wieloczynnikowego skalowania Rascha do porównania sposobu oceniania egzaminatorów, [w:] Holistyczne i analityczne metody diagnostyki edukacyjnej. Perspektywy informatyczne egzaminów szkolnych, Niemierko B., Szyling G. (red.), Fundacja Rozwoju Uniwersytetu Gdańskiego, Gdańsk 2005. 4. Dubiecka Anna, Szaleniec Henryk, Węziak Dorota, Efekt egzaminatora w egzaminach zewnętrznych, [w:] O wyższą jakość egzaminów szkolnych, Niemierko B., Szyling G. (red.), Polskie Towarzystwo Diagnostyki Edukacyjnej, Lublin 2006 5. Węziak Dorota, Indeks stanu posiadania dóbr trwałego użytku przez gospodarstwa domowe w świetle badań kapitału intelektualnego Lubelszczyzny – porównanie skalogramu Guttmana i skalowania Rascha, Wiadomości Statystyczne, nr 1/2007.

43 Dziękuję za uwagę


Pobierz ppt "Skalowanie Rascha - wstęp"

Podobne prezentacje


Reklamy Google