Skalowanie Rascha - wstęp

Slides:



Advertisements
Podobne prezentacje
CAŁA POLSKA CZYTA DZIECIOM – raport Przygotowany dla Fundacji ABC XXI 30 października 2006.
Advertisements

W dalszej części zajęć wyróżniać będziemy następujące
Podczas sprawdzianu badano umiejętności z następujących obszarów:
Analiza wariancji jednoczynnikowa
Skale pomiarowe – BARDZO WAŻNE
Efekty wsparcia udzielonego w latach w ramach działania 2.2 ZPORR w województwie podkarpackim Jowita Siemińska Oddział Nauki Departament Edukacji.
MIARY ZMIENNOŚCI Główne (wywołujące zmienność systematyczną)
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Jacek Liwiński Wydział Nauk Ekonomicznych UW
Statystyka w doświadczalnictwie
Typy zachowań firmy w procesie internacjonalizacji (projekt badawczy)
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
BIOSTATYSTYKA I METODY DOKUMENTACJI
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Festiwal Nauki 2009 Prezentacja wyników badań Autor: Olga Wagner Koordynacja: Kuba Antoszewski.
PRZEDMIOT EWALUACJI SZCZEGÓŁOWE WARUNKI I SPOSOBY OCENIANIA WEWNĄTRZSZKOLNEGO Opracowanie: mgr M. Kwartnik (koordynator), mgr B. Buzdygan, mgr.
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Statystyka szkolna wskaźniki efektywności nauczania
Średnie i miary zmienności
Warszawa, luty 2013 PinkPoland Profil socio-demograficzny witryn erotycznych sieci PinkPoland.
Hipotezy statystyczne
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Jak mierzyć i od czego zależy?
Elementy Rachunku Prawdopodobieństwa i Statystyki
Osiągnięcia uczniów klasy szóstej, którzy przystąpili do sprawdzianu w kwietniu 2010 roku WOJEWÓDZTWO KUJAWSKO-POMORSKIE WOJEWÓDZTWO KUJAWSKO-POMORSKIE.
Pomiar postaw. Zgodność postaw z zachowaniami
„Student jako konsument na rynku multimediów”
Instytut Statystyki i Demografii
Poznań, 16 maja Charakterystyka populacji Liczba szkół Uczniowie, którzy przystąpili do egzaminu Łącznie A1+A4+A5A6A7A8 lubuskie
WYNIKI PRÓBNEGO SPRAWDZIANU W KLASACH VI 27 LISTOPADA 2012R. ILOŚĆ UCZNIÓW W KLASACH VI126 ILOŚĆ UCZNIÓW PISZĄCYCH PRÓBNY SPRAWDZIAN124.
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
Osiągnięcia uczniów klasy szóstej, którzy przystąpili do sprawdzianu w kwietniu 2010 roku WOJEWÓDZTWO POMORSKIE WOJEWÓDZTWO POMORSKIE wrzesień 2010.
Analiza wyników sprawdzianu ‘2013
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Statystyka ©M.
Podstawy statystyki, cz. II
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Różnicowanie się gimnazjów w dużych miastach
Pisanie i modyfikowanie programów, pisanie innowacji i projektów edukacyjnych w edukacji wczesnoszkolnej Joanna Dembowa.
Wstępna analiza egzaminu gimnazjalnego.
EcoCondens Kompakt BBK 7-22 E.
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Sprawozdanie z testu kompetencji klas szóstych październik 2012r.
1 Analiza wyników sprawdzianu ‘2014 Zespół Szkolno-Przedszkolny w Krowiarkach – XI 2014 – XI 2014 Opracował: J. Pierzchała.
Co to jest dystrybuanta?
Dostępność Internetu a wyniki egzaminów próbnych Dr Jacek Stańdo Politechnika Łódzka.
Wnioskowanie statystyczne
STATYSTYKA Pochodzenie nazwy:
Statystyka medyczna Piotr Kozłowski
Elementy geometryczne i relacje
TEST SPRAWDZAJĄCY Z MATEMATYKI dla klasy IV szkoły podstawowej z zakresu FIGURY GEOMETRYCZNE Autor: Justyna Itrych.
EWD gimnazjalne Czym jest metoda edukacyjnej wartości dodanej (EWD)? Efektywność pracy szkoły, przed kilku laty, oceniano jedynie na podstawie wyników.
Statystyczna analiza danych w praktyce
IX Konferencja "Uniwersytet Wirtualny: model, narzędzia, praktyka" Łukasz MULDNER-NIECKOWSKI, Agnieszka ZAGÓRSKA, Maria MANIA, Piotr SZMYD, Jarosław SIKORA.
Statystyczna analiza danych
Statystyczna analiza danych
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Sprawozdanie za rok szkolny 2014/2015. Wyniki ogólne- Egzamin 2015 Język polski Historia i wiedza o społeczeństwie Matematyka Przedmioty przyrodnicze.
Niepewności pomiarów. Błąd pomiaru - różnica między wynikiem pomiaru a wartością mierzonej wielkości fizycznej. Bywa też nazywany błędem bezwzględnym.
Postawy studentów wychowania fizycznego Uniwersytetu Rzeszowskiego wobec zdrowia Dr Jaromir Grymanowski Uniwersytet Rzeszowski Wydział Wychowania Fizycznego.
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Wykorzystywanie wyników sprawdzianu w pracy dydaktycznej
MIARY STATYSTYCZNE Warunki egzaminu.
Zapis prezentacji:

Skalowanie Rascha - wstęp Dorota Węziak Instytut Statystyki i Demografii Zakład Metod Badań Marketingowych Szkoła Główna Handlowa w Warszawie

Obszar zastosowań skalowania Rascha Alternatywa dla skal skumulowanych ocen lub skalogramu Guttmana Stworzenie skali lub indeksu z zestawu pytań/stwierdzeń o odpowiedziach mierzonych na skalach nominalnych lub porządkowych Najpierw jeden wymiar, a potem ustawienie pozycji wzdłuż niego, gdzie oś jest spolaryzowana: mniej - więcej

Obszar zastosowań skalowania Rascha W obszarze badań społecznych i marketingowych Stworzenie narzędzia (skali, indeksu) o właściwościach skali interwałowej – oszacowania respondentów; Diagnostyka skali pomiarowej – sprawdzenie, do jakiego stopnia narzędzie jest wiarygodne; Identyfikacja stwierdzeń, które respondenci rozumieją w różny sposób; Identyfikacja respondentów odpowiadających niespójnie, niedbale, „strzelają”; Sprawdzenie, czy zastosowana skala odpowiedzi ma optymalną długość; Ocena pracy sędziów kompetentnych; Najpierw jeden wymiar, a potem ustawienie pozycji wzdłuż niego, gdzie oś jest spolaryzowana: mniej - więcej

Obszar zastosowań skalowania Rascha W obszarze diagnostyki edukacyjnej: Sprawdzenie, czy trudność egzaminu jest taka sama z roku na rok; Zrównanie wyników egzaminów zewnętrznych w poziomie i w pionie Ocena pracy egzaminatorów zewnętrznych (ocena surowości oceniania oraz ocena stronniczości oceniania) Najpierw jeden wymiar, a potem ustawienie pozycji wzdłuż niego, gdzie oś jest spolaryzowana: mniej - więcej

Założenia skalowania Rascha zestaw stwierdzeń odnosi się do tylko jednej badanej właściwości (jeden konstrukt, jedna cecha latentna); mówi się, że osoby z wysokim wynikiem ogólnym skali są bardziej skłonne do zgadzania się z poszczególnymi stwierdzeniami niż osoby o niższym wyniku ogólnym; jest bardziej prawdopodobne, że respondenci odpowiedzą twierdząco na pytania łatwiejsze do zaakceptowania (o mniejszej intensywności, łatwiejsze) i odwrotnie, taka odpowiedź jest mniej prawdopodobna w przypadku pytań o większej intensywności, trudniejszych; Pytania/stwierdzenia budujące skalę/indeks charakteryzują się zróżnicowaną intensywnością; 1. czy zaakceptowałby Pan osobę innej rasy lub wyznania, gdyby miała stać się członkiem Pańskiej rodziny? 2. czy zaakceptowałby Pan osobę innej rasy lub wyznania ,gdyby zamieszkała w tym samym domu? 3. czy zaakceptowałby Pan osobę innej rasy lub wyznania, gdyby zamieszkała na tej samej ulicy? My tworzymy pewien model, który jest stanem idealnym – a potem sprawdzamy czy nasze dane pasują do niego

Typy skalowania Rascha 1. Klasyczne skalowanie Rascha (Rasch model, Dichotomous Rasch Model, Rasch, 1960) 2. Porządkowe skalowanie Rascha (Rating Scale Model – Andrich, 1978) 3. Wieloaspektowe skalowanie Rascha (many-facets Rasch measurement MFRM– Linacre, 1989) Uzależnienie prawdopodobieństwa udzielenia odpowiedniej odpowiedzi tylko od oceny powiązania respondenta z tematem badania i intensywności danego stwierdzenia; Nie ma żadnych założeń co do rozkładu tych parametrów – jedynie wystandaryzowane reszty powinny mieć rozkład standardowy normalny – jeśli nie mają to jest to wskazówka, że być może nie jest spełnione założenie o jednowymiarowości; Respondenci z tym samym wynikiem ogólnym będą mieć to samo oszacowanie pozycji – ale czy ono jest dobre – to statystyki dopasowania Pyt. Dlaczego podwyższać komuś oszacowanie jeśli dobrze odpowiadał na pytania trudne, a mylił się przy łatwych? A w druga stronę, dlaczego obniżać komuś ocenę, jeśli dobrze odpowiedział na łatwe a źle na trudne? Czy to był przypadek, to statystyki dopasowania  B’ i D’ oszacowania początkowe (dla nich statystyką dostateczną jest suma odpowiedzi) B’ i D’ są estymowane za pomocą metod największej wiarygodności (najczęściej używane są warunkowa metoda największej wiarygodności (CMLE), bezwarunkowa metoda największej wiarygodności (UCON) oraz krańcowa metoda największej wiarygodności (MMLE), głównie ze względu na dostępność oprogramowania. Każda z tych metod ma swoich zwolenników i przeciwników, ale biorąc pod uwagę dokładność i trafność uzyskiwanych oszacowań można traktować te metody jako równoważne. Należy jednak zwrócić uwagę na problemy z porównywalnością oszacowań uzyskanych różnymi metodami) tak, aby maksymalizować dopasowanie, czyli minimalizować różnice między odpowiedziami obserwowanymi i oczekiwanymi. JML – korekta przez L – 1/L gdzie L to liczba pozycji Statystyki dostateczne dla Di i Bn to sumy odpowiedzi odpowiednio po respondentach i po pozycjach Statystyka dostateczna dla Tj to liczba danych kategorii odpowiedzi do liczby wszystkich odpowiedzi (biorąc pod uwagę wszystkie pytania na raz)

Klasyczne skalowanie Rascha (Rasch model) Zastosowanie: bateria pytań/stwierdzeń z dwiema kategoriami odpowiedzi (skala nominalna) gdzie: Pnik – prawdopodobieństwo odpowiedzi twierdzącej na i – tą pozycję skali udzielonej przez n – tego respondenta, Di – oszacowanie intensywności/trudności i – tej pozycji skali, Bn – oszacowanie pozycji/umiejętności n – tego respondenta. Prawdopodobieństwo udzielenia określonego typu odpowiedzi zależy tylko od interakcji między charakterystyką respondenta Bn a charakterystyką pozycji Di; Za pomocą metod iteracyjnych opartych najczęściej na metodzie największej wiarygodności szacuje się prawdopodobieństwo uzyskania konkretnego wzoru odpowiedzi pod warunkiem danej liczby odpowiedzi twierdzących;

Skalowanie Rascha (Rasch model) Bazuje na dwóch typach oszacowań: oszacowanie pozycji respondenta (person location, person ability, person agreeability) (oszacowanie umiejętności, intensywności akceptowania) Bn oszacowanie pozycji skali (item difficulty, item agreeability) (oszacowanie trudności pytania, oszacowanie intensywności stwierdzenia) Di Uzależnienie prawdopodobieństwa udzielenia odpowiedniej odpowiedzi tylko od oceny powiązania respondenta z tematem badania i intensywności danego stwierdzenia; Nie ma żadnych założeń co do rozkładu tych parametrów – jedynie wystandaryzowane reszty powinny mieć rozkład standardowy normalny – jeśli nie mają to jest to wskazówka, że być może nie jest spełnione założenie o jednowymiarowości; Respondenci z tym samym wynikiem ogólnym będą mieć to samo oszacowanie pozycji – ale czy ono jest dobre – to statystyki dopasowania Pyt. Dlaczego podwyższać komuś oszacowanie jeśli dobrze odpowiadał na pytania trudne, a mylił się przy łatwych? A w druga stronę, dlaczego obniżać komuś ocenę, jeśli dobrze odpowiedział na łatwe a źle na trudne? Czy to był przypadek, to statystyki dopasowania  B’ i D’ oszacowania początkowe (dla nich statystyką dostateczną jest suma odpowiedzi) B’ i D’ są estymowane za pomocą metod największej wiarygodności (najczęściej używane są warunkowa metoda największej wiarygodności (CMLE), bezwarunkowa metoda największej wiarygodności (UCON) oraz krańcowa metoda największej wiarygodności (MMLE), głównie ze względu na dostępność oprogramowania. Każda z tych metod ma swoich zwolenników i przeciwników, ale biorąc pod uwagę dokładność i trafność uzyskiwanych oszacowań można traktować te metody jako równoważne. Należy jednak zwrócić uwagę na problemy z porównywalnością oszacowań uzyskanych różnymi metodami) tak, aby maksymalizować dopasowanie, czyli minimalizować różnice między odpowiedziami obserwowanymi i oczekiwanymi. JML – korekta przez L – 1/L gdzie L to liczba pozycji Statystyki dostateczne dla Di i Bn to sumy odpowiedzi odpowiednio po respondentach i po pozycjach Statystyka dostateczna dla Tj to liczba danych kategorii odpowiedzi do liczby wszystkich odpowiedzi (biorąc pod uwagę wszystkie pytania na raz)

Bn – Di > 0 to Pni > 0,5 (A) Bn – Di = 0 to Pni = 0,5 (B) Bn – Di < 0 to Pni < 0,5 (C) A B Uzależnienie prawdopodobieństwa uzyskania danego wyniku od dwóch parametrów, czynników – trudności, intensywności pozycji i umiejętności, stopnia odczuwania respondenta; C

Krzywe charakterystyczne

Forma logitowa Sample-free, dystribution-free – pod warunkiem, że model jest dobry oszacowania skali nie zależą od siebie -

Skalowanie porządkowe gdzie: Pnik – prawdopodobieństwo wyboru k – tej kategorii odpowiedzi na i – tą pozycję skali przez n – tego respondenta, Fk – oszacowanie k – tego progu, Di – oszacowanie intensywności i – tej pozycji, Bn – oszacowanie pozycji n – tego respondenta. Odległości między oszacowaniami progów Fk dla wszystkich stwierdzeń są takie same.

Skalowanie wieloaspektowe gdzie: Pnik – prawdopodobieństwo przyznania przez j-tego egzaminatora k – tej kategorii punktowej za rozwiązanie i – tego zadania przez n – tego egzaminowanego, Fk – oszacowanie k – tego progu, Di – oszacowanie intensywności i – tej pozycji, Bn – oszacowanie pozycji n – tego respondenta, Rj – oszacowanie surowości j – tego egzaminatora.

Ocena dopasowania (skalowanie Rascha) ODPOWIEDZI OBSERWOWANE „ODPOWIEDZI” OCZEKIWANE PYTANIA PYTANIA My tworzymy pewien model, który jest stanem idealnym – a potem sprawdzamy czy nasze dane pasują do niego B’ i D’ oszacowania początkowe (dla nich statystyką dostateczną jest suma odpowiedzi) B’ i D’ są estymowane za pomocą metod największej wiarygodności (najczęściej używane są warunkowa metoda największej wiarygodności (CMLE), bezwarunkowa metoda największej wiarygodności (UCON) oraz krańcowa metoda największej wiarygodności (MMLE), głównie ze względu na dostępność oprogramowania. Każda z tych metod ma swoich zwolenników i przeciwników, ale biorąc pod uwagę dokładność i trafność uzyskiwanych oszacowań można traktować te metody jako równoważne. Należy jednak zwrócić uwagę na problemy z porównywalnością oszacowań uzyskanych różnymi metodami) tak, aby maksymalizować dopasowanie, czyli minimalizować różnice między odpowiedziami obserwowanymi i oczekiwanymi. JML – korekta przez L – 1/L gdzie L to liczba pozycji Statystyki dostateczne dla Di i Bn to sumy odpowiedzi odpowiednio po respondentach i po pozycjach Statystyka dostateczna dla Tj to liczba danych kategorii odpowiedzi do liczby wszystkich odpowiedzi (biorąc pod uwagę wszystkie pytania na raz) OSOBY OSOBY

Ocena dopasowania (skalowanie porządkowe) ODPOWIEDZI OBSERWOWANE „ODPOWIEDZI” OCZEKIWANE PYTANIA PYTANIA My tworzymy pewien model, który jest stanem idealnym – a potem sprawdzamy czy nasze dane pasują do niego OSOBY OSOBY

OCENA DOPASOWANIA DANYCH DO MODELU Wskaźniki OUTFIT Wskaźniki INFIT OMS SOMS IMS SIMS Identyfikacja nietypowych pozycji skali i respondentów Liczebność próby IMS, OMS Do 500 >1,3 500 – 1000 >1,2 Powyżej 1000 >1,1 Statystyki dopasowania mówią, czy odpowiedzi na dane pytanie lub odpowiedzi danego respondenta są zgodne z tymi jakie wynikałyby z założeń modelu, za ich pomocą można zidentyfikować źle funkcjonujące pozycje, podejrzane wzory odpowiedzi respondentów, dziwne kombinacje odpowiedzi danego respondenta na daną pozycję, a także pozycje lub respondentów, którzy pasują zbyt dobrze; <-2,2> - nie ma podstaw do odrzucenia H0, że dana pozycja skali nie wprowadza zakłóceń, czyli ma swój poważny wkład do pomiaru danej cechy latentnej; wydaje mi się, że zakłada się tutaj tylko duże próby (> 60) Alfa = 0,05, t(0,05; 60) = 2,0003, im więcej stopni swobody tym ta wartość jest mniejsza, ale nieznacznie – dla +nieskończoności = 1,96 (czyli zgodnie z regułą kciuka 2) Ale dla respondentów to nie tak dokładnie , chyba że kryterium mówi o odchyleniu o dwa odchylenia standardowe O dwa odchylenia standardowe; Te miary nie są jednoznaczne, nie zawsze jest tak, że jeśli spełnione jest kryterium SIMS SOMS poza przedziałem <-2,2> Żródło:Bond T.G., Fox Ch. M., Applying The Rasch Model. Fundamental Measurement in the Human Science, Lawrence Erlbaum Associates, Publishers Mahwah, New Jersey 2001, s.209

Ocena rzetelności Współczynnik rzetelności (person separation reliability) <0,1> gdzie: SD2P – całkowita wariancja oszacowań pozycji respondentów, SA2P – wariancja prawdziwych oszacowań pozycji respondentów, MSEP – średniokwadratowy błąd szacunku. Konstrukcja RP opiera się o oszacowania respondentów (które są wyrażone w logitach, a więc mają charakter interwałowy)

Ocena rzetelności Indeks rozłączności „respondentów” (person separation index) Indeks rozłączności aby pozbyć się ograniczenia z góry Jeśli G = 1 to pozycje nie tworzą kontinuum, a raczej tylko dwie grupy, jest ich zbyt mało, albo za bardzo są skupione, nie można takim narzędziem mierzyć cechy latentnej, bo to tak jakby posługiwać się linijką, która na środku nie ma podziałki; Zalecane wartości: GP > 1 (RP na poziomie 0,5) GP > 2 (RP na poziomie 0,8)

Ocena trafności Trafność teoretyczna – za pomocą statystyk dopasowania IMS, OMS, SIMS, SOMS; Trafność treściowa – wykorzystując oszacowania intensywności pozycji skali; DIF; Trafność kryterialna (aspekt zbieżny i rozbieżny) – współczynnik korelacji między oszacowaniami pozycji respondentów a kryterium; Trafność teoretyczna – czy narzędzie mierzy to pojęcie, które miało mierzyć Trafność treściowa –zakres, w jakim pozycje skali mierzącej daną właściwość empiryczną są reprezentatywną próbą zachowań odnoszących się właśnie do tej właściwości Trafność kryterialna

Ilustracja – klasyczne skalowania Rascha

Ilustracja – klasyczne skalowania Rascha Analizowane dane pochodziły z pilotażowego badania zatytułowanego: Kapitał Intelektualny Lubelszczyzny. Badania potencjału regionu. Badanie przeprowadzono w styczniu 2006r. Miało ono na celu przetestowanie przygotowanych kwestionariuszy ankietowych oraz zweryfikowanie na tyle, na ile to możliwe założonych metod analizy danych. Przebadano 54 mieszkańców 9 gmin regionu. W celu ocenienia stanu posiadania pytano o posiadanie następujących dóbr trwałego użytku: pralka automatyczna, telewizor kolorowy, magnetowid/wideo, kuchenka mikrofalowa, komputer, samochód, telefon, łączność z Internetem;

Dobro trwałego użytku IMS SIMS OMS SOMS Kuchenka mikrofalowa 0,93 -0,4 0,71 -0,2 Internet 0,96 0,80 Magnetowid lub wideo 1,18 1,1 1,03 0,1 Samochód 0,9 1,29 0,8 Komputer -0,1 1,16 0,5 Pralka automatyczna 0,72 -0,5 0,15 -0,3 Telewizor kolorowy 0,83 0,0 0,09 0,6 Telefon Średnia 0,95 0,66 0,2 Odchylenie standardowe 0,46 0,4 Rzetelność skali oceniana za pomocą współczynnika rzetelności wyniosła 0,93, przy indeksie rozłączności na poziomie 3,71, co przy tak mało licznej próbie można uznać za wynik bardzo dobry.

Źródło: Obliczenia własne. Tabela 2. Średnie poziomy indeksu dla gmin regionu. Gmina Średni poziom indeksu Skala logitowa Skala 0 - 100 Skala LSD Puchaczów 2,620 68,237 15,988 Dęblin 1,106 47,860 12,526 Puławy 2,618 68,214 15,987 Poniatowa 0,775 43,405 11,772 Ryki 2,792 70,547 16,378 Lubartów 2,203 62,629 15,038 Uścimów 2,755 70,054 16,298 Lublin 2,347 64,558 15,365 Chełm 2,557 67,384 15,845 Źródło: Obliczenia własne.

Ilustracja – porządkowe skalowanie Rascha

Ilustracja – skalowanie porządkowe Do analizy wykorzystano skalę badającą stosunek do osób starszych złożoną z ośmiu następujących pozycji: A1. Dzięki doświadczeniu są ciągle potrzebni A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia A4. Społeczeństwo powinno brać pod uwagę prawa starszych A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa A7. Starsze osoby stanowią przeszkodę dla zmian A8. Starsze osoby stanowią ciężar dla społeczeństwa Wykorzystane dane pochodziły z badania zatytułowanego: „Badanie poglądów na zagadnienia ludnościowe oraz politykę ludnościową PPA2 (Population Policy Attitudes Survey)” przeprowadzonego w IV kw. 2001 na części próby BAEL przez Instytut Statystyki i Demografii Szkoły Głównej Handlowej w Warszawie przy współpracy z Głównym Urzędem Statystycznym w ramach projektu „Population Policy Acceptance Study. The Viewpoint of Citizens and Policy Actors regarding the Management of Population Related Change DIALOG” – V Program Ramowy Unii Europejskiej.

(r)A7. Starsze osoby stanowią przeszkodę dla zmian (r)A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa (r)A8. Starsze osoby stanowią ciężar dla społeczeństwa A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia A4. Społeczeństwo powinno brać pod uwagę prawa starszych A1. Dzięki doświadczeniu są ciągle potrzebni A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych

STATYSTYKI DOPASOWANIA POZYCJE SKALI STATYSTYKI DOPASOWANIA IMS SIMS OMS (r)A7. Starsze osoby stanowią przeszkodę dla zmian 0,98 -0,1 0,94 -0,4 (r)A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa 1,14 1,1 1,09 0,7 (r)A8. Starsze osoby stanowią ciężar dla społeczeństwa 1,13 1 1,11 0,9 A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie 0,93 -0,5 0,84 -1,3 A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia 0,82 -1,5 0,81 A4. Społeczeństwo powinno brać pod uwagę prawa starszych 0,78 -1,9 -1,8 A1. Dzięki doświadczeniu są ciągle potrzebni 1,22 1,7 A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych 0,92 -0,6 ŚREDNIA 0,99 0,95 ODCHYLENIE STANDARDOWE 0,15 0,14 1,0

Optymalizacja długości skali odpowiedzi - porządkowe skalowanie Rascha

Analiza skali odpowiedzi Przynajmniej 10 obserwacji przypadających na każdą kategorię odpowiedzi Wartości progowe Fk powinny wzrastać wraz ze wzrostem kategorii odpowiedzi o przynajmniej 1 logit i o co najwyżej 5 logitów Wzrost wartości średnich oszacowań respondentów wraz ze wzrostem kategorii odpowiedzi Wartość OMS < 2

Wynikające z percepcji respondentów odległości między kategoriami odpowiedzi 1 (zdecydowanie się nie zgadzam) 2 3 4 5 (zdecydowanie się zgadzam) Źródło: Opracowanie własne.

Ilustracja – wieloaspektowe skalowanie Rascha

Ilustracja – wieloaspektowe skalowanie Rascha Projekt „Badanie dotyczące wyników egzaminów zewnętrznych” realizowany przez Centralną Komisję Egzaminacyjną w Warszawie Zadanie badawcze: Przygotowanie koncepcji metody zrównywania wyników – badanie wpływu efektu egzaminatora na wynik egzaminu Na użytek badań oraz w celu praktycznego wdrożenia efektów szkolenia egzaminatorom przygotowano do ocenienia przed przystąpieniem do pracy 15 zróżnicowanych ze względu na poziom zestawów rozwiązań zadań otwartych z arkuszy uczniów. Każdy z kilkuset egzaminatorów oceniał prace pięciu uczniów. W trakcie badań poszukiwano odpowiedzi na następujące pytania: Jak wielkie jest zróżnicowanie surowości oceniania pomiędzy poszczególnymi egzaminatorami? Czy wynik zależy od treści zadania i jego schematu oceniania?

W badaniu zastosowano wieloczynnikowe skalowanie Rascha Wieloczynnikowe skalowanie Rascha zakłada, że wynik uzyskiwany przez egzaminowanego jest nie tylko funkcją poziomu jego wiedzy (B) i trudności rozwiązywanego zadania (D), ale również sposobu oceniania zadań przez sędziego/egzaminatora (R). Parametry Fk w modelu odpowiadają punktom przejścia między k-tą i k+1 kategorią punktową.

Ocena trudności zadań Di 2 najtrudniejsze zadania: z_21_6 z_21_5 4 najłatwiejsze zadania: z_25_4 z_25_2 z_25_3 z_25_1

Tabela 4. Ocena poziomu umiejętności uczniów Bn

Rysunek 2. Rezultaty szacowania poziomu umiejętności uczniów, surowości egzaminatorów i trudności zadań

Rysunek 6. Rozstęp poziomu surowości egzaminatorów w poszczególnych zespołach

Tabela 3. Zbiorcze statystyki oszacowań surowości egzaminatorów Średnia (w jednostkach logit) -0,0013 Odchylenie standardowe 0,1168 Współczynnik asymetrii 1,244 Wartość minimalna -0,4 Wartość maksymalna 0,74 Typowy obszar zmienności[1] <-0,1181; 0,1155> Obszar obserwacji nietypowych (1)[2] <-0,4; -0,2349) oraz (0,2323; 0,74> Obszar obserwacji nietypowych (2)[3] <-0,4; -0,35170,3526) oraz (0,3491; 0,74> Odsetek obserwacji w obszarze nietypowym (1) 1,3% (17 egzaminatorów) oraz 4,3% (58 egzaminatorów) Odsetek obserwacji w obszarze nietypowym (2) 0,1% (2 egzaminatorów) oraz 1,6% (22 egzaminatorów) [1] typowy obszar zmienności zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o nie więcej niż jedno odchylenie standardowe; [2] obszar obserwacji nietypowych (1) zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o więcej niż dwa odchylenia standardowe; [3] obszar obserwacji nietypowych (2) zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o więcej niż trzy odchylenia standardowe;

Wielkość obciążenia (mierzona logitem) Analiza interakcji egzaminator – uczeń Tabela 14. Rozkład wielkości obciążeń egzaminator-uczeń[1]. Wielkość obciążenia (mierzona logitem) Liczebność Odsetek (%) Uczniowie <-2; -1> 4 12.50 B04 (2), A02 (1), C05 (1) <1; 2> 7 21.88 B01 (3), C01 (3), C03 (1) (2; 3> 18 56.25 A01 (18) (3; 4> 2 6.25 A01 (2) (4; 5> 1 3.13 A01 (1) Ogółem 32 100,0 Obciążenie dodatnie oznacza surowszy proces oceny wymienionych w tabeli 14 uczniów, niż ten, jakie powinni egzaminatorzy przeprowadzać, zgodnie z poziomem surowości charakteryzującym ich, a wynikającym z przeprowadzonego przez nich procesu oceny wszystkich uczniów. [1] liczby w nawiasach ostatniej kolumny tabeli 14 oznaczają krotność występowania stronniczego procesu oceny danego ucznia

Tabela 15. Rozkład wielkości obciążeń znaczących w podziale na zadania. Zadanie Liczba obciążeń ogółem Z_21_1 z_21_2 1 z_21_3 2 z_21_4 10 z_21_5 447 z_21_6 301 z_22_1 3 z_23_1 43 z_24_1 z_25_1 11 z_25_2 357 z_25_3 20 z_25_5 24 z_25_6 85 z_25_8 8 z_25_9 26

Zrównywania wyników egzaminów zewnętrznych Zrównywanie poziome Zrównywanie pionowe

Przedstawione przykłady pochodzą z: 1. Węziak Dorota, Ocena jakości skali ze szczególnym uwzględnieniem jej rzetelności i trafności za pomocą skalowania Rascha, „ASK Społeczeństwo Badania Metody”, nr 15/2006, Instytut Filozofii i Socjologii, Polska Akademia Nauk, Warszawa, 2006. 2. Węziak Dorota, Zastosowanie porządkowego skalowania Rascha do optymalizacji długości skali odpowiedzi, [w:] Ilościowe i jakościowe metody badania rynku, Garczarczyk J. (red.), Zeszyty naukowe 71, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań 2006. 3. Węziak Dorota, Zastosowanie wieloczynnikowego skalowania Rascha do porównania sposobu oceniania egzaminatorów, [w:] Holistyczne i analityczne metody diagnostyki edukacyjnej. Perspektywy informatyczne egzaminów szkolnych, Niemierko B., Szyling G. (red.), Fundacja Rozwoju Uniwersytetu Gdańskiego, Gdańsk 2005. 4. Dubiecka Anna, Szaleniec Henryk, Węziak Dorota, Efekt egzaminatora w egzaminach zewnętrznych, [w:] O wyższą jakość egzaminów szkolnych, Niemierko B., Szyling G. (red.), Polskie Towarzystwo Diagnostyki Edukacyjnej, Lublin 2006 5. Węziak Dorota, Indeks stanu posiadania dóbr trwałego użytku przez gospodarstwa domowe w świetle badań kapitału intelektualnego Lubelszczyzny – porównanie skalogramu Guttmana i skalowania Rascha, Wiadomości Statystyczne, nr 1/2007.

Dziękuję za uwagę