Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Skalowanie Rascha - wstęp Dorota Węziak Instytut Statystyki i Demografii Zakład Metod Badań Marketingowych Szkoła Główna Handlowa w Warszawie.

Podobne prezentacje


Prezentacja na temat: "Skalowanie Rascha - wstęp Dorota Węziak Instytut Statystyki i Demografii Zakład Metod Badań Marketingowych Szkoła Główna Handlowa w Warszawie."— Zapis prezentacji:

1 Skalowanie Rascha - wstęp Dorota Węziak Instytut Statystyki i Demografii Zakład Metod Badań Marketingowych Szkoła Główna Handlowa w Warszawie

2 Obszar zastosowań skalowania Rascha Alternatywa dla skal skumulowanych ocen lub skalogramu Guttmana Stworzenie skali lub indeksu z zestawu pytań/stwierdzeń o odpowiedziach mierzonych na skalach nominalnych lub porządkowych

3 Obszar zastosowań skalowania Rascha W obszarze badań społecznych i marketingowych Stworzenie narzędzia (skali, indeksu) o właściwościach skali interwałowej – oszacowania respondentów; Diagnostyka skali pomiarowej – sprawdzenie, do jakiego stopnia narzędzie jest wiarygodne; Identyfikacja stwierdzeń, które respondenci rozumieją w różny sposób; Identyfikacja respondentów odpowiadających niespójnie, niedbale, strzelają; Sprawdzenie, czy zastosowana skala odpowiedzi ma optymalną długość; Ocena pracy sędziów kompetentnych;

4 Obszar zastosowań skalowania Rascha W obszarze diagnostyki edukacyjnej: 1.Sprawdzenie, czy trudność egzaminu jest taka sama z roku na rok; 2.Zrównanie wyników egzaminów zewnętrznych w poziomie i w pionie 3.Ocena pracy egzaminatorów zewnętrznych (ocena surowości oceniania oraz ocena stronniczości oceniania)

5 Założenia skalowania Rascha zestaw stwierdzeń odnosi się do tylko jednej badanej właściwości (jeden konstrukt, jedna cecha latentna); mówi się, że osoby z wysokim wynikiem ogólnym skali są bardziej skłonne do zgadzania się z poszczególnymi stwierdzeniami niż osoby o niższym wyniku ogólnym; jest bardziej prawdopodobne, że respondenci odpowiedzą twierdząco na pytania łatwiejsze do zaakceptowania (o mniejszej intensywności, łatwiejsze) i odwrotnie, taka odpowiedź jest mniej prawdopodobna w przypadku pytań o większej intensywności, trudniejszych; Pytania/stwierdzenia budujące skalę/indeks charakteryzują się zróżnicowaną intensywnością; 1. czy zaakceptowałby Pan osobę innej rasy lub wyznania, gdyby miała stać się członkiem Pańskiej rodziny? 2. czy zaakceptowałby Pan osobę innej rasy lub wyznania,gdyby zamieszkała w tym samym domu? 3. czy zaakceptowałby Pan osobę innej rasy lub wyznania, gdyby zamieszkała na tej samej ulicy?

6 Typy skalowania Rascha 1. Klasyczne skalowanie Rascha (Rasch model, Dichotomous Rasch Model, Rasch, 1960) 2. Porządkowe skalowanie Rascha (Rating Scale Model – Andrich, 1978) 3. Wieloaspektowe skalowanie Rascha (many-facets Rasch measurement MFRM– Linacre, 1989)

7 Zastosowanie: bateria pytań/stwierdzeń z dwiema kategoriami odpowiedzi (skala nominalna) Klasyczne skalowanie Rascha (Rasch model) Za pomocą metod iteracyjnych opartych najczęściej na metodzie największej wiarygodności szacuje się prawdopodobieństwo uzyskania konkretnego wzoru odpowiedzi pod warunkiem danej liczby odpowiedzi twierdzących; Prawdopodobieństwo udzielenia określonego typu odpowiedzi zależy tylko od interakcji między charakterystyką respondenta B n a charakterystyką pozycji D i ; gdzie: P nik – prawdopodobieństwo odpowiedzi twierdzącej na i – tą pozycję skali udzielonej przez n – tego respondenta, D i – oszacowanie intensywności/trudności i – tej pozycji skali, B n – oszacowanie pozycji/umiejętności n – tego respondenta.

8 Skalowanie Rascha (Rasch model) Bazuje na dwóch typach oszacowań: 1.oszacowanie pozycji respondenta (person location, person ability, person agreeability) (oszacowanie umiejętności, intensywności akceptowania) B n 2.oszacowanie pozycji skali (item difficulty, item agreeability) (oszacowanie trudności pytania, oszacowanie intensywności stwierdzenia) D i

9 C A B n – D i > 0 to P ni > 0,5 (A) B n – D i = 0 to P ni = 0,5 (B) B n – D i < 0 to P ni < 0,5 (C) B

10 Krzywe charakterystyczne

11 Forma logitowa

12 Skalowanie porządkowe gdzie: P nik – prawdopodobieństwo wyboru k – tej kategorii odpowiedzi na i – tą pozycję skali przez n – tego respondenta, F k – oszacowanie k – tego progu, D i – oszacowanie intensywności i – tej pozycji, B n – oszacowanie pozycji n – tego respondenta. Odległości między oszacowaniami progów F k dla wszystkich stwierdzeń są takie same.

13 Skalowanie wieloaspektowe gdzie: P nik – prawdopodobieństwo przyznania przez j-tego egzaminatora k – tej kategorii punktowej za rozwiązanie i – tego zadania przez n – tego egzaminowanego, F k – oszacowanie k – tego progu, D i – oszacowanie intensywności i – tej pozycji, B n – oszacowanie pozycji n – tego respondenta, R j – oszacowanie surowości j – tego egzaminatora.

14 ODPOWIEDZI OBSERWOWANE ODPOWIEDZI OCZEKIWANE PYTANIA OSOBYOSOBY OSOBYOSOBY Ocena dopasowania (skalowanie Rascha)

15 ODPOWIEDZI OBSERWOWANE ODPOWIEDZI OCZEKIWANE PYTANIA OSOBYOSOBY OSOBYOSOBY Ocena dopasowania (skalowanie porządkowe) PYTANIA

16 OCENA DOPASOWANIA DANYCH DO MODELU Liczebność próby IMS, OMS Do 500 >1,3 500 – 1000 >1,2 Powyżej 1000 >1,1 Wskaźniki OUTFITWskaźniki INFIT OMS SOMS IMS SIMS Żródło:Bond T.G., Fox Ch. M., Applying The Rasch Model. Fundamental Measurement in the Human Science, Lawrence Erlbaum Associates, Publishers Mahwah, New Jersey 2001, s.209SIMSSOMS poza przedziałem poza przedziałem Identyfikacja nietypowych pozycji skali i respondentów

17 Ocena rzetelności Współczynnik rzetelności (person separation reliability) (person separation reliability) gdzie: SD 2 P – całkowita wariancja oszacowań pozycji respondentów, SA 2 P – wariancja prawdziwych oszacowań pozycji respondentów, MSE P – średniokwadratowy błąd szacunku.

18 Ocena rzetelności Indeks rozłączności respondentów (person separation index) Zalecane wartości: G P > 1 (R P na poziomie 0,5) G P > 2 (R P na poziomie 0,8)

19 Ocena trafności Trafność teoretyczna – za pomocą statystyk dopasowania IMS, OMS, SIMS, SOMS; Trafność treściowa – wykorzystując oszacowania intensywności pozycji skali; DIF; Trafność kryterialna (aspekt zbieżny i rozbieżny) – współczynnik korelacji między oszacowaniami pozycji respondentów a kryterium;

20 Ilustracja – klasyczne skalowania Rascha

21 Analizowane dane pochodziły z pilotażowego badania zatytułowanego: Kapitał Intelektualny Lubelszczyzny. Badania potencjału regionu. Badanie przeprowadzono w styczniu 2006r. Miało ono na celu przetestowanie przygotowanych kwestionariuszy ankietowych oraz zweryfikowanie na tyle, na ile to możliwe założonych metod analizy danych. Przebadano 54 mieszkańców 9 gmin regionu. W celu ocenienia stanu posiadania pytano o posiadanie następujących dóbr trwałego użytku: pralka automatyczna, telewizor kolorowy, magnetowid/wideo, kuchenka mikrofalowa, komputer, samochód, telefon, łączność z Internetem;

22 Dobro trwałego użytku IMSSIMSOMSSOMS Kuchenka mikrofalowa0,93-0,40,71-0,2 Internet0,96-0,20,80-0,2 Magnetowid lub wideo1,181,11,030,1 Samochód1,180,91,290,8 Komputer0,96-0,11,160,5 Pralka automatyczna0,72-0,50,15-0,3 Telewizor kolorowy0,830,00,090,6 Telefon0,830,00,090,6 Średnia0,950,10,660,2 Odchylenie standardowe0,150,60,460,4 Rzetelność skali oceniana za pomocą współczynnika rzetelności wyniosła 0,93, przy indeksie rozłączności na poziomie 3,71, co przy tak mało licznej próbie można uznać za wynik bardzo dobry.

23 Tabela 2. Średnie poziomy indeksu dla gmin regionu. Gmina Średni poziom indeksu Skala logitowaSkala Skala LSD Puchaczów 2,62068,23715,988 Dęblin 1,10647,86012,526 Puławy 2,61868,21415,987 Poniatowa 0,77543,40511,772 Ryki 2,79270,54716,378 Lubartów 2,20362,62915,038 Uścimów 2,75570,05416,298 Lublin 2,34764,55815,365 Chełm 2,55767,38415,845 Źródło: Obliczenia własne.

24 Ilustracja – porządkowe skalowanie Rascha

25 Ilustracja – skalowanie porządkowe Do analizy wykorzystano skalę badającą stosunek do osób starszych złożoną z ośmiu następujących pozycji: A1. Dzięki doświadczeniu są ciągle potrzebni A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia A4. Społeczeństwo powinno brać pod uwagę prawa starszych A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa A7. Starsze osoby stanowią przeszkodę dla zmian A8. Starsze osoby stanowią ciężar dla społeczeństwa Wykorzystane dane pochodziły z badania zatytułowanego: Badanie poglądów na zagadnienia ludnościowe oraz politykę ludnościową PPA2 (Population Policy Attitudes Survey) przeprowadzonego w IV kw na części próby BAEL przez Instytut Statystyki i Demografii Szkoły Głównej Handlowej w Warszawie przy współpracy z Głównym Urzędem Statystycznym w ramach projektu Population Policy Acceptance Study. The Viewpoint of Citizens and Policy Actors regarding the Management of Population Related Change DIALOG – V Program Ramowy Unii Europejskiej.

26 (r)A7. Starsze osoby stanowią przeszkodę dla zmian (r)A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa (r)A8. Starsze osoby stanowią ciężar dla społeczeństwa A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia A4. Społeczeństwo powinno brać pod uwagę prawa starszych A1. Dzięki doświadczeniu są ciągle potrzebni A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych

27 POZYCJE SKALI STATYSTYKI DOPASOWANIA IMSSIMSOMSSIMS (r)A7. Starsze osoby stanowią przeszkodę dla zmian 0,98-0,10,94-0,4 (r)A6. Osoby starsze są nieproduktywne i tylko stanowią obciążenie dla społeczeństwa 1,141,11,090,7 (r)A8. Starsze osoby stanowią ciężar dla społeczeństwa 1,1311,110,9 A2. Gwarantują zachowanie tradycyjnych wartości w społeczeństwie 0,93-0,50,84-1,3 A3. Młodsze generacje mogą korzystać z ich obecności, wiedzy, doświadczenia 0,82-1,50,81-1,5 A4. Społeczeństwo powinno brać pod uwagę prawa starszych 0,78-1,90,78-1,8 A1. Dzięki doświadczeniu są ciągle potrzebni 1,221,71,141,1 A5. Społeczeństwo powinno brać pod uwagę problemy osób starszych 0,93-0,50,92-0,6 ŚREDNIA0,99-0,10,95-0,4 ODCHYLENIE STANDARDOWE0,151,220,141,0

28 Optymalizacja długości skali odpowiedzi - porządkowe skalowanie Rascha

29 Analiza skali odpowiedzi Przynajmniej 10 obserwacji przypadających na każdą kategorię odpowiedzi Wzrost wartości średnich oszacowań respondentów wraz ze wzrostem kategorii odpowiedzi Wartości progowe F k powinny wzrastać wraz ze wzrostem kategorii odpowiedzi o przynajmniej 1 logit i o co najwyżej 5 logitów Wartość OMS < 2

30 Źródło: Opracowanie własne. Wynikające z percepcji respondentów odległości między kategoriami odpowiedzi 1 (zdecydowanie się nie zgadzam) (zdecydowanie się zgadzam)

31 Ilustracja – wieloaspektowe skalowanie Rascha

32 Projekt Badanie dotyczące wyników egzaminów zewnętrznych realizowany przez Centralną Komisję Egzaminacyjną w Warszawie Zadanie badawcze: Przygotowanie koncepcji metody zrównywania wyników – badanie wpływu efektu egzaminatora na wynik egzaminu Na użytek badań oraz w celu praktycznego wdrożenia efektów szkolenia egzaminatorom przygotowano do ocenienia przed przystąpieniem do pracy 15 zróżnicowanych ze względu na poziom zestawów rozwiązań zadań otwartych z arkuszy uczniów. Każdy z kilkuset egzaminatorów oceniał prace pięciu uczniów. W trakcie badań poszukiwano odpowiedzi na następujące pytania: Jak wielkie jest zróżnicowanie surowości oceniania pomiędzy poszczególnymi egzaminatorami? Czy wynik zależy od treści zadania i jego schematu oceniania?

33 W badaniu zastosowano wieloczynnikowe skalowanie Rascha Wieloczynnikowe skalowanie Rascha zakłada, że wynik uzyskiwany przez egzaminowanego jest nie tylko funkcją poziomu jego wiedzy (B) i trudności rozwiązywanego zadania (D), ale również sposobu oceniania zadań przez sędziego/egzaminatora (R). Parametry F k w modelu odpowiadają punktom przejścia między k-tą i k+1 kategorią punktową.

34 4 najłatwiejsze zadania: z_25_4 z_25_2 z_25_3 z_25_1 2 najtrudniejsze zadania: z_21_6 z_21_5 Ocena trudności zadań D i

35 A01 C01 B01 A02 Tabela 4. Ocena poziomu umiejętności uczniów B n

36 Rysunek 2. Rezultaty szacowania poziomu umiejętności uczniów, surowości egzaminatorów i trudności zadań

37 Rysunek 6. Rozstęp poziomu surowości egzaminatorów w poszczególnych zespołach

38 Tabela 3. Zbiorcze statystyki oszacowań surowości egzaminatorów Średnia (w jednostkach logit)-0,0013 Odchylenie standardowe0,1168 Współczynnik asymetrii1,244 Wartość minimalna-0,4 Wartość maksymalna0,74 Typowy obszar zmienności[1][1] Obszar obserwacji nietypowych (1)[2][2] Obszar obserwacji nietypowych (2)[3][3] Odsetek obserwacji w obszarze nietypowym (1) 1,3% (17 egzaminatorów) oraz 4,3% (58 egzaminatorów) Odsetek obserwacji w obszarze nietypowym (2) 0,1% (2 egzaminatorów) oraz 1,6% (22 egzaminatorów) [1][1] typowy obszar zmienności zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o nie więcej niż jedno odchylenie standardowe; [2][2] obszar obserwacji nietypowych (1) zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o więcej niż dwa odchylenia standardowe; [3][3] obszar obserwacji nietypowych (2) zdefiniowano jako obszar zawierający wyniki odchylające się od średniej o więcej niż trzy odchylenia standardowe;

39 Analiza interakcji egzaminator – uczeń Tabela 14. Rozkład wielkości obciążeń egzaminator-uczeń[1].[1] Wielkość obciążenia (mierzona logitem) LiczebnośćOdsetek (%)Uczniowie B04 (2), A02 (1), C05 (1) B01 (3), C01 (3), C03 (1) (2; 3> A01 (18) (3; 4>26.25A01 (2) (4; 5>13.13A01 (1) Ogółem32100,0 [1][1] liczby w nawiasach ostatniej kolumny tabeli 14 oznaczają krotność występowania stronniczego procesu oceny danego ucznia Obciążenie dodatnie oznacza surowszy proces oceny wymienionych w tabeli 14 uczniów, niż ten, jakie powinni egzaminatorzy przeprowadzać, zgodnie z poziomem surowości charakteryzującym ich, a wynikającym z przeprowadzonego przez nich procesu oceny wszystkich uczniów.

40 Tabela 15. Rozkład wielkości obciążeń znaczących w podziale na zadania. Zadanie Liczba obciążeń ogółem Z_21_10 z_21_21 z_21_32 z_21_410 z_21_5447 z_21_6301 z_22_13 z_23_143 z_24_11 z_25_111 z_25_2357 z_25_320 z_25_524 z_25_685 z_25_88 z_25_926

41 Zrównywania wyników egzaminów zewnętrznych Zrównywanie poziome Zrównywanie pionowe

42 1. Węziak Dorota, Ocena jakości skali ze szczególnym uwzględnieniem jej rzetelności i trafności za pomocą skalowania Rascha, ASK Społeczeństwo Badania Metody, nr 15/2006, Instytut Filozofii i Socjologii, Polska Akademia Nauk, Warszawa, Węziak Dorota, Zastosowanie porządkowego skalowania Rascha do optymalizacji długości skali odpowiedzi, [w:] Ilościowe i jakościowe metody badania rynku, Garczarczyk J. (red.), Zeszyty naukowe 71, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań Węziak Dorota, Zastosowanie wieloczynnikowego skalowania Rascha do porównania sposobu oceniania egzaminatorów, [w:] Holistyczne i analityczne metody diagnostyki edukacyjnej. Perspektywy informatyczne egzaminów szkolnych, Niemierko B., Szyling G. (red.), Fundacja Rozwoju Uniwersytetu Gdańskiego, Gdańsk Dubiecka Anna, Szaleniec Henryk, Węziak Dorota, Efekt egzaminatora w egzaminach zewnętrznych, [w:] O wyższą jakość egzaminów szkolnych, Niemierko B., Szyling G. (red.), Polskie Towarzystwo Diagnostyki Edukacyjnej, Lublin Węziak Dorota, Indeks stanu posiadania dóbr trwałego użytku przez gospodarstwa domowe w świetle badań kapitału intelektualnego Lubelszczyzny – porównanie skalogramu Guttmana i skalowania Rascha, Wiadomości Statystyczne, nr 1/2007. Przedstawione przykłady pochodzą z:

43 Dziękuję za uwagę


Pobierz ppt "Skalowanie Rascha - wstęp Dorota Węziak Instytut Statystyki i Demografii Zakład Metod Badań Marketingowych Szkoła Główna Handlowa w Warszawie."

Podobne prezentacje


Reklamy Google