Skalowanie jednowymiarowe Wprowadzenie
Intro
Skalowanie Skalowalność Wymiarowość Wskaźniki niezbędne Zmienne obserwowalne i ukryte Poziom pomiaru – typy zmiennych Pomiar a skalowanie Skalowanie Skalowalność Wymiarowość Wskaźniki niezbędne Własności wskaźników Algorytm skalowania Wynik skalowania
Pomiar Pomiarem w sensie klasycznym jest operacją polegającą na wykazaniu, że istnieje reguła, według której można przedmiotom przypisać liczby w taki sposób, aby na podstawie liczb przypisanych obiektom można było orzekać o zachodzeniu relacji empirycznych między nimi (oraz) ustaleniu na ile to przyporządkowanie jest jednoznaczne, w jakim stopniu można modyfikować przypisane obiektom liczby bez utraty informacji o własnościach obiektów, którą zawierają, a więc czy istnieje wiele równoważnych sposobów tego przyporządkowania Mierzenie jest zatem operacją polegającą na dowodzeniu twierdzeń. Aby pokazać, o czym wypowiadają się twierdzenia i na czym polega ich dowodzenie, problem pomiaru trzeba sformułować formalnie
Pomiar to reprezentowanie fizycznych własności obiektów przez liczby E = , E1, E2, …, Ek = {1 , 2 , …., n } – zbiór obiektów empirycznych Empiryczny system relacyjny E1, E2, …, Ek - relacje między obiektami empirycznymi = , R1, R2, …, Rk - zbiór liczb, podzbiór zbioru liczb rzeczywistych Liczzbowy system relacyjny R1, R2, …, Rk - relacje między liczbami Fukcja pomiarowa f ustala odpowiedniość między empirycznymi i liczbowym systemem relacyjnym f : E każdemu obiektowi empirycznemu I przyporządkowuje liczbę f(I) f() każdej empirycznej relacji E1, E2, …, Ek przyporządkowuje relację liczbową R1, R2, …, Rk: f(Ei) = Ri relacjom empirycznym między obiektami odpowiadają relacje między przyporządkowanymi im liczbami iEkj f(i)Rk(j), gdzie Rk= f(Ek)
Reprezentacyjna koncepcja pomiaru (Stevens, 1946) Empiryczny system relacyjny N1 ={3, 5, 7} liczby 3 < 5 < 7 relacja mniejszości Dwa liczbowe systemy relacyjne 1 2 3 2 = N2 , < = {1, 2 , 3} obiekty empiryczne N2 ={¼, ⅓, ⅞} 1 2 3 1 liczby ¼ < ⅓ < ⅞ relacja mniejszości Jakie przekształcenie przeprowadza 1 w 2 ? empiryczna relacja bycia mniejszym 1 2 2 3 Relacje empiryczne trzeba ustalić praktycznie Relacje między sytemami liczbowymi mają charakter formalny
Funkcja pomiarowa. Na ile sposobów można zmierzyć własności tych samych obiektów? f1 : E 1 f1(1) = 3 f1(2) = 5 f1(3) = 7 f1() = N1 ={3, 5, 7} 1 2 3 < 5 1 2 3 1 2 3 5 < 7 f2 : E 2 f2(1) = ¼ f2(2) = ⅓ f2(3) = ⅞ E = , f2() = N2 ={¼, ⅓, ⅞} 1 2 ¼ < ⅓ 2 3 ⅓ < ⅞ Jeden empiryczny system relacyjny – dwie funkcje pomiarowe. Co je łączy?
Dwa problemy klasycznej teorii pomiaru Problem istnienia Jakie formalne cechy musi mieć empiryczny system relacyjny, aby istniała dla niego funkcja pomiarowa Problem jednoznaczności Jeśli dla danego empirycznego systemu relacyjnego istnieje funkcja pomiarowa, to co można zrobić z jej wartościami aby nie utracić informacji o własnościach obiektów Roziązanie obu problemów polegaja na udowodzeniu twierdzeń Twierdzenia dotyczą formalnych własności empirycznego systemu relacyjnego E = , Jeśli relacja jest asymetryczna, spójna i przechodnia w , to istnieje funkcja pomiarowa f : E , gdzie = , <, taka, że: i j f(i) < f(j), Każdą rosnąca funkcja funkcji f jest również funkcją pomiarową: f(i) < f(j) g(f(i)) < g(f(j))
Empiryczny system relacyjny Opis systemu relacyjnego Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych Empiryczny system relacyjny Opis systemu relacyjnego Przykłady E = , klasyfikacja brak uporządkowania kategorii, brak jednostki pomiaru płeć, wyznanie, stan cywilny rasa E = , , klasyfikacja, porządek na klasach umożliwia uporządkowanie kategorii brak punktu zerowego i jednostki pomiaru poziom wykształcenia, skala twardości minerałów Mohsa, większość skal ocen i postaw E = , , , , różnica, porządek na różnicach umożliwia porównywanie różnic określone arbitralnie: punkt zerowy i jednostka pomiaru temperatura w stopniach Celsjusza, data kalendarzowa, użyteczność, skala twardości metali Brinella E = , , , , , składanie obiektów umożliwia porównywanie stosunków określony jednoznacznie punkt zerowy, arbitralna jednostka pomiaru staż pracy, wysokość zarobków, wzrost w cm
Empiryczny system relacyjny Własności funkcji pomiarowej Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych Empiryczny system relacyjny Własności relacji Własności funkcji pomiarowej E = , i j j i i j f(i) = f (j) E = , , j.w. oraz i j (j i) (i j j k) i k i j f (i) < f (j) E = , , , , j.w. oraz jest słabym porządkiem na parach obiektów ij , km : ij = (i, j), km = (k, m) ij km f (i) - f (j) > f (k) - f (m) E = , , , , , jest operacją składania (łączenia ze sobą) obiektów i (j k) f (i) = f (j) + f (k)
nominalny porządkowy interwałowy ilorazowy Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych c.d. Relacje w zbiorze obiektów empirycznych, które trzeba empirycznie stwierdzić lub założyć System relacyjny Nazwa poziomu pomiaru Równoważność E = , nominalny Równoważność, Porządek E = , , porządkowy Odległość obiektów Identyczność odległości Porządek odległości Operacja „dodawania” obiektów Różnica wyróżniona: „zero” E = , , , , interwałowy Rówoważność, Stosunek obiektów Identyczność stosunków Porządek stosunków Obiekt wyróżniony: „jedynka” E = , , , , , ilorazowy
Funkcja pomiarowa a zmienna statystyczna X() 1 3 5 7 X : N1 E = , = {1, 2 , 3} X(1) = 3 f1 : E 1 1 = N1 , < N1 ={3, 5, 7} X(2) = 5 f1(1) = 3 X(3) = 7 f1(2) = 5 f1(3) = 7 N1 Funkcja pomiarowa Zmienna statystyczna
Dopuszczalne przekształcenia f Dopuszczalne statystyki Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych c.d. System relacyjny Dopuszczalne przekształcenia f Dopuszczalne statystyki E = , klasyfikacja g(f()), g: , g jest funkcją odwracalną modalna, entropia, entropijne współczynniki zależności E = , , klasyfikacja, porządek na klasach g jest funkcją rosnącą jw. oraz mediana, współczynniki korelacji rangowej E = , , , , różnica, porządek na różnicach g jest funkcją liniową: g(f()) = bf()+a b > 0 średnia, wariancja, współczynnik korelacji liniowej, E = , , , , , składanie obiektów g jest funkcją podobieństwa: g(f()) = bf() jw.
Poziom pomiaru zmiennej statystycznej określa klasa dopuszczalnych przekształceń jej wartości
Zmienna statystyczna jest zawsze obserwowalna
Specyfika zmiennej binarnej
Ogólny problem skalowania Czym jest skalowanie Ogólny problem skalowania ={ω1, ω2, ..., ωn} (X1, X2, X3, ..., Xi, ..., Xk) : w X1 X2 ….. Xk w1 w2 . wk w b w1 w2 . wk W zbiorowości zdefiniowano zestaw obserwowalnych zmiennych typu Xi, nazywanych wskaźnikami nieobserwowalnej zmiennej b Na podstawie łącznego rozkładu zmiennych –wskaźników wyznacz wartości zmiennej b dla każdego obiektu badanej zbiorowości
Problem skalowania Wskaźniki są wynikiem pomiaru znanego typu, co oznacza, że dla każdego z nich znany jest zakres dopuszczalnych analiz statystycznych, które można na nich wykonywać X1 X2 X3 Xk Zmienną ukrytą b oraz obserwowalne wskaźniki typu Xi wiąże relacja „bycia wskazywanym”: każdy ze wskaźników „wskazuje” zmienną ukrytą b b Teoria b Poziom pomiaru wskaźników ogranicza repertuar środków statystycznych, za pomocą których opisuje się związek zmiennej ukrytej ze wskaźnikami Związek wskaźników ze zmienną ukrytą jest elementem teorii zjawiska (własności) reprezentowanej przez b
Skalowanie wynika z teorii cechy ukrytej Cechy ukryte są elementem teorii zjawiska, która wiąże obserwacje (wskaźniki) z konstruktem teoretycznym (cecha ukrytą) za pomocą relacji korespondencji. Teoria zjawiska Własności wskaźników (X1, X2, X3, ..., Xi, ..., Xk) Własności cech ukrytych b1 , b2 , .... bm Relacje (zależności) między cechami obserwowalnymi i ukrytymi RXb Korespondencja: Skala Skalogram Model skalowania reguły wnioskowania o cechach ukrytych na podstawie cech obserwowalnych
Skalowanie a falsyfikacja teorii Model skalowania jest elementem teorii empirycznej Teoria może być empirycznie sfalsyfikowana Czy empirycznie stwierdzone własności obiektów empirycznych dają się poprawnie reprezentować liczbowo Problem pomiaru: Problem skalowania: Czy teoria empirycznie własności obiektów empirycznych, z której wynika model skalowania jest prawdziwa
Składowe problemu skalowania Wykonalność Test teorii, z której wywodzi się model skalowania skalowalność Czy spełnione obiekty empiryczne mają własności zakładane przez model skalowania Czy łączny rozkład wskaźników (X1, X2, X3, ..., Xi, ..., Xk) ma własności postulowane przez model skalowania Jeśli tak, to W jaki sposób wyznaczyć wartości cechy ukrytej dla obiektu, kórego obserwowalne własności są znane Askrypcja Algorytm skalowania algorytm wyliczania wartości zmiennej ukrytej na podstawie wartości wskaźników
SKALUJĄC: problemy do rozwiązania I. Problem skalowalności 1. Jak dalece łączny rozkład wskaźników jest zgodny z modelem? Jak dobrze model pozwala odtwarzać łączny rozkład wskaźników? Czy zbiór wskaźników jest skalowalny, to znaczy, czy stopień zgodności danych z modelem jest wystarczający? II. Problem liczby wymiarów cechy ukrytej i relacji między nimi 2. Ile cech ukrytych (wymiarów zmiennej ukrytej) trzeba założyć aby dany zbiór wskaźników (w danym zbiorze obiektów) był skalowalny? 3. W jakich relacjach pozostają poszczególne wskaźniki z poszczególnymi wymiarami cechy ukrytej? 4. W jakich relacjach pozostają względem siebie wymiary cechy ukrytej III. Czy wszystkie wskaźniki są potrzebne? 5. Czy w zbiorze wskaźników są pozycje zbędne? Czy są wskaźniki (pozycje testu), z których bez szkody dla skalowalności można zrezygnować? IV. Jakie są własności diagnostyczne poszczególnych wskaźników? 6. Jakie są parametry wskaźników? Których wymiarów cechy ukrytej są wskaźnikami V. Jak skalować 7. Jak przyporządkować obiektom wartości zmiennej ukrytej ? [SCORE] VI. Jaki jest efekt skalowania 8. Jaki rozkład ma cecha ukryta w danym zbiorze obiektów? Poziom pomiarowy skali? Prawo jazdy: test, jazda, pomoc medyczna Test oceniający efekt kształcenia na kursie – n pytań o różnym charakterze {pamięć, wiedza matematyczna, biegłość komputerowa, spostrzegawczość, wyobraźnia przestrzenna, wyobraźnia algebraiczna) - tak/nie (ew. w ramkach) [0-1] - wybierz jedną z 4 (jedna prawdziwa) [0-1] - wybierz jedną z 4 (dwie odp.prawdziwe)[0-2] - policz w Excelu - policz w SPSS - policz zw innym pakiecie wprowadzonym w kursie - rozwiąż zadanie na papierze[0-2] - opisz problem [0-5] - udowodnij twierdzenie
Kryteria oceny modelu skalowania Niezmienniczość wyników skalowania przy dopuszczalnych poziomem pomiaru przekształceniach wskaźników; Optymalność algorytmu skalowania, Jednoznaczność i przekonywujące uzasadnienia dla decyzji, które trzeba podejmować rozwiązując problemy (1) - (8) wymienione wyżej.
NURTY TEORII SKALOWANIA Typ relacji między cechą ukrytą, wymiarem a wskaźnikami Kumulatywne Addytywne nominalne interwałowe binarne K: Rasch. Mokken, Guttman - porządkowe A: PC, FA, CTT, SEM - interwałowe porządkowe Mieszane Poziom pomiaru wskaźników
Popularne metody analizy danych - szczególne przypadki modeli skalowania Poziom pomiaru wskaźników Rodzaj zależności wskaźników od cech ukrytych Poziom pomiaru cechy ukrytej Analiza ukrytej struktury Lazarsfelda Nominalny Binarny Probabilistyczny Analiza skupień K-Means Interwałowy Deterministyczy Probabilistyczne metody analizy skupień Skalogram Guttmana Porządkowy Skalogram Mokkena Skalogram Rascha Binarny Porządkowy Eksploracyjna analiza czynnikowa Model równań strukturalnych
Skalowanie kumulatywne Bogardus Guttman Mokken Rasch
Dystans społeczny względem grupy Nieco historii Bogardus, 1926: skala uprzedzeń (dystansów) etnicznych Czy akceptuje Pan(i) [XXXXX] jako: Dystans społeczny względem grupy Spokrewnionego z Panem(ią) w wyniku małżeństwa [0-1] ? 1 Pana(i) bliskiego przyjaciela [0-1] 2 Pana(i) sąsiada mieszkającego na tej samej ulicy [0-1] 3 Osoby wykonującej ten sam zawód co Pan(i) [0-1] 4 Obywatela Pana(i) kraju [0-1] 5 Turysty odwiedzającego Pana(i) kraj [0-1] 6
Skok wzwyż Kategoria zawodnika 180 190 200 Liczba udanych prób a b 1 c b 1 c 2 d 3
Funkcje reakcji na pozycje testu
Model skalowania w zapisie formalnym = {ω1, ω2, ω3, ..., ωv, ..., ωn} jest n-elementowym zbiorem obiektów, jest k-elementowym zbiorem binarnych wskaźników (X1, X2, X3, ..., Xi, ..., Xk), jest jednowymiarową zmienną ukrytą określoną w , jest ck-elementowym wektorem parametrów wskaźników (X1, ..., Xk), gdzie c=1, 2, 3, ... oznacza liczbę parametrów pojedynczej funkcji reakcji; można też traktować jako funkcję, która wskaźnikom przyporządkowuje ich parametry, liczby rzeczywiste, P jest funkcją reakcji wiążącą prawdopodobieństwo P(Xiv=x), x{0,1} reakcji obiektu ωv na wskaźnik Xi z poziomem cechy ukrytej obiektu (ωv) oraz poziomem trudności wskaźnika i.
Skalogram Guttmana w wersji deterministycznej i probabilistycznej (porządek osób) Osoby różnią się pod względem poziomu „umiejętności” () i można je ze względu na tę cechę uporządkować. (porządek wskaźników) Wskaźniki różnią się ze względu na stopień „trudności” () i można je ze względu na tę własność uporządkować. (kumulatywność reakcji) każdy, kto zareagował pozytywnie/poprawnie na wskaźnik o pewnym stopniu trudności reaguje pozytywnie/poprawnie na wszystkie łatwiejsze wskaźniki:
Liczba poprawnych odpowiedzi Dopuszczalne i niedopuszczalne profile reakcji w skalogramie Guttmana Wskaźnik Liczba poprawnych odpowiedzi Profil X1 X2 X3 A 1 3 B 2 C D E F G H Zielone profile: dopuszczalne Xi łatwy Xj trudny 1 Xj trudny Suma 1 Xi łatwy I II 1-p III IV p 1-q q 1,00 Strukturalne zero
Dane przykładowe N( ) P( ) 3 6 0,30 2 7 0,35 1 0,05 6 4 2 1 h X1 X2 X3 3 2 3 4 5 6 7 2 8 9 10 11 1 12 13 14 15 16 17 18 19 20 N( ) P( ) 3 6 0,30 2 7 0,35 1 0,05 111 110 100 000 101 011 010 001 p111 p110 p100 p000 p101 p011 p010 p001 0,30 0,20 0,10 0,05 6 4 2 1
Praktyka skalowania modelem Guttmana Oczekiwane częstości przy założeniu lokalnej niezależności Guttman Sj P(X1 = x1i & X2=x2i & X3=x3i | Q = qj ) *P(Q=qj) P(Xi = 1 | q = qj ) 0,30 0,35 0,05 0,00 qj P(q=qj) X1 X2 X3 111 110 100 000 C 101 D 011 F 010 G 001 3 1 1,00 2 p1 p2 p3 p111 p110 p100 p000 p101 p011 p010 p001 0,70 0,65 0,55 <== próba 0,20 0,10 różnica -0,15 -0,20 Wskaźnik Liczba poprawnych odpowiedzi Profil X1 X2 X3 C 1 2 D F G Współczynnik skalowalności = funkcja liczby (proporcji) profili niezgodnych w próbie Decyzja o skalowalności
Skalogram Guttmana - podsumowanie 1 poziom pomiaru wskaźników binarne 2 poziom pomiaru zmiennej ukrytej porządkowy 3 własności łącznego rozkładu wskaźników i cechy ukrytej kumulatywność reakcji bez-wyjątkowa lokalna niezależność reakcji 4 relacja między wskaźnikami i cechą ukrytą deterministyczna 5 algorytmu wyznaczania wartości cechy ukrytej Suma wartości wskaźników 6 Kryterium oceny jakości skalowania Ad hoc
Skalogram Guttmana – podsumowanie c.d. Jak dalece łączny rozkład wskaźników jest zgodny z modelem? Jak dobrze model pozwala odtwarzać łączny rozkład wskaźników? Czy zbiór wskaźników jest skalowalny, to znaczy, czy stopień zgodności danych z modelem jest wystarczający - II Ile cech ukrytych (wymiarów zmiennej ukrytej) trzeba założyć aby dany zbiór wskaźników (w danym zbiorze obiektów) był skalowalny? W jakich relacja pozostają względem siebie wymiary cechy ukrytej? Zakłada się, ze 1 cecha III W jakich relacjach pozostają poszczególne wskaźniki z poszczególnymi wymiarami cechy ukrytej? Czy w zbiorze wskaźników są pozycje zbędne? Czy są wskaźniki (pozycje testu), z których bez szkody dla skalowalności można zrezygnować? ? Usunąć wskaźniki o tym samym poziomie trudności; uczestniczący w mniejszej liczbie profili niezgodnych z modelem IV Jakie są parametry wskaźników? Trudność = frakcja „1” V Jak przyporządkować obiektom wartości zmiennej ukrytej ? Jaki rozkład ma cecha ukryta w danym zbiorze obiektów Suma wartości wskaźników
Czy skalogram Guttmana jest „dobrym modelem skalowania” gwarantuje niezmienniczości wyników skalowania przy dopuszczalnych poziomem pomiaru przekształceniach wskaźników TAK gwarantuje optymalności algorytmu skalowania ????? gwarantuje jednoznaczność i przekonywujące uzasadnienia dla decyzji, które trzeba podejmować rozwiązując problemy (I) - (V) wymienione wyżej NIE
Kumulatywność w wersji probabilistycznej
Obiekty różnią się parametrami istotnymi dla wyniku zdarzenia losowego Założenia probabilistycznych modeli skalowania kumulatywnego a sytuacja testowania kompetencji Przykład: osoby rozwiązujące zadania testowe Obiekty różnią się parametrami istotnymi dla wyniku zdarzenia losowego Osoby różnią się poziomem kompetencji, łatwością z jaką rozwiązują zdania testowe Wskaźniki różnią parametrami istotnymi dla wyniku zdarzenia losowego Pytania testowe różnią się stopniem trudności, jaką sprawiają odpowiadającym, Obserwowalna reakcja obiektu na wskaźnik jest zdarzeniem losowym Osoby testowane reagują do pewnego stopnia przypadkowo: osoba bardzo kompetentna może nie odpowiedzieć na pytanie łatwe a osoba mało kompetentna może odpowiedzieć a pytanie trudne Zbiór możliwych reakcji i ich prawdopodobieństwa stanowią zmienną losową, której rozkład zależy od parametrów osoby i parametrów wskaźnika (zmienna losowa – funkcja reakcji) Szanse na poprawą odpowiedź osoby na pojedyncze pytanie testowe zależą zarazem od tego jak trudne jest to pytanie i jak kompetentna jest odpowiadająca na nie osoba Reakcje obiektów o ustalonych parametrach (tym samym poziomie kompetencji) są stochastycznie niezależne Pojedyncza osoba odpowiada na kolejne pytanie testu „bez pamięci” o wynikach poprzednich odpowiedzi i wyłącznie w zależności od tego, jak trudne jest kolejne pytanie i jak kompetentna jest osoba
Lokalna niezależność reakcji poziom cechy ukrytej osoby reagującej na wskaźniki jest taki sam bez względu na ich kolejność „podawania”, prawdopodobieństwa „poprawnych” reakcji na kolejne wskaźniki zależą wyłącznie od odległości między poziomem cechy ukrytej odpowiadającego i poziomem „trudności” wskaźników, prawdopodobieństwo serii reakcji na wskaźniki dla pojedynczej osoby jest równe iloczynowi prawdopodobieństw reakcji na każdy ze wskaźników z osobna.
Lokalna niezależność reakcji reakcje na poszczególne wskaźniki w grupach osób o tym samym poziomie umiejętności są od siebie stochastycznie niezależne Kumulatywnośc reakcji reakcje na wskaźniki są stochastycznie pozytywnie zależne.
Przykład skalogramu Guttmana
Model Mokkena Krzywe reakcji na trzy wskaźniki w modelu Mokkena
Skalogram Mokkena dla trzech wskaźników dychtomicznych
Konsekwencje założeń Mokkena - zależność wskaźników Macierz częstości łącznych – zera strulturalne
Mokken scale – własności Statystyka dostateczna cechy ukrytej b - jak u Guttmana – suma punktów Stopień zgodności danych z modelem Współczynniki Loevingera
Skalogram Mokkena - podsumowanie I. Problem skalowalności Zalążkowe kryteria, często typu ad hoc pozwalają uznać zestaw wskaźników określonych w pewnej zbiorowości za nieskalowalny jeśli zdarzy się jedna z dwóch sytuacji : współczynnik Lovinger dla całego zestawu będzie niższy niż 0,3 (według Mokkena) albo, gdy macierze P11 i P00 będą zawierały wartości zbyt odległe od oczekiwanych, przy czym nie wiadomo co to znaczy "zbyt odległe". Trudno uznać powyższe kryteria rozstrzygania za dobrze uzasadnione, a ponadto oba te warunki są względnie od siebie niezależne. II. Problem liczby wymiarów cechy ukrytej i relacji między nimi Podobnie jak w modelu Guttmana, w skalogramie Mokkena nie ma procedury pozwalającej rozstrzygać tę kwestię. III. Czy wszystkie wskaźniki są potrzebne? Standardowy test dla identyczności populacyjnych proporcji dla zmiennych binarnych (test McNemara) pozwala z w zestawie wskaźników wyeliminować te, które są w nim zbędne, a decyzję przekonywująco, bo statystycznie, uzasadnić. Słabsze podstawy statystyczne ma decyzja o eliminacji z zestawu wskaźnika, dla którego współczynnik Loevinger Hi przyjmuje wartość niższą niż 0,3. Niektórzy autorzy jako uzasadnienie decyzji o niekumulatywności rozkładów łącznych, w których występuje wskaźnik Xi proponują używać statystyki testującej hipotezę, że współczynnik Loevingera Hi dla tego wskaźnika ma w populacji wartość 0, przeciwko hipotezie, że tak nie jest. Zauważmy jednak, że w ten sposób testowana jest hipoteza o niezależności stochastycznej wskaźników a nie o zgodności ich rozkładu z konsekwencjami założenia podwójnej monotoniczności. IV. Jakie są własności diagnostyczne poszczególnych wskaźników? Test McNemara pozwala wykryć wskaźniki o identycznych własnościach diagnostycznych, o tym samym poziomie trudności. Innych parametrów własności diagnostycznych pytań wskaźnikowych skalogram Mokkena nie przewiduje V. Jak skalować - funkcja agregująca profile Mokken wykazał, że liczba poprawnych odpowiedzi jest statystyką dostateczną dla skalowanej cechy ukrytej. Jest to minimalny wymóg stawiany wszelkim procedurom estymacyjnym i dzięki jego spełnianiu można powiedzieć, że w modelu Mokkena oszacowuje się częstości rozkładu cechy ukrytej .
Zmienna losowa o rozkładzie logistycznym
Funkcja logistyczna z parametrem a
Funkcja reakcji w modelu Rascha 1 PL
Warianty modelu Rascha 1PL: x 2PL: a,x 3PL: a,c, x
Funkcja informacyjna wskaźnika Xi zależy od wariantu modelu: Funkcja informacyjna wskaźnika Xi oraz całego testu (X1, X2 , …… , Xk ) Pojęcie funkcji informacyjnej wskaźnika i testu pełni w IRT rolę „rzetelności” w CTT Skalowanie jest estymacją parametrów modelu probabilistycznego odpowiadania na pytania testu. Estymacja dokonywane jest z błędem. Funkcja informacyjna zdaje sprawę z tego, jaki jest błąd estymacji niskich, średnich i wysokich wartości cechy ukrytej Funkcja informacyjna wskaźnika Xi zależy od wariantu modelu:
Własności testu – rzetelność czyli dokładność oszacowań funkcja informacyjna wskaźnika Xi jest odwrotnością wariancji jego estymatora. Jest miarą niepewności, z jaką przyporządkowujemy obiektowi wartość cechy ukrytej na podstawi e jego reakcji na pwskaźnik Xi wartość funkcji informacyjnej całego testu jest sumą wartości funkcji informacyjnych wszystkich wskaźników: błąd standardowy estymacji poziomu wartości cechy ukrytej
Estymacja modelu 1PL a założenia na temat rozkładu cechy ukrytej Statystyką dostateczną parametru osoby jest Statystyką dostateczną parametru wskaźmika jest sumy r i s odwzorowują porządek obiektów i wskaźników ze względu na nasycenie cechy ukrytej Metody estymacji parametrów najprostszego modelu 1PL: Joint Maximum Likelihood – dla parametrów , jednocześnie Conditional Maximum Likelihood (CML) – dla parametru Modalny Estymator Bayesa (BME) dla parametru Dla modeli 2PL oraz 3PL estymacja jest bardziej złożona
Funkcja informacyjna wskaźnika dychotomicznego w modelu 1PL -1,013 -1,013
Funkcja informacyjna wskaźnika dychotomicznego w modelu 2PL -0,568 -0,568 d1 -0,568 a1 6,374
Przykład skalowania trzech wskaźników z pomoca modelu 1PL wynikają z modelu di -1,013 -0,743 -0,243 P(Xi = 1 | q = qj ) 0,29 0,20 0,11 0,06 0,12 0,09 0,08 0,05 qj P(q=qj) X1 X2 X3 111 110 100 000 101 011 010 001 0,649 0,30 1 0,840 0,801 0,709 0,48 0,01 0,04 0,02 0,017 0,35 0,737 0,681 0,565 0,28 0,22 0,10 0,13 -0,571 0,609 0,543 0,419 0,14 0,19 0,16 0,07 -1,152 0,465 0,399 0,287 0,23 0,15 p1 p2 p3 p111 p110 p100 p000 p101 p011 p010 p001 0,70 0,65 0,55 próba różnica 0,00 -0,01 -0,02 -0,04
Przykład skalowania trzech wskaźników dychotomicznych za pomocą modelu 1PL di -1,013 -0,743 -0,243
Przykład skalowania trzech wskaźników dychotomicznych za pomocą modelu 2PL di -0,568 -1,113 -1,166 ai 6,374 0,601 0,173 qj X1 X2 X3 3 0,285 1 2 0,157 -0,065 -0,125 -0,804 -0,829 -0,904 -0,942 p1 p2 p3 0,70 0,65 0,55
Przykład skalowania trzech wskaźników dychotomicznych za pomocą modelu 3PL ci di ai P(Xi = 1 | q = 0 ) X1 0,140 -0,428 8,402 0,977 X2 0,498 0,561 4,659 0,533 X3 0,497 1,358 4,394 0,499 qj X1 X2 X3 3 0,7973 1 2 0,6001 -0,0286 -0,0333 -0,7094 -0,7095 -0,7132 -0,7134
Modele Rascha - podsumowanie I. Problem skalowalności Nawet proste modele Rascha umożliwiają testowanie (a więc i odrzucenie) hipotezy o skalowalności cechy ukrytej w danej zbiorowości za pomocą danego zestawu wskaźników. Podstawowym środkiem jest u statystyka testowa wywiedziona z ilorazu wiarygodności, która zazwyczaj używa ilorazów liczebności (częstości) empirycznych i przewidywanych przez model do badania stopnia zgodności danych z założeniami modelu. II. Problem liczby wymiarów cechy ukrytej i relacji między nimi Jako taki problem liczby wymiarów cechy ukrytej w prostych modelach skalowania nie daje się sformułować jako problem statystyczny. Umożliwiają to dopiero modele złożone będące uogólnieniem modeli skalowania Rascha dla wskaźników wielowartościowych z założonym porządkiem wartości. III. Czy wszystkie wskaźniki są potrzebne? Decyzja o zbędności bądź niezbędności wskaźnika w zestawie jest w modelu Rascha uzasadniana nie tylko przy użyciu standardowych technik weryfikacji hipotez lecz także przez wyniki analizy informacyjnych własności pytań testowych. Funkcja ta pozwala kontrolować skutki przyłączania lub wyłączania wskaźników z zestawu dla precyzji estymacji poziomów cechy ukrytej. IV. Jakie są własności diagnostyczne poszczególnych wskaźników? Przebieg funkcji informacyjnej wskaźnika dostarcza wystarczających informacji aby odpowiedzieć na to pytanie. V. Jak skalować Funkcja agregacji profili reakcji w wartości cechy ukrytej jest wynikiem szacowania parametrów modelu. W rozwiniętych modelach Rascha może ona przyjmować tyle wartości ile jest różnych profili reakcji w empirycznym rozkładzie wskaźników. Oznacza to, iż problem jednoznaczności agregacji dla profili reakcji niezgodnych z zasadą kumulatywności w modelach Rascha nie powstaje.
Problemy do rozwiązania w modelu Rascha 3PL dla wskaźników dychotomicznych Wyznaczenie parametrów modeli reakcji trudność pytania - , poziom umiejętności osoby - , własności dyskryminacyjne pytania - a współczynnik odgadywania - c Ile umiejętności testujemy: identyfikacja liczby wymiarów testu Czy potrzebujemy wszystkich pytań: identyfikacja pytań zbędnych. Jak trafny jest test: problem kalibracji testu - co oznacza 100%? Jak rzetelny jest test - z jaką dokładnością mierzymy umiejętności?
W poszukiwaniu dobrego testu Dobry test to taki, w którym: (a) Wszystkie pytania mają wysoką moc dyskryminacyjną, współczynniki ai znacznie przekraczają 1; (b) Wszystkie pytania charakteryzują się niewielkimi szansami na odgadnięcie poprawnej odpowiedzi - współczynniki ci są bliskie zera; (c) Poziomy trudności pytań obejmują całą skalę umiejętności, której poziom test ma diagnozować - liczba pytań z ujemnymi wartościami współczynnika bi jest zbliżona do liczby pytań, dla których jest on dodatni; (d) Dokładność oszacowania poziomu umiejętności ucznia jest wysoka i stała w całym zakresie umiejętności zdających test - krzywa informacyjna testu jest płaska nad całym obszarem diagnozowanych umiejętności.
Formalna analiza własności testów
Wartości zmiennej ukrytej a jawne wyniki testu – porównanie arkuszy maturalnych
Krzywe informacyjne arkuszy poziomu podstawowego
Własności informacyjjne testów poziomu podstawowego
Problem wyboru arkusza najlepszego z testowanych
Arkusz PP1 – statystyka opisowa
Suma punktów a oszacowany poziom umiejętności
Które z pytań arkusza jest do wymiany