Skalowanie jedno-wymiarowe wprowadzenie

Skalowanie jedno-wymiarowe wprowadzenie
Twarze sondażu Warsztat 2014 Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej

Program Pomiar. Klasyczna teoria pomiaru: emopiryczny system relacyjny, formalny system relacyjny, problem istnienia i jednoznaczności funkcji pomiarowej,

Skalowanie Skalowalność Wymiarowość Wskaźniki niezbędne
Zmienne obserwowalne i ukryte Poziom pomiaru – typy zmiennych Pomiar a skalowanie Skalowanie Skalowalność Wymiarowość Wskaźniki niezbędne Własności wskaźników Algorytm skalowania Wynik skalowania

Pomiar Pomiarem w sensie klasycznym jest operacją polegającą na
wykazaniu, że istnieje reguła, według której można przedmiotom przypisać liczby w taki sposób, aby na podstawie liczb przypisanych obiektom można było orzekać o zachodzeniu relacji empirycznych między nimi (oraz) ustaleniu na ile to przyporządkowanie jest jednoznaczne, w jakim stopniu można modyfikować przypisane obiektom liczby bez utraty informacji o własnościach obiektów, którą zawierają, a więc czy istnieje wiele równoważnych sposobów tego przyporządkowania Mierzenie jest zatem operacją polegającą na dowodzeniu twierdzeń. Aby pokazać, o czym wypowiadają się twierdzenia i na czym polega ich dowodzenie, problem pomiaru trzeba sformułować formalnie

Pomiar to reprezentowanie fizycznych własności obiektów przez liczby
E = , E1, E2, …, Ek   = {1 , 2 , …., n } – zbiór obiektów empirycznych Empiryczny system relacyjny E1, E2, …, Ek - relacje między obiektami empirycznymi  = , R1, R2, …, Rk   - zbiór liczb, podzbiór zbioru liczb rzeczywistych Liczzbowy system relacyjny R1, R2, …, Rk - relacje między liczbami Fukcja pomiarowa f ustala odpowiedniość między empirycznymi i liczbowym systemem relacyjnym f : E   każdemu obiektowi empirycznemu I przyporządkowuje liczbę f(I) f() każdej empirycznej relacji E1, E2, …, Ek przyporządkowuje relację liczbową R1, R2, …, Rk: f(Ei) = Ri relacjom empirycznym między obiektami odpowiadają relacje między przyporządkowanymi im liczbami iEkj  f(i)Rk(j), gdzie Rk= f(Ek)

Reprezentacyjna koncepcja pomiaru (Stevens, 1946)
Empiryczny system relacyjny N1 ={3, 5, 7} liczby 3 < 5 < 7 relacja mniejszości   Dwa liczbowe systemy relacyjne 1 2 3 2 = N2  , <  = {1, 2 , 3} obiekty empiryczne N2 ={¼, ⅓, ⅞}  1 2 3 1 liczby ¼ < ⅓ < ⅞ relacja mniejszości Jakie przekształcenie przeprowadza 1 w 2 ? empiryczna relacja bycia mniejszym 1  2 2  3 Relacje empiryczne trzeba ustalić praktycznie Relacje między sytemami liczbowymi mają charakter formalny

Funkcja pomiarowa. Na ile sposobów można zmierzyć własności tych samych obiektów?
f1 : E  1 f1(1) = 3 f1(2) = 5 f1(3) = 7 f1() = N1 ={3, 5, 7} 1  2 3 < 5  1 2 3 1 2  3 5 < 7 f2 : E  2 f2(1) = ¼ f2(2) = ⅓ f2(3) = ⅞ E = ,  f2() = N2 ={¼, ⅓, ⅞} 1  2 ¼ < ⅓ 2  3 ⅓ < ⅞ Jeden empiryczny system relacyjny – dwie funkcje pomiarowe. Co je łączy?

Dwa problemy klasycznej teorii pomiaru
Problem istnienia Jakie formalne cechy musi mieć empiryczny system relacyjny, aby istniała dla niego funkcja pomiarowa Problem jednoznaczności Jeśli dla danego empirycznego systemu relacyjnego istnieje funkcja pomiarowa, to co można zrobić z jej wartościami aby nie utracić informacji o własnościach obiektów Roziązanie obu problemów polegaja na udowodzeniu twierdzeń Twierdzenia dotyczą formalnych własności empirycznego systemu relacyjnego E = ,  Jeśli relacja  jest asymetryczna, spójna i przechodnia w  , to istnieje funkcja pomiarowa f : E  , gdzie = , <, taka, że: i j  f(i) < f(j), Każdą rosnąca funkcja funkcji f jest również funkcją pomiarową: f(i) < f(j)  g(f(i)) < g(f(j))

Empiryczny system relacyjny Opis systemu relacyjnego
Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych Empiryczny system relacyjny Opis systemu relacyjnego Przykłady E = ,  klasyfikacja brak uporządkowania kategorii, brak jednostki pomiaru płeć, wyznanie, stan cywilny rasa E = , ,  klasyfikacja, porządek na klasach umożliwia uporządkowanie kategorii brak punktu zerowego i jednostki pomiaru poziom wykształcenia, skala twardości minerałów Mohsa, większość skal ocen i postaw E = , , , ,  różnica, porządek na różnicach umożliwia porównywanie różnic określone arbitralnie: punkt zerowy i jednostka pomiaru temperatura w stopniach Celsjusza, data kalendarzowa, użyteczność, skala twardości metali Brinella E = , , , , ,  składanie obiektów umożliwia porównywanie stosunków określony jednoznacznie punkt zerowy, arbitralna jednostka pomiaru staż pracy, wysokość zarobków, wzrost w cm

Empiryczny system relacyjny Własności funkcji pomiarowej
Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych Empiryczny system relacyjny Własności relacji Własności funkcji pomiarowej E = ,  i  j  j  i i  j  f(i) = f (j) E = , ,  j.w. oraz i  j   (j  i) (i  j  j  k)  i  k i j f (i) < f (j) E = , , , ,  j.w. oraz  jest słabym porządkiem na parach obiektów ij , km : ij = (i, j), km = (k, m) ij  km  f (i) - f (j) > f (k) - f (m) E = , , , , ,   jest operacją składania (łączenia ze sobą) obiektów i  (j  k)  f (i) = f (j) + f (k)

nominalny porządkowy interwałowy ilorazowy
Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych c.d. Relacje w zbiorze obiektów empirycznych, które trzeba empirycznie stwierdzić lub założyć System relacyjny Nazwa poziomu pomiaru Równoważność E = ,  nominalny Równoważność, Porządek E = , ,  porządkowy Odległość obiektów Identyczność odległości Porządek odległości Operacja „dodawania” obiektów Różnica wyróżniona: „zero” E = , , , ,  interwałowy Rówoważność, Stosunek obiektów Identyczność stosunków Porządek stosunków Obiekt wyróżniony: „jedynka” E = , , , , ,  ilorazowy

Funkcja pomiarowa a zmienna statystyczna
 X() 1 3 5 7 X :   N1 E = ,   = {1, 2 , 3} X(1) = 3 f1 : E  1 1 = N1  , < N1 ={3, 5, 7} X(2) = 5 f1(1) = 3 X(3) = 7 f1(2) = 5 f1(3) = 7  N1 Funkcja pomiarowa Zmienna statystyczna

Dopuszczalne przekształcenia f Dopuszczalne statystyki
Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych c.d. System relacyjny Dopuszczalne przekształcenia f Dopuszczalne statystyki E = ,  klasyfikacja g(f()), g:   , g jest funkcją odwracalną modalna, entropia, entropijne współczynniki zależności E = , ,  klasyfikacja, porządek na klasach g jest funkcją rosnącą jw. oraz mediana, współczynniki korelacji rangowej E = , , , ,  różnica, porządek na różnicach g jest funkcją liniową: g(f()) = bf()+a b > 0 średnia, wariancja, współczynnik korelacji liniowej, E = , , , , ,  składanie obiektów g jest funkcją podobieństwa: g(f()) = bf() jw.

określa klasa dopuszczalnych przekształceń jej wartości
Poziom pomiaru zmiennej statystycznej określa klasa dopuszczalnych przekształceń jej wartości

Zmienna statystyczna jest zawsze obserwowalna

Specyfika zmiennej binarnej

Rejestracja danych w badaniu sondażowym
Deklaracja wartości zmiennej nominalnej Zawód, wyznanie, stan cywilny, zamiar głosowania na Pytanie rozstrzygnięcia Zdał – nie zdał Wybór k spośród n – wektor binarny Wskaż te obiekty, które są …… Porównywanie obiektów parami Preferencja A nad B: zaufanie, ocena działalności Wymuszone reakcje porządkowe Na skali od 1 do k określ jak bardzo …. Zadanie rozwiązał na k punktów z n możliwych Deklaracja wartości zmiennej interwałowej Staż pracy, ile czasu przed TV, jak często robisz … Porządkowanie zbioru obiektów Uporządkuj od najbardziej … do najmniej Graf obciązony porządkowo Jak bardzo intensywna jest relacja z każym z k obieków

Uogólniony problem pomiaru
rejestracja danych Struktury typowe typowe wzory strukturalne identyfikacja struktury danych zarejestrowanych Klasyfikacja E = ,  Porządek E = , ,  Odległość E = , , , ,  pomiar jako wzór strukturalny  w1 w2 w3 w4 1 1 w1 w2 w4 problem istnienia struktury problem stopnia rozmycia struktury w3 W porónywaniu parami zaresjestrowano powyższe reakcje respondenta. Jakie wartości zmiennej X można przyporządkować obiektom w1 - w4 ? problem jednoznaczności funkcji pomiarowej dla struktur nierozmytych Do której z typowych struktur najbardziej podobna jest struktura relacji respondenta?

Problem skalowania Wskaźniki są wynikiem pomiaru znanego typu, co oznacza, że dla każdego z nich znany jest zakres dopuszczalnych analiz statystycznych, które można na nich wykonywać X1 X2 X3 Xk Zmienną ukrytą b oraz obserwowalne wskaźniki typu Xi wiąże relacja „bycia wskazywanym”: każdy ze wskaźników „wskazuje” zmienną ukrytą b b Teoria b Poziom pomiaru wskaźników ogranicza repertuar środków statystycznych, za pomocą których opisuje się związek zmiennej ukrytej ze wskaźnikami Związek wskaźników ze zmienną ukrytą jest elementem teorii zjawiska (własności) reprezentowanej przez b

Skalowanie wynika z teorii cechy ukrytej
Cechy ukryte są elementem teorii zjawiska, która wiąże obserwacje (wskaźniki) z konstruktem teoretycznym (cecha ukrytą) za pomocą relacji korespondencji. Teoria zjawiska Własności wskaźników (X1, X2, X3, ..., Xi, ..., Xk) Własności cech ukrytych b1 , b2 , .... bm Relacje (zależności) między cechami obserwowalnymi i ukrytymi RXb Korespondencja: Skala Skalogram Model skalowania reguły wnioskowania o cechach ukrytych na podstawie cech obserwowalnych

Skalowanie a falsyfikacja teorii
Model skalowania jest elementem teorii empirycznej Teoria może być empirycznie sfalsyfikowana Czy empirycznie stwierdzone własności obiektów empirycznych dają się poprawnie reprezentować liczbowo Problem pomiaru: Problem skalowania: Czy teoria empirycznie własności obiektów empirycznych, z której wynika model skalowania jest prawdziwa

Składowe problemu skalowania
Wykonalność Test teorii, z której wywodzi się model skalowania skalowalność Czy spełnione obiekty empiryczne mają własności zakładane przez model skalowania Czy łączny rozkład wskaźników (X1, X2, X3, ..., Xi, ..., Xk) ma własności postulowane przez model skalowania Jeśli tak, to W jaki sposób wyznaczyć wartości cechy ukrytej dla obiektu, kórego obserwowalne własności są znane Askrypcja Algorytm skalowania algorytm wyliczania wartości zmiennej ukrytej na podstawie wartości wskaźników

Ogólny problem skalowania w wersji sformalizowanej
Czym jest skalowanie Ogólny problem skalowania w wersji sformalizowanej ={ω1, ω2, ..., ωn} (X1, X2, X3, ..., Xi, ..., Xk) :    w X1 X2 ….. Xk w1 w2 . wk w b w1 w2 . wk W zbiorowości  zdefiniowano zestaw obserwowalnych zmiennych typu Xi, nazywanych wskaźnikami nieobserwowalnej zmiennej b Na podstawie łącznego rozkładu zmiennych –wskaźników wyznacz wartości zmiennej b dla każdego obiektu badanej zbiorowości

Uniwersalne problemy skalowania
I. Problem skalowalności 1. Jak dalece łączny rozkład wskaźników jest zgodny z modelem? Jak dobrze model pozwala odtwarzać łączny rozkład wskaźników? Czy zbiór wskaźników jest skalowalny, to znaczy, czy stopień zgodności danych z modelem jest wystarczający? II. Problem liczby wymiarów cechy ukrytej i relacji między nimi 2. Ile cech ukrytych (wymiarów zmiennej ukrytej) trzeba założyć aby dany zbiór wskaźników (w danym zbiorze obiektów) był skalowalny? 3. W jakich relacjach pozostają poszczególne wskaźniki z poszczególnymi wymiarami cechy ukrytej? 4. W jakich relacjach pozostają względem siebie wymiary cechy ukrytej III. Czy wszystkie wskaźniki są potrzebne? 5. Czy w zbiorze wskaźników są pozycje zbędne? Czy są wskaźniki (pozycje testu), z których bez szkody dla skalowalności można zrezygnować? IV. Jakie są własności diagnostyczne poszczególnych wskaźników? 6. Jakie są parametry wskaźników? Których wymiarów cechy ukrytej są wskaźnikami V. Jak skalować 7. Jak przyporządkować obiektom wartości zmiennej ukrytej ? [SCORE] VI. Jaki jest efekt skalowania 8. Jaki rozkład ma cecha ukryta w danym zbiorze obiektów? Poziom pomiarowy skali? Prawo jazdy: test, jazda, pomoc medyczna Test oceniający efekt kształcenia na kursie – n pytań o różnym charakterze {pamięć, wiedza matematyczna, biegłość komputerowa, spostrzegawczość, wyobraźnia przestrzenna, wyobraźnia algebraiczna) - tak/nie (ew. w ramkach) [0-1] - wybierz jedną z 4 (jedna prawdziwa) [0-1] - wybierz jedną z 4 (dwie odp.prawdziwe)[0-2] - policz w Excelu - policz w SPSS - policz zw innym pakiecie wprowadzonym w kursie - rozwiąż zadanie na papierze[0-2] - opisz problem [0-5] - udowodnij twierdzenie

Kryteria oceny modelu skalowania
Niezmienniczość wyników skalowania przy dopuszczalnych poziomem pomiaru przekształceniach wskaźników; Optymalność algorytmu skalowania, Jednoznaczność i przekonywujące uzasadnienia dla decyzji, które trzeba podejmować rozwiązując problemy (1) - (8) wymienione wyżej.

Typologia jedno-wymiarowych modeli skalowania
Rodzaj relacji wiążacej wskaźniki z cecha skalowaną deterministyczna probabilistyczna Poziom pomiaru wskaźników a poziom pomiaru skali wskaźniki skala binarne Analiza ukrytej struktury Lazarsfelda nominalna Skalogram Guttmana, Mokkena porządkowa Modele logistyczne 1PL, 2PL, 3PL interwałowa porządkowe Cluster Analysis (lca) Mokken Politomous Rasch, Rating Scale, Partial Credit interwałowe Cluster Analysis (mclust) ? Analiza czynnikowa, SEM Interwałowa MIESZANE ???? ???????????

NURTY TEORII SKALOWANIA
Typ relacji między cechą ukrytą, wymiarem a wskaźnikami Kumulatywne Addytywne nominalne interwałowe binarne K: Rasch. Mokken, Guttman - porządkowe A: PC, FA, CTT, SEM - interwałowe porządkowe Mieszane Poziom pomiaru wskaźników

Popularne metody analizy danych - szczególne przypadki modeli skalowania
Poziom pomiaru wskaźników Rodzaj zależności wskaźników od cech ukrytych Poziom pomiaru cechy ukrytej Analiza ukrytej struktury Lazarsfelda Nominalny Binarny Probabilistyczny Analiza skupień K-Means Interwałowy Deterministyczy Segmentacja mclust Probabilistyczne metody analizy skupień Skalogram Guttmana Porządkowy Skalogram Mokkena Skalogram Rascha Binarny Porządkowy Eksploracyjna analiza czynnikowa Model równań strukturalnych

Analiza ukrytej struktury dla wskaźników binarnych
Problem ukrytej struktury: Znajdź taki rozkład k-wartościowej zmiennej Y definiującej członowy podział n-elementowego zbioru obiektów , przy którym dla każdej klasy podziału {Y=yj} reakcje na bodźce X1, X2, ….., Xm są kompletnie stochastycnie niezależne: Wyznacz brzegowy rozkłada prawdopodobieństaw zmiennej Y Dla każdej klasy podziału {Y=yj} wyznacz warunkowe prawdopodobieństwa reakcji P(Xi=xi|Y=yj) Zadania a)-b) wykonaj tak, aby przy założeniu warunkowej niezależności reakcji wewnątrz klas {Y=yj} : P(X1=x1 & X2=x2 & ….. Xm=xm |Y=yj) = P(X1=x1 |Y=yj)P(X2=x2 |Y=yj) …. P(Xm=xm |Y=yj) łączny rozkład zmiennych (X1, X2, ….., Xm) dawał się odtworzyć jak najdokładniej 2. Przyporządkuj wartości zmiennej Y obiektom zbioru  tak, aby przy rozwiązaniu a)-c) zminimalizować funkcję błędu klasyfikacji

Analiza ukrytej struktury dla wskaźników binarnych – przykład - 1
Rzegowe rozkłady wskaźników M, P, K Dane: PGSS, 1999 M ABORCJA: MEZATKA NIE CHCE WIECEJ DZIECI n 1 Tak 379 0,434 2 Nie 495 0,566 Total 874 P ABORCJA: PANNA, NIE CHCE MALZENSTWA 310 0,355 564 0,645 K ABORCJA: KOBIETA TAK CHCE 287 0,328 587 0,672 profil reakcji n p 111 247 0,283 112 29 0,033 121 21 0,024 122 82 0,094 211 9 0,010 212 25 0,029 221 10 0,011 222 451 0,516 Łączny rozkład wskaźników M, P, K Sj P(X1 = x1i & X2=x2i & X3=x3i | Q = qj ) *P(Q=qj) qj P(Q=qj) M P K 111 112 122 222 121 211 212 221 1 1 2 3 4 2 x 5 6 7 próba 0,283 0,033 0,094 0,516 0,024 0,010 0,029 x model model P(Xi = 1 | q = qj )

Analiza ukrytej struktury dla wskaźników binarnych – przykład - 2
Rozwiązanie qj P(Q=qj) M P K 111 112 122 222 121 211 212 221 1 ,3467 ,97 ,93 ,91 0,283 0,028 0,002 0,000 0,022 0,010 0,001 2 ,6533 ,15 ,05 ,02 0,005 0,092 0,516 0,011 próba 0,033 0,094 0,024 0,029 x model konsekwencje P(Xi = 1 | q = qj ) Sj P(X1 = x1i & X2=x2i & X3=x3i | Q = qj ) *P(Q=qj) Profile > 111 112 122 222 121 211 212 221 P(profil | q = q1 ) 1,000 0,852 0,024 0,000 0,921 0,944 0,034 0,067 P(profil | q = q2 ) 0,148 0,976 0,079 0,056 0,966 0,933 Klasa ukryta 1 2 P-two błędu Reguła wyznaczania przynależności do klasy ukrytej

Skalowanie kumulatywne
Bogardus Guttman Mokken Rasch

Dystans społeczny względem grupy
Nieco historii Bogardus, 1926: skala uprzedzeń (dystansów) etnicznych Czy akceptuje Pan(i) [XXXXX] jako: Dystans społeczny względem grupy Spokrewnionego z Panem(ią) w wyniku małżeństwa [0-1] ? 1 Pana(i) bliskiego przyjaciela [0-1] 2 Pana(i) sąsiada mieszkającego na tej samej ulicy [0-1] 3 Osoby wykonującej ten sam zawód co Pan(i) [0-1] 4 Obywatela Pana(i) kraju [0-1] 5 Turysty odwiedzającego Pana(i) kraj [0-1] 6

Skok wzwyż Kategoria zawodnika 180 190 200 Liczba udanych prób a b 1 c
b 1 c 2 d 3

Funkcje reakcji na pozycje testu

Model skalowania w zapisie formalnym
 = {ω1, ω2, ω3, ..., ωv, ..., ωn} jest n-elementowym zbiorem obiektów,  jest k-elementowym zbiorem binarnych wskaźników (X1, X2, X3, ..., Xi, ..., Xk),  jest jednowymiarową zmienną ukrytą określoną w ,  jest ck-elementowym wektorem parametrów wskaźników (X1, ..., Xk), gdzie c=1, 2, 3, ... oznacza liczbę parametrów pojedynczej funkcji reakcji;  można też traktować jako funkcję, która wskaźnikom przyporządkowuje ich parametry, liczby rzeczywiste, P jest funkcją reakcji wiążącą prawdopodobieństwo P(Xiv=x), x{0,1} reakcji obiektu ωv na wskaźnik Xi z poziomem cechy ukrytej obiektu (ωv) oraz poziomem trudności wskaźnika i.

Skalogram Guttmana w wersji deterministycznej i probabilistycznej
(porządek osób) Osoby różnią się pod względem poziomu „umiejętności” () i można je ze względu na tę cechę uporządkować. (porządek wskaźników) Wskaźniki różnią się ze względu na stopień „trudności” () i można je ze względu na tę własność uporządkować. (kumulatywność reakcji) każdy, kto zareagował pozytywnie/poprawnie na wskaźnik o pewnym stopniu trudności reaguje pozytywnie/poprawnie na wszystkie łatwiejsze wskaźniki:

Liczba poprawnych odpowiedzi
Dopuszczalne i niedopuszczalne profile reakcji w skalogramie Guttmana Wskaźnik Liczba poprawnych odpowiedzi Profil X1 X2 X3 A 1 3 B 2 C D E F G H Zielone profile: dopuszczalne Xi łatwy Xj trudny 1 Xj trudny Suma 1 Xi łatwy I II 1-p III IV p 1-q q 1,00 Strukturalne zero

Dane przykładowe N( ) P( ) 3 6 0,30 2 7 0,35 1 0,05 6 4 2 1 h X1 X2 X3
3 2 3 4 5 6 7 2 8 9 10 11 1 12 13 14 15 16 17 18 19 20 N( ) P( ) 3 6 0,30 2 7 0,35 1 0,05 111 110 100 000 101 011 010 001 p111 p110 p100 p000 p101 p011 p010 p001 0,30 0,20 0,10 0,05 6 4 2 1

Praktyka skalowania modelem Guttmana
Oczekiwane częstości przy założeniu lokalnej niezależności Guttman Sj P(X1 = x1i & X2=x2i & X3=x3i | Q = qj ) *P(Q=qj) P(Xi = 1 | q = qj ) 0,30 0,35 0,05 0,00 qj P(q=qj) X1 X2 X3 111 110 100 000 C 101 D 011 F 010 G 001 3 1 1,00 2 p1 p2 p3 p111 p110 p100 p000 p101 p011 p010 p001 0,70 0,65 0,55 <== próba 0,20 0,10 różnica -0,15 -0,20 Wskaźnik Liczba poprawnych odpowiedzi Profil X1 X2 X3 C 1 2 D F G Współczynnik skalowalności = funkcja liczby (proporcji) profili niezgodnych w próbie Decyzja o skalowalności

Skalogram Guttmana - podsumowanie
1 poziom pomiaru wskaźników binarne 2 poziom pomiaru zmiennej ukrytej porządkowy 3 własności łącznego rozkładu wskaźników i cechy ukrytej kumulatywność reakcji bez-wyjątkowa lokalna niezależność reakcji 4 relacja między wskaźnikami i cechą ukrytą deterministyczna 5 algorytmu wyznaczania wartości cechy ukrytej Suma wartości wskaźników 6 Kryterium oceny jakości skalowania Ad hoc

Skalogram Guttmana – podsumowanie c.d.
Jak dalece łączny rozkład wskaźników jest zgodny z modelem? Jak dobrze model pozwala odtwarzać łączny rozkład wskaźników? Czy zbiór wskaźników jest skalowalny, to znaczy, czy stopień zgodności danych z modelem jest wystarczający - II Ile cech ukrytych (wymiarów zmiennej ukrytej) trzeba założyć aby dany zbiór wskaźników (w danym zbiorze obiektów) był skalowalny? W jakich relacja pozostają względem siebie wymiary cechy ukrytej? Zakłada się, ze 1 cecha III W jakich relacjach pozostają poszczególne wskaźniki z poszczególnymi wymiarami cechy ukrytej? Czy w zbiorze wskaźników są pozycje zbędne? Czy są wskaźniki (pozycje testu), z których bez szkody dla skalowalności można zrezygnować? ? Usunąć wskaźniki o tym samym poziomie trudności; uczestniczący w mniejszej liczbie profili niezgodnych z modelem IV Jakie są parametry wskaźników? Trudność = frakcja „1” V Jak przyporządkować obiektom wartości zmiennej ukrytej ? Jaki rozkład ma cecha ukryta w danym zbiorze obiektów Suma wartości wskaźników

Czy skalogram Guttmana jest „dobrym modelem skalowania”
gwarantuje niezmienniczości wyników skalowania przy dopuszczalnych poziomem pomiaru przekształceniach wskaźników TAK gwarantuje optymalności algorytmu skalowania ????? gwarantuje jednoznaczność i przekonywujące uzasadnienia dla decyzji, które trzeba podejmować rozwiązując problemy (I) - (V) wymienione wyżej NIE

Kumulatywność w wersji probabilistycznej

Obiekty różnią się parametrami istotnymi dla wyniku zdarzenia losowego
Założenia probabilistycznych modeli skalowania kumulatywnego a sytuacja testowania kompetencji Przykład: osoby rozwiązujące zadania testowe Obiekty różnią się parametrami istotnymi dla wyniku zdarzenia losowego Osoby różnią się poziomem kompetencji, łatwością z jaką rozwiązują zdania testowe Wskaźniki różnią parametrami istotnymi dla wyniku zdarzenia losowego Pytania testowe różnią się stopniem trudności, jaką sprawiają odpowiadającym, Obserwowalna reakcja obiektu na wskaźnik jest zdarzeniem losowym Osoby testowane reagują do pewnego stopnia przypadkowo: osoba bardzo kompetentna może nie odpowiedzieć na pytanie łatwe a osoba mało kompetentna może odpowiedzieć a pytanie trudne Zbiór możliwych reakcji i ich prawdopodobieństwa stanowią zmienną losową, której rozkład zależy od parametrów osoby i parametrów wskaźnika (zmienna losowa – funkcja reakcji) Szanse na poprawą odpowiedź osoby na pojedyncze pytanie testowe zależą zarazem od tego jak trudne jest to pytanie i jak kompetentna jest odpowiadająca na nie osoba Reakcje obiektów o ustalonych parametrach (tym samym poziomie kompetencji) są stochastycznie niezależne Pojedyncza osoba odpowiada na kolejne pytanie testu „bez pamięci” o wynikach poprzednich odpowiedzi i wyłącznie w zależności od tego, jak trudne jest kolejne pytanie i jak kompetentna jest osoba

Lokalna niezależność reakcji
poziom cechy ukrytej osoby reagującej na wskaźniki jest taki sam bez względu na ich kolejność „podawania”, prawdopodobieństwa „poprawnych” reakcji na kolejne wskaźniki zależą wyłącznie od odległości między poziomem cechy ukrytej odpowiadającego i poziomem „trudności” wskaźników, prawdopodobieństwo serii reakcji na wskaźniki dla pojedynczej osoby jest równe iloczynowi prawdopodobieństw reakcji na każdy ze wskaźników z osobna.

Lokalna niezależność reakcji
reakcje na poszczególne wskaźniki w grupach osób o tym samym poziomie umiejętności są od siebie stochastycznie niezależne Kumulatywnośc reakcji reakcje na wskaźniki są stochastycznie pozytywnie zależne.

Przykład skalogramu Guttmana

Model Mokkena Krzywe reakcji na trzy wskaźniki w modelu Mokkena

Skalogram Mokkena dla trzech wskaźników dychtomicznych

Konsekwencje założeń Mokkena - zależność wskaźników
Macierz częstości łącznych – zera strulturalne

Mokken scale – własności
Statystyka dostateczna cechy ukrytej b - jak u Guttmana – suma punktów Stopień zgodności danych z modelem Współczynniki Loevingera

Skalogram Mokkena - podsumowanie
I. Problem skalowalności Zalążkowe kryteria, często typu ad hoc pozwalają uznać zestaw wskaźników określonych w pewnej zbiorowości za nieskalowalny jeśli zdarzy się jedna z dwóch sytuacji : współczynnik Lovinger dla całego zestawu będzie niższy niż 0,3 (według Mokkena) albo, gdy macierze P11 i P00 będą zawierały wartości zbyt odległe od oczekiwanych, przy czym nie wiadomo co to znaczy "zbyt odległe". Trudno uznać powyższe kryteria rozstrzygania za dobrze uzasadnione, a ponadto oba te warunki są względnie od siebie niezależne. II. Problem liczby wymiarów cechy ukrytej i relacji między nimi Podobnie jak w modelu Guttmana, w skalogramie Mokkena nie ma procedury pozwalającej rozstrzygać tę kwestię. III. Czy wszystkie wskaźniki są potrzebne? Standardowy test dla identyczności populacyjnych proporcji dla zmiennych binarnych (test McNemara) pozwala z w zestawie wskaźników wyeliminować te, które są w nim zbędne, a decyzję przekonywująco, bo statystycznie, uzasadnić. Słabsze podstawy statystyczne ma decyzja o eliminacji z zestawu wskaźnika, dla którego współczynnik Loevinger Hi przyjmuje wartość niższą niż 0,3. Niektórzy autorzy jako uzasadnienie decyzji o niekumulatywności rozkładów łącznych, w których występuje wskaźnik Xi proponują używać statystyki testującej hipotezę, że współczynnik Loevingera Hi dla tego wskaźnika ma w populacji wartość 0, przeciwko hipotezie, że tak nie jest. Zauważmy jednak, że w ten sposób testowana jest hipoteza o niezależności stochastycznej wskaźników a nie o zgodności ich rozkładu z konsekwencjami założenia podwójnej monotoniczności. IV. Jakie są własności diagnostyczne poszczególnych wskaźników? Test McNemara pozwala wykryć wskaźniki o identycznych własnościach diagnostycznych, o tym samym poziomie trudności. Innych parametrów własności diagnostycznych pytań wskaźnikowych skalogram Mokkena nie przewiduje V. Jak skalować - funkcja agregująca profile Mokken wykazał, że liczba poprawnych odpowiedzi jest statystyką dostateczną dla skalowanej cechy ukrytej. Jest to minimalny wymóg stawiany wszelkim procedurom estymacyjnym i dzięki jego spełnianiu można powiedzieć, że w modelu Mokkena oszacowuje się częstości rozkładu cechy ukrytej .

Zmienna losowa o rozkładzie logistycznym

Funkcja logistyczna z parametrem a

Funkcja reakcji w modelu Rascha 1 PL

Warianty modelu Rascha
1PL: x 2PL: a,x 3PL: a,c, x

Funkcja informacyjna wskaźnika Xi zależy od wariantu modelu:
Funkcja informacyjna wskaźnika Xi oraz całego testu (X1, X2 , …… , Xk ) Pojęcie funkcji informacyjnej wskaźnika i testu pełni w IRT rolę „rzetelności” w CTT Skalowanie jest estymacją parametrów modelu probabilistycznego odpowiadania na pytania testu. Estymacja dokonywane jest z błędem. Funkcja informacyjna zdaje sprawę z tego, jaki jest błąd estymacji niskich, średnich i wysokich wartości cechy ukrytej Funkcja informacyjna wskaźnika Xi zależy od wariantu modelu:

Własności testu – rzetelność czyli dokładność oszacowań
funkcja informacyjna wskaźnika Xi jest odwrotnością wariancji jego estymatora. Jest miarą niepewności, z jaką przyporządkowujemy obiektowi wartość cechy ukrytej na podstawi e jego reakcji na pwskaźnik Xi wartość funkcji informacyjnej całego testu jest sumą wartości funkcji informacyjnych wszystkich wskaźników: błąd standardowy estymacji poziomu wartości cechy ukrytej

Estymacja modelu 1PL a założenia na temat rozkładu cechy ukrytej
Statystyką dostateczną parametru  osoby jest Statystyką dostateczną parametru  wskaźmika jest sumy r i s odwzorowują porządek obiektów i wskaźników ze względu na nasycenie cechy ukrytej Metody estymacji parametrów najprostszego modelu 1PL: Joint Maximum Likelihood – dla parametrów ,  jednocześnie Conditional Maximum Likelihood (CML) – dla parametru  Modalny Estymator Bayesa (BME) dla parametru  Dla modeli 2PL oraz 3PL estymacja jest bardziej złożona

Funkcja informacyjna wskaźnika dychotomicznego w modelu 1PL
-1,013 -1,013

Funkcja informacyjna wskaźnika dychotomicznego w modelu 2PL
-0,568 -0,568 d1 -0,568 a1 6,374

Przykład skalowania trzech wskaźników z pomoca modelu 1PL
wynikają z modelu di -1,013 -0,743 -0,243 P(Xi = 1 | q = qj ) 0,29 0,20 0,11 0,06 0,12 0,09 0,08 0,05 qj P(q=qj) X1 X2 X3 111 110 100 000 101 011 010 001 0,649 0,30 1 0,840 0,801 0,709 0,48 0,01 0,04 0,02 0,017 0,35 0,737 0,681 0,565 0,28 0,22 0,10 0,13 -0,571 0,609 0,543 0,419 0,14 0,19 0,16 0,07 -1,152 0,465 0,399 0,287 0,23 0,15 p1 p2 p3 p111 p110 p100 p000 p101 p011 p010 p001 0,70 0,65 0,55 próba różnica 0,00 -0,01 -0,02 -0,04

Przykład skalowania trzech wskaźników dychotomicznych za pomocą modelu 1PL
di -1,013 -0,743 -0,243

di -0,568 -1,113 -1,166 ai 6,374 0,601 0,173 qj X1 X2 X3 3 0,285 1 2 0,157 -0,065 -0,125 -0,804 -0,829 -0,904 -0,942 p1 p2 p3 0,70 0,65 0,55

ci di ai P(Xi = 1 | q = 0 ) X1 0,140 -0,428 8,402 0,977 X2 0,498 0,561 4,659 0,533 X3 0,497 1,358 4,394 0,499 qj X1 X2 X3 3 0,7973 1 2 0,6001 -0,0286 -0,0333 -0,7094 -0,7095 -0,7132 -0,7134

Modele Rascha - podsumowanie
I. Problem skalowalności Nawet proste modele Rascha umożliwiają testowanie (a więc i odrzucenie) hipotezy o skalowalności cechy ukrytej w danej zbiorowości za pomocą danego zestawu wskaźników. Podstawowym środkiem jest u statystyka testowa wywiedziona z ilorazu wiarygodności, która zazwyczaj używa ilorazów liczebności (częstości) empirycznych i przewidywanych przez model do badania stopnia zgodności danych z założeniami modelu. II. Problem liczby wymiarów cechy ukrytej i relacji między nimi Jako taki problem liczby wymiarów cechy ukrytej w prostych modelach skalowania nie daje się sformułować jako problem statystyczny. Umożliwiają to dopiero modele złożone będące uogólnieniem modeli skalowania Rascha dla wskaźników wielowartościowych z założonym porządkiem wartości. III. Czy wszystkie wskaźniki są potrzebne? Decyzja o zbędności bądź niezbędności wskaźnika w zestawie jest w modelu Rascha uzasadniana nie tylko przy użyciu standardowych technik weryfikacji hipotez lecz także przez wyniki analizy informacyjnych własności pytań testowych. Funkcja ta pozwala kontrolować skutki przyłączania lub wyłączania wskaźników z zestawu dla precyzji estymacji poziomów cechy ukrytej. IV. Jakie są własności diagnostyczne poszczególnych wskaźników? Przebieg funkcji informacyjnej wskaźnika dostarcza wystarczających informacji aby odpowiedzieć na to pytanie. V. Jak skalować Funkcja agregacji profili reakcji w wartości cechy ukrytej jest wynikiem szacowania parametrów modelu. W rozwiniętych modelach Rascha może ona przyjmować tyle wartości ile jest różnych profili reakcji w empirycznym rozkładzie wskaźników. Oznacza to, iż problem jednoznaczności agregacji dla profili reakcji niezgodnych z zasadą kumulatywności w modelach Rascha nie powstaje.

Problemy do rozwiązania w modelu Rascha 3PL dla wskaźników dychotomicznych
Wyznaczenie parametrów modeli reakcji trudność pytania - , poziom umiejętności osoby - , własności dyskryminacyjne pytania - a współczynnik odgadywania - c Ile umiejętności testujemy: identyfikacja liczby wymiarów testu Czy potrzebujemy wszystkich pytań: identyfikacja pytań zbędnych. Jak trafny jest test: problem kalibracji testu - co oznacza 100%? Jak rzetelny jest test - z jaką dokładnością mierzymy umiejętności?

W poszukiwaniu dobrego testu
Dobry test to taki, w którym: (a) Wszystkie pytania mają wysoką moc dyskryminacyjną, współczynniki ai znacznie przekraczają 1; (b) Wszystkie pytania charakteryzują się niewielkimi szansami na odgadnięcie poprawnej odpowiedzi - współczynniki ci są bliskie zera; (c) Poziomy trudności pytań obejmują całą skalę umiejętności, której poziom test ma diagnozować - liczba pytań z ujemnymi wartościami współczynnika bi jest zbliżona do liczby pytań, dla których jest on dodatni; (d) Dokładność oszacowania poziomu umiejętności ucznia jest wysoka i stała w całym zakresie umiejętności zdających test - krzywa informacyjna testu jest płaska nad całym obszarem diagnozowanych umiejętności.

Formalna analiza własności testów

Wartości zmiennej ukrytej a jawne wyniki testu – porównanie arkuszy maturalnych

Krzywe informacyjne arkuszy poziomu podstawowego

Własności informacyjjne testów poziomu podstawowego

Problem wyboru arkusza najlepszego z testowanych

Arkusz PP1 – statystyka opisowa

Suma punktów a oszacowany poziom umiejętności

Które z pytań arkusza jest do wymiany

Problemy skalowania jednowymiarowego (kumulatywnego w wersji probabilistycznej)
Na jakiej skali mierzymy cechę ukrytą Jak stwierdzić wielo- wymiarowość skali Problemy fundamentalne Jak zweryfikować założenie lokalnej niezależności reakcji Czy losowość reakcji osoby na wskaźnik wynika z losowania próby czy też jest dyspozycją osoby badanej

Rozszerzenia formalne modelu reakcji
Problemy skalowania jednowymiarowego (kumulatywnego w wersji probabilistycznej) 4 PL Politomiczne (porządkowe) wskaźniki Rozszerzenia formalne modelu reakcji Mieszanina wskaźników binarnych i politomicznych Wiele zmiennych ukrytych (wiele skal) Modele wielo- poziomowe Model z czasem reakcji Model z uczeniem się Computerized Adaptive Testing

Złożone schematy losowania osób testowanych Braki danych Problemy estymacyjne Efektywność metod estymacj parametrów dla modeli wielo-parametrycznych, wielo-skalowych wielo-poziomowych Miary stopnia dopasowania do danych – współczynniki skalowalności i ich rozkłady

Przykłady zastosowań IRT
Problemy skalowania jednowymiarowego (kumulatywnego w wersji probabilistycznej) Testowanie osiągnięć szkolnych ETS TOEFL GRE PISA PIAAC TALIS TIMSS Przykłady zastosowań IRT Diagnostyka psychiatryczna Skalowanie kapitałów społecznych Skalowanie potencjału partycypacyjnego

Problemy wynikające z potrzeb praktycznych
Problemy skalowania jednowymiarowego (kumulatywnego w wersji probabilistycznej) Problemy wynikające z potrzeb praktycznych PISA - TOEFL Badania międzynarodowe, między-kulturowe Badania zmian wskaźników DIF Kalibracja Linkowanie Kotwiczenie

Programme for International Student Assessment - PISA. Badanie co trzy lata, od 2000 roku, obejmuje obecnie 66 krajów. Adres: Teaching and Learning International Survey - TALIS. Badanie technik nauczania i zasobów edukacji, prowadzone jest obecnie w 34 krajach: Programme for International Assessment od Adult Competencies - PIAAC. Badanie w 26 krajach: rozumienie tekstu, matematyczne i rachunkowe oraz z zakresu technologii informatycznych. Adres: Progress in International Reading Literacy Study – PIRLS . Badanie co 5 lat: biegłość czytania literackiego i informacyjnego. Od 2006 r. badani są uczniowie klas trzecich szkoły podstawowej. Adres: Trends in International Mathematics and Science Study – TIMSS . Co 4 lata, w badaniu w 2011 r. uczestniczyło 60 krajów. Bada wiedzę i rozumowanie z zakresu matematyki i nauk przyrodniczych. W Polsce druga klasa gimnazjum. Adres:

Journal of Statistical software
Problemy skalowania jednowymiarowego (kumulatywnego w wersji probabilistycznej) Komercyjne ProQuest PISA Oprogra - mowanie Parscale SSI WinStep ICL Public Domain R: eRm mirt ltm lordif Journal of Statistical software

Skalowanie jedno-wymiarowe wprowadzenie

Podobne prezentacje

Prezentacja na temat: "Skalowanie jedno-wymiarowe wprowadzenie"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Skalowanie jedno-wymiarowe wprowadzenie

Podobne prezentacje

Prezentacja na temat: "Skalowanie jedno-wymiarowe wprowadzenie"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres