Modelowanie zmiennych ukrytych – analiza klas ukrytych dr Dorota Węziak-Białowolska, ISiD 1.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Excel Narzędzia do analizy regresji
DYSKRYMINACJA W MIEJSCU PRACY W POLSCE
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Analiza wariancji jednoczynnikowa
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Metody wnioskowania na podstawie podprób
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Modele logitowe i probitowe
Statystyka w doświadczalnictwie
Analiza korelacji.
Wprowadzenie do budowy usług informacyjnych
Modele (hipotezy) zagnieżdżone
Linear Methods of Classification
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń  Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.
Średnie i miary zmienności
Jednoczynnikowa analiza wariancji (ANOVA)
Hipotezy statystyczne
Testy nieparametryczne
Konstrukcja, estymacja parametrów
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Modelowanie ekonometryczne
Hipotezy statystyczne
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Podstawy statystyki, cz. II
Analiza dyskryminacji
Ekonometryczne modele nieliniowe
Henryk Rusinowski, Marcin Plis
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
Ekonometria stosowana
Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku.
Weryfikacja hipotez statystycznych
Model ekonometryczny Jacek Szanduła.
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Budowa skali/indeksu (analiza czynnikowa, analiza głównych składowych) dr Dorota Węziak-Białowolska ISiD.
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Wstęp do regresji logistycznej
Mikołaj Czajkowski Wiktor Budziński
Statystyka matematyczna
Statystyka matematyczna
Jednorównaniowy model regresji liniowej
{ Wsparcie informacyjne dla zarządzania strategicznego Tereshkun Volodymyr.
PODSTAWY STATYSTYKI Wykład udostępniony przez dr hab. Jana Gajewskiego
Monte Carlo, bootstrap, jacknife
Zapis prezentacji:

Modelowanie zmiennych ukrytych – analiza klas ukrytych dr Dorota Węziak-Białowolska, ISiD 1

Modelowanie zmiennych ukrytych polega na wykryciu nieobserwowalnych związków między zmiennymi wskaźnikowymi ZJAWISKA NIEOBSEROWALNE BEZPOŚREDNIO WSKAŹNIKI Zdarzenia obserwowalne, które pozwalają z określonym prawdopodobieństwem stwierdzić zaistnienie zjawiska nieobserwowalnego ZMIENNE UKRYTE ZMIENNE WSKAŹNIKOWE ZMIENNE DIAGNOSTYCZNE 2 dr Dorota Węziak-Białowolska, ISiD, SGH

F X1X1 X2X2 X4X4 X3X3 F – zmienna ukryta X i – zmienna obserwowalna (wskaźnikowa, diagnostyczna) 3 dr Dorota Węziak-Białowolska, ISiD, SGH

Orientacja na osiągnięcia V32. Potrafię sprostać zadaniom, które sobie wyznaczam V33. Nie boję się trudnych sytuacji i mam satysfakcję z ich pokonywania V34. Lubię ryzyko, które przynosi korzyści V35. Wolę pracę 'u siebie' niż ‘u kogoś' V36. Nie boję się przeciwności losu V37. Mam bogate plany na przyszłość 5 (zdecydowanie się zgadzam) 4 (zgadzam się) 3 (ani się zgadzam, ani się nie zgadzam) 2 (nie zgadzam się) 1 (zdecydowanie się nie zgadzam) 4 dr Dorota Węziak-Białowolska, ISiD, SGH

Zastosowanie odpowiedniego modelu/metody do zmierzenia zmiennej ukrytej związane jest: 1. z poziomem pomiaru/skalą pomiaru zmiennej ukrytej 2. z poziomem pomiaru/skalą pomiaru zmiennych wskaźnikowych 5 dr Dorota Węziak-Białowolska, ISiD, SGH

KLASYFIKACJA SKAL WG STEVENSA 6 dr Dorota Węziak-Białowolska, ISiD, SGH

Skale pomiarowe Skale mocneSkale słabe Skala nominalna Skala porządkowa Skala przedziałowa Skala ilorazowa Transformować można jedynie skale mocniejszą na skalę słabszą 7 dr Dorota Węziak-Białowolska, ISiD, SGH

Klasyczna klasyfikacja modeli dla zmiennych ukrytych Zmienne obserwowalne Zmienne ukryte Ciągłe (latent traits) Dyskretne (latent classes) CiągłeAnaliza czynnikowa Analiza profili ukrytych DyskretneModele IRT (1PL, 2PL, model Rascha) Analiza klas ukrytych 8 dr Dorota Węziak-Białowolska, ISiD, SGH

Analiza klas ukrytych (latent class analysis, LCA) 9 dr Dorota Węziak-Białowolska, ISiD, SGH

Metoda analizy danych pozwalająca na identyfikację grup respondentów na podstawie ich odpowiedzi na zestaw pytań o odpowiedziach tak/nie Grupy te: 1. Określa się mianem klas; 2. Obejmują respondentów podobnych do siebie; Ponadto zakłada się, że grupy/klasy te mają charakter nieobserwowalny bezpośrednio Przyjmuje się, że poszczególne klasy są kategoriami zmiennej ukrytej o charakterze dyskretnym. 10 dr Dorota Węziak-Białowolska, ISiD, SGH

Analiza czynnikowa (factor analysis FA) F X1X1 X2X2 X4X4 X3X3 C X1X1 X2X2 X4X4 X3X3 C – zmienna ukryta dyskretna X i – zmienna obserwowalna (wskaźnikowa) ciągła lub dyskretna Analiza profili ukrytych (latent profile analysis) F – zmienna ukryta ciągła X i – zmienna obserwowalna (wskaźnikowa) ciągła lub dyskretna Analiza klas ukrytych (latent class analysis LCA) 11 dr Dorota Węziak-Białowolska, ISiD, SGH

Szacowane parametry: a) Prawdopodobieństwo przynależności do klasy γ (bezwarunkowe) (latent class membership probabilities) γ – odsetek populacji w danej klasie ukrytej; stanowią część strukturalną modelu klas ukrytych; b) Prawdopodobieństwo k-tej odpowiedzi na i-te pytanie pod warunkiem przynależności do c-tej klasy ukrytej ρ (warunkowe) (item-response probabilities, conditional response probabilities) ρ – opisuje związek między odpowiedzią na i-tą zmienną wskaźnikową, a przynależnością do c-tej klasy ukrytej; stanowi podstawę opisu c-tej klasy; odpowiednik ładunków czynnikowych w analizie czynnikowej; stanowią część pomiarową modelu klas ukrytych; 12 dr Dorota Węziak-Białowolska, ISiD, SGH

Założenia: a) Brak założeń odnośnie rozkładów zmiennych wskaźnikowych b) Założenie o lokalnej niezależności (w obrębie klasy zmienne wskaźnikowe są niezależne) Metoda estymacji: MNW 13 dr Dorota Węziak-Białowolska, ISiD, SGH

Ocena jakości modelu (dopasowanie modelu do danych) 1. Podstawą analizy klas ukrytych jest analiza tablicy kontyngencji 2. Miara jakości dopasowania bazuje na statystyce chi-kwadrat gdzie: S – liczba wzorów odpowiedzi = liczba elementów tablicy kontyngencji f(s) – empiryczna liczebność w komórce s tablicy kontyngencji e(s) – oczekiwana liczebność w komórce s tablicy kontyngencji k – liczba estymowanych parametrów G 2 – statystyka chi-kwadrat wyrażona w postaci ilorazu wiarygodności; 14 dr Dorota Węziak-Białowolska, ISiD, SGH

Porównanie dwóch modeli (1) A. Test na istotność różnicy statystyk G 2 UWAGA: 1. Modele powinny być zagnieżdżone 2. Test na istotność różnicy nie może być stosowany do porównania dwóch modeli o różnej liczbie klas ukrytych 15 dr Dorota Węziak-Białowolska, ISiD, SGH

Porównanie dwóch modeli (2) B. Kryteria informacyjne Kryterium informacyjne Akaike’a (AIC): AIC = -2ln(L) + 2p gdzie: ln(L) – logarytm naturalny funkcji wiarygodności p - liczba estymowanych parametrów Kryterium Bayesowskie Schwarza: (SBC lub BIC - the Bayesian Information Criterion ): SBC = -2ln(L) + p*ln(N) gdzie: N – liczba obserwacji Zgodne kryterium informacyjne Akaike’a (CAIC): CAIC= -2ln(L) + p * (1 + ln(N)) 16 dr Dorota Węziak-Białowolska, ISiD, SGH

Porównanie dwóch modeli (3) C. Entropia Miara jakości klasyfikacji obiektów do klas ukrytych na podstawie prawdopodobieństw a posteriori gdzie: K – liczba klas - prawdopodobieństwo warunkowe przynależności i-tego respondenta do k-tej klasy 17 dr Dorota Węziak-Białowolska, ISiD, SGH

Porównanie dwóch modeli (4) Muthen zaleca sprawdzanie entropii; Według Nylund, Asparouhova, Muthena najlepiej stosować BLRT (bootstrap likelihood ratio test) ALE wymaga dużej mocy obliczeniowej) następnie zalecają sprawdzenie BIC i wreszcie adjusted BIC. [Nylund, Asparouhov, Muthen, Deciding on the Number of Classes in Latent Class Analysis and Growth Mixture Modeling: A Monte Carlo Simulation Study, „Structural Equation Modeling”, 14(4), s ] 18 dr Dorota Węziak-Białowolska, ISiD, SGH

Analiza klas ukrytych (latent class analysis) a analiza czynnikowa (factor analysis) - Ta sama podstawa merytoryczna: 1) zmienne wskaźnikowe są symptomami istnienia klas ukrytych 2) zmienne wskaźnikowe służą do zmierzenia zmiennej ukrytej (pośrednio, z błędem pomiaru) - Różnice w postrzeganiu zmiennej ukrytej: 1) W analizie czynnikowej zmienna ukryta ma charakter ciągły 2) W analizie klas ukrytych zmienna ukryta ma charakter dyskretny Analiza czynnikowa – macierz korelacji Analiza klas ukrytych – tabela kontyngencji 19 dr Dorota Węziak-Białowolska, ISiD, SGH

Dyskryminacja w miejscu pracy - zastosowanie analizy klas ukrytych Przykład Dyskryminacja w miejscu pracy - zastosowanie analizy klas ukrytych Izabela Grabowska Dorota Węziak-Białowolska 20 dr Dorota Węziak-Białowolska, ISiD, SGH

Dane pochodzą z 4 rundy badania EWCS przeprowadzonej w roku 2005 European Working Conditions Survey (EWCS) – badanie prowadzone przez Europejską Fundację działającą na rzecz poprawy warunków życia i warunków pracy (the European Foundation for the Improvement of Living and Working Conditions) Wielkość próby: prawie pracowników w wieku powyżej 15 roku życia z 31 krajów (27 UE, Norwegia, Chorwacja, Szwajcaria, Turcja) Badanie jest całkowicie porównywalne między krajami, wykorzystuje się ten sam kwestionariusz ankietowy. 21 dr Dorota Węziak-Białowolska, ISiD, SGH

Pytania badawcze Jakie praktyki dyskryminacyjne występują na europejskim rynku pracy? Jakie praktyki dyskryminacyjne współwystępują? Czy wśród praktyk dyskryminacyjnych wyróżniają się dyskryminacja ze względu na wiek i dyskryminacja ze względu płeć?

Dyskryminacja ze względu na płeć i/lub orientację seksualną Over the past 12 months, have you or have you not, personally been subjected at work to...? A - threats of physical violence B - physical violence from people from your workplace C - physical violence from other people D - bullying / harassment E - sexual discrimination / discrimination linked to gender F - unwanted sexual attention G - age discrimination H - discrimination linked to nationality I - discrimination linked to ethnic background J - discrimination linked to religion K - discrimination linked to disability L - discrimination linked to sexual orientation Dane Przemoc fizyczna Dyskryminacja ze względu na wiek Dyskryminacja związana z niepełnosprawnością Dyskryminacja ze względu na narodowość, pochodzenie i religię

YesNo A. Have you personally been subjected at work to threats of physical violence? 5,8%94,2% B. Have you personally been subjected at work to physical violence from people from your workplace? 1,7%98,3% C. Have you personally been subjected at work to physical violence from other people? 3,9%96,1% D. Have you personally been subjected at work to bullying / harassment? 6,0%94,0% E. Have you personally been subjected at work to sexual discrimination / discrimination linked to gender? 1,3%98,7% F. Have you personally been subjected at work to unwanted sexual attention? 1,9%98,1% G. Have you personally been subjected at work to age discrimination? 3,0%97,0% H. Have you personally been subjected at work to discrimination linked to nationality? 1,3%98,7% I. Have you personally been subjected at work to discrimination linked to ethnic background? 0,9%99,1% J. Have you personally been subjected at work to discrimination linked to religion? 0,6%99,4% K. Have you personally been subjected at work to discrimination linked to disability? 0,5%99,5% L. Have you personally been subjected at work to discrimination linked to sexual orientation? 0,2%99,8% 24 dr Dorota Węziak-Białowolska, ISiD, SGH

Number of classes AICBICAdj. BICG2G2 df dr Dorota Węziak-Białowolska, ISiD, SGH Rozwiązanie 6-klasowe

Rozwiązanie 6-klasowe – parametr ρ (prawdopodobieństwo odpowiedzi „Tak”) Statement Class A B C D E F G H I J K L not at all discriminated in any field subjected at work to sexual discrimination /discrimination linked to gender and to unwanted sexual attention subjected at work to threats of physical violence only rather not discriminated subjected to threats of physical violence, physical violence and harassment because of nationality or ethnic background discriminated because of nationality or ethnic background only

Statement Class A B C D E F G H I J K L Fraction γ84.77%0.48%5.96%7.48%0.40%0.90% description not at all discriminated sexually harassed subjected at work to threats of physical violence rather not discriminated with exception to age discriminated because of nationality or ethnic background and subjected to threats a nd physical violenc discriminated because of nationality or ethnic background Table 3. Final 6-class solution – ρ-parameters ( probability of „yes” ) 27