Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

EDYCJA I IMPUTACJA DANYCH

Podobne prezentacje


Prezentacja na temat: "EDYCJA I IMPUTACJA DANYCH"— Zapis prezentacji:

1 EDYCJA I IMPUTACJA DANYCH
Andrzej Młodak Urząd Statystyczny w Poznaniu, Ośrodek Statystyki Małych Obszarów Wykorzystano informacje z prezentacji Sandera Scholtusa ze szkolenia MeMoBuSt w Hadze – 29 listopada 2013 r.

2 Liczba zatrudnio-nych
Wprowadzenie Dane otrzymane przez instytucję statystyczną ID Klasa wielkości Liczba zatrudnio-nych Obrót (x €1000) Koszty pracy (x €1000) Inne koszty (x €1000) Koszty ogółem 0001 duże 213 49,827 30,479 0002 3 64,933 0003 średnie 42 1,462 51 1,513 0004 29 6,301 891 6,350 0005 małe 4 875,000 98,000 547,000 645,000 0006 8 1,716 175 998 0007 614 47 153 570

3 Wprowadzenie Dane przekazywane statystykom
zawierają błędy i niewiarygodne wartości posiadają luki w danych. Celem otrzymania wynikowych informacji statystycznych o odpowiedniej jakości do redukcji powyższych problemów stosuje się edycję danych statystycznych zajmującą się problemem błędów imputację mającą na celu uzupełnienie brakujących wartości

4 Edycja danych statystycznych
Przegląd Cele Reguły edycyjne Różne metody edycyjne i sposoby ich łączenia Moduły podręcznika

5 Edycja danych statystycznych – cele
Tradycyjny cel edycji: wykrywanie i korygowanie wszystkich błędów w zgromadzonych danych Problemy: wymaga intensywnej pracy bardzo czasochłonna wysoce nieefektywna: błędy pomiaru nie są jedynym źródłem błędów w wynikowych informacjach statystycznych

6 Edycja danych statystycznych – cele
Współczesne cele edycji: Zidentyfikowanie możliwych źródeł błędów, tak by proces statystyczny mógł zostać w przyszłości ulepszony. Dostarczenie informacji o jakości zgromadzonych i opublikowanych danych. Wykrycie i skorygowanie błędów wpływu w zgromadzonych danych. Dostarczenie kompletnych i spójnych mikrodanych, jeśli to konieczne. źródła: Granquist (1997), EDIMBUS (2007)

7 Edycja danych statystycznych – reguły edycyjne
Reguły edycyjne (weryfikacyjne) stosowane do wykrywania błędów mogą być zarówno miękkie jak i twarde ogólna forma: JEŻELI (obiekt ∈ grupa edycyjna) TO (zmienna testująca ∈ obszar akceptacji)

8 Edycja danych statystycznych – reguły edycyjne
Przykłady reguł edycyjnych: obrót ≥ 0 (edycja nieujemna, twarda) zysk = obrót – koszty ogółem (edycja bilansowa, twarda) JEŻELI (klasa wielkości = “małe”) TO (0 ≤ liczba zatrudnionych < 10) (edycja warunkowa, miękka) JEŻELI (działalność gospodarcza = “budownictwo”) TO (a < obrót / liczba zatrudnionych < b) (edycja ilorazu, miękka)

9 Edycja danych statystycznych – metody
edycja deduk-cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa-tyczna makro-edycja mikrodane statystyczne mikrodane surowe

10 Edycja danych statystycznych – metody
Edycja dedukcyjna koncentruje się na błędach systematycznych wykrywanie i modyfikowanie deterministyczne: reguła jeśli–to algorytmy Przykłady: błędy dotyczące jednostki miary (np. “ ” zamiast “2 500”) błędy znaków (np. “–5” zamiast “5”) proste błędy w pisaniu (np. “312” zamiast“321”) specyficzne błędy przedmiotowe.

11 Edycja danych statystycznych – metody
edycja deduk-cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa-tyczna makro-edycja mikrodane statystyczne mikrodane surowe

12 Edycja danych statystycznych – metody
Edycja selektywna oparta na priorytetyzacji rekordów według oczekiwanej korzyści dla jakości danych wynikowych płynących z ręcznej modyfikacji tychże rekordów rekordy mogą być wybrane w kolejności, w jakiej wpływają do badacza (edycja na wejściu) wspólne podejście oparte na funkcjach wiodących lokalne rezultaty dla kluczowych zmiennych docelowych, np. cząstkowe poziomy wpływu na wynik 𝑆 𝑖𝑗 = 𝑝 𝑖 × 𝑤 𝑖 × 𝑦 𝑖𝑗 − 𝑦 𝑖𝑗 𝑇 𝑦 𝑗 , gdzie 𝑦 𝑖𝑗 to przewidywana wartość j–tej cechy dla jednostki i, 𝑦 𝑖𝑗 - wartość faktyczna, 𝑝 𝑖 – poziom podejrzliwości wobec i–tej jednostki, 𝑤 𝑖 – jej waga w losowaniu (doborze), 𝑇 𝑦 𝑗 to zaś oszacowanie wielkości docelowej, j = 1,2,…,m, użycie wyników globalnych dla agregacji wyników lokalnych (np. sumy lub maksimum).

13 Edycja danych statystycznych – metody
edycja deduk-cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa-tyczna makro-edycja mikrodane statystyczne mikrodane surowe

14 Edycja danych statystycznych – metody
Edycja ręczna wymaga: osób do jej przeprowadzenia (specjalistów z danej dziedziny) odpowiednio przygotowanego oprogramowania (edycja interaktywna) opracowania reguł edycyjnych (twardych i miękkich); główną rolę grają tu jednak te miękkie, np. IF (Klasa = ‘małe’ AND (Liczba pracujących < 0 OR Liczba pracujących ≥ 10)) THEN (kod_błędu_E1 := “błędy”; komunikat_błędu_E1 := “Liczba pracujących nie odpowiada klasie” ) instrukcji edycyjnych czasami wykorzystuje się tutaj ponowne kontakty z podmiotami gospodarczymi ważna jako źródło ulepszeń w kolejnych rundach badania powtarzalnego

15 Edycja danych statystycznych – metody
edycja deduk-cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa-tyczna makro-edycja mikrodane statystyczne mikrodane surowe

16 Edycja danych statystycznych – metody
Edycja automatyczna uzyskiwanie spójnych mikrodanych dla rekordów nie mających istotnego wpływu na agregaty paradygmat Fellegiego – Holta (1976): dane winny być doprowadzone do postaci spójnej z regułami edycyjnymi poprzez zmianę jak najmniejszej liczby pozycji. jako matematyczny problem optymalizacyjny prowadzi do lokalizacji błędu imputacja nowych wartości jako odrębny krok wymaga: (twardych) reguł edycyjnych odpowiedniego oprogramowania (np.: Banff – Statistics Canada; SLICE – Statistics Netherlands; środowisko R, pakiet editrules)

17 Edycja danych statystycznych – metody
edycja deduk-cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa-tyczna makro-edycja mikrodane statystyczne mikrodane surowe

18 Edycja danych statystycznych – metody
Makroedycja znana także jako edycja wyjściowa ma ten sam cel co edycja selektywna wykorzystuje dane dla wszystkich dostępnych rekordów równocześnie metoda agregacyjna: obliczyć agregaty wysokiego poziomu sprawdzić ich wiarygodność przeanalizować podejrzane agregaty niższego poziomu ewentualnie: przeanalizować podejrzane rekordy indywidualne wrócić do edycji ręcznej wsparcie graficzne (wykresy rozproszenia, itp.) celem odnalezienia obserwacji odstających.

19 Edycja danych statystycznych – metody
Moduły podręcznika: Główny moduł tematyczny Edycja dedukcyjna Edycja selektywna Edycja automatyczna Edycja ręczna Makroedycja Edycja danych administracyjnych Edycja danych długookresowych.

20 Imputacja Przegląd Dane brakujące Metody imputacji
Zagadnienia specjalne Moduły podręcznika

21 Imputacja – braki danych
Braki w danych mogą się pojawić z powodu: okoliczności logicznych szczególne pytania nie mają zastosowania do określonych jednostek brak odpowiedzi jednostek brak jakichkolwiek danych dla określonej jednostki brak odpowiedzi w pozycjach jednostka nie jest w stanie odpowiedzieć na dane pytanie jednostka nie chce udzielić odpowiedzi na dane pytanie edycja oryginalne dane mogą zostać odrzucone podczas edycji automatycznej.

22 Imputacja – braki danych
Imputacja: wypełnienie braków danych nowymi (oszacowanymi) wartościami, Powszechnie stosowana dla braków danych w określonych pozycjach lub spowodowanych edycją. Uzyskanie kompletnego zbioru mikrodanych przed estymacją: upraszcza samą estymację chroni przed niespójnościami w informacjach wyjściowych

23 Imputacja – metody Imputacja dedukcyjna Imputacja oparta na modelach
Imputacja oparta na dawcach Założenie: wszystkie zaobserwowane wartości są poprawne imputację stosuje się po lokalizacji błędów.

24 Imputacja – metody Imputacja dedukcyjna
podanie (bardziej niż estymacja) brakujących wartości w oparciu o posiadane dane na podstawie relacji logicznych (reguł edycyjnych) konkretnych reguł edycyjnych może być bardzo użyteczna jako pierwszy krok imputacyjny ID Obrót (sprzedaż) Obrót (usługi) Obrót (pozostałe) Obrót (ogółem) 1001 154 10 2 166 1002 147

25 Imputacja – metody Imputacja oparta na modelach
imputacje bazujące na modelach predykcyjnych model dopasowuje się do zaobserwowanych danych a następnie używa się go do zaimputowania danych brakujących

26 Imputacja – metody Imputacja oparta na modelach przypadki specjalne:
imputacja średnią model: 𝑦=𝛼+𝜀, z 𝜀~𝑁(0, 𝜎 2 ) imputowana wartość: 𝑦 𝑖 = 𝛼 = 𝑦 𝑜𝑏𝑠 Imputacja ilorazowa model: 𝑦=𝛽𝑥+𝜀, z 𝜀~𝑁(0, 𝜎 2 𝑥) imputowana wartość: 𝑦 𝑖 = 𝛽 𝑥 𝑖 = 𝑦 𝑜𝑏𝑠 𝑥 𝑜𝑏𝑠 𝑥 𝑖 imputacja regresyjna (tu liniowa) model: 𝑦=𝛼+ 𝛽 1 𝑥 1 +⋯+ 𝛽 𝑞 𝑥 𝑞 +𝜀 imputowana wartość: 𝑦 𝑖 = 𝛼 + 𝛽 1 𝑥 1𝑖 +⋯+ 𝛽 𝑞 𝑥 𝑞𝑖 (+ 𝑒 𝑖 )

27 Imputacja – metody Imputacja oparta na modelach
wybór modelu zależy od przyjętego sposobu wykorzystania danych estymacja średnich i wartości ogółem: może tu wystarczyć imputacja średnią lub imputacja ilorazowa ogólny cel zgromadzenia mikrodanych: ważny dla zależności modelowych wielowymiarowa imputacja oparta na modelach wielowymiarowa imputacja regresyjna (łączny model dla wszystkich zmiennych) regresja sekwencyjna/równania łańcuchowe (oddzielne modele dla każdej zmiennej, warunkowe w odniesieniu do innych zmiennych)

28 Imputacja – metody Imputacja oparta na dawcach
brakujące wartości imputowane poprzez ‘pożyczanie’ wartości zaobserwowanych z innych (podobnych) jednostek jednostka z wartościami znanymi: dawca jednostka z wartościami brakującymi: biorca podejście „gorące” (hold–deck): dawca i biorca w tym samym pliku z danymi

29 Imputacja – metody Imputacja oparta na dawcach przypadki specjalne:
losowa imputacja „gorąca” dawca wybierany w sposób losowy (w ramach danych klas) w definicji klas imputacyjnych stosuje się zmienne pomocnicze imputacja najbliższego sąsiedztwa dawca wybrany według minimalnej odległości od biorcy do definicji odległości używa się zmiennych pomocniczych parowanie średniej predykcyjnej (predictive mean matching) specjalny przypadek imputacji najbliższego sąsiedztwa oparta na odległości szacowanych wartości od modelu regresyjnego

30 Imputacja – zagadnienia specjalne
Wybór metody/modelu/zmiennych pomocniczych powszechny problem w wielowymiarowej analizie danych zmienne pomocnicze powinny wyjaśnić zmienną(zmienne) docelową(–e) mechanizm brakujących danych porównanie dopasowania modelu w odpowiedziach na dane pytanie może być mylące (“obciążenie imputacji”) eksperymenty symulacyjne z danymi historycznymi

31 Imputacja – zagadnienia specjalne
Imputacja dla danych długookresowych powtarzalne badania przekrojowe studia panelowe Specjalne metody imputacji dla danych długookresowych ostatnia obserwacja rozpatrywana w pierwszej kolejności interpolacja ekstrapolacja metoda Little i Su

32 Imputacja – zagadnienia specjalne
Metoda Little i Su stosowana dla danych panelowych: implant jest wypadkową efektu poziomego (row effect – na poziomie jednostki) i pionowego (column effect – dla okresu): addytywnie: implant=(efekt poziomy)+(efekt pionowy)+(reszta) multyplikatywnie: implant=(efekt poziomy)(efekt pionowy)(reszta) w praktyce wybiera się jednostkę j z pełnymi danymi, dla której efekt wierszowy jest najbliższy temuż efektowi dla jednostki i z brakiem danych 𝑦 𝑖𝑡 = 𝑟 𝑖 + 𝑐 𝑡 + 𝑒 𝑗𝑡 lub 𝑦 𝑖𝑡 = 𝑟 𝑖 𝑐 𝑡 𝑒 𝑗𝑡 , gdzie ( 𝑚 𝑖 – liczba okresów, dla których dane z zakresu danej zmiennej dla i są dostępne, 𝑀 – liczba okresów, dla których rozważane średnie są istotne) 𝑟 𝑖 = 1 𝑚 𝑖 𝑡 𝑦 𝑖𝑡 𝑐 𝑡 , 𝑐 𝑡 = 𝑦 𝑡 𝑘=1 𝑀 𝑦 𝑘 𝑀 , 𝑒 𝑗𝑡 = 𝑦 𝑗𝑡 𝑟 𝑗 𝑐 𝑡

33 Imputacja – zagadnienia specjalne
Imputowane wartości (implanty) są oszacowaniami wartości imputowane winny być oznaczone Estymacja wariancji z wykorzystaniem zaimputowanych danych wariancja prawdopodobnie będzie niedoszacowana, gdy …implanty są traktowane jako wartości zaobserwowane …predykcje modelowe są imputowane bez czynnika zakłócającego …stosuje się prostą imputację podejście alternatywne: imputacja wieloraka Jako dotąd niezbyt często dostępna w statystyce publicznej

34 Imputacja – zagadnienia specjalne
Imputowane wartości mogą być wadliwe/niespójne przykłady: obrót = –100 (wadliwe) koszty pracy = 0, liczba pracujących = 15 (niespójność) nie powinien to być problem w przypadku estymacji agregatów może to stanowić problem w ewentualnym przyszłym rozpowszechnianiu mikrodanych Imputacja z ograniczeniami edycyjnymi metoda jednokrokowa: ograniczony model imputacyjny metoda dwukrokowa: po imputacji następuje dopasowanie danych do siebie

35 Imputacja – moduły Moduły podręcznika: Główny moduł tematyczny
Imputacja dedukcyjna Imputacja oparta na modelach Imputacja oparta na dawcach Imputacja dla danych długookresowych Metoda Little – Su Imputacja w obliczu ograniczeń edycyjnych.

36 Literatura pomocnicza
EDIMBUS (2007), Recommended Practices for Editing and Imputation in Cross- Sectional Business Surveys. Fellegi, I.P. and D. Holt (1976), A Systematic Approach to Automatic Edit and Imputation. Journal of the American Statistical Association 71, pp. 17–35. Granquist, L. (1997), The New View on Editing. International Statistical Review 65, pp. 381–387.


Pobierz ppt "EDYCJA I IMPUTACJA DANYCH"

Podobne prezentacje


Reklamy Google