Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Metodologia nowoczesnej statystyki działalności gospodarczej EDYCJA I IMPUTACJA DANYCH Wykorzystano informacje z prezentacji Sandera Scholtusa ze szkolenia.

Podobne prezentacje


Prezentacja na temat: "Metodologia nowoczesnej statystyki działalności gospodarczej EDYCJA I IMPUTACJA DANYCH Wykorzystano informacje z prezentacji Sandera Scholtusa ze szkolenia."— Zapis prezentacji:

1 Metodologia nowoczesnej statystyki działalności gospodarczej EDYCJA I IMPUTACJA DANYCH Wykorzystano informacje z prezentacji Sandera Scholtusa ze szkolenia MeMoBuSt w Hadze – 29 listopada 2013 r. Andrzej Młodak Urząd Statystyczny w Poznaniu, Ośrodek Statystyki Małych Obszarów

2 Wprowadzenie  Dane otrzymane przez instytucję statystyczną ID Klasa wielkości Liczba zatrudnio- nych Obrót (x €1000) Koszty pracy (x €1000) Inne koszty (x €1000) Koszty ogółem (x €1000) 0001duże21349,827030, duże364, średnie421,462511, średnie296, , małe4875,00098,000547,000645, małe81, małe

3 Wprowadzenie  Dane przekazywane statystykom  zawierają błędy i niewiarygodne wartości  posiadają luki w danych.  Celem otrzymania wynikowych informacji statystycznych o odpowiedniej jakości do redukcji powyższych problemów stosuje się  edycję danych statystycznych zajmującą się problemem błędów  imputację mającą na celu uzupełnienie brakujących wartości

4 Edycja danych statystycznych  Przegląd  Cele  Reguły edycyjne  Różne metody edycyjne i sposoby ich łączenia  Moduły podręcznika

5 Edycja danych statystycznych – cele  Tradycyjny cel edycji:  wykrywanie i korygowanie wszystkich błędów w zgromadzonych danych  Problemy:  wymaga intensywnej pracy  bardzo czasochłonna  wysoce nieefektywna: błędy pomiaru nie są jedynym źródłem błędów w wynikowych informacjach statystycznych

6 Edycja danych statystycznych – cele  Współczesne cele edycji: 1. Zidentyfikowanie możliwych źródeł błędów, tak by proces statystyczny mógł zostać w przyszłości ulepszony. 2. Dostarczenie informacji o jakości zgromadzonych i opublikowanych danych. 3. Wykrycie i skorygowanie błędów wpływu w zgromadzonych danych. 4. Dostarczenie kompletnych i spójnych mikrodanych, jeśli to konieczne. źródła: Granquist (1997), EDIMBUS (2007)

7 Edycja danych statystycznych – reguły edycyjne

8  Przykłady reguł edycyjnych:  obrót ≥ 0 (edycja nieujemna, twarda)  zysk = obrót – koszty ogółem (edycja bilansowa, twarda)  JEŻELI (klasa wielkości = “małe”) TO (0 ≤ liczba zatrudnionych < 10) (edycja warunkowa, miękka)  JEŻELI (działalność gospodarcza = “budownictwo”) TO (a < obrót / liczba zatrudnionych < b) (edycja ilorazu, miękka)

9 Edycja danych statystycznych – metody edycja deduk- cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa- tyczna makro- edycja mikrodane statystyczne mikrodane surowe

10 Edycja danych statystycznych – metody  Edycja dedukcyjna  koncentruje się na błędach systematycznych  wykrywanie i modyfikowanie deterministyczne: o reguła jeśli–to o algorytmy  Przykłady: o błędy dotyczące jednostki miary (np. “ ” zamiast “2 500”) o błędy znaków (np. “–5” zamiast “5”) o proste błędy w pisaniu (np. “312” zamiast“321”) o specyficzne błędy przedmiotowe.

11 Edycja danych statystycznych – metody edycja deduk- cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa- tyczna makro- edycja mikrodane statystyczne mikrodane surowe

12 Edycja danych statystycznych – metody

13 edycja deduk- cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa- tyczna makro- edycja mikrodane statystyczne mikrodane surowe

14 Edycja danych statystycznych – metody  Edycja ręczna  wymaga: o osób do jej przeprowadzenia (specjalistów z danej dziedziny) o odpowiednio przygotowanego oprogramowania (edycja interaktywna) o opracowania reguł edycyjnych (twardych i miękkich); główną rolę grają tu jednak te miękkie, np. – IF (Klasa = ‘małe’ AND (Liczba pracujących < 0 OR Liczba pracujących ≥ 10)) THEN (kod_błędu_E1 := “błędy”; komunikat_błędu_E1 := “Liczba pracujących nie odpowiada klasie” ) o instrukcji edycyjnych  czasami wykorzystuje się tutaj ponowne kontakty z podmiotami gospodarczymi  ważna jako źródło ulepszeń w kolejnych rundach badania powtarzalnego

15 Edycja danych statystycznych – metody edycja deduk- cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa- tyczna makro- edycja mikrodane statystyczne mikrodane surowe

16 Edycja danych statystycznych – metody  Edycja automatyczna  uzyskiwanie spójnych mikrodanych dla rekordów nie mających istotnego wpływu na agregaty  paradygmat Fellegiego – Holta (1976): dane winny być doprowadzone do postaci spójnej z regułami edycyjnymi poprzez zmianę jak najmniejszej liczby pozycji. o jako matematyczny problem optymalizacyjny prowadzi do lokalizacji błędu o imputacja nowych wartości jako odrębny krok  wymaga: o (twardych) reguł edycyjnych o odpowiedniego oprogramowania (np.: Banff – Statistics Canada; SLICE – Statistics Netherlands; środowisko R, pakiet editrules )

17 Edycja danych statystycznych – metody edycja deduk- cyjna edycja selektywna nie wybrane wybrane edycja ręczna edycja automa- tyczna makro- edycja mikrodane statystyczne mikrodane surowe

18 Edycja danych statystycznych – metody  Makroedycja  znana także jako edycja wyjściowa  ma ten sam cel co edycja selektywna  wykorzystuje dane dla wszystkich dostępnych rekordów równocześnie  metoda agregacyjna: o obliczyć agregaty wysokiego poziomu o sprawdzić ich wiarygodność o przeanalizować podejrzane agregaty niższego poziomu o ewentualnie: przeanalizować podejrzane rekordy indywidualne o wrócić do edycji ręcznej  wsparcie graficzne (wykresy rozproszenia, itp.) celem odnalezienia obserwacji odstających.

19 Edycja danych statystycznych – metody  Moduły podręcznika: 1. Główny moduł tematyczny 2. Edycja dedukcyjna 3. Edycja selektywna 4. Edycja automatyczna 5. Edycja ręczna 6. Makroedycja 7. Edycja danych administracyjnych 8. Edycja danych długookresowych.

20 Imputacja  Przegląd  Dane brakujące  Metody imputacji  Zagadnienia specjalne  Moduły podręcznika

21 Imputacja – braki danych  Braki w danych mogą się pojawić z powodu:  okoliczności logicznych o szczególne pytania nie mają zastosowania do określonych jednostek  brak odpowiedzi jednostek o brak jakichkolwiek danych dla określonej jednostki  brak odpowiedzi w pozycjach o jednostka nie jest w stanie odpowiedzieć na dane pytanie o jednostka nie chce udzielić odpowiedzi na dane pytanie  edycja o oryginalne dane mogą zostać odrzucone podczas edycji automatycznej.

22 Imputacja – braki danych  Imputacja: wypełnienie braków danych nowymi (oszacowanymi) wartościami,  Powszechnie stosowana dla braków danych w określonych pozycjach lub spowodowanych edycją.  Uzyskanie kompletnego zbioru mikrodanych przed estymacją:  upraszcza samą estymację  chroni przed niespójnościami w informacjach wyjściowych

23 Imputacja – metody  Imputacja dedukcyjna  Imputacja oparta na modelach  Imputacja oparta na dawcach  Założenie: wszystkie zaobserwowane wartości są poprawne  imputację stosuje się po lokalizacji błędów.

24 Imputacja – metody  Imputacja dedukcyjna  podanie (bardziej niż estymacja) brakujących wartości w oparciu o posiadane dane na podstawie o relacji logicznych (reguł edycyjnych) o konkretnych reguł edycyjnych  może być bardzo użyteczna jako pierwszy krok imputacyjny IDObrót (sprzedaż)Obrót (usługi)Obrót (pozostałe)Obrót (ogółem)

25 Imputacja – metody  Imputacja oparta na modelach  imputacje bazujące na modelach predykcyjnych  model dopasowuje się do zaobserwowanych danych a następnie używa się go do zaimputowania danych brakujących

26 Imputacja – metody

27  Imputacja oparta na modelach  wybór modelu zależy od przyjętego sposobu wykorzystania danych o estymacja średnich i wartości ogółem: może tu wystarczyć imputacja średnią lub imputacja ilorazowa o ogólny cel zgromadzenia mikrodanych: ważny dla zależności modelowych  wielowymiarowa imputacja oparta na modelach o wielowymiarowa imputacja regresyjna (łączny model dla wszystkich zmiennych) o regresja sekwencyjna/równania łańcuchowe (oddzielne modele dla każdej zmiennej, warunkowe w odniesieniu do innych zmiennych)

28 Imputacja – metody  Imputacja oparta na dawcach  brakujące wartości imputowane poprzez ‘pożyczanie’ wartości zaobserwowanych z innych (podobnych) jednostek o jednostka z wartościami znanymi: dawca o jednostka z wartościami brakującymi: biorca  podejście „gorące” (hold–deck): dawca i biorca w tym samym pliku z danymi

29 Imputacja – metody  Imputacja oparta na dawcach  przypadki specjalne: o losowa imputacja „gorąca” dawca wybierany w sposób losowy (w ramach danych klas) w definicji klas imputacyjnych stosuje się zmienne pomocnicze o imputacja najbliższego sąsiedztwa dawca wybrany według minimalnej odległości od biorcy do definicji odległości używa się zmiennych pomocniczych o parowanie średniej predykcyjnej (predictive mean matching) specjalny przypadek imputacji najbliższego sąsiedztwa oparta na odległości szacowanych wartości od modelu regresyjnego

30 Imputacja – zagadnienia specjalne  Wybór metody/modelu/zmiennych pomocniczych  powszechny problem w wielowymiarowej analizie danych  zmienne pomocnicze powinny wyjaśnić o zmienną(zmienne) docelową(–e) o mechanizm brakujących danych  porównanie dopasowania modelu w odpowiedziach na dane pytanie o może być mylące (“obciążenie imputacji”)  eksperymenty symulacyjne z danymi historycznymi

31 Imputacja – zagadnienia specjalne  Imputacja dla danych długookresowych  powtarzalne badania przekrojowe  studia panelowe  Specjalne metody imputacji dla danych długookresowych  ostatnia obserwacja rozpatrywana w pierwszej kolejności  interpolacja  ekstrapolacja  metoda Little i Su

32 Imputacja – zagadnienia specjalne

33  Imputowane wartości (implanty) są oszacowaniami  wartości imputowane winny być oznaczone  Estymacja wariancji z wykorzystaniem zaimputowanych danych  wariancja prawdopodobnie będzie niedoszacowana, gdy o …implanty są traktowane jako wartości zaobserwowane o …predykcje modelowe są imputowane bez czynnika zakłócającego o …stosuje się prostą imputację  podejście alternatywne: imputacja wieloraka o Jako dotąd niezbyt często dostępna w statystyce publicznej

34 Imputacja – zagadnienia specjalne  Imputowane wartości mogą być wadliwe/niespójne  przykłady: o obrót = –100 (wadliwe) o koszty pracy = 0, liczba pracujących = 15 (niespójność)  nie powinien to być problem w przypadku estymacji agregatów  może to stanowić problem w ewentualnym przyszłym rozpowszechnianiu mikrodanych  Imputacja z ograniczeniami edycyjnymi  metoda jednokrokowa: ograniczony model imputacyjny  metoda dwukrokowa: po imputacji następuje dopasowanie danych do siebie

35 Imputacja – moduły  Moduły podręcznika: 1. Główny moduł tematyczny 2. Imputacja dedukcyjna 3. Imputacja oparta na modelach 4. Imputacja oparta na dawcach 5. Imputacja dla danych długookresowych 6. Metoda Little – Su 7. Imputacja w obliczu ograniczeń edycyjnych.

36 Literatura pomocnicza  EDIMBUS (2007), Recommended Practices for Editing and Imputation in Cross- Sectional Business Surveys.  Fellegi, I.P. and D. Holt (1976), A Systematic Approach to Automatic Edit and Imputation. Journal of the American Statistical Association 71, pp. 17–35.  Granquist, L. (1997), The New View on Editing. International Statistical Review 65, pp. 381–387.


Pobierz ppt "Metodologia nowoczesnej statystyki działalności gospodarczej EDYCJA I IMPUTACJA DANYCH Wykorzystano informacje z prezentacji Sandera Scholtusa ze szkolenia."

Podobne prezentacje


Reklamy Google