Metodologia nowoczesnej statystyki działalności gospodarczej MIKROFUZJA Andrzej Młodak Urząd Statystyczny w Poznaniu, Ośrodek Statystyki Małych Obszarów Wykorzystano informacje zawarte w prezentacji Marco Di Zio ze szkolenia MeMoBuSt w Hadze – 29 listopada 2013 r.
Istota mikrofuzji Jest to integracja źródeł danych składających się z jednostek statystycznych (wejście: mikro) celem uzyskania jednolitego zbioru danych jednostkowych (wyjście: mikro). Wykorzystuje się tutaj różnorodne techniki statystyczne (por. np. D’Orazio, M., Di Zio, M., and Scanu, M. (2006), Statistical matching: theory and practice, John Wiley&Sons Ltd., Chichester).
Najważniejsze rodzaje mikrofuzji Integracja źródeł danych składających się z tych samych jednostek (Wiązanie rekordów – łączenie obiektów) – na przykład firm z danego obszaru Integracja źródeł składających się z różnych jednostek, ale zawartych w tej samej populacji docelowej (Parowanie statystyczne) – na przykład zbiory dotyczące średnich i dużych firm mające pewien zestaw wspólnych zmiennych i określone zmienne odmienne. Uspójnienie zintegrowanych danych (Mikrointegracja)
Przykład integracji w drodze wiązania rekordów Rejestr zawierający dane z zakresu głównych zmiennych, który chcemy zintegrować z informacjami ze źródeł administracyjnych i badań reprezentacyjnych Rejestr – na przykład REGON zawierający charakterystyki takie jak kody NUTS, PKD 2007, liczba zatrudnionych, itp.. Dane finansowe pochodzące np. z rejestru podatkowego POLTAX Reprezentacyjne badanie małych i średnich przedsiębiorstw
Podejścia w zakresie wiązania rekordów Podejścia deterministyczne cechuje je stosowanie formalnych reguł decyzyjnych Podejścia probabilistyczne opierają się na wykorzystaniu prawdopodobieństw do oceny wzajemnego powiązania pary rekordów w kontekście kluczowych zmiennych pozwalają kwantyfikować poziom niepewności w zakresie powiązania pary obserwacji i oszacować błędy popełniane w przeprowadzonych działaniach.
Ramy wiązania rekordów 1. Jednoznaczny identyfikator jednostki, bez błędów 2. Identyfikator jednostki stworzony w oparciu o dostępne zmienne, bez błędów 3. Identyfikator jednostki stworzony w oparciu o dostępne zmienne, obciążony określonym błędem. Rodzaje błędów: błędne powiązanie – rekordy, które zostały powiązane, ale faktycznie nie dotyczą tych samych obiektów brakujące wiązania – rekordy, które nie zostały powiązane, ale które faktycznie są związane z tymi samymi obiektami.
Reguła decyzyjna Fellegiego–Suntera Probabilistyczne podejście do wiązania rekordów oparte na modelu decyzyjnym z 1969 r. Założenie – dwa źródła danych A i B (o liczbie obserwacji N a i N b odpowiednio) Wybieramy k wspólnych zmiennych wiążących X 1,…,X k Porównujemy (np. c i =1 gdy X i w zbiorze A jest równe X i w zbiorze B lub c i =0 w przeciwnym razie) uzyskując wektor c=(c 1,…,c k ) dla każdej pary jednostek (a,b).
Reguła decyzyjna Fellegiego–Suntera Obliczamy gdzie M to zbiór par powiązanych, zaś U – zbiór par niepowiązanych Pary (a,b) mogą być uporządkowane i sklasyfikowane w szacunkowych zbiorach powiązań M* i niepowiązań U* (lub rozstrzygnięć nieokreślonych Q*) w oparciu o progi T m i T u (T m >T u )
Reguła decyzyjna Fellegiego–Suntera Progi T m i T u wyznaczane są poprzez rozwiązanie równań, które minimalizują zarówno rozmiar zbioru Q jak również wskaźniki fałszywych powiązań oraz fałszywego braku powiązań.
Moduły podręcznika poświęcone wiązaniu rekordów 1. Parowanie obiektów (łączenie rekordów) 2. Parowanie identyfikatorów obiektów 3. Nieważone parowanie charakterystyk obiektów 4. Ważone parowanie charakterystyk obiektów 5. Probabilistyczne łączenie rekordów 6. Podejście Fellegi–Suntera i Jaro do łączenia rekordów
Przykłady integracji danych dla różnych jednostek (Parowanie statystyczne) Łączenie przedsiębiorstw Rejestr REGON Rejestr podatkowy POLTAX Badanie działalności gospodarczej (DG) Łączenie osób w gospodarstwa domowe celem wyznaczenia ich dochodu Rejestr podatkowy POLTAX Ewidencja ludności PESEL.
Parowanie statystyczne
Metody parowania danych Metody imputacyjne metody parametryczne (charakteryzujące się skończoną liczbą parametrów – umożliwiają imputację na przykład na podstawie predykcji rozkładów) metody nieparametryczne (na przykład imputacja oparta na dawcach) metody mieszane (łączące podejścia parametryczne i nieparametryczne, np. w pierwszym kroku estymuje się parametry modelu, zaś w drugim – otrzymuje finalne wyniki przy pomocy sposobu nieparametrycznego.
Metody mieszane 1. Szacujemy model parametryczny (np. funkcję regresji) 2. Model uzyskany w kroku pierwszym stosujemy do oszacowania wartości w obu zbiorach danych (np. biorca A, dawca B) 3. Wykorzystujemy oszacowane wartości do odnalezienia dawcy celem imputowania odpowiedniej wielkości biorcy A (np. znajdujemy najbliższego sąsiada w B według odległości obliczonej w oparciu o oszacowane wartości).
Ograniczenia i alternatywy parowania 1. Najprostsze metody są domyślnie oparte na założeniu warunkowej niezależności (Y i Z są niezależne przy danej wspólnej zmiennej X). 2. Celem uwzględnienia bardziej skompliko- wanych sytuacji należy użyć informacji pomocniczych dotyczących zmiennych Y i Z, np. danych z okresów wcześniejszych, zmiennych przybliżonych czy powiązanych. 3. Istnienie granic niepewności, tzn. granic nieidentyfikowalnych wielkości (np. korelacji Y i Z).
Moduły podręcznika poświęcone parowaniu statystycznemu 1. Parowanie statystyczne 2. Metody parowania statystycznego
Uzyskiwanie spójnych danych – przykład Kluczowe dane administracyjne (np. obrót, liczba zatrudnionych, wynagrodzenia). SBS wymaga więcej szczegółów Celem uzyskania owych szczegółów przeprowadza się badanie reprezentacyjne. Dla uzyskania danych o obrocie i innych kluczowych zmiennych można skorzystać z danych rejestrowych (np. POLTAX) a dla innych zmiennych – z wyników badania. Parowanie jest więc tutaj konieczne.
Integracja źródeł danych z różnymi jednostkami – przykład
Dane z zakresu działalności gospodarczej muszą podlegać pewnej liczbie określonych reguł i logicznych ograniczeń, np. e1: x1 – x5 + x8 = 0 (zysk = obrót – koszty ogółem) e2: –x3 + x5 – x4 = 0 (obrót = obrót główny + obrót pozostały) e3: –x6 – x7 + x8 = 0 (koszty ogółem = wynagrodzenia + inne koszty). Integracja danych z różnych źródeł prowadzi częstokroć do zaburzeń w tych regułach. Stąd celem zachowania spójności pewne z tych wielkości muszą zostać zmienione lub odpowiednio „dopasowane”.
Metody dopasowywania 1. Rozdział proporcjonalny (prorating – mnożenie dopasowywanych zmiennych przez odpowiednie czynniki korygujące) 2. Metody minimalnego korygowania (minimalizacja odległości pomiędzy rekordem oryginalnych – niespójnym – a dopasowanym z uwzględnieniem istniejących reguł i ograniczeń) 3. Korygowanie uogólnionym ilorazem (dopasowanie ujednolicające dla wszystkich zmiennych).
Rozdział proporcjonalny Dzielimy zbiór zmiennych na dopasowywalne i niezmienne. Załóżmy, że mamy regułę edycyjną w postaci, a jest czynnikiem korygującym. Wtedy Ponieważ, zatem
Metody minimalnego korygowania Warunki e1: x1 – x5 + x8 = 0 (zysk = obrót – koszty ogółem) e2: –x3 + x5 – x4 = 0 (obrót = obrót główny + obrót pozostały) e3: –x6 – x7 + x8 = 0 (koszty ogółem = wynagrodzenia + inne koszty) mogą być wyrażone jako Ex = c, gdzie
Metody minimalnego korygowania Bardziej ogólnie reguły edycyjne da się wyrazić jako Metoda polega na znalezieniu rozwiązania problemu: x 0 :obserwowane wartości zmiennych, które mogą być modyfikowane
Korygowanie uogólnionym ilorazem Czynnik odzwierciedlający zmiany pomiędzy rekordem oryginalnym z badania a dopasowanym z innych źródeł Przy założeniu, że rekordy złożone składają się z x s,i – danych administra- cyjnych gdy są one dostępne i danych z badania w przeciwnym razie Optymalizujemy dobór czynników minimalizując funkcję przy danych regułach
Moduły podręcznika dotyczące mikrointegracji 1. Rozwiązywanie konfliktów w mikrodanych 2. Rozdział proporcjonalny 3. Metody minimalnego korygowania 4. Korygowanie uogólnionym ilorazem