Metodologia nowoczesnej statystyki działalności gospodarczej MIKROFUZJA Andrzej Młodak Urząd Statystyczny w Poznaniu, Ośrodek Statystyki Małych Obszarów.

Slides:



Advertisements
Podobne prezentacje
Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Advertisements

Excel Narzędzia do analizy regresji
Metody losowania próby
Analiza współzależności zjawisk
Równanie różniczkowe zupełne i równania do niego sprowadzalne
Metody rozwiązywania układów równań liniowych
Inteligencja Obliczeniowa Metody probabilistyczne.
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
Metody wnioskowania na podstawie podprób
Badanie nt.: Wpływ interwencji z funduszy strukturalnych UE na zatrudnienie BDG-V MCH/2006 Zalecenia wynikające z badania.
Analiza współzależności
Metody ekonometryczne
Statystyka w doświadczalnictwie
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Program przedmiotu “Metody statystyczne w chemii”
Korelacje, regresja liniowa
Analiza wariancji ANOVA efekty główne
Hipotezy statystyczne
Testy nieparametryczne
Rachunek kosztów zmiennych
Podstawy programowania
Ekonometria. Co wynika z podejścia stochastycznego?
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Testy nieparametryczne
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Wybrane zagadnienia relacyjnych baz danych
Źródła błędów w obliczeniach numerycznych
Ekonometria stosowana
Analiza wariancji ANOVA czynnikowa ANOVA
MS Excel - wspomaganie decyzji
II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
Henryk Rusinowski, Marcin Plis
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Wnioskowanie statystyczne
Grafika i komunikacja człowieka z komputerem
Ekonometria stosowana
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Regresja liniowa Dany jest układ punktów
D. Ciołek BADANIA OPERACYJNE – wykład 2
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
MACHINE REPAIR Symulacja z arkuszem kalkulacyjnym Magdalena Gołowicz Agnieszka Paluch.
EDYCJA I IMPUTACJA DANYCH
Model ekonometryczny Jacek Szanduła.
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Szacowanie wartości rynkowej nieruchomości: podejście porównawcze
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Algorytmy, sposoby ich zapisu.1 Algorytm to uporządkowany opis postępowania przy rozwiązywaniu problemu z uwzględnieniem opisu danych oraz opisu kolejnych.
Rodzaje zmian zachodzących w otoczeniu przedsiębiorstwa:
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Monte Carlo, bootstrap, jacknife
Zapis prezentacji:

Metodologia nowoczesnej statystyki działalności gospodarczej MIKROFUZJA Andrzej Młodak Urząd Statystyczny w Poznaniu, Ośrodek Statystyki Małych Obszarów Wykorzystano informacje zawarte w prezentacji Marco Di Zio ze szkolenia MeMoBuSt w Hadze – 29 listopada 2013 r.

Istota mikrofuzji  Jest to integracja źródeł danych składających się z jednostek statystycznych (wejście: mikro) celem uzyskania jednolitego zbioru danych jednostkowych (wyjście: mikro).  Wykorzystuje się tutaj różnorodne techniki statystyczne (por. np. D’Orazio, M., Di Zio, M., and Scanu, M. (2006), Statistical matching: theory and practice, John Wiley&Sons Ltd., Chichester).

Najważniejsze rodzaje mikrofuzji  Integracja źródeł danych składających się z tych samych jednostek (Wiązanie rekordów – łączenie obiektów) – na przykład firm z danego obszaru  Integracja źródeł składających się z różnych jednostek, ale zawartych w tej samej populacji docelowej (Parowanie statystyczne) – na przykład zbiory dotyczące średnich i dużych firm mające pewien zestaw wspólnych zmiennych i określone zmienne odmienne.  Uspójnienie zintegrowanych danych (Mikrointegracja)

Przykład integracji w drodze wiązania rekordów  Rejestr zawierający dane z zakresu głównych zmiennych, który chcemy zintegrować z informacjami ze źródeł administracyjnych i badań reprezentacyjnych  Rejestr – na przykład REGON zawierający charakterystyki takie jak kody NUTS, PKD 2007, liczba zatrudnionych, itp..  Dane finansowe pochodzące np. z rejestru podatkowego POLTAX  Reprezentacyjne badanie małych i średnich przedsiębiorstw

Podejścia w zakresie wiązania rekordów  Podejścia deterministyczne  cechuje je stosowanie formalnych reguł decyzyjnych  Podejścia probabilistyczne  opierają się na wykorzystaniu prawdopodobieństw do oceny wzajemnego powiązania pary rekordów w kontekście kluczowych zmiennych  pozwalają kwantyfikować poziom niepewności w zakresie powiązania pary obserwacji i oszacować błędy popełniane w przeprowadzonych działaniach.

Ramy wiązania rekordów 1. Jednoznaczny identyfikator jednostki, bez błędów 2. Identyfikator jednostki stworzony w oparciu o dostępne zmienne, bez błędów 3. Identyfikator jednostki stworzony w oparciu o dostępne zmienne, obciążony określonym błędem. Rodzaje błędów: błędne powiązanie – rekordy, które zostały powiązane, ale faktycznie nie dotyczą tych samych obiektów brakujące wiązania – rekordy, które nie zostały powiązane, ale które faktycznie są związane z tymi samymi obiektami.

Reguła decyzyjna Fellegiego–Suntera  Probabilistyczne podejście do wiązania rekordów oparte na modelu decyzyjnym z 1969 r.  Założenie – dwa źródła danych A i B (o liczbie obserwacji N a i N b odpowiednio)  Wybieramy k wspólnych zmiennych wiążących X 1,…,X k  Porównujemy (np. c i =1 gdy X i w zbiorze A jest równe X i w zbiorze B lub c i =0 w przeciwnym razie) uzyskując wektor c=(c 1,…,c k ) dla każdej pary jednostek (a,b).

Reguła decyzyjna Fellegiego–Suntera  Obliczamy  gdzie M to zbiór par powiązanych, zaś U – zbiór par niepowiązanych  Pary (a,b) mogą być uporządkowane i sklasyfikowane w szacunkowych zbiorach powiązań M* i niepowiązań U* (lub rozstrzygnięć nieokreślonych Q*) w oparciu o progi T m i T u (T m >T u )

Reguła decyzyjna Fellegiego–Suntera  Progi T m i T u wyznaczane są poprzez rozwiązanie równań, które minimalizują zarówno rozmiar zbioru Q jak również wskaźniki fałszywych powiązań oraz fałszywego braku powiązań.

Moduły podręcznika poświęcone wiązaniu rekordów 1. Parowanie obiektów (łączenie rekordów) 2. Parowanie identyfikatorów obiektów 3. Nieważone parowanie charakterystyk obiektów 4. Ważone parowanie charakterystyk obiektów 5. Probabilistyczne łączenie rekordów 6. Podejście Fellegi–Suntera i Jaro do łączenia rekordów

Przykłady integracji danych dla różnych jednostek (Parowanie statystyczne)  Łączenie przedsiębiorstw  Rejestr REGON  Rejestr podatkowy POLTAX  Badanie działalności gospodarczej (DG)  Łączenie osób w gospodarstwa domowe celem wyznaczenia ich dochodu  Rejestr podatkowy POLTAX  Ewidencja ludności PESEL.

Parowanie statystyczne

Metody parowania danych  Metody imputacyjne  metody parametryczne (charakteryzujące się skończoną liczbą parametrów – umożliwiają imputację na przykład na podstawie predykcji rozkładów)  metody nieparametryczne (na przykład imputacja oparta na dawcach)  metody mieszane (łączące podejścia parametryczne i nieparametryczne, np. w pierwszym kroku estymuje się parametry modelu, zaś w drugim – otrzymuje finalne wyniki przy pomocy sposobu nieparametrycznego.

Metody mieszane 1. Szacujemy model parametryczny (np. funkcję regresji) 2. Model uzyskany w kroku pierwszym stosujemy do oszacowania wartości w obu zbiorach danych (np. biorca A, dawca B) 3. Wykorzystujemy oszacowane wartości do odnalezienia dawcy celem imputowania odpowiedniej wielkości biorcy A (np. znajdujemy najbliższego sąsiada w B według odległości obliczonej w oparciu o oszacowane wartości).

Ograniczenia i alternatywy parowania 1. Najprostsze metody są domyślnie oparte na założeniu warunkowej niezależności (Y i Z są niezależne przy danej wspólnej zmiennej X). 2. Celem uwzględnienia bardziej skompliko- wanych sytuacji należy użyć informacji pomocniczych dotyczących zmiennych Y i Z, np. danych z okresów wcześniejszych, zmiennych przybliżonych czy powiązanych. 3. Istnienie granic niepewności, tzn. granic nieidentyfikowalnych wielkości (np. korelacji Y i Z).

Moduły podręcznika poświęcone parowaniu statystycznemu 1. Parowanie statystyczne 2. Metody parowania statystycznego

Uzyskiwanie spójnych danych – przykład  Kluczowe dane administracyjne (np. obrót, liczba zatrudnionych, wynagrodzenia).  SBS wymaga więcej szczegółów  Celem uzyskania owych szczegółów przeprowadza się badanie reprezentacyjne.  Dla uzyskania danych o obrocie i innych kluczowych zmiennych można skorzystać z danych rejestrowych (np. POLTAX) a dla innych zmiennych – z wyników badania. Parowanie jest więc tutaj konieczne.

Integracja źródeł danych z różnymi jednostkami – przykład

 Dane z zakresu działalności gospodarczej muszą podlegać pewnej liczbie określonych reguł i logicznych ograniczeń, np.  e1: x1 – x5 + x8 = 0 (zysk = obrót – koszty ogółem)  e2: –x3 + x5 – x4 = 0 (obrót = obrót główny + obrót pozostały)  e3: –x6 – x7 + x8 = 0 (koszty ogółem = wynagrodzenia + inne koszty).  Integracja danych z różnych źródeł prowadzi częstokroć do zaburzeń w tych regułach. Stąd celem zachowania spójności pewne z tych wielkości muszą zostać zmienione lub odpowiednio „dopasowane”.

Metody dopasowywania 1. Rozdział proporcjonalny (prorating – mnożenie dopasowywanych zmiennych przez odpowiednie czynniki korygujące) 2. Metody minimalnego korygowania (minimalizacja odległości pomiędzy rekordem oryginalnych – niespójnym – a dopasowanym z uwzględnieniem istniejących reguł i ograniczeń) 3. Korygowanie uogólnionym ilorazem (dopasowanie ujednolicające dla wszystkich zmiennych).

Rozdział proporcjonalny  Dzielimy zbiór zmiennych na dopasowywalne i niezmienne. Załóżmy, że mamy regułę edycyjną w postaci, a  jest czynnikiem korygującym. Wtedy  Ponieważ, zatem

Metody minimalnego korygowania  Warunki  e1: x1 – x5 + x8 = 0 (zysk = obrót – koszty ogółem)  e2: –x3 + x5 – x4 = 0 (obrót = obrót główny + obrót pozostały)  e3: –x6 – x7 + x8 = 0 (koszty ogółem = wynagrodzenia + inne koszty) mogą być wyrażone jako Ex = c, gdzie

Metody minimalnego korygowania  Bardziej ogólnie reguły edycyjne da się wyrazić jako  Metoda polega na znalezieniu rozwiązania problemu: x 0 :obserwowane wartości zmiennych, które mogą być modyfikowane

Korygowanie uogólnionym ilorazem  Czynnik odzwierciedlający zmiany pomiędzy rekordem oryginalnym z badania a dopasowanym z innych źródeł  Przy założeniu, że rekordy złożone składają się z x s,i – danych administra- cyjnych gdy są one dostępne i danych z badania w przeciwnym razie  Optymalizujemy dobór czynników minimalizując funkcję przy danych regułach

Moduły podręcznika dotyczące mikrointegracji 1. Rozwiązywanie konfliktów w mikrodanych 2. Rozdział proporcjonalny 3. Metody minimalnego korygowania 4. Korygowanie uogólnionym ilorazem