11 BENEFICJENT: GŁÓWNY URZĄD STATYSTYCZNY Al. Niepodległości 208 00-925 Warszawa tel. (022) 608 31 05 fax (022) 608 38 89 www.stat.gov.pl Kontrola zachowania.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Excel Narzędzia do analizy regresji
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Analiza współzależności zjawisk
Przygotowała Sylwia Zych
Analiza ryzyka projektu
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
zarządzanie produkcją
Statystyka w doświadczalnictwie
Pakiety statystyczne Maciej Szydłowski (dr)
Linear Methods of Classification
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
5. Problemy lokalizacji w projektowaniu międzynarodowych struktur logistycznych – przegląd metod i technik.
LITERATURA ANEKSY. STRUKTURA DZIAŁU TEORETYCZNEGO DEFINICJE WAŻNIEJSZYCH POJĘĆ HISTORIA ROZWOJU ZJAWISKA ANALIZA TEORII NAUKOWYCH PUNKTY WYJŚCIOWE O CELU.
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Elementy statystyki dla lekarzy Planowanie badań i zbieranie danych
LITERATURA ANEKSY. STRUKTURA DZIAŁU TEORETYCZNEGO DEFINICJE WAŻNIEJSZYCH POJĘĆ HISTORIA ROZWOJU ZJAWISKA ANALIZA TEORII NAUKOWYCH PUNKTY WYJŚCIOWE O CELU.
Jak mierzyć i od czego zależy?
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Metadane w opisie hurtowni danych oraz procesie ETL
Prezentacja inicjatyw Śląskiego Klastra ICT
TECHNOLOGIA I ORGANIZACJA ROBÓT BUDOWLANYCH
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Metody badawcze wykorzystywane w analizach – ĆW 2
Podstawy statystyki, cz. II
Od kompleksowej diagnozy sytuacji osób niepełnosprawnych w Polsce do nowego modelu polityki społecznej wobec niepełnosprawności Projekt badawczy Prof.
Planowanie badań i analiza wyników
MS Excel - wspomaganie decyzji
III EKSPLORACJA DANYCH
Henryk Rusinowski, Marcin Plis
Seminarium licencjackie Beata Kapuścińska
SYSTEM FUNKCJI, PROCESÓW I PRZEDSIĘWZIĘĆ W ORGANIZACJI.
Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne.
Copyright © Jerzy R. Nawrocki Team Software Process Inżynieria oprogramowania II Wykład.
Eksploatacja zasobów informatycznych przedsiębiorstwa.
niezawodności Z problemem jakości systemów informacyjnych wiąże się problem zapewnienia odpowiedniej niezawodności ich działania.
STRUKTURA PRACY DYPLOMOWEJ
Wprowadzenie do analizy ekonomicznej (treść wykładu)
EDYCJA I IMPUTACJA DANYCH
Statystyczne parametry akcji Średnie Miary rozproszenia Miary współzależności.
Metodologia nowoczesnej statystyki działalności gospodarczej MIKROFUZJA Andrzej Młodak Urząd Statystyczny w Poznaniu, Ośrodek Statystyki Małych Obszarów.
Testowanie hipotez Jacek Szanduła.
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Człowiek – najlepsza inwestycja
WYKŁAD 4 ANALIZA OBCIĄŻENIA PSYCHICZNEGO
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Ewa Dziedzic Katedra Turystyki SGH Potrzeby i luki informacyjne u podmiotów zarządzających turystyką.
Treść dzisiejszego wykładu l Analiza wrażliwości –zmiana wartości współczynników funkcji celu, –zmiana wartości prawych stron ograniczeń. l Podejścia do.
STATYSTYKA – kurs podstawowy wykład 11
Ewaluacja oparta na teorii w praktyce badawczej Rafał Trzciński Fundacja IDEA Rozwoju Toruń, 21 czerwca 2016 r.
Treść dzisiejszego wykładu l Metoda Najmniejszych Kwadratów (MNK) l Współczynnik determinacji l Koincydencja l Kataliza l Współliniowość zmiennych.
Kontrolowanie Mateusz Turczyn.
T 10. Metodologia Rapid Re - wprowadzenie
Statystyka matematyczna
Ogólnopolska Konferencja Młodych Naukowców:
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Efektywność algorytmów
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Selekcja danych Korelacja.
Analiza współzależności zjawisk
Korelacja i regresja liniowa
Zapis prezentacji:

11 BENEFICJENT: GŁÓWNY URZĄD STATYSTYCZNY Al. Niepodległości Warszawa tel. (022) fax (022) Kontrola zachowania poufności Statistical Disclosure Control (SDC) lub Statistical Disclosure Limitation (SDL) Paweł Lańduch Urząd Statystyczny w Poznaniu Listopad 2014 r., Grudzień 2015 r.

2 Cele i potrzeby:  Publikowanie danych na jak najbardziej szczegółowych poziomach Zapewnienie poufności indywidualnych danych statystycznych stąd Poszukiwanie metod ochrony danych, które pogodzą dwa sprzeczne cele

3 Sposób postępowania: 1.Identyfikacja ryzyka dla publikowanych danych 2.Modyfikacja „ryzykownych danych” w sposób taki, gdzie ryzyko stanie się bardzo małe lub nieistotne 3.W jaki sposób to wykonać, żeby dane były interesujące dla statystyków, naukowców i osób tworzących lub oceniających politykę społeczną lub gospodarczą ? 4.Celem SDC nie jest „przeszkadzać” w tworzeniu analiz, tylko zachować poufność danych indywidualnych.

4 Preferencje: 1.Szerokie spektrum „zwykłych” użytkowników – na ogół wystarczy ukryć ryzykowne komórki w tabeli 2.Akademicy – inne metody – stochastyczne – zaokrąglanie, zmiana danych Dostęp do danych lub mikrodanych: -Grupy użytkowników -Wydzielone stanowiska -Zdalny dostęp Problem optymalizacji, wyboru algorytmu i jego złożoności

5 GSBPM – Generic Statistical Business Process Model – wersja UNECE z 2009 r.

6 Zasada 5 Kodeksu Praktyk: Poufność statystyk prawo mikrodane dla celów naukowych fizyczna ochrona baz Typy danych wymagających poufności (nie tylko statystyka publiczna ) dane jednostkowe dane wrażliwe (np. informacje dot. zdrowia) e-handel

7 Utrata danych: koncepcja jakości danych koncepcja utraty danych i jej rozumienie informacja o utracie infomacji dla użytkowników (data suppliers and data users) polityka SDC

8 Utrata danych: ryzyko utrata danych

9 Typy metod SDC dla: microdanych zagregowane zmienne liczbowe (przede wszystkim badania przedsiębiorstw) tabele liczności (przede wszystkim badania społeczne) analizy statystyczne

10 Klasyfikacje metod: ingerujące w dane – niezmieniające danych dla danych jednostkowych, tabelarycznych, analiz Tablice dynamiczne dla tabel Komórka wrażliwa Komórka wrażliwa pierwotna Komórka wrażliwa wtórna Metody stosowane przed naliczeniem tabeli, metody stosowane po naliczeniu Restrukturyzacja tabel

11 Potrzeby opracowania SDC dla mikrodanych: duża liczba źródeł administracyjnych zaawansowane metody IT umożliwiają analizę ogromnych ilości danych ograniczona liczba zasobów statystyk publicznych wsparcie w analizach przez badaczy spoza statystyki publicznej

12 Metody SDC dla mikrodanych: µ-ARGUS (szeroko używany w ESSnet) o global recording  zmienna identyfikacyjna cecha unikalna cecha rzadka zmiana szczegółowości zajęciegmina wykształcenie …… WójtBlizanówwyższe …… zajęciepowiat wykształcenie …… Wójtkaliskiwyższe ……

13 Metody SDC dla mikrodanych: o local suppresion  zmienna identyfikacyjna cecha unikalna cecha rzadka miejscowe ukrycie wartości zajęciemiejscowość wykształcenie …… WójtBlizanówwyższe …… zajęciemiejscowość wykształcenie …… Wójtnieznana wyższe ……

14 Metody SDC dla mikrodanych: o Top coding lub alternatywnie bottom coding Wartość cechy x dla której X > „wartość progowa” alternatywnie X < „wartość progowa” zostaje zmieniona na ustaloną wartość

15 Metody SDC dla mikrodanych: o Addytywne maskowanie danych o Poprzez dodanie czynnika losowego nieskorelowanego o Poprzez dodanie czynnika losowego skorelowanego o Poprzez dodanie czynnika losowego i transformację liniową o Poprzez dodanie czynnika losowego i transformację nieliniową o W praktyce stosowane dwa pierwsze

16 Metody SDC dla mikrodanych: o PRAM (Post Randomisation Method) -stosowana dla danych jakościowych -oparta na modelu probabilistycznym -prawdziwa wartość może zostać zmieniona z zadanym w modelu prawdopodobieństwem -Zastosowana w spisie powszechnym w Wielkiej Brytanii w 2001 r. – w efekcie powstał Samples od Anonymysed Records (SARS)

17 Metody SDC dla mikrodanych: o PRAM (Post Randomisation Method) Przykład z książki SDC Hundepool i inni (2012) W zbiorze mikrodanych danych jest 110 mężczyzn i 90 kobiet. Zastosowanie macierzy PRAM – P o postaci: daje użytkownikowi rezultat 108 mężczyzn i 92 kobiety, ale z wartości oczekiwanej 9 mężczyzn było faktycznie kobietami i 11 mężczyzn było faktycznie kobietami

18 Metody SDC dla tabel z wielkościami agregowanymi (przede wszystkim badania przedsiębiorstw): o Reguły koncentracji (ukrycie pierwotne):  Reguła p% - z jaką dokładnością p możliwe jest możliwe ustalenie indywidualnego udziału w komórce tabeli  Reguła (n,k) – n jednostek stanowi więcej niż k % udziału w komórce tabeli

19 Metody SDC dla tabel z wielkościami agregowanymi Problem: Agregat (5 jednostek) sprzedaż Producent X :80x =86 Producent Y : 5x10 6 dokł. 7,5 % Pozostałe : 3x2x10 6 suma: 91x10 6

20 Metody SDC dla tabel z wielkościami agregowanymi: o Restrukturyzacja tabeli Łączenie wierszy/kolumn Suma Region A c 11 X c 13 c 14 X 1 c 21 X c 23 c 24 2X.. … B Suma

21 Metody SDC dla tabel z wielkościami agregowanymi: o Addytywne zaokrąglanie (możliwe zastosowanie dla pierwotnego i wtórnego ukrycia) -problem zachowania addytywności brzegowych wartości -minimalizacja odchyleń od wartości prawdziwych

22 Metody SDC dla tabel liczności: wymiary o zapewnienie poufności rozpoznania jednostki o zapewnienie poufności dalszych cech o jednostce w przypadku cech wrażliwych Ustalenie: -Czy komórka nie zawiera zbyt mało jednostek -Czy liczby w komórkach nie są zbytnio skoncentrowane w komórce z danymi wrażliwymi

23 Metody SDC dla tabel liczności: -Lokalizacja ryzykownych komórek -Przekształcenie na możliwe do publikacji - standaryzcja - ukrywanie komórek - addytywne zaokrąglanie

24 Metody SDC dla tabel(na podstawie): Willenborg, L., De Wolf, P.P. (2013) MEMOBUST project - Statistical disclosure control, disclosure-controlhttp://cros-portal.eu/content/statistical- disclosure-control Metoda SDC Typ tabeli, w której metoda jest stosowana Typ metodyOpis Metoda BarnardaliczebnościIngerująca w dane Losowe dodanie/odjęcie 1 od wybranych komórek Przekształcenie tabeliLiczebności i wielkościoweBrak ingerencji w dane Zmiana liczby wierszy/kolumn tabeli Ukrywanie komórekLiczebności i wielkościoweBrak ingerencji w dane Ukrycie danej w komórce poprzez wstawienie w miejsce wartości komórki znaku X Zaokrąglanie: Kontrolowane, Deterministyczne, Losowe, Liczebności i wielkościoweIngerująca w dane Zaokrąglenie każdej wartości w tabeli przy zadanej podstawie, Kontrolowana korekcja danych (CTA – Controlled Tabular Adjustement) WielkościoweIngerująca w dane Selekcja komórek do korekty: komórki z ryzykiem odkrycia poufności są korygowane, pozostałe są korygowane w celu zachowania addytywności Dystorsja komórekWielkościoweIngerująca w dane Dodanie losowego czynnika zmieniającego wartość komórki

25 Metody SDC dla analiz/wnioskowania statystycznego: - zróżnicowany charakter analiz -trudności w kontroli -Projekty w ramach ESSnet: - statystyka opisowa - analiza korelacji i wariancji

26 Metody SDC dla analiz/wnioskowania statystycznego: -rozwojowy charakter projektów - dwa rodzaje błędów: -Błędna akceptacja rezultatów publikacji, który zawierają ryzyko naruszenia poufności -Wstrzymanie publikacji, której rezultaty są wystarczające bezpieczne

27 Inny problem dla analiz: 1.Pytanie o istnienie związku miedzy kategoriami/zmiennymi 2.Pytanie o charakter/kierunek związku 3.Jak wpłynie zastosowanie technik SDC na tego typu pytania 4.Jak poinformować analityków aby mieli możliwość skorygować swoje wyniki.

28 Materiały dotyczące SDC: słownik, podręcznik, projekty ESSnet: Podręcznik Memobust (Methodology of Modern Business Statistics): Książka: Hundepool, A., Domingo-Ferrer, J., Franconi, L., Giessing, S., Schulte Nordholt, E., Spicer, K., and De Wolf, P. P. (2012), Statistical disclosure control. Wiley-Blackwell

29 Software: τ-ARGUS μ-ARGUS copyright Statistics Netherlands od końca 2014 r. jako Open Source Inne: sdcTable (pakiet R, bez interface’u użytkownika) G-Confid (Statistics Canada)

30 Bardzo dziękuję za uwagę!