Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

11 BENEFICJENT: GŁÓWNY URZĄD STATYSTYCZNY Al. Niepodległości 208 00-925 Warszawa tel. (022) 608 31 05 fax (022) 608 38 89 www.stat.gov.pl Kontrola zachowania.

Podobne prezentacje


Prezentacja na temat: "11 BENEFICJENT: GŁÓWNY URZĄD STATYSTYCZNY Al. Niepodległości 208 00-925 Warszawa tel. (022) 608 31 05 fax (022) 608 38 89 www.stat.gov.pl Kontrola zachowania."— Zapis prezentacji:

1 11 BENEFICJENT: GŁÓWNY URZĄD STATYSTYCZNY Al. Niepodległości Warszawa tel. (022) fax (022) Kontrola zachowania poufności Statistical Disclosure Control (SDC) lub Statistical Disclosure Limitation (SDL) Paweł Lańduch Urząd Statystyczny w Poznaniu Listopad 2014 r., Grudzień 2015 r.

2 2 Cele i potrzeby:  Publikowanie danych na jak najbardziej szczegółowych poziomach Zapewnienie poufności indywidualnych danych statystycznych stąd Poszukiwanie metod ochrony danych, które pogodzą dwa sprzeczne cele

3 3 Sposób postępowania: 1.Identyfikacja ryzyka dla publikowanych danych 2.Modyfikacja „ryzykownych danych” w sposób taki, gdzie ryzyko stanie się bardzo małe lub nieistotne 3.W jaki sposób to wykonać, żeby dane były interesujące dla statystyków, naukowców i osób tworzących lub oceniających politykę społeczną lub gospodarczą ? 4.Celem SDC nie jest „przeszkadzać” w tworzeniu analiz, tylko zachować poufność danych indywidualnych.

4 4 Preferencje: 1.Szerokie spektrum „zwykłych” użytkowników – na ogół wystarczy ukryć ryzykowne komórki w tabeli 2.Akademicy – inne metody – stochastyczne – zaokrąglanie, zmiana danych Dostęp do danych lub mikrodanych: -Grupy użytkowników -Wydzielone stanowiska -Zdalny dostęp Problem optymalizacji, wyboru algorytmu i jego złożoności

5 5 GSBPM – Generic Statistical Business Process Model – wersja UNECE z 2009 r.

6 6 Zasada 5 Kodeksu Praktyk: Poufność statystyk prawo mikrodane dla celów naukowych fizyczna ochrona baz Typy danych wymagających poufności (nie tylko statystyka publiczna ) dane jednostkowe dane wrażliwe (np. informacje dot. zdrowia) e-handel

7 7 Utrata danych: koncepcja jakości danych koncepcja utraty danych i jej rozumienie informacja o utracie infomacji dla użytkowników (data suppliers and data users) polityka SDC

8 8 Utrata danych: ryzyko utrata danych

9 9 Typy metod SDC dla: microdanych zagregowane zmienne liczbowe (przede wszystkim badania przedsiębiorstw) tabele liczności (przede wszystkim badania społeczne) analizy statystyczne

10 10 Klasyfikacje metod: ingerujące w dane – niezmieniające danych dla danych jednostkowych, tabelarycznych, analiz Tablice dynamiczne dla tabel Komórka wrażliwa Komórka wrażliwa pierwotna Komórka wrażliwa wtórna Metody stosowane przed naliczeniem tabeli, metody stosowane po naliczeniu Restrukturyzacja tabel

11 11 Potrzeby opracowania SDC dla mikrodanych: duża liczba źródeł administracyjnych zaawansowane metody IT umożliwiają analizę ogromnych ilości danych ograniczona liczba zasobów statystyk publicznych wsparcie w analizach przez badaczy spoza statystyki publicznej

12 12 Metody SDC dla mikrodanych: µ-ARGUS (szeroko używany w ESSnet) o global recording  zmienna identyfikacyjna cecha unikalna cecha rzadka zmiana szczegółowości zajęciegmina wykształcenie …… WójtBlizanówwyższe …… zajęciepowiat wykształcenie …… Wójtkaliskiwyższe ……

13 13 Metody SDC dla mikrodanych: o local suppresion  zmienna identyfikacyjna cecha unikalna cecha rzadka miejscowe ukrycie wartości zajęciemiejscowość wykształcenie …… WójtBlizanówwyższe …… zajęciemiejscowość wykształcenie …… Wójtnieznana wyższe ……

14 14 Metody SDC dla mikrodanych: o Top coding lub alternatywnie bottom coding Wartość cechy x dla której X > „wartość progowa” alternatywnie X < „wartość progowa” zostaje zmieniona na ustaloną wartość

15 15 Metody SDC dla mikrodanych: o Addytywne maskowanie danych o Poprzez dodanie czynnika losowego nieskorelowanego o Poprzez dodanie czynnika losowego skorelowanego o Poprzez dodanie czynnika losowego i transformację liniową o Poprzez dodanie czynnika losowego i transformację nieliniową o W praktyce stosowane dwa pierwsze

16 16 Metody SDC dla mikrodanych: o PRAM (Post Randomisation Method) -stosowana dla danych jakościowych -oparta na modelu probabilistycznym -prawdziwa wartość może zostać zmieniona z zadanym w modelu prawdopodobieństwem -Zastosowana w spisie powszechnym w Wielkiej Brytanii w 2001 r. – w efekcie powstał Samples od Anonymysed Records (SARS)

17 17 Metody SDC dla mikrodanych: o PRAM (Post Randomisation Method) Przykład z książki SDC Hundepool i inni (2012) W zbiorze mikrodanych danych jest 110 mężczyzn i 90 kobiet. Zastosowanie macierzy PRAM – P o postaci: daje użytkownikowi rezultat 108 mężczyzn i 92 kobiety, ale z wartości oczekiwanej 9 mężczyzn było faktycznie kobietami i 11 mężczyzn było faktycznie kobietami

18 18 Metody SDC dla tabel z wielkościami agregowanymi (przede wszystkim badania przedsiębiorstw): o Reguły koncentracji (ukrycie pierwotne):  Reguła p% - z jaką dokładnością p możliwe jest możliwe ustalenie indywidualnego udziału w komórce tabeli  Reguła (n,k) – n jednostek stanowi więcej niż k % udziału w komórce tabeli

19 19 Metody SDC dla tabel z wielkościami agregowanymi Problem: Agregat (5 jednostek) sprzedaż Producent X :80x =86 Producent Y : 5x10 6 dokł. 7,5 % Pozostałe : 3x2x10 6 suma: 91x10 6

20 20 Metody SDC dla tabel z wielkościami agregowanymi: o Restrukturyzacja tabeli Łączenie wierszy/kolumn Suma Region A c 11 X c 13 c 14 X 1 c 21 X c 23 c 24 2X.. … B Suma

21 21 Metody SDC dla tabel z wielkościami agregowanymi: o Addytywne zaokrąglanie (możliwe zastosowanie dla pierwotnego i wtórnego ukrycia) -problem zachowania addytywności brzegowych wartości -minimalizacja odchyleń od wartości prawdziwych

22 22 Metody SDC dla tabel liczności: wymiary o zapewnienie poufności rozpoznania jednostki o zapewnienie poufności dalszych cech o jednostce w przypadku cech wrażliwych Ustalenie: -Czy komórka nie zawiera zbyt mało jednostek -Czy liczby w komórkach nie są zbytnio skoncentrowane w komórce z danymi wrażliwymi

23 23 Metody SDC dla tabel liczności: -Lokalizacja ryzykownych komórek -Przekształcenie na możliwe do publikacji - standaryzcja - ukrywanie komórek - addytywne zaokrąglanie

24 24 Metody SDC dla tabel(na podstawie): Willenborg, L., De Wolf, P.P. (2013) MEMOBUST project - Statistical disclosure control, disclosure-controlhttp://cros-portal.eu/content/statistical- disclosure-control Metoda SDC Typ tabeli, w której metoda jest stosowana Typ metodyOpis Metoda BarnardaliczebnościIngerująca w dane Losowe dodanie/odjęcie 1 od wybranych komórek Przekształcenie tabeliLiczebności i wielkościoweBrak ingerencji w dane Zmiana liczby wierszy/kolumn tabeli Ukrywanie komórekLiczebności i wielkościoweBrak ingerencji w dane Ukrycie danej w komórce poprzez wstawienie w miejsce wartości komórki znaku X Zaokrąglanie: Kontrolowane, Deterministyczne, Losowe, Liczebności i wielkościoweIngerująca w dane Zaokrąglenie każdej wartości w tabeli przy zadanej podstawie, Kontrolowana korekcja danych (CTA – Controlled Tabular Adjustement) WielkościoweIngerująca w dane Selekcja komórek do korekty: komórki z ryzykiem odkrycia poufności są korygowane, pozostałe są korygowane w celu zachowania addytywności Dystorsja komórekWielkościoweIngerująca w dane Dodanie losowego czynnika zmieniającego wartość komórki

25 25 Metody SDC dla analiz/wnioskowania statystycznego: - zróżnicowany charakter analiz -trudności w kontroli -Projekty w ramach ESSnet: - statystyka opisowa - analiza korelacji i wariancji

26 26 Metody SDC dla analiz/wnioskowania statystycznego: -rozwojowy charakter projektów - dwa rodzaje błędów: -Błędna akceptacja rezultatów publikacji, który zawierają ryzyko naruszenia poufności -Wstrzymanie publikacji, której rezultaty są wystarczające bezpieczne

27 27 Inny problem dla analiz: 1.Pytanie o istnienie związku miedzy kategoriami/zmiennymi 2.Pytanie o charakter/kierunek związku 3.Jak wpłynie zastosowanie technik SDC na tego typu pytania 4.Jak poinformować analityków aby mieli możliwość skorygować swoje wyniki.

28 28 Materiały dotyczące SDC: słownik, podręcznik, projekty ESSnet: Podręcznik Memobust (Methodology of Modern Business Statistics): Książka: Hundepool, A., Domingo-Ferrer, J., Franconi, L., Giessing, S., Schulte Nordholt, E., Spicer, K., and De Wolf, P. P. (2012), Statistical disclosure control. Wiley-Blackwell

29 29 Software: τ-ARGUS μ-ARGUS copyright Statistics Netherlands od końca 2014 r. jako Open Source Inne: sdcTable (pakiet R, bez interface’u użytkownika) G-Confid (Statistics Canada)

30 30 Bardzo dziękuję za uwagę!


Pobierz ppt "11 BENEFICJENT: GŁÓWNY URZĄD STATYSTYCZNY Al. Niepodległości 208 00-925 Warszawa tel. (022) 608 31 05 fax (022) 608 38 89 www.stat.gov.pl Kontrola zachowania."

Podobne prezentacje


Reklamy Google