Models of statistical disclosure control of microdata in population censuses

Thesis title: Modely statistické ochrany důvěrnosti mikrodat v populačních censech
Author: Novák, Jiří
Thesis type: Disertační práce
Supervisor: Sixta, Jaroslav
Opponents: Fischer, Jakub; Frankovič, Boris
Thesis language: Česky
Abstract:
V současném informačním prostředí je stále větší důraz kladen na rozhodování založené na datech a zajištění přístupu k relevantním datovým souborům. Populační census představuje v oblasti oficiální statistiky klíčový zdroj informací a diseminace mikrodat z něj se stává významným tématem oboru statistické ochrany důvěrnosti. Výzkum je motivován pokrokem v dolování informací z databází, metodách datové analýzy a propojování datových souborů. Důležitým aspektem je zabezpečení důvěrnosti mikrodat, jelikož statistické úřady jsou ze zákona povinny chránit shromažďované informace. Cílem této práce je podrobně popsat problematiku statistické ochrany důvěrnosti mikrodat z populačního censu a navrhnout prakticky proveditelné řešení pro diseminaci mikrodat z populačních censů v České republice. Pro dosažení těchto cílů byl proveden vlastní výzkum, který zahrnoval vývoj a přípravu řešení v programovacím jazyce R a aktivní mezinárodní spolupráci. Proces byl podpořen důkladným studiem relevantní literatury a analýzou prací mezinárodních odborníků. Vědeckým přínosem této práce je zpracování tématu, které dosud nebylo v České republice podrobně zkoumáno, a poskytnutí praktických postupů pro řešení daných problémů. Dalším přínosem je diseminace mikrodat z populačních censů pro Českou republiku, což představuje nový a dosud nedostupný zdroj dat pro vědeckou komunitu. Práce také představuje metody pro simulaci syntetických mikrodat a možná zlepšení v oblasti kontroly ztráty informace. Jako nejefektivnější metoda ochrany mikrodat z populačního censu byla identifikována simulace syntetických mikrodat. Tento postup umožňuje vytvoření nového datového souboru s maximální možnou ochranou a minimální ztrátou informace při zachování struktury a vztahů původního datového souboru. Získané výsledky mají vysoký potenciál pro praktické uplatnění, zejména na Českém statistickém úřadu, kde mohou výrazně usnadnit diseminaci mikrodat a datových souborů oficiální statistiky pro vědeckou komunitu.
Keywords: sčítání lidu; statistická ochrana důvěrnosti; SDC; důvěrnost; mikrodata
Thesis title: Models of statistical disclosure control of microdata in population censuses
Author: Novák, Jiří
Thesis type: Dissertation thesis
Supervisor: Sixta, Jaroslav
Opponents: Fischer, Jakub; Frankovič, Boris
Thesis language: Česky
Abstract:
In today's information environment, there is an increasing emphasis on data-driven decision making and ensuring access to relevant data sets. The census is a key source of information in official statistics, and the dissemination of microdata is becoming an important topic in the field of statistical confidentiality, motivated by advances in data analysis methods, dataset linkage, and information mining from data. Securing the confidentiality of microdata is an important aspect, as statistical offices are legally obliged to protect the information they collect. The aim of this dissertation is to describe in detail the issue of statistical confidentiality protection of microdata and to propose a practically feasible solution for dissemination of microdata from population censuses in the Czech Republic. In order to achieve these goals, in-house research was conducted, which included the development and preparation of a solution in the R programming language and active international collaboration. The process was supported by a thorough study of the relevant literature and analysis of the works of international experts. This dissertation makes a scientific contribution by addressing a topic that has not yet been studied in detail in the Czech Republic and providing practical approaches for its solution. Another contribution is the dissemination of microdata from population censuses for the Czech Republic, which represents a new and previously unavailable source of data for the scientific community. The paper also presents improvements in methods for simulating synthetic microdata and controlling the rate of information loss. Simulation of synthetic microdata has been identified as the most effective method of protecting population census microdata. This approach allows the creation of a new data set with maximum protection and minimum information loss while preserving the structure and relationships of the original data set. The obtained results have a high potential for practical application, especially at the Czech Statistical Office, where they can significantly facilitate the dissemination of microdata and datasets of official statistics for the scientific community.
Keywords: census; statistical disclosure control; SDC; microdata; confidentiality

Information about study

Study programme: Statistika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Economic Statistics

Information on submission and defense

Date of assignment: 9. 9. 2020
Date of submission: 6. 12. 2023
Date of defense: 22. 2. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/74029/podrobnosti

Files for download

    Last update: