Modely statistické ochrany důvěrnosti mikrodat v populačních censech

Název práce: Modely statistické ochrany důvěrnosti mikrodat v populačních censech
Autor(ka) práce: Novák, Jiří
Typ práce: Disertační práce
Vedoucí práce: Sixta, Jaroslav
Oponenti práce: Fischer, Jakub; Frankovič, Boris
Jazyk práce: Česky
Abstrakt:
V současném informačním prostředí je stále větší důraz kladen na rozhodování založené na datech a zajištění přístupu k relevantním datovým souborům. Populační census představuje v oblasti oficiální statistiky klíčový zdroj informací a diseminace mikrodat z něj se stává významným tématem oboru statistické ochrany důvěrnosti. Výzkum je motivován pokrokem v dolování informací z databází, metodách datové analýzy a propojování datových souborů. Důležitým aspektem je zabezpečení důvěrnosti mikrodat, jelikož statistické úřady jsou ze zákona povinny chránit shromažďované informace. Cílem této práce je podrobně popsat problematiku statistické ochrany důvěrnosti mikrodat z populačního censu a navrhnout prakticky proveditelné řešení pro diseminaci mikrodat z populačních censů v České republice. Pro dosažení těchto cílů byl proveden vlastní výzkum, který zahrnoval vývoj a přípravu řešení v programovacím jazyce R a aktivní mezinárodní spolupráci. Proces byl podpořen důkladným studiem relevantní literatury a analýzou prací mezinárodních odborníků. Vědeckým přínosem této práce je zpracování tématu, které dosud nebylo v České republice podrobně zkoumáno, a poskytnutí praktických postupů pro řešení daných problémů. Dalším přínosem je diseminace mikrodat z populačních censů pro Českou republiku, což představuje nový a dosud nedostupný zdroj dat pro vědeckou komunitu. Práce také představuje metody pro simulaci syntetických mikrodat a možná zlepšení v oblasti kontroly ztráty informace. Jako nejefektivnější metoda ochrany mikrodat z populačního censu byla identifikována simulace syntetických mikrodat. Tento postup umožňuje vytvoření nového datového souboru s maximální možnou ochranou a minimální ztrátou informace při zachování struktury a vztahů původního datového souboru. Získané výsledky mají vysoký potenciál pro praktické uplatnění, zejména na Českém statistickém úřadu, kde mohou výrazně usnadnit diseminaci mikrodat a datových souborů oficiální statistiky pro vědeckou komunitu.
Klíčová slova: sčítání lidu; statistická ochrana důvěrnosti; SDC; důvěrnost; mikrodata
Název práce: Models of statistical disclosure control of microdata in population censuses
Autor(ka) práce: Novák, Jiří
Typ práce: Dissertation thesis
Vedoucí práce: Sixta, Jaroslav
Oponenti práce: Fischer, Jakub; Frankovič, Boris
Jazyk práce: Česky
Abstrakt:
In today's information environment, there is an increasing emphasis on data-driven decision making and ensuring access to relevant data sets. The census is a key source of information in official statistics, and the dissemination of microdata is becoming an important topic in the field of statistical confidentiality, motivated by advances in data analysis methods, dataset linkage, and information mining from data. Securing the confidentiality of microdata is an important aspect, as statistical offices are legally obliged to protect the information they collect. The aim of this dissertation is to describe in detail the issue of statistical confidentiality protection of microdata and to propose a practically feasible solution for dissemination of microdata from population censuses in the Czech Republic. In order to achieve these goals, in-house research was conducted, which included the development and preparation of a solution in the R programming language and active international collaboration. The process was supported by a thorough study of the relevant literature and analysis of the works of international experts. This dissertation makes a scientific contribution by addressing a topic that has not yet been studied in detail in the Czech Republic and providing practical approaches for its solution. Another contribution is the dissemination of microdata from population censuses for the Czech Republic, which represents a new and previously unavailable source of data for the scientific community. The paper also presents improvements in methods for simulating synthetic microdata and controlling the rate of information loss. Simulation of synthetic microdata has been identified as the most effective method of protecting population census microdata. This approach allows the creation of a new data set with maximum protection and minimum information loss while preserving the structure and relationships of the original data set. The obtained results have a high potential for practical application, especially at the Czech Statistical Office, where they can significantly facilitate the dissemination of microdata and datasets of official statistics for the scientific community.
Klíčová slova: census; statistical disclosure control; SDC; microdata; confidentiality

Informace o studiu

Studijní program / obor: Statistika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra ekonomické statistiky

Informace o odevzdání a obhajobě

Datum zadání práce: 9. 9. 2020
Datum podání práce: 6. 12. 2023
Datum obhajoby: 22. 2. 2024
Identifikátor v systému InSIS: https://insis.vse.cz/zp/74029/podrobnosti

Soubory ke stažení

    Poslední aktualizace: