Randomized Response Techniques for Estimation of Population Mean

Thesis title: Techniky znáhodněných odpovědí pro odhad populačního průměru
Author: Vozár, Ondřej
Thesis type: Disertační práce
Supervisor: Marek, Luboš
Opponents: Malá, Ivana; Pekár, Juraj
Thesis language: Česky
Tato disertace se zabývá technikami znáhodněného dotazování (RRT) pro odhad populačního průměru kvantitativní citlivé proměnné. Cílem této práce je navrhnout nové techniky znáhodněného dotazování pro populační průměr založené na dichotomické odpovědi, kdy respondent namísto lineárně transformované odpovědi v závislosti na výsledku náhodného pokusu poskytne odpověď typu Ano/Ne. Byly navrženy dvě další modifikace této techniky: první se znalostí náhodného čísla (jeho znalost neumožňuje tazateli dostatečně přesný odhad citlivé proměnné), druhá s volbou otázky. Pro původní metodu a metodu se znalostí náhodného čísla byly odvozeny nestranné a konzistentní plug-in odhady rozptylů. Vlastnosti odhadů a asymptotických intervalů spolehlivosti pro nově navržené a standardní RRT byly studovány pomocí simulační studie pro populace s různým tvarem pravděpodobnostního rozdělení citlivé proměnné. Pomocí simulací byla nalezena praktická „pravidla palce“ jak zvolit pro daný typ modelové populace intervaly pro generování náhodných čísel a hodnotu parametru α. tak parametru α. Bez ohledu na tvar rozdělení citlivé proměnné je vhodné užívat středně velké hodnoty jako jsou 0,35 nebo 0,50. Výstupy simulací potvrdily, že nově navržené metody mají dobré statistické vlastnosti a pokrytí asymptotických intervalů je dodrženo. Metoda se znalostí náhodného čísla měla nejnižší variabilitu odhadů mezi srovnávanými RRT. Pro porovnání jednotlivých technik znáhodněného dotazování byla navržena komplexní metodika vícekriteriálního hodnocení, která podchycuje čtyři různé okruhy kritérií relevantních pro RRT: 1) statistické vlastnosti odhadu, 2) realizace a volba parametrů metody, 3) zátěž respondenta a důvěryhodnost, 4) ochrana důvěrnosti údajů respondenta. Nově navržené metody přináší oproti standardním metodám zlepšení z důvodu snadnější realizaci v statistickém zjišťování, nižší zátěži respondenta, vyšší důvěryhodnosti techniky a ochraně důvěrnosti údajů respondenta. Navržené techniky a „pravidla palce“ byly aplikovány na českých a slovenských mzdových datech v letech 2016–2019. Simulační studie ověřila praktickou využitelnost těchto metod a pravidel. Metoda s využitím znalosti náhodných čísel vedla k podstatné redukci vychýlení odhadu průměrné mzdy.
Keywords: populační průměr; výběrová šetření; prostý náhodný výběr bez vracení; non-response; techniky znáhodněného dotazování
This dissertation discusses Randomized Response techniques (RRTs) for estimating the population mean of a quantitative sensitive variable. The aim of this thesis is to propose new RRTs for the population average based on a dichotomous answer, where the respondent provides a Yes/No answer instead of a linearly transformed answer depending on the outcome of the random experiment. In addition to the original proposal, two modifications were proposed: 1) with the knowledge of a random number (its knowledge does not allow the interviewer to estimate the sensitive variable sufficiently accurately), 2) with the choice of the question. For the original method and the method with random number knowledge, unbiased and consistent plug-in estimates of variance were derived. The properties of the estimates and asymptotic confidence intervals for the both newly designed and standard RRTs were studied by simulation study for populations with different forms of probability distribution of the sensitive variable. By the simulations we found practical "rules of thumb" on how to choose the intervals for generating random numbers and the value of the α parameter for a given type of model population. Regardless the shape of distribution of a sensitive variable it is recommeded to use medium values of 0.35 or 0.50. The simulation outputs show that the newly designed methods have good statistical properties, the coverage of asymptotic intervals is maintained. The random number method had the lowest variability of estimates among the RRTs compared. A comprehensive methodology of multi-criteria evaluation of RRTs was proposed to capture the relevant criteria: 1) statistical properties of the estimation, 2) implementation and selection of method parameters, 3) respondent burden and credibility, 4) protection of confidentiality of respondent data. The newly proposed methods bring improvements over the standard methods due to easier implementation, lower burden on the respondent, higher credibility of the technique and protection of the confidentiality of the respondent's data. The newly designed techniques and "rules of thumb" were applied to the wage data of the Czech and Slovak Republics in 2016–2019. Simulation studies have verified the practical applicability of these methods and rules. The method using the knowledge of random numbers led to a substantial reduction in the bias of the average wage estimate due to the effective use of this information in the estimate of the population average.
Keywords: randomized response techniques; population mean; survey sampling; simplerandom sampling without replacement; non-response

