Comparison of Approaches to Synthetic Data Generation

Thesis title: Porovnání přístupů ke generování umělých dat
Author: Šejvlová, Ludmila
Thesis type: Diplomová práce
Supervisor: Šimůnek, Milan
Opponents: Pavlíčková, Jarmila
Thesis language: Česky
Abstract:
Diplomová práce se zabývá umělými daty, konkrétně vybranými přístupy k jejich generování a praktickou úlohou generování dat. Cílem teoretické části práce je popsat vybrané přístupy ke generování umělých dat, shrnout jejich hlavní klady a zápory a jednotlivé přístupy vůči sobě porovnat. Cílem praktické části práce je vygenerovat umělá data pro účely výuky dobývání znalostí z databází. Práce uvádí základní popis umělých dat a podrobně vysvětluje proces jejich generování. Z možných přístupů ke generování umělých dat se práce zaměřuje na náhodný přístup, statistický přístup, generovací jazyky a nástroj ReverseMiner. Práce pojednává také o využití umělých dat v praxi a o vhodnosti jednotlivých přístupů pro určité záměry. V rámci práce byla pomocí nástroje ReverseMiner vytvořena výuková data Hotel SD, která obsahují vztahy odhalitelné pomocí GUHA-procedur typu SD (set-difference).
Keywords: Proces generování umělých dat; Přístupy ke generování umělých dat; Výuková data; Testování softwaru; Anonymizace dat; GUHA-procedury; LISp-Miner; ReverseMiner; Synthetic Data Definition Language; Generovací jazyky; Synthpop; Statistický přístup; Mockaroo; Náhodný přístup; Umělá data
Thesis title: Comparison of Approaches to Synthetic Data Generation
Author: Šejvlová, Ludmila
Thesis type: Diploma thesis
Supervisor: Šimůnek, Milan
Opponents: Pavlíčková, Jarmila
Thesis language: Česky
Abstract:
The diploma thesis deals with synthetic data, selected approaches to their generation together with a practical task of data generation. The goal of the thesis is to describe the selected approaches to data generation, capture their key advantages and disadvantages and compare the individual approaches to each other. The practical part of the thesis describes generation of synthetic data for teaching knowledge discovery using databases. The thesis includes a basic description of synthetic data and thoroughly explains the process of their generation. The approaches selected for further examination are random data generation, the statistical approach, data generation languages and the ReverseMiner tool. The thesis also describes the practical usage of synthetic data and the suitability of each approach for certain purposes. Within this thesis, educational data Hotel SD were created using the ReverseMiner tool. The data contain relations discoverable with SD (set-difference) GUHA-procedures.
Keywords: Synthetic data generation process; Data anonymization; Software testing; GUHA-procedures; LISp-Miner; ReverseMiner; Synthetic Data Definition Language; Generation languages; Synthpop; Statistic approach; Synthetic data; Mockaroo; Random approach; Approaches to synthetic data generation; Education data

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 24. 10. 2016
Date of submission: 1. 5. 2017
Date of defense: 5. 6. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/59378/podrobnosti

Files for download

    Last update: