Comparison of Approaches to Synthetic Data Generation
Thesis title: | Porovnání přístupů ke generování umělých dat |
---|---|
Author: | Šejvlová, Ludmila |
Thesis type: | Diplomová práce |
Supervisor: | Šimůnek, Milan |
Opponents: | Pavlíčková, Jarmila |
Thesis language: | Česky |
Abstract: | Diplomová práce se zabývá umělými daty, konkrétně vybranými přístupy k jejich generování a praktickou úlohou generování dat.
Cílem teoretické části práce je popsat vybrané přístupy ke generování umělých dat, shrnout jejich hlavní klady a zápory a jednotlivé přístupy vůči sobě porovnat. Cílem praktické části práce je vygenerovat umělá data pro účely výuky dobývání znalostí z databází.
Práce uvádí základní popis umělých dat a podrobně vysvětluje proces jejich generování. Z možných přístupů ke generování umělých dat se práce zaměřuje na náhodný přístup, statistický přístup, generovací jazyky a nástroj ReverseMiner. Práce pojednává také o využití umělých dat v praxi a o vhodnosti jednotlivých přístupů pro určité záměry.
V rámci práce byla pomocí nástroje ReverseMiner vytvořena výuková data Hotel SD, která obsahují vztahy odhalitelné pomocí GUHA-procedur typu SD (set-difference). |
Keywords: | Proces generování umělých dat; Přístupy ke generování umělých dat; Výuková data; Testování softwaru; Anonymizace dat; GUHA-procedury; LISp-Miner; ReverseMiner; Synthetic Data Definition Language; Generovací jazyky; Synthpop; Statistický přístup; Mockaroo; Náhodný přístup; Umělá data |
Thesis title: | Comparison of Approaches to Synthetic Data Generation |
---|---|
Author: | Šejvlová, Ludmila |
Thesis type: | Diploma thesis |
Supervisor: | Šimůnek, Milan |
Opponents: | Pavlíčková, Jarmila |
Thesis language: | Česky |
Abstract: | The diploma thesis deals with synthetic data, selected approaches to their generation together with a practical task of data generation.
The goal of the thesis is to describe the selected approaches to data generation, capture their key advantages and disadvantages and compare the individual approaches to each other. The practical part of the thesis describes generation of synthetic data for teaching knowledge discovery using databases.
The thesis includes a basic description of synthetic data and thoroughly explains the process of their generation. The approaches selected for further examination are random data generation, the statistical approach, data generation languages and the ReverseMiner tool. The thesis also describes the practical usage of synthetic data and the suitability of each approach for certain purposes.
Within this thesis, educational data Hotel SD were created using the ReverseMiner tool. The data contain relations discoverable with SD (set-difference) GUHA-procedures. |
Keywords: | Synthetic data generation process; Data anonymization; Software testing; GUHA-procedures; LISp-Miner; ReverseMiner; Synthetic Data Definition Language; Generation languages; Synthpop; Statistic approach; Synthetic data; Mockaroo; Random approach; Approaches to synthetic data generation; Education data |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 24. 10. 2016 |
---|---|
Date of submission: | 1. 5. 2017 |
Date of defense: | 5. 6. 2017 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/59378/podrobnosti |