Porovnání přístupů ke generování umělých dat
Název práce: | Porovnání přístupů ke generování umělých dat |
---|---|
Autor(ka) práce: | Šejvlová, Ludmila |
Typ práce: | Diplomová práce |
Vedoucí práce: | Šimůnek, Milan |
Oponenti práce: | Pavlíčková, Jarmila |
Jazyk práce: | Česky |
Abstrakt: | Diplomová práce se zabývá umělými daty, konkrétně vybranými přístupy k jejich generování a praktickou úlohou generování dat.
Cílem teoretické části práce je popsat vybrané přístupy ke generování umělých dat, shrnout jejich hlavní klady a zápory a jednotlivé přístupy vůči sobě porovnat. Cílem praktické části práce je vygenerovat umělá data pro účely výuky dobývání znalostí z databází.
Práce uvádí základní popis umělých dat a podrobně vysvětluje proces jejich generování. Z možných přístupů ke generování umělých dat se práce zaměřuje na náhodný přístup, statistický přístup, generovací jazyky a nástroj ReverseMiner. Práce pojednává také o využití umělých dat v praxi a o vhodnosti jednotlivých přístupů pro určité záměry.
V rámci práce byla pomocí nástroje ReverseMiner vytvořena výuková data Hotel SD, která obsahují vztahy odhalitelné pomocí GUHA-procedur typu SD (set-difference). |
Klíčová slova: | Proces generování umělých dat; Přístupy ke generování umělých dat; Výuková data; Testování softwaru; Anonymizace dat; GUHA-procedury; LISp-Miner; ReverseMiner; Synthetic Data Definition Language; Generovací jazyky; Synthpop; Statistický přístup; Mockaroo; Náhodný přístup; Umělá data |
Název práce: | Comparison of Approaches to Synthetic Data Generation |
---|---|
Autor(ka) práce: | Šejvlová, Ludmila |
Typ práce: | Diploma thesis |
Vedoucí práce: | Šimůnek, Milan |
Oponenti práce: | Pavlíčková, Jarmila |
Jazyk práce: | Česky |
Abstrakt: | The diploma thesis deals with synthetic data, selected approaches to their generation together with a practical task of data generation.
The goal of the thesis is to describe the selected approaches to data generation, capture their key advantages and disadvantages and compare the individual approaches to each other. The practical part of the thesis describes generation of synthetic data for teaching knowledge discovery using databases.
The thesis includes a basic description of synthetic data and thoroughly explains the process of their generation. The approaches selected for further examination are random data generation, the statistical approach, data generation languages and the ReverseMiner tool. The thesis also describes the practical usage of synthetic data and the suitability of each approach for certain purposes.
Within this thesis, educational data Hotel SD were created using the ReverseMiner tool. The data contain relations discoverable with SD (set-difference) GUHA-procedures. |
Klíčová slova: | Synthetic data generation process; Data anonymization; Software testing; GUHA-procedures; LISp-Miner; ReverseMiner; Synthetic Data Definition Language; Generation languages; Synthpop; Statistic approach; Synthetic data; Mockaroo; Random approach; Approaches to synthetic data generation; Education data |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 24. 10. 2016 |
---|---|
Datum podání práce: | 1. 5. 2017 |
Datum obhajoby: | 5. 6. 2017 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/59378/podrobnosti |