Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases
Thesis title: | Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům |
---|---|
Author: | Šotlík, Jakub |
Thesis type: | Diplomová práce |
Supervisor: | Pejčoch, David |
Opponents: | Šimůnek, Milan |
Thesis language: | Česky |
Abstract: | Tématem diplomové práce je kritické zhodnocení vlivu nekvalitních dat na metody dobývání znalostí z databází. Jako představitel nekvalitních dat byla vybrána vlastnost dat nazývaná datová úplnost, která sleduje neúplná datam také známá jako chybějící data. Práce se rovněž zabývá vlastnostmi neúplných dat a příčinami jejich vzniku. Metody, které jsou v této práci testovány, byly vybrány na základě jejich popularity, zjištěné ze zveřejněných průzkumů. Dle popularity byly vybrány metody rozhodovacích stromů, shlukovací metody, metody lineární a logistické regrese, neuronové sítě a Support Vector Machine. Pro tyto metody je zjišťováno, jak se s neúplnými daty vypořádávají. Metody byly otestovány dle navržených testovacích metodik. Byly použity čtyři různé testovací metody. Testování proběhlo celkem na 11 datových setech. Práce popisuje průběh měření a vyhodnocuje dosažené výsledky. |
Keywords: | Dobývání znalostí z databází; Datová kvalita; Neúplná data |
Thesis title: | Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases |
---|---|
Author: | Šotlík, Jakub |
Thesis type: | Diploma thesis |
Supervisor: | Pejčoch, David |
Opponents: | Šimůnek, Milan |
Thesis language: | Česky |
Abstract: | Theme of the thesis is a critical evaluation of impact of bad data quality on methods of knowledge discovery in databases. As a representative of bad data quality to be evaluated was chosen a property of data named completeness. Completeness measures quality of data by due to the frequency of missing data. The thesis also looks into characteristics of missing data and its cause. Methods that are used in the thesis were chosen by their popularity identified by published polls. Due to the popularity of methods, following methods were chosen: decision trees, linear regression, logistic regression, segmentation methods, neural networks and Support Vector Machine. For these methods approaches how they cope with missing data was found. Methods were tested with designed benchmarks which four were created and used. In total 11 data sets was used for testing. The thesis describes process of testing and evaluates results. |
Keywords: | Missing Data; Knowledge Discovery in Databases; Data Quality |
Information about study
Study programme: | Aplikovaná informatika/Znalostní technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 4. 4. 2013 |
---|---|
Date of submission: | 11. 12. 2013 |
Date of defense: | 27. 1. 2014 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/42645/podrobnosti |