Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases

Thesis title: Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům
Author: Šotlík, Jakub
Thesis type: Diplomová práce
Supervisor: Pejčoch, David
Opponents: Šimůnek, Milan
Thesis language: Česky
Abstract:
Tématem diplomové práce je kritické zhodnocení vlivu nekvalitních dat na metody dobývání znalostí z databází. Jako představitel nekvalitních dat byla vybrána vlastnost dat nazývaná datová úplnost, která sleduje neúplná datam také známá jako chybějící data. Práce se rovněž zabývá vlastnostmi neúplných dat a příčinami jejich vzniku. Metody, které jsou v této práci testovány, byly vybrány na základě jejich popularity, zjištěné ze zveřejněných průzkumů. Dle popularity byly vybrány metody rozhodovacích stromů, shlukovací metody, metody lineární a logistické regrese, neuronové sítě a Support Vector Machine. Pro tyto metody je zjišťováno, jak se s neúplnými daty vypořádávají. Metody byly otestovány dle navržených testovacích metodik. Byly použity čtyři různé testovací metody. Testování proběhlo celkem na 11 datových setech. Práce popisuje průběh měření a vyhodnocuje dosažené výsledky.
Keywords: Dobývání znalostí z databází; Datová kvalita; Neúplná data
Thesis title: Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases
Author: Šotlík, Jakub
Thesis type: Diploma thesis
Supervisor: Pejčoch, David
Opponents: Šimůnek, Milan
Thesis language: Česky
Abstract:
Theme of the thesis is a critical evaluation of impact of bad data quality on methods of knowledge discovery in databases. As a representative of bad data quality to be evaluated was chosen a property of data named completeness. Completeness measures quality of data by due to the frequency of missing data. The thesis also looks into characteristics of missing data and its cause. Methods that are used in the thesis were chosen by their popularity identified by published polls. Due to the popularity of methods, following methods were chosen: decision trees, linear regression, logistic regression, segmentation methods, neural networks and Support Vector Machine. For these methods approaches how they cope with missing data was found. Methods were tested with designed benchmarks which four were created and used. In total 11 data sets was used for testing. The thesis describes process of testing and evaluates results.
Keywords: Missing Data; Knowledge Discovery in Databases; Data Quality

Information about study

Study programme: Aplikovaná informatika/Znalostní technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 4. 4. 2013
Date of submission: 11. 12. 2013
Date of defense: 27. 1. 2014
Identifier in the InSIS system: https://insis.vse.cz/zp/42645/podrobnosti

Files for download

    Last update: