Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases

Thesis title: Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům
Author: Baláček, Daniel
Thesis type: Bakalářská práce
Supervisor: Pejčoch, David
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
Cílem této bakalářské práce je zhodnotit dopad nekvalitních dat na vybrané metody dobývání znalostí z databází. Práce je členěna na teoretickou a praktickou část. V teoretické části je nejprve vymezen samotný pojem dobývání znalostí z databází, načež je představena oblast datová kvality. Dále jsou představeny nejpopulárnější metody dobývání znalostí z databází, včetně jejich schopnosti vypořádat se s nekvalitními daty. V navazující praktické části je formou experimentů zhodnocena robustnost nejpopulárnějších metod vůči nekvalitním datům. Pro každou metodu je vytvořen referenční model na několika různých data setech. Pro každý data set jsou uměle vygenerovány různé míry nekvalitních dat. Výsledky modelů, ve kterých byla vygenerována chyba, jsou srovnány s výsledky referenčního modelu. Na základě výsledků experimentů je v závěru práce zhodnocena robustnost populárních metod dobývání znalostí z databází vůči nekvalitním datům.
Keywords: datová kvalita; dobývání znalostí z databází; Python; chybná pozorování
Thesis title: Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases
Author: Baláček, Daniel
Thesis type: Bachelor thesis
Supervisor: Pejčoch, David
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
The purpose of this thesis is to evaluate the impacts of poor data quality on selected methods of knowledge discovery in databases. It is divided into theoretical and practical part. The theoretical part defines the term of knowledge discovery in databases and introduces the reader into the area of data quality. Then the most popular methods of knowledge discovery in databases are presented, including the capability of these methods to deal with poor data quality. The following practical part evaluates the robusteness of the most popular methods against poor data quality in the form of practical experiments. A reference model is created for each method on several datasets. Different amounts of errorneous values are artificially generated for each dataset. The results of models with errorneous data are then compared to the reference models. On the basis of this comparison, the robustness of the most popular database knowledge acquisition against poor data quality is assesed.
Keywords: data quality; errorneous values; Knowledge discovery in databases; Python

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 28. 1. 2018
Date of submission: 2. 5. 2018
Date of defense: 15. 6. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/64566/podrobnosti

Files for download

    Last update: