Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases
Thesis title: | Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům |
---|---|
Author: | Baláček, Daniel |
Thesis type: | Bakalářská práce |
Supervisor: | Pejčoch, David |
Opponents: | Rauch, Jan |
Thesis language: | Česky |
Abstract: | Cílem této bakalářské práce je zhodnotit dopad nekvalitních dat na vybrané metody dobývání znalostí z databází. Práce je členěna na teoretickou a praktickou část. V teoretické části je nejprve vymezen samotný pojem dobývání znalostí z databází, načež je představena oblast datová kvality. Dále jsou představeny nejpopulárnější metody dobývání znalostí z databází, včetně jejich schopnosti vypořádat se s nekvalitními daty. V navazující praktické části je formou experimentů zhodnocena robustnost nejpopulárnějších metod vůči nekvalitním datům. Pro každou metodu je vytvořen referenční model na několika různých data setech. Pro každý data set jsou uměle vygenerovány různé míry nekvalitních dat. Výsledky modelů, ve kterých byla vygenerována chyba, jsou srovnány s výsledky referenčního modelu. Na základě výsledků experimentů je v závěru práce zhodnocena robustnost populárních metod dobývání znalostí z databází vůči nekvalitním datům. |
Keywords: | datová kvalita; dobývání znalostí z databází; Python; chybná pozorování |
Thesis title: | Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases |
---|---|
Author: | Baláček, Daniel |
Thesis type: | Bachelor thesis |
Supervisor: | Pejčoch, David |
Opponents: | Rauch, Jan |
Thesis language: | Česky |
Abstract: | The purpose of this thesis is to evaluate the impacts of poor data quality on selected methods of knowledge discovery in databases. It is divided into theoretical and practical part. The theoretical part defines the term of knowledge discovery in databases and introduces the reader into the area of data quality. Then the most popular methods of knowledge discovery in databases are presented, including the capability of these methods to deal with poor data quality. The following practical part evaluates the robusteness of the most popular methods against poor data quality in the form of practical experiments. A reference model is created for each method on several datasets. Different amounts of errorneous values are artificially generated for each dataset. The results of models with errorneous data are then compared to the reference models. On the basis of this comparison, the robustness of the most popular database knowledge acquisition against poor data quality is assesed. |
Keywords: | data quality; errorneous values; Knowledge discovery in databases; Python |
Information about study
Study programme: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 28. 1. 2018 |
---|---|
Date of submission: | 2. 5. 2018 |
Date of defense: | 15. 6. 2018 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/64566/podrobnosti |