Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům
Název práce: | Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům |
---|---|
Autor(ka) práce: | Baláček, Daniel |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Pejčoch, David |
Oponenti práce: | Rauch, Jan |
Jazyk práce: | Česky |
Abstrakt: | Cílem této bakalářské práce je zhodnotit dopad nekvalitních dat na vybrané metody dobývání znalostí z databází. Práce je členěna na teoretickou a praktickou část. V teoretické části je nejprve vymezen samotný pojem dobývání znalostí z databází, načež je představena oblast datová kvality. Dále jsou představeny nejpopulárnější metody dobývání znalostí z databází, včetně jejich schopnosti vypořádat se s nekvalitními daty. V navazující praktické části je formou experimentů zhodnocena robustnost nejpopulárnějších metod vůči nekvalitním datům. Pro každou metodu je vytvořen referenční model na několika různých data setech. Pro každý data set jsou uměle vygenerovány různé míry nekvalitních dat. Výsledky modelů, ve kterých byla vygenerována chyba, jsou srovnány s výsledky referenčního modelu. Na základě výsledků experimentů je v závěru práce zhodnocena robustnost populárních metod dobývání znalostí z databází vůči nekvalitním datům. |
Klíčová slova: | datová kvalita; dobývání znalostí z databází; Python; chybná pozorování |
Název práce: | Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases |
---|---|
Autor(ka) práce: | Baláček, Daniel |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Pejčoch, David |
Oponenti práce: | Rauch, Jan |
Jazyk práce: | Česky |
Abstrakt: | The purpose of this thesis is to evaluate the impacts of poor data quality on selected methods of knowledge discovery in databases. It is divided into theoretical and practical part. The theoretical part defines the term of knowledge discovery in databases and introduces the reader into the area of data quality. Then the most popular methods of knowledge discovery in databases are presented, including the capability of these methods to deal with poor data quality. The following practical part evaluates the robusteness of the most popular methods against poor data quality in the form of practical experiments. A reference model is created for each method on several datasets. Different amounts of errorneous values are artificially generated for each dataset. The results of models with errorneous data are then compared to the reference models. On the basis of this comparison, the robustness of the most popular database knowledge acquisition against poor data quality is assesed. |
Klíčová slova: | data quality; errorneous values; Knowledge discovery in databases; Python |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 28. 1. 2018 |
---|---|
Datum podání práce: | 2. 5. 2018 |
Datum obhajoby: | 15. 6. 2018 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/64566/podrobnosti |