Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům

Název práce: Kritické zhodnocení odolnosti metod pro získávání znalostí z databází vůči nekvalitním datům
Autor(ka) práce: Šotlík, Jakub
Typ práce: Diplomová práce
Vedoucí práce: Pejčoch, David
Oponenti práce: Šimůnek, Milan
Jazyk práce: Česky
Abstrakt:
Tématem diplomové práce je kritické zhodnocení vlivu nekvalitních dat na metody dobývání znalostí z databází. Jako představitel nekvalitních dat byla vybrána vlastnost dat nazývaná datová úplnost, která sleduje neúplná datam také známá jako chybějící data. Práce se rovněž zabývá vlastnostmi neúplných dat a příčinami jejich vzniku. Metody, které jsou v této práci testovány, byly vybrány na základě jejich popularity, zjištěné ze zveřejněných průzkumů. Dle popularity byly vybrány metody rozhodovacích stromů, shlukovací metody, metody lineární a logistické regrese, neuronové sítě a Support Vector Machine. Pro tyto metody je zjišťováno, jak se s neúplnými daty vypořádávají. Metody byly otestovány dle navržených testovacích metodik. Byly použity čtyři různé testovací metody. Testování proběhlo celkem na 11 datových setech. Práce popisuje průběh měření a vyhodnocuje dosažené výsledky.
Klíčová slova: Dobývání znalostí z databází; Datová kvalita; Neúplná data
Název práce: Critical Evaluation of Impact of Bad Data Quality on Methods of Knowledge Discovery in Databases
Autor(ka) práce: Šotlík, Jakub
Typ práce: Diploma thesis
Vedoucí práce: Pejčoch, David
Oponenti práce: Šimůnek, Milan
Jazyk práce: Česky
Abstrakt:
Theme of the thesis is a critical evaluation of impact of bad data quality on methods of knowledge discovery in databases. As a representative of bad data quality to be evaluated was chosen a property of data named completeness. Completeness measures quality of data by due to the frequency of missing data. The thesis also looks into characteristics of missing data and its cause. Methods that are used in the thesis were chosen by their popularity identified by published polls. Due to the popularity of methods, following methods were chosen: decision trees, linear regression, logistic regression, segmentation methods, neural networks and Support Vector Machine. For these methods approaches how they cope with missing data was found. Methods were tested with designed benchmarks which four were created and used. In total 11 data sets was used for testing. The thesis describes process of testing and evaluates results.
Klíčová slova: Missing Data; Knowledge Discovery in Databases; Data Quality

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 4. 4. 2013
Datum podání práce: 11. 12. 2013
Datum obhajoby: 27. 1. 2014
Identifikátor v systému InSIS: https://insis.vse.cz/zp/42645/podrobnosti

Soubory ke stažení

    Poslední aktualizace: