Data comparability in knowledge discovery in databases

Thesis title: Porovnatelnost dat v dobývání znalostí z databází
Author: Horáková, Linda
Thesis type: Diplomová práce
Supervisor: Chudán, David
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
Diplomová práce se zabývá analýzou porovnatelnosti a souměřitelnosti dat v datových souborech, nad kterými jsou prováděny úlohy dobývání znalostí z databází. Porovnatelnost dat je jedním z aspektů datové kvality, která je kritická pro získání správných a využitelných výsledků získaných metodami dolování dat. Teoretická část se věnuje obecným principům datové kvality, porovnatelnosti a souměřitelnosti dat, a také procesu dobývání znalostí z databází a specifickým aspektům dolování agregovaných dat. Tyto poznatky jsou následně aplikovány v praktické části diplomové práce, jejímž cílem je navrhnout obecnou metodologii, která slouží k rozeznání potenciálních problémů v porovnatelnosti dat v rámci datového souboru. Tato metodologie vznikla na základě analýzy reálného souboru dat, obsahujícího údaje o prodejích. Následně je metodologie aplikována na údaje z oblasti veřejných rozpočtů, konkrétně na data z Evropského sociálního fondu.
Keywords: kvalita dat; souměřitelnost; dobývání znalostí z databází; asociační pravidla; porovnatelnost; dolování dat
Thesis title: Data comparability in knowledge discovery in databases
Author: Horáková, Linda
Thesis type: Diploma thesis
Supervisor: Chudán, David
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
The master thesis is focused on analysis of data comparability and commensurability in datasets, which are used for obtaining knowledge using methods of data mining. Data comparability is one of aspects of data quality, which is crucial for correct and applicable results from data mining tasks. The aim of the theoretical part of the thesis is to briefly describe the field of knowledqe discovery and define specifics of mining of aggregated data. Moreover, the terms of comparability and commensurability is discussed. The main part is focused on process of knowledge discovery. These findings are applied in practical part of the thesis. The main goal of this part is to define general methodology, which can be used for discovery of potential problems of data comparability in analyzed data. This methodology is based on analysis of real dataset containing daily sales of products. In conclusion, the methodology is applied on data from the field of public budgets.
Keywords: commensurability; data comparability; Knowledge Discovery in Databases; association rules; data quality; data mining

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 30. 1. 2017
Date of submission: 24. 4. 2017
Date of defense: 7. 6. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/60506/podrobnosti

Files for download

    Last update: