Data mining on real data

Thesis title: Data mining na reálných datech
Author: Švugerová, Johanna
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
Cílem této práce je nalezení zajímavých vztahů v množině reálných dat pomocí data miningu, a to hledáním odpovědí na zadané analytické otázky. K analýze byl zvolen dataset popisující realitní trh v Rusku, jenž byl získán na platformě Kaggle.com zabývající se problematikou zpracování dat. Celá práce se dělí na teoretickou a praktickou část.Teoretická část shrnuje dostupné základní informace o data miningu, respektive o procesu dobývání znalostí z databází (DZD), jehož je data mining součástí. Čtenář je zde seznámen s definicemi, historií této disciplíny a nejpoužívanějšími metodikami, především s metodikou CRISP-DM určující kroky, podle nichž je zpracována praktická část. Dále je zde představena původní česká metoda GUHA pro explorační analýzu dat. Její procedury implementuje systém LISp-Miner, který je v praktické části využit k analýze. Jeho charakteristika je také součástí teoretické části. Praktická část popisuje krok po kroku celý proces DZD na zvolených reálných datech - od výběru dat až po samotné analytické procedury a interpretaci získaných výsledků. Pro práci s daty byl využit akademický nástroj LISp-Miner. K zodpovězení formulovaných analytických otázek byly vybrány moduly CF-Miner a KL-Miner implementující stejnojmenné GUHA-procedury. Závěrem jsou vyhodnoceny získané výsledky a shrnut celkový průběh analýzy včetně míry naplnění cílů a problémů, jež se během práce vyskytly.
Keywords: data mining; DZD; LISp-Miner; CF-Miner; KL-Miner; realitní trh
Thesis title: Data mining on real data
Author: Švugerová, Johanna
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
The aim of this bachelor's thesis is to find interesting relationships in a set of real data by using techniques of data mining. This is achieved by searching for answers to given analytical questions. The analysis was based on a dataset describing the housing market in Russia. The data were obtained from Kaggle.com, which is a platform focused on data processing. The whole work is divided into theoretical and practical part.The theoretical part summarizes available basic information about data mining and process of knowledge discovery in databases (KDD), which data mining is a part of. The definitions, history of this discipline and the most used methodologies, especially the CRISP-DM methodology, which determines the steps according to which the practical part is performed, are introduced to the reader. Furthermore, the GUHA method, original Czech method for exploratory data analysis, is presented. Its procedures are implemented by the LISp-Miner system, which is used for analysis in the practical part of the thesis. Its description is also part of the theoretical part.The practical part describes the whole process of DZD on selected real data step by step - from data selection to analytical procedures and interpretation of the results. The academic tool LISp-Miner was used for working with the data. The CF-Miner and KL-Miner were chosen as modules to answer the formulated analytical questions. These modules implement the GUHA procedures of the same name. In conclusion, the obtained results are interpreted, and the whole analysis is summarized, including the extent to which the objectives were met and problems encountered during the work.
Keywords: data mining; KDD; LISp-Miner; CF-Miner; KL-Miner; housing market

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 31. 1. 2019
Date of submission: 6. 5. 2019
Date of defense: 11. 6. 2019
Identifier in the InSIS system: https://insis.vse.cz/zp/68464/podrobnosti

Files for download

    Last update: