Data mining on real data

Thesis title: Data mining na reálných datech
Author: Hrubý, Jan
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
Cílem této bakalářské práce je nalezení zajímavých a potenciálně využitelných vztahů na reálných datech nebo naopak potvrzení známých vztahů, pomocí data miningu a systému LISp-Miner. Analýza proběhla na datasetu o záznamech digitálního distributora videoher a herního příslušenství Steam, od společnosti Valve. Dataset byl stažen ze serveru kaggle.com, který se zabývá zpracováním dat. Celá práce se dělí na dvě části, na teoretickou a praktickou.Teoretická část popisuje, co je to dobývání znalostí z databází, vývoj tohoto oboru a jeho metodiky. Dále jsou podrobně popsány jednotlivé fáze celého procesu DZD, podle metodiky CRISP-DM. Následně představuje tři pilíře DZD: databáze, statistika a strojové učení. Na konci teoretické části je představen systém LISp-Miner, který bude využíván při praktické části. Dále pak pokračuje metodou GUHA, a jednotlivými použitými procedurami CF-Miner, MCluster-Miner a KL-Miner.Praktická část práce jde krok po kroku procesu DZD, přesně podle popisu v teoretické části. Začíná popisem získání dat, přes předzpracování dat, formulaci analytických otázek a provedení samotné analýzy. Práce končí zhodnocením a interpretací výsledků analýz.
Keywords: dobývání znalostí z databází; LISp-Miner; CF-Miner; MCluster-Miner; KL-Miner; data mining; CRISP-DM; GUHA
Thesis title: Data mining on real data
Author: Hrubý, Jan
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
The aim of this bachelor's thesis is to find interesting and potentially useful relations on real data or on the other way confirming known relations using data mining and the LISp-Miner system. The analysis was based on the dataset with files of video game digital distributor service called Steam developed by Valve company. Dataset was downloaded from the server kaggle.com which focuses on data processing. The whole work is divided into theoretical and practical part.The theoretical part describes what is knowledge discovery in databases, evolve of this field and its methodologies. Then, there are described particular phases of the whole KDD process, according to CRISP-DM methodology. After that, thesis introduces three pillars of KDD: databases, statistics and machine learning. In the end of theoretical part is presented LISp-Miner system which will be used during the practical part. It continues with GUHA method and particular used procedures CF-Miner, MCluster-Miner and KL-Miner.The practical part follows the process of the KDD step by step, exactly by the description in the theoretical part. It begins with description about data acquisition, continues with data pre-processing, formulating of the analytical questions and performing the analysis. The thesis ends with evaluating and interpreting results of the analysis.
Keywords: MCluster-Miner; KL-Miner; CF-Miner; data mining; CRISP-DM; GUHA; knowledge discovery in databases; LISp-Miner

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 23. 10. 2019
Date of submission: 11. 5. 2020
Date of defense: 16. 6. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/71409/podrobnosti

Files for download

    Last update: