Customer Value Prediction - Real Clients' Data Analysis

Thesis title: Analýza reálných dat - predikce hodnoty zákazníka
Author: Zíka, Libor
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
Cílem této bakalářské práce je pomocí analýzy reálných dat o klientech nalézt takové vztahy, které by byly přínosem pro zadavatele a majitele dat, resp. zadavatelskou firmu. Analýza bude prováděna podle metodiky CRISP-DM. Jako analytické techniky jsou zvoleny CF-Miner a ETree-Miner, které jsou součástí systému LISp-Miner. Práce je rozdělena na teoretickou a praktickou část. V rámci teoretické části se čtenář dozví, co je to proces dobývání znalostí z databází a jaké v této oblasti existují obecné postupy. Dále jsou popsány jednotlivé fáze procesu DZD podle zvolené metodiky. Na konci teoretické části je čtenář seznámen s akademickým systémem LISp-Miner sloužícím pro dobývání znalostí z databází, jež je založen na metodě GUHA. Následuje popis analytických procedur CF-Miner a ETree-Miner, které jsou v rámci analýzy používány. Praktická část je členěna podle metodiky CRISP-DM. Nejprve je představena oblast analýzy a data, se kterými se v analýze pracuje. Dále je popsána fáze přípravy dat, která předchází samotnému modelování. V rámci fáze modelování jsou řešeny jednotlivé analytické úlohy. Celý proces analýzy byl velmi časově náročný, zejména v oblasti přípravy dat. Data se však pro analýzu ukázala jako méně vhodná, a proto jsou v poslední kapitole doporučeny návrhy ke zlepšení.
Keywords: CRISP-DM; LISp-Miner; CF-Miner; ETree-Miner; DZD; GUHA; data mining
Thesis title: Customer Value Prediction - Real Clients' Data Analysis
Author: Zíka, Libor
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
The aim of this bachelor's thesis is to find such relationships which would contribute to submitters and owners of data or a sponsoring company, all by using the real clients' data analysis. The analysis will be performed based on the CRISP-DM methodology. As for the analytical techniques, CF-Miner and ETree-Miner, which are the part of the LISp-Miner system, are used. The thesis is divided into two parts - theoretical and practical. In the theoretical part, we will learn about the process of the knowledge discovery in databases and what general processes exist. Further, there is the description of the particular phases of the KDD process with the respect to chosen methodology. At the end of this part, we will learn more about the academic system LISp-Miner which serves for the knowledge discovery in databases; this system is based on the GUHA method. Finally, there is the description of the analytical procedures CF-Miner and ETree-Miner which are being used in the analysis. The practical part is structured in compliance with the CRISP-DM methodology. At first, the scope of analysis and the data used in the analysis are introduced. Then there is the explanation of the phase of the data preparation, this phase precedes the simulation itself. In the scope of the simulation phase, the particular analytical tasks are being solved. The whole analysis process was very time demanding, mainly due to the data preparation. However, the data have appeared as less appropriate and thus there are suggestions for improvement listed in the last chapter.
Keywords: data mining; KDD; GUHA; CRISP-DM; LISp-Miner; CF-Miner; ETree-Miner

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 14. 2. 2018
Date of submission: 2. 5. 2018
Date of defense: 21. 6. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/64795/podrobnosti

Files for download

    Last update: