Real-world data mining task

Thesis title: Real-world data mining task
Author: Liskov, Aleksandr
Thesis type: Diploma thesis
Supervisor: Berka, Petr
Opponents: Vadinský, Ondřej
Thesis language: English
Abstract:
The “Real-world data mining task” thesis deals with the issue of popularity of online news articles. The main goal of the thesis was to create a prediction model based on historic data of Mashable company. The analysis was performed using the CRISP-DM methodology, which consists of several stages: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, and Deployment. Several libraries from Python programming language were used in solving the data mining task as well. In the first chapters of the thesis, we provided theoretical information about the field, task types, required methods, and modern data analysis tools. Next, each stage of the CRISP-DM methodology is described, with the aim to use it in further practical work. Regression analysis, decision tree, ensemble methods, K-nearest neighbors and Multi-layer Perceptron neural network algorithms were used to predict whether articles would fall into popular or unpopular category. In the final chapters, result evaluation was performed, methods to improve the popularity of the company’s articles were suggested, and options of potential integration of the models into the real workflow were discussed. After optimal parameter settings were set up, the Stochastic Gradient Boosting model performed best, achieving the highest indicators. This algorithm allowed us to analyze feature importance and arrive at certain conclusions regarding the effect that some groups of attributes have on the popularity of Mashable’s articles. Accuracy, precision, recall, F1-score, and AUC score metrics were used in the practical part of the thesis.
Keywords: CRISP-DM; data mining; online articles; prediction; Python
Thesis title: Reálná úloha dobývání znalostí
Author: Liskov, Aleksandr
Thesis type: Diplomová práce
Supervisor: Berka, Petr
Opponents: Vadinský, Ondřej
Thesis language: English
Abstract:
Diplomová práce „Real-world data mining task“ se zabývá problematikou popularity novinových článků na internetu. Hlavním cílem práce je vytvoření predikčního modelu na základě historických dat společnosti Mashable. Analýza je provedena s využitím metodologie CRISP-DM, která se skládá z několika fází: Business Understanding (porozumění problematice), Data Understanding (porozumění datům), Data Preparation (příprava dat), Modeling (modelování), Evaluation (vyhodnocení výsledků) a Deployment (využití výsledků). Pro řešení úloh dobývání znalostí z databází bylo rovněž využito několik knihoven programovacího jazyka Python. V prvních kapitolách diplomové práce jsou prezentovány teoretické oblasti o zkoumané problematice, typech úloh, nezbytných metodách a moderních nástrojích pro informační analýzu. Dále je uveden podrobný popis každé fáze CRISP-DM metodologie, s cílem aplikovat je posléze i v praxi. Pro predikci zařazení článků do populární či nepopulární skupiny byly využity algoritmy regresní analýzy, rozhodovacích stromů, ensemble metod, k-nejbližších sousedů a neuronové sítě Multi-layer Perceptron. V posledních kapitolách je pak prezentováno hodnocení všech získaných výsledků, jsou navrženy metody pro zvýšení popularity článků společnosti a zváženy možnosti integrace modelů do reálného pracovního procesu tohoto novinkového portálu. Nejlepších ukazatelů dosáhl po nastavení optimálních parametrů model Stochastic Gradient Boosting – tento algoritmus umožnil analyzovat tzv. feature importance a učinit určité závěry o tom, které skupiny atributů mají největší vliv na popularitu článků portálu Mashable. Mezi využité metriky patří accuracy, precision, recall, F1-score a hodnota AUC.
Keywords: CRISP-DM; data mining; online články; predikce; Python

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 1. 10. 2019
Date of submission: 25. 4. 2021
Date of defense: 10. 6. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/70941/podrobnosti

Files for download

    Last update: