Real-world data mining task
Thesis title: | Real-world data mining task |
---|---|
Author: | Liskov, Aleksandr |
Thesis type: | Diploma thesis |
Supervisor: | Berka, Petr |
Opponents: | Vadinský, Ondřej |
Thesis language: | English |
Abstract: | The “Real-world data mining task” thesis deals with the issue of popularity of online news articles. The main goal of the thesis was to create a prediction model based on historic data of Mashable company. The analysis was performed using the CRISP-DM methodology, which consists of several stages: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, and Deployment. Several libraries from Python programming language were used in solving the data mining task as well. In the first chapters of the thesis, we provided theoretical information about the field, task types, required methods, and modern data analysis tools. Next, each stage of the CRISP-DM methodology is described, with the aim to use it in further practical work. Regression analysis, decision tree, ensemble methods, K-nearest neighbors and Multi-layer Perceptron neural network algorithms were used to predict whether articles would fall into popular or unpopular category. In the final chapters, result evaluation was performed, methods to improve the popularity of the company’s articles were suggested, and options of potential integration of the models into the real workflow were discussed. After optimal parameter settings were set up, the Stochastic Gradient Boosting model performed best, achieving the highest indicators. This algorithm allowed us to analyze feature importance and arrive at certain conclusions regarding the effect that some groups of attributes have on the popularity of Mashable’s articles. Accuracy, precision, recall, F1-score, and AUC score metrics were used in the practical part of the thesis. |
Keywords: | CRISP-DM; data mining; online articles; prediction; Python |
Thesis title: | Reálná úloha dobývání znalostí |
---|---|
Author: | Liskov, Aleksandr |
Thesis type: | Diplomová práce |
Supervisor: | Berka, Petr |
Opponents: | Vadinský, Ondřej |
Thesis language: | English |
Abstract: | Diplomová práce „Real-world data mining task“ se zabývá problematikou popularity novinových článků na internetu. Hlavním cílem práce je vytvoření predikčního modelu na základě historických dat společnosti Mashable. Analýza je provedena s využitím metodologie CRISP-DM, která se skládá z několika fází: Business Understanding (porozumění problematice), Data Understanding (porozumění datům), Data Preparation (příprava dat), Modeling (modelování), Evaluation (vyhodnocení výsledků) a Deployment (využití výsledků). Pro řešení úloh dobývání znalostí z databází bylo rovněž využito několik knihoven programovacího jazyka Python. V prvních kapitolách diplomové práce jsou prezentovány teoretické oblasti o zkoumané problematice, typech úloh, nezbytných metodách a moderních nástrojích pro informační analýzu. Dále je uveden podrobný popis každé fáze CRISP-DM metodologie, s cílem aplikovat je posléze i v praxi. Pro predikci zařazení článků do populární či nepopulární skupiny byly využity algoritmy regresní analýzy, rozhodovacích stromů, ensemble metod, k-nejbližších sousedů a neuronové sítě Multi-layer Perceptron. V posledních kapitolách je pak prezentováno hodnocení všech získaných výsledků, jsou navrženy metody pro zvýšení popularity článků společnosti a zváženy možnosti integrace modelů do reálného pracovního procesu tohoto novinkového portálu. Nejlepších ukazatelů dosáhl po nastavení optimálních parametrů model Stochastic Gradient Boosting – tento algoritmus umožnil analyzovat tzv. feature importance a učinit určité závěry o tom, které skupiny atributů mají největší vliv na popularitu článků portálu Mashable. Mezi využité metriky patří accuracy, precision, recall, F1-score a hodnota AUC. |
Keywords: | CRISP-DM; data mining; online články; predikce; Python |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 1. 10. 2019 |
---|---|
Date of submission: | 25. 4. 2021 |
Date of defense: | 10. 6. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/70941/podrobnosti |