Reálná úloha dobývání znalostí

Název práce: Real-world data mining task
Autor(ka) práce: Liskov, Aleksandr
Typ práce: Diploma thesis
Vedoucí práce: Berka, Petr
Oponenti práce: Vadinský, Ondřej
Jazyk práce: English
Abstrakt:
The “Real-world data mining task” thesis deals with the issue of popularity of online news articles. The main goal of the thesis was to create a prediction model based on historic data of Mashable company. The analysis was performed using the CRISP-DM methodology, which consists of several stages: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, and Deployment. Several libraries from Python programming language were used in solving the data mining task as well. In the first chapters of the thesis, we provided theoretical information about the field, task types, required methods, and modern data analysis tools. Next, each stage of the CRISP-DM methodology is described, with the aim to use it in further practical work. Regression analysis, decision tree, ensemble methods, K-nearest neighbors and Multi-layer Perceptron neural network algorithms were used to predict whether articles would fall into popular or unpopular category. In the final chapters, result evaluation was performed, methods to improve the popularity of the company’s articles were suggested, and options of potential integration of the models into the real workflow were discussed. After optimal parameter settings were set up, the Stochastic Gradient Boosting model performed best, achieving the highest indicators. This algorithm allowed us to analyze feature importance and arrive at certain conclusions regarding the effect that some groups of attributes have on the popularity of Mashable’s articles. Accuracy, precision, recall, F1-score, and AUC score metrics were used in the practical part of the thesis.
Klíčová slova: CRISP-DM; data mining; online articles; prediction; Python
Název práce: Reálná úloha dobývání znalostí
Autor(ka) práce: Liskov, Aleksandr
Typ práce: Diplomová práce
Vedoucí práce: Berka, Petr
Oponenti práce: Vadinský, Ondřej
Jazyk práce: English
Abstrakt:
Diplomová práce „Real-world data mining task“ se zabývá problematikou popularity novinových článků na internetu. Hlavním cílem práce je vytvoření predikčního modelu na základě historických dat společnosti Mashable. Analýza je provedena s využitím metodologie CRISP-DM, která se skládá z několika fází: Business Understanding (porozumění problematice), Data Understanding (porozumění datům), Data Preparation (příprava dat), Modeling (modelování), Evaluation (vyhodnocení výsledků) a Deployment (využití výsledků). Pro řešení úloh dobývání znalostí z databází bylo rovněž využito několik knihoven programovacího jazyka Python. V prvních kapitolách diplomové práce jsou prezentovány teoretické oblasti o zkoumané problematice, typech úloh, nezbytných metodách a moderních nástrojích pro informační analýzu. Dále je uveden podrobný popis každé fáze CRISP-DM metodologie, s cílem aplikovat je posléze i v praxi. Pro predikci zařazení článků do populární či nepopulární skupiny byly využity algoritmy regresní analýzy, rozhodovacích stromů, ensemble metod, k-nejbližších sousedů a neuronové sítě Multi-layer Perceptron. V posledních kapitolách je pak prezentováno hodnocení všech získaných výsledků, jsou navrženy metody pro zvýšení popularity článků společnosti a zváženy možnosti integrace modelů do reálného pracovního procesu tohoto novinkového portálu. Nejlepších ukazatelů dosáhl po nastavení optimálních parametrů model Stochastic Gradient Boosting – tento algoritmus umožnil analyzovat tzv. feature importance a učinit určité závěry o tom, které skupiny atributů mají největší vliv na popularitu článků portálu Mashable. Mezi využité metriky patří accuracy, precision, recall, F1-score a hodnota AUC.
Klíčová slova: CRISP-DM; data mining; online články; predikce; Python

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 10. 2019
Datum podání práce: 25. 4. 2021
Datum obhajoby: 10. 6. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/70941/podrobnosti

Soubory ke stažení

    Poslední aktualizace: