Thesis title: Application of a machine-learning pipeline to a multiclass classification problem
Author: Barus, Miroslav
Thesis type: Diploma thesis
Supervisor: Zouhar, Jan
Opponents: Zimmermann, Pavel
Thesis language: English
A problem of predicting a future event outcome from a fixed set of possible outcomes can be approached as a traditional machine-learning classification task. There are several steps that need to be done in order to build a reliable machine-learning pipeline with a solid performance on unseen future test data. First, the data should be analyzed using appropriate exploratory data analysis techniques. Various data types need to be pre-processed and transformed, utilizing different feature engineering methods before hypotheses created during the analysis can be tested. During the modeling process, some data can be omitted, while some data might need to be transformed to achieve the best predictive power. Different classification algorithms, such as k-NN, logistic regression, random forest, XGBoost, LightGBM, can be applied with respect to their assumptions and limitations. Hyper-parameter tuning process can serve to improve the predictive performance of individual models. Multiple classification models can be combined using ensemble methods to collectively outperform the best individual model. This thesis addresses all described practices and applies them to the problem of predicting the future interest level in rental apartment listings, which is a multiclass classification problem. The source of the data used for modeling is an already finished competition organized by Kaggle in cooperation with Two Sigma Connect, and Renthop. The final model is a stacked ensemble of previously mentioned models using the LightGBM classifier. The final model score would place among the top 25% of the participants’ model scores.
Keywords: exploratory data analysis; feature engineering; k-NN; logistic regression; random forest; XGBoost; LightGBM; hyper-parameter tuning; ensemble methods; Kaggle; multiclass classification; machine-learning
Problém předpovídání budoucího výsledku události z pevné množiny možných výsledků je možné řešit jako tradiční klasifikační úlohu strojového učení. Je třeba provést několik kroků pro vytvoření spolehlivého modelu strojového učení se spolehlivým výkonem na testovacích datech. Nejprve by měla být data analyzována pomocí vhodných technik explorační analýzy dat. Před testováním hypotéz vytvořených během analýzy je nutno zpracovat a transformovat různé typy dat s využitím různých metod zpracování atributů. Během procesu modelování je možné některá data vynechat, zatímco jiná data bude potřeba transformovat, aby bylo dosaženo nejlepší prediktivní síly. Vzhledem k předpokladům a omezením lze použít různé klasifikační algoritmy, jako například k-NN, logistická regrese, náhodný les, XGBoost a LightGBM. Proces ladění hyper-parametrů může sloužit ke zlepšení prediktivního výkonu jednotlivých modelů. Jednotlivé modely lze kombinovat pomocí metod ensemble learningu, aby se kolektivně překonal nejlepší individuální model. Tato práce se zabývá všemi popsanými postupy a aplikuje je na problém předpovídání budoucí úrovně zájmu o inzerované byty, což je diskrétní klasifikační problém. Zdrojem dat použitých na modelování je již ukončená soutěž organizovaná společností Kaggle ve spolupráci se společnostmi Two Sigma Connect a Renthop. Finální model vznikl kombinací jednotlivých modelů metodou stacking s použitím klasifikátoru LightGBM. Konečné skóre modelu by se zařadilo mezi nejlepších 25% všech účastníků původní soutěže.
Keywords: diskrétní klasifikace; explorační analýzy dat; zpracování atributů; k-NN; logistická regrese; náhodný les; XGBoost; proces ladění hyper-parametrů; ensemble metódy; Kaggle; LightGBM; strojové učení

