Evaluation of classification methods on imbalanced datasets

Thesis title: Hodnocení klasifikačních metod na nevyvážených datových souborech
Author: Šimůnek, Jan
Thesis type: Diplomová práce
Supervisor: Tomanová, Petra
Opponents: Vávra, Vojtěch
Thesis language: Česky
Abstract:
Tato diplomová práce se zaměřuje na analýzu výkonnosti různých klasifikačních metod při práci s nevyváženými datovými soubory. Zkoumá vliv technik vyvážení dat, jako jsou SMOTE, undersampling a oversampling, na výkonnost klasifikačních modelů. Hlavním cílem je zjistit, zda tyto techniky skutečně zlepšují predikční schopnosti klasifikačních modelů. Studie se soustředí na tři konkrétní klasifikační metody: logistickou regresi, Random Forest a Hellinger Distance Decision Tree (HDDT), a sleduje, na jakých datech jsou nejúčinnější. Dále se analyzuje využití Leave-One-Out Cross-Validation (LOOCV) a stanovení prahu pomocí kvantilu jako metod pro hodnocení modelů.
Keywords: Hellinger Distance Decision Tree; Logistická regrese; nevyvážená data; Random Forest
Thesis title: Evaluation of classification methods on imbalanced datasets
Author: Šimůnek, Jan
Thesis type: Diploma thesis
Supervisor: Tomanová, Petra
Opponents: Vávra, Vojtěch
Thesis language: Česky
Abstract:
This thesis focuses on analyzing the performance of different classification methods when dealing with imbalanced datasets. It investigates the effect of data balancing techniques such as SMOTE, undersampling and oversampling on the performance of classification models. The main goal is to determine whether these techniques actually improve the prediction capabilities of classification models. The study focuses on three specific classification methods: logistic regression, Random Forest and Hellinger Distance Decision Tree (HDDT), and examines on which data they are most effective. It also analyzes the use of Leave-One-Out Cross-Validation (LOOCV) and thresholding using quantile as methods for evaluating models.
Keywords: Hellinger Distance Decision Tree; imbalanced data; Logistic regression; Random Forest

Information about study

Study programme: Ekonometrie a operační výzkum
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 4. 11. 2022
Date of submission: 27. 6. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: