Thesis title: |
Hodnocení klasifikačních metod na nevyvážených datových souborech |
Author: |
Šimůnek, Jan |
Thesis type: |
Diplomová práce |
Supervisor: |
Tomanová, Petra |
Opponents: |
Vávra, Vojtěch |
Thesis language: |
Česky |
Abstract: |
Tato diplomová práce se zaměřuje na analýzu výkonnosti různých klasifikačních metod při práci s nevyváženými datovými soubory. Zkoumá vliv technik vyvážení dat, jako jsou SMOTE, undersampling a oversampling, na výkonnost klasifikačních modelů. Hlavním cílem je zjistit, zda tyto techniky skutečně zlepšují predikční schopnosti klasifikačních modelů. Studie se soustředí na tři konkrétní klasifikační metody: logistickou regresi, Random Forest a Hellinger Distance Decision Tree (HDDT), a sleduje, na jakých datech jsou nejúčinnější. Dále se analyzuje využití Leave-One-Out Cross-Validation (LOOCV) a stanovení prahu pomocí kvantilu jako metod pro hodnocení modelů. |
Keywords: |
Hellinger Distance Decision Tree; Logistická regrese; nevyvážená data; Random Forest |
Thesis title: |
Evaluation of classification methods on imbalanced datasets |
Author: |
Šimůnek, Jan |
Thesis type: |
Diploma thesis |
Supervisor: |
Tomanová, Petra |
Opponents: |
Vávra, Vojtěch |
Thesis language: |
Česky |
Abstract: |
This thesis focuses on analyzing the performance of different classification methods when dealing with imbalanced datasets. It investigates the effect of data balancing techniques such as SMOTE, undersampling and oversampling on the performance of classification models. The main goal is to determine whether these techniques actually improve the prediction capabilities of classification models. The study focuses on three specific classification methods: logistic regression, Random Forest and Hellinger Distance Decision Tree (HDDT), and examines on which data they are most effective. It also analyzes the use of Leave-One-Out Cross-Validation (LOOCV) and thresholding using quantile as methods for evaluating models. |
Keywords: |
Hellinger Distance Decision Tree; imbalanced data; Logistic regression; Random Forest |
Information about study
Study programme: |
Ekonometrie a operační výzkum |
Type of study programme: |
Magisterský studijní program |
Assigned degree: |
Ing. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Econometrics |
Information on submission and defense
Date of assignment: |
4. 11. 2022 |
Date of submission: |
27. 6. 2024 |
Date of defense: |
2024 |
Files for download
The files will be available after the defense of the thesis.